刚开始学习 Python 到可以写出一个爬虫大约需要多长时间

2014-12-31 10:35:31 +08:00
 nj

请问对于初学者来说一开始买哪本书来看比较适合,到能写出一个爬虫的过程会很难吗?
不好意思来伸手党一下,谢谢了。

22586 次点击
所在节点    问与答
34 条回复
happywowwow
2014-12-31 12:55:42 +08:00
有驱动就快
比如爬个感兴趣的网站的数据?
比如 爬1024什么的
Exin
2014-12-31 14:53:55 +08:00
关注下,目前会前端基础和c++,python没学过
mringg
2014-12-31 14:56:47 +08:00
如果简简单单的,一天就差不多了,就是个深度搜索。如果是复杂的,可以参考一些开源的搜索框架,那可不是一年半载能完成的。
Colorful
2014-12-31 15:51:29 +08:00
@mringg 没那么容易吧?
realityone
2014-12-31 15:54:33 +08:00
..简单的爬虫抄着别人的demo就出来了。。
imn1
2014-12-31 16:07:54 +08:00
写好爬虫不仅是python
至少还要有http前端基础——知道DOM可用bs或lxml+xpath,大量建议正则
要懂http协议——破各种防盗链和cookies
可能还需要知道socket——至少知道errno的意思,不然搞不清程序没错却抓不到的原因
更高级的还要知道怎么用野鸡(大量肉鸡),以及任务分割,不然被封只是迟早的事

如果说只是能用,找现成的改改很简单
xidianlz
2014-12-31 16:11:52 +08:00
居然没人推荐神器scrapy
nj
2014-12-31 16:38:15 +08:00
非常感谢各位建议。
我的目的不是写一个爬虫,是想弄懂,明白一些,还想学习 Python 。
之前看过 笨方法学 Python ,也有过编程基础。
lincanbin
2014-12-31 16:41:27 +08:00
用requests,花了一天吧,前面半天看了下Python语法,然后就是读requests和re的文档了。
除了语法与类的结构外,和其他语言写爬虫没有任何区别。
ryd994
2014-12-31 17:02:34 +08:00
说实话我觉得Python用来学习并不合适。对有编程经验的人来说却非常顺手。

爬虫的话不建议直接urllib3,因为管理cookie之类的其实还是麻烦。requests会比较方便,毕竟你只关注数据,底层的一般用不上。

解析可以beautifulsoup,个人没用过,但是之前别人说到,看了一下感觉对新手很友好。数据少的话直接正则

socket的话不怕,现查谷歌就可以了

至于肉鸡……Python就算了吧
icedx
2014-12-31 17:06:32 +08:00
一天Urllib2+BeautifulSoup4
zhurenhu
2014-12-31 17:09:18 +08:00
urllib2 + beatifulsoup 一两天搞定一个简单的爬虫

see:
https://gist.github.com/0d6c55baa33a8b194fbb.git
thanksir
2014-12-31 17:40:09 +08:00
一天足够,话说刚开始学python的时候也是想玩爬虫
sosozzzx
2016-05-10 20:11:30 +08:00
推荐使用神箭手云爬虫( http://www.shenjianshou.cn ),完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,常见的编写爬虫过程中会遇到的问题都由神箭手帮你解决。
demo 源码地址: https://github.com/ShenJianShou/crawler_samples

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/158118

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX