想要深入修炼 python 爬虫的功力,有什么建议么?

2015-11-20 18:41:34 +08:00
 aljun

楼主自己以前是做 web 前后段的,现在对爬虫很感兴趣,看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧,然后基本的爬虫规则算是知道,但是发现现在的网站防爬虫厉害啊,比如现在就不懂怎么爬知乎了,另外还有其他的网站,而且验证码这关要怎么过`````````

我是小菜,勿喷````

4306 次点击
所在节点    Python
28 条回复
knightdf
2015-11-20 21:04:55 +08:00
说实话,一个 scrapy 就够你研究了,验证码普通的直接识别,发邮箱的自动从邮箱里读取,复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录,控制好规则不难,别想一台机器一个账号搞定
knightdf
2015-11-20 21:07:05 +08:00
还有, urllib,requests 这不叫爬虫框架,只是个 http 库
binux
2015-11-20 21:23:18 +08:00
你做 web 前后端的,不知道怎么过防爬虫?
建议继续修炼 web 前后端的功力...
aljun
2015-11-20 21:29:44 +08:00
@binux 你是说记下 IP 防止爬虫么?请赐教`````
aljun
2015-11-20 21:31:01 +08:00
@knightdf 那我若是想好好地学学的话,哪些书或者路子比较好呢?
binux
2015-11-20 22:14:02 +08:00
@aljun 你是做前后端的, 如果让你做防爬虫, 你怎么做? 怎么过?
aljun
2015-11-20 22:32:16 +08:00
@binux 测 user-agent ,服务器记 ip 做 403 ?还有呢?
binux
2015-11-20 22:41:37 +08:00
@aljun 你都做了绕过?还是不能爬知乎?
knightdf
2015-11-20 22:55:27 +08:00
@aljun 1 ,官方文档 2 ,源码 多看看源码,自然都理解了
aljun
2015-11-20 23:11:26 +08:00
@binux 好吧,那如果想更加精进自己爬虫的功力的话,最好看什么书比较好呢?
binux
2015-11-20 23:19:20 +08:00
@aljun 前后端开发的书...
bzzhou
2015-11-20 23:20:51 +08:00
RFC2616 好好读读~
haozhang
2015-11-20 23:21:17 +08:00
@bzzhou +1
julyclyde
2015-11-20 23:23:52 +08:00
urllib 、 requests 只能叫组件,还不能叫框架
框架得承担起程序运行的重任,让人来写其中细小的部分
aljun
2015-11-20 23:29:24 +08:00
@julyclyde 所以我打了个引号⋯⋯
julyclyde
2015-11-20 23:45:02 +08:00
爬虫这个其实不适合于兴趣吧
靠兴趣学习,是需要有成功给自己带来鼓励的
而写爬虫,并不是一个只要足够聪明努力就一定能成功的方向
greatghoul
2015-11-20 23:50:51 +08:00
抓取百度贴吧的数据吧
leavic
2015-11-20 23:50:55 +08:00
scrapy 很容易上手的,就 scrapy 而言,你不需要深入太多,如果想了解其原理,你得学 twisted 框架。
leavic
2015-11-20 23:52:29 +08:00
验证码这个,我有点惊讶楼主你真是做后端的? cookies 是干啥的?
aljun
2015-11-21 00:02:48 +08:00
@leavic 那万一是那种很暴力和不讲道理的网站呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/237687

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX