想要深入修炼 python 爬虫的功力，有什么建议么？

楼主自己以前是做 web 前后段的，现在对爬虫很感兴趣，看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧，然后基本的爬虫规则算是知道，但是发现现在的网站防爬虫厉害啊，比如现在就不懂怎么爬知乎了，另外还有其他的网站，而且验证码这关要怎么过`````````

我是小菜，勿喷````

knightdf

2015-11-20 21:04:55 +08:00

说实话，一个 scrapy 就够你研究了，验证码普通的直接识别，发邮箱的自动从邮箱里读取，复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录，控制好规则不难，别想一台机器一个账号搞定

knightdf

2015-11-20 21:07:05 +08:00

还有， urllib,requests 这不叫爬虫框架，只是个 http 库

binux

2015-11-20 21:23:18 +08:00

你做 web 前后端的,不知道怎么过防爬虫?
建议继续修炼 web 前后端的功力...

aljun

2015-11-20 21:31:01 +08:00

@knightdf 那我若是想好好地学学的话，哪些书或者路子比较好呢?

binux

2015-11-20 22:14:02 +08:00

@aljun 你是做前后端的, 如果让你做防爬虫, 你怎么做? 怎么过?

aljun

2015-11-20 22:32:16 +08:00

@binux 测 user-agent ，服务器记 ip 做 403 ？还有呢？

knightdf

2015-11-20 22:55:27 +08:00

@aljun 1 ，官方文档 2 ，源码多看看源码，自然都理解了

aljun

2015-11-20 23:11:26 +08:00

@binux 好吧，那如果想更加精进自己爬虫的功力的话，最好看什么书比较好呢？

julyclyde

2015-11-20 23:23:52 +08:00

urllib 、 requests 只能叫组件，还不能叫框架
框架得承担起程序运行的重任，让人来写其中细小的部分

julyclyde

2015-11-20 23:45:02 +08:00

爬虫这个其实不适合于兴趣吧
靠兴趣学习，是需要有成功给自己带来鼓励的
而写爬虫，并不是一个只要足够聪明努力就一定能成功的方向

leavic

2015-11-20 23:50:55 +08:00

scrapy 很容易上手的，就 scrapy 而言，你不需要深入太多，如果想了解其原理，你得学 twisted 框架。

leavic

2015-11-20 23:52:29 +08:00

验证码这个，我有点惊讶楼主你真是做后端的？ cookies 是干啥的？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/237687

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.