想要深入修炼 python 爬虫的功力,有什么建议么?

2015-11-20 18:41:34 +08:00
 aljun

楼主自己以前是做 web 前后段的,现在对爬虫很感兴趣,看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧,然后基本的爬虫规则算是知道,但是发现现在的网站防爬虫厉害啊,比如现在就不懂怎么爬知乎了,另外还有其他的网站,而且验证码这关要怎么过`````````

我是小菜,勿喷````

4449 次点击
所在节点    Python
28 条回复
qw7692336
2015-11-21 00:26:15 +08:00
我搞过验证码识别,简单的验证码都是有规律的。
只要是自己编写的验证码生成算法,都容易识别。
aljun
2015-11-21 00:35:30 +08:00
@qw7692336 求详情赐教 z (我比较渣⋯⋯)
leavic
2015-11-21 00:38:17 +08:00
@aljun 确实有部分网站验证码登录后只靠 keep alive session 维持 session 内的验证,这种着实恶心,实在不行找个 ocr api 帮你识别好了。
zkwolf
2015-11-21 01:01:15 +08:00
验证码可以。。。下载下来自己输,能用 cookie 登录的用 cookie 登录好了
aisk
2015-11-21 01:11:50 +08:00
全站爬微博!这个好玩并且有价值
gouwudang
2015-11-21 11:04:14 +08:00
楼主对爬虫感兴趣的话,欢迎发一份简历过来 job@gwdang.com ,可以实践各种奇葩的问题和解决办法。
wingyiu
2015-11-24 10:07:05 +08:00
souwiki
2018-08-15 21:28:48 +08:00
建议学习基础的 requests 比较好 然后再学习深入的模块
https://souwiki.com/532.html

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/237687

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX