[爬虫]看一下这个网站难爬吗?

2018-07-04 15:25:53 +08:00
 magicfam

http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池

4340 次点击
所在节点    Python
10 条回复
Le4fun
2018-07-04 16:37:20 +08:00
验证码过了么
crawl3r
2018-07-04 16:41:55 +08:00
@Le4fun 验证码太 tm 简单了,只要检测到一定数量连续的白色区域就破解了
crab
2018-07-04 16:49:51 +08:00
要稳定,租一台动态 adsl 拨号的 vps 换 IP 爬吧。
tingyunsay
2018-07-04 17:02:51 +08:00
@crab 老哥推荐个靠谱的厂商,买过的有问题,拨号那会儿偶尔断网,感觉是厂商服务不稳定导致的....
magicfam
2018-07-04 17:35:24 +08:00
@Le4fun 算是过了吧. 列表可以爬到的.就是爬不了几条.新手心态爆炸
magicfam
2018-07-04 17:40:26 +08:00
@crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路
magicfam
2018-07-04 17:44:22 +08:00
现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错
nccer
2018-07-04 17:46:39 +08:00
有个叫阿布云的 HTTP 代理商蛮好用的。
beforeuwait
2018-07-05 11:37:50 +08:00
同 8 楼
sml2h3
2018-12-20 11:24:22 +08:00
https://github.com/sml2h3/luosimao_cracker
不谢,螺丝帽点击验证码代码层的破解,不用总是复制 cookies

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/468083

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX