[爬虫]看一下这个网站难爬吗?

2018-07-04 15:25:53 +08:00

magicfam

http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池

4377 次点击

所在节点

Python

10 条回复

Le4fun

2018-07-04 16:37:20 +08:00

验证码过了么

crawl3r

2018-07-04 16:41:55 +08:00

@Le4fun 验证码太 tm 简单了，只要检测到一定数量连续的白色区域就破解了

crab

2018-07-04 16:49:51 +08:00

要稳定，租一台动态 adsl 拨号的 vps 换 IP 爬吧。

tingyunsay

2018-07-04 17:02:51 +08:00

@crab 老哥推荐个靠谱的厂商，买过的有问题，拨号那会儿偶尔断网，感觉是厂商服务不稳定导致的....

magicfam

2018-07-04 17:35:24 +08:00

@Le4fun 算是过了吧. 列表可以爬到的.就是爬不了几条.新手心态爆炸

magicfam

2018-07-04 17:40:26 +08:00

@crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路

magicfam

2018-07-04 17:44:22 +08:00

现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错

nccer

2018-07-04 17:46:39 +08:00

有个叫阿布云的 HTTP 代理商蛮好用的。

beforeuwait

2018-07-05 11:37:50 +08:00

同 8 楼

sml2h3

2018-12-20 11:24:22 +08:00

https://github.com/sml2h3/luosimao_cracker
不谢，螺丝帽点击验证码代码层的破解，不用总是复制 cookies

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/468083

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.