关于应对网站反爬虫和验证码识别的问题

2017-07-21 09:54:20 +08:00

2ME

公司需求所以开始写爬虫

第一次写直接 curl 请求 web 端折腾了一下午算是搞定了可是速度很慢而且频繁被验证码限制

第二天搞了台拨号的机器每次验证码就直接断了宽带重新拨号（动态 ip ）但是速度还是很慢

第三天刷了一下关于爬虫的乱七八糟的知识开始重写

重写是利用 curl_multi 进行并发请求这次是爬 H5 端 H5 端验证码的频率比 web 端要低很多

但是新的问题出现了放到之前拨号的机器上基本上一个页面就弹一次验证码换 IP 也一样

本地跑就不会这样而且重拨后 curl_multi 就会报链接超时的错误于是就放在本地跑

但是验证码的问题还是没有解决于是就开始摸索网站验证码的规律

几天下来还是没有太大的发现不管是降低访问频率还是更改爬取顺序基本上都没什么太大变化

于是考虑从过验证码下手验证码是纯底色没有干扰只是字体会变形旋转

又折腾了下 Tesseract-OCR 识别率太低达不到想要的效果

想问几个问题：

电商网站一般都是什么反爬虫策略? 被验证码限制最多的时候就是一个循环完成后下一个循环第一个页面被限制，最近几天在其他时候被验证码限制的情况发生频率高了一些有用 sleep()限制频率依然没什么用

爬虫 dalao 们都是怎么对抗验证码的除了代理 IP，以及对验证码识别有没有什么效率比较高的办法看 Tesseract-OCR 是有深度学习?的特性但是没搞太明白

拨号的那台机器用爬 H5 端的爬虫为什么会这么频繁被限制本地却不会这样每次重拨大概率 IP 都会换应该不是黑名单的问题吧?本地基本都是输入验证码接着重新开一下爬虫就好了

如果用 php-thread 真正独立线程编写爬虫重拨 IP 会不会出现超时的 error

Tesseract-OCR 配置 tessedit_char_whitelist 后会报错 read_params_file: Can't open tessedit_char_whitelist; 白名单只是添加了 a-z

作为新手可能会问出比较蠢的问题水平有限希望见谅 = =

有需要提供更多详细信息的我会补充爬虫工具是用的 V2dalao querylist 致谢

5237 次点击

所在节点

36 条回复

Le4fun

2017-07-21 09:57:05 +08:00

同新手占楼学习

mansur

2017-07-21 10:12:28 +08:00

代理可购买，如果采集对象是 https 的，建议自建代理池。简单验证码可接打码平台，复杂的只能靠代理池绕过了。

2ME

2017-07-21 10:21:17 +08:00

@mansur 代理还没看过怎么搞验证码属于比较简单的了没有什么干扰不过只能靠自己解决 = = 不考虑接付费平台

hxndg

2017-07-21 10:53:02 +08:00

我只知道一种对抗爬虫的技术，正常情况下用户看不到隐藏的链接，谁爬到了就禁止谁访问。

soulmine

2017-07-21 10:55:16 +08:00

@2ME 验证码还是推荐人工各种算法都有上限值而且程序复杂度会翻几个数量级还有那准确率就看天了 www 如果是登陆时候需要验证码的话可以试试带带 cookies

soulmine

2017-07-21 10:57:35 +08:00

@hxndg 这基本没用吧我用 jq 选择器不就行了为什么我非要去爬这个链接呢 www

2ME

2017-07-21 10:59:03 +08:00

@soulmine 验证码是爬取一段时间的限制措施验证码纯色背景没有干扰噪点只是验证码形状会扭曲一些 4 位数字+字母感觉比平时的站验证码都要简单一些

2ME

2017-07-21 11:00:05 +08:00

@hxndg 我遇到这种情况的概率感觉不大

wangxiaoer

2017-07-21 11:00:23 +08:00

@hxndg 这种对定向抓取没啥用吧

soulmine

2017-07-21 11:07:23 +08:00

@wangxiaoer 而且这样还有个问题你怎么区分正常情况和爬虫情况靠 header 头么 www

nullen

2017-07-21 11:08:52 +08:00

简单一些的验证码，MINST 手写数字识别就可以过掉了。

soulmine

2017-07-21 11:10:01 +08:00

@2ME 这个好办啊你限个速不就行了肯定是有阈值的你别去摧残她网站自然不会给你验证码了 www 追求速度就跑多进程好了只不过你得搞代理 ip 了

2ME

2017-07-21 11:14:49 +08:00

@soulmine 我最近一个星期一直在找临界点比较有趣的是不管我速度放的有多慢基本上数据库 6000-12000 通常 1w 条数据就出验证码了速度最慢的时候接近单线程单请求现在是多并发请求

soulmine

2017-07-21 11:19:42 +08:00

@2ME 那估计是看个数而不是时间的上代理好了 www

KgM4gLtF0shViDH3

2017-07-21 11:27:38 +08:00

为啥不上付费平台，又不贵，验证码自己搞很累的。要是我做反爬虫就直接针对那些访问多的爬虫返回没用的假数据。

2ME

2017-07-21 11:56:19 +08:00

话说被 V 站禁言系统误伤半小时不能发言 @soulmine 如果只是看个数的话我也不会说有趣了= = 我帖子内容有讲我有另一台可以拨号上网的机器实现代理功能每次重拨都会更换 ip 一样开始单线程就是用那台机器跑可是我把新写好并发请求的爬虫放到那台机器去跑几乎每隔一两个页面就会被弹验证码百思不得其解

niuoh

2017-07-21 12:07:12 +08:00

可以上爬虫代理推荐个用着不错的 ip 池 ip-chi#net

misaka19000

2017-07-21 12:29:41 +08:00

验证码试试 KNN 算法

aaronzjw

2017-07-21 12:44:04 +08:00

验证码用 cnn 模型

MrMario

2017-07-21 12:59:55 +08:00

验证码用 svm 算法

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/376888

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX