这年头写个漫画爬虫都心力憔悴。

2021-08-01 03:46:09 +08:00
 3dwelcome

写了个自用小爬虫,追漫画用,每天刷一次,稳定运行了几个月。

然而,漫画网站是在 cloudflare 上,突然之间就被识别为 BOT,拒绝访问了。可让我非常意外的是,同样的 IP,浏览器访问一点问题都没有!

在 V2 查了前人资料,说是 TLS 指纹技术。顺藤摸瓜,发现了每个客户端都有指纹,难怪相同的 UA/Cookie,curl 不行,浏览器却可以,因为两者的 SSL 指纹是不一样的。( https://browserleaks.com/ssl 里的 JA3 Hash)

于是乎,剩下了二个解决方案:

  1. 修改爬虫客户端,模仿浏览器的行为。但问题是,cloudflare 的 tls 指纹算法并没有公开,网上也搜不到相关信息,应该不可能用 JA3 这种开源解决方案。靠猜测编程,是非常不靠谱的行为,遂放弃。

  2. 把 google chrome 当成代理服务器,运行一个网页,用 websocket 和爬虫通讯,然后用 ajax 去访问目标站点。

用 AJAX 暂时解决了问题,也不知道几个月后,会不会出现新问题。怀念以前 http 不加密一把梭的年代,什么都是明文,简单明了直接。

8397 次点击
所在节点    分享发现
35 条回复
Keyblade
2021-08-01 19:51:16 +08:00
V2 不是不让聊盗版么
bxb100
2021-08-01 19:52:06 +08:00
@no1xsyzy #20 查到就封了
512357301
2021-08-01 20:35:00 +08:00
@3dwelcome 那就做个打码接口呢,把验证码传回到邮箱或者任意地方,并通知你,你通过指定的接口把验证码文本回传给爬虫,然后爬虫模拟输入。
不过这种无法对付那种点击或者滑块的验证码
Felldeadbird
2021-08-01 23:02:28 +08:00
我有个方案。linux 服务器装个图形界面。 然后写个 chrome 扩展。浏览器打开一下目标站点,剩下就可以无限爬了。
monkey110
2021-08-02 02:24:12 +08:00
追个漫画至于上爬虫么 身为小白都是用 chrome 插件 Your notifier 检测漫画更新状态
ShinichiYao
2021-08-02 08:18:36 +08:00
冒充搜索引擎
ctro15547
2021-08-02 08:34:27 +08:00
找个代理 多个 ip 随机用呗,Selenium
okakuyang
2021-08-02 09:22:27 +08:00
全自动反反爬挺难的吧,网上很多网站写了绕过办法,实际对新版 cloudflar 根本没效。
2bNot2b
2021-08-02 09:42:38 +08:00
用 cloudflareworkers 试试?
wtdd
2021-08-02 09:58:32 +08:00
现在这时代的网速,追漫画还需要上爬虫?
SmiteChow
2021-08-02 10:47:46 +08:00
你方向错了
×爬虫
√action 自动化

chrome 安装扩展绕过跨域安全策略
1.Allow CORS: Access-Control-Allow-Origin
2."Escape Cookie SameSite Policy"
fank99
2021-08-02 11:02:48 +08:00
3dwelcome
2021-08-02 11:21:59 +08:00
@SmiteChow 这插件有创意。

我 ajax 跨域一直使用 chrome.exe 的命令行参数--disable-web-security,没想到还可以用插件直接修改网站返回的头数据,强行跨域。
lap510200
2021-08-02 11:40:30 +08:00
以前做投票类的项目就是用指纹在网关层干掉,因为活动奖品一旦值钱,总有人恶意脚本刷票
pabupa
2021-08-03 17:58:23 +08:00
@ShinichiYao 搜索引擎会爬图片吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/792934

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX