想交流一个 CloudFlare 反爬问题

357 天前
 Masterlxj

OP 需要采集一个网站,该网站用了 CloudFlare ,之前 OP 采用构造 TLS 指纹,绕过了风控,然后爬虫也运行了几个月,一直没啥问题,但是最近发现 OP 的请求已经被精准的识别为爬虫了。

开始 OP 以为是光构造 TLS 指纹已经不行了( Chrome 已经不在固定 TLS ),想着是不是要加上 H2 指纹,然后就 H2 指纹也构造了,但是还是没用。

这个时候让 OP 疑惑的地方就出现了,就是使用 go (前面都是 Python )去试了一下,只构造了 TLS 指纹就直接过了。可以肯定的是 TLS 指纹和 H2 指纹构造的都是一样的,但是为什么 go 能过,Python 不能过?

OP 的疑问

CloudFlare 是通过什么地方,或者采用什么方案精准识别到前面( Python 写的)那一套是爬虫呢?

  1. OP 不是想问什么工具可以绕过,或者什么工具可以构造 TLS/H2 指纹
  2. 不是 IP 的问题,已经挂了海外住宅代理,同时 go 那一套是可以过的
  3. 不是想交流 JS 逆向
3421 次点击
所在节点    Python
24 条回复
Masterlxj
356 天前
@yingdashi 是的,不过不清楚它识别的是哪些参数
Masterlxj
356 天前
@alukongfu 首先感谢大佬的回复,不过这个不是我想要的,文中所提到的方法,对于强检测的网站是没用的,python 在这一块有很大劣势(是的,python 在爬虫方面相比其他语言竟然有劣势)。所有基于 openssl 的请求库都没法完全构造 tls ,更别说一向好用的 requests 连 h2 都不支持
lanlanye
356 天前
盲猜一手 ChatGPT ,好像有一些 Chrome 插件可以实现长期驻留在页面上并模拟出活跃状态,你可以找找看他们怎么实现的。
chiron688
355 天前
@qq78660651 你没有下 chrome 的 webdrive 吧,下了放在指定文件夹里面就会消除波浪线了
也有可能是我用的 vscode

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/956660

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX