OP 需要采集一个网站,该网站用了 CloudFlare ,之前 OP 采用构造 TLS 指纹,绕过了风控,然后爬虫也运行了几个月,一直没啥问题,但是最近发现 OP 的请求已经被精准的识别为爬虫了。
开始 OP 以为是光构造 TLS 指纹已经不行了( Chrome 已经不在固定 TLS ),想着是不是要加上 H2 指纹,然后就 H2 指纹也构造了,但是还是没用。
这个时候让 OP 疑惑的地方就出现了,就是使用 go (前面都是 Python )去试了一下,只构造了 TLS 指纹就直接过了。可以肯定的是 TLS 指纹和 H2 指纹构造的都是一样的,但是为什么 go 能过,Python 不能过?
CloudFlare 是通过什么地方,或者采用什么方案精准识别到前面( Python 写的)那一套是爬虫呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.