cloudflare 是怎么知道我用 requests 的?

2020-01-30 20:25:42 +08:00
 freshgoose

我通过代理访问一个网站,在流览器访问(隐身模式+禁止 JS )没问题,可以拿到 html,用 requests.get 就 403 了,显示了 cf 的页面,提示我要滑验证码。

但是我明明把 headers 都凑齐了(通过 Network 把 requests header 一个个复制出来的),跟浏览器用的一个代理,怎么偏偏 requests.get 就 403 了呢?

那个网址是:aHR0cHM6Ly93d3cuYXJ0c3RhdGlvbi5jb20vYXJ0d29yay84bEQ0blE=

大家有空可以研究一下,我实在搞不懂。

5647 次点击
所在节点    问与答
27 条回复
shylockhg
2020-01-30 20:28:28 +08:00
不太懂,代理做的是转发吧,http 头有字段会声明客户端( request )
wangxiaoaer
2020-01-30 20:30:37 +08:00
cookie 呢?抓包对比呗。
ZeroClover
2020-01-30 20:31:31 +08:00
https://sm.ms/image/MVqWXUfg52E18CJ

这个网站用了 Cloudflare Bot Management

用 cURL 之类的访问,即使模拟了各种 Header 和 UA,在 CF 后台也仍然可以看到 knownBotClientHelloExtensions 这种标识
freshgoose
2020-01-30 20:31:45 +08:00
@shylockhg #1 感谢回复,应该是没有声明客户端的,这是我同一环境下请求 httpbin 的结果: https://pastebin.com/b27uaKvW
freshgoose
2020-01-30 20:34:23 +08:00
@ZeroClover #3 感谢回复,那为什么我用:同样的 IP + 浏览器隐身模式 + 禁止 JS 又能访问呢,按理来说这样子一搞,跟直接用 requests.get 也没啥区别了吧
chinvo
2020-01-30 20:37:05 +08:00
@freshgoose #5 cookie
ZeroClover
2020-01-30 20:37:43 +08:00
@freshgoose 我只是客户,不是 CF 的人,他们也不会详细告诉我怎么实现的。

https://sm.ms/image/xlyEC82cPtqz51L

就他们的说法,Bot Management 会通过 JS 来识别 Bot,如果禁止 JS 只是识别率下降,但是那是针对无头浏览器,一般的什么 requests 还是识别率很高
chinvo
2020-01-30 20:37:45 +08:00
@freshgoose #5 还有后续请求

curl 不会在加载页面之后继续加载引入的资源

总之,很多行为上的差异
lance6716
2020-01-30 22:18:10 +08:00
很多方式,比如让你 5 秒内暴力算一个 js 程序,能算出来的才是有计算资源的浏览器
yinanc
2020-01-30 23:01:40 +08:00
@lance6716 啥浏览器这么智能?还能服务器让你做啥就做啥?
WordTian
2020-01-31 00:33:17 +08:00
ua?我记得 requests 的 ua 会带一些
WordTian
2020-01-31 00:33:59 +08:00
ua?我记得 requests 的 ua 会带 requests 的信息,没
WordTian
2020-01-31 00:34:33 +08:00
@WordTian 没打完发出去了,两次。。。
vibbow
2020-01-31 00:42:33 +08:00
你看一下 https 握手时使用的协议
Yourshell
2020-01-31 00:45:41 +08:00
跟反爬虫一个道理吧
msg7086
2020-01-31 03:04:37 +08:00
@yinanc 每个浏览器。
xihefeng
2020-01-31 03:54:13 +08:00
有点意思,我明天看看
love
2020-01-31 07:11:29 +08:00
你就那么确定真和浏览器发出的一样?不抓包看看?还要比较浏览器头的顺序和大小写。有些语言的 dict 结构没有顺序。
wd
2020-01-31 07:58:01 +08:00
他们可以这么做,不是通过者一个请求来判断你是不是合法。比如浏览器访问这个 url 前还访问了其他 url,你直接 request 没有这个逻辑
alan0liang
2020-01-31 08:23:55 +08:00
看 #3 说的 knownBotClientHelloExtensions,应该是 TLS 握手的时候 Extensions 顺序什么的不太一样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/641069

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX