1
RaMa291041610 2024-10-14 10:07:12 +08:00 |
2
zeusho871 2024-10-14 10:08:52 +08:00 via Android
tls 指纹
|
3
dearmymy OP |
4
kdwnil 2024-10-14 10:19:43 +08:00 via Android
写爬虫遇过这种策略,就是单个 tcp 连接有 http 请求次数限制,解决办法也只能请求次数差不多时起一个新的 http client ,不过我是 golang 不太清楚 python 要怎么做
|
5
cowcomic 2024-10-14 10:19:46 +08:00
试了一下,同一个 python 脚本,即使重启,request 的 ja3 和 ja4 也是不变的
咋通过这个区分请求进程的呢? |
6
defaw 2024-10-14 10:20:54 +08:00
你开 http keep-alive 了?每次都用新的连接试试
|
7
cccer 2024-10-14 10:22:28 +08:00
你是不是忽略的 cookies
|
8
dearmymy OP @kdwnil 我感觉就是这个问题, 只不过 python request 库可能不好操作,还是复用了 tcp 。奇怪就是重启就可以继续。
|
12
xdeng 2024-10-14 10:39:31 +08:00
tcp 的序列号?
|
14
jinjiang2024 2024-10-14 16:32:54 +08:00
有没有可能与间隔时间有关?
|
15
NaclFish 2024-10-17 23:03:50 +08:00
楼主解决了吗
|
17
CC11001100 2024-10-22 23:29:07 +08:00
|
18
dearmymy OP @CC11001100 很厉害,就是我 id 打下码把。。。。
|
19
CC11001100 2024-10-23 20:58:29 +08:00
@dearmymy #18 啊哈哈不好意思没注意,已经更新图片给 id 打码了 🙈
|
20
dearmymy OP @CC11001100 从你第二个测试结果看,虽然端口不复用了。但是 ip 端口号是依次递增,这个也是很明显的爬虫特征。对于连续端口号依次递增也可以判断爬虫了。
|
21
CC11001100 2024-10-24 22:27:51 +08:00
@dearmymy #20 老哥你说得有道理,不过正常服务器上跑的任务端口估计不会这么连续,估计是因为我机器当时就跑了这一个任务,不过这个识别点也挺有意思的我寻思寻思把这个维度的识别也加上
![]() |