如何爬取一个网站不被禁用 ip

2023-05-22 10:27:35 +08:00
 EagerTo

随机浏览器头和限速都试了。还是被封。代理 ip 也找不到很多

2360 次点击
所在节点    生活
16 条回复
vcbal
2023-05-22 10:29:01 +08:00
你看下是不是有特殊的接口,或者特殊的 http 头,这个是根据网站来,不同网站不同的反爬机制
brader
2023-05-22 10:36:32 +08:00
禁不禁你 IP ,是看别人网站开发者的反爬机制决定的,不是你能控制的
qrobot
2023-05-22 10:40:50 +08:00
参照隔壁 v2explus, 分布式爬虫, 每人每天执行任务
cosmain
2023-05-22 10:59:32 +08:00
策略:“如果一个 IP 五分钟内访问了 1000 个页面,禁止 ip 访问 24 小时”

这任你怎么折腾都不行,除非换 ip
glfpes
2023-05-22 11:12:40 +08:00
单 ip 是不可能做爬虫的
cnrting
2023-05-22 11:17:17 +08:00
这是能问的吗🐶
8355
2023-05-22 11:21:44 +08:00
爬的本质就是增加成本破解反爬
反爬的本质就是通过增加爬的成本来反爬
dawn009
2023-05-22 11:25:19 +08:00
随机浏览器头有可能特征更明显。有些 UA 在正常用户中是很少见的,足够触发反爬规则了。
blankmiss
2023-05-22 11:32:33 +08:00
代理池即可
ding2dong
2023-05-22 11:33:58 +08:00
无解,掏钱上动态代理 ip
maxssy
2023-05-22 13:52:58 +08:00
用别人的 IP
gablic
2023-05-22 13:53:21 +08:00
网上买代理 ip 资源吧
cherryas
2023-05-22 14:50:04 +08:00
爬网站的 ipv6 地址 (有的概率很低)
locochen
2023-05-22 15:31:32 +08:00
欢迎试用 `https://www.bright.cn/`
YouKnowIt
2023-05-22 20:09:28 +08:00
@locochen 你这是国外那个 brightdata 中文版吗,还是国内人新搞的?
locochen
2023-05-22 20:17:15 +08:00
@YouKnowIt 就是你认为的那个国外的, 出海到中国来了. 🤓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/941835

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX