如果破解分页随机插值反爬手段

2022-10-24 09:10:36 +08:00
 v7788120

最近在爬一个网站,爬取的列表页面,老是有重复值出现,后来仔细研究,对方网站应该是做了反爬设置。

例如列表一共有 100 条数据,A 数据原本出现在第 1 页的,爬完发现 A 数据又在第 2 页随机出现过,导致最后爬取总数据量只有 98 条,存在数据缺失漏爬。

这种情况不仅仅是 A 数据,有可能是 B 数据、C 数据出现这种问题,我感觉应该是对方网站反爬,会随机抽取上一页的某条数据,替换到当前页里面,这样的话是总是缺少数据,导致数据不全。

有大佬遇到过这个问题吗?大家一起交流交流

2731 次点击
所在节点    问与答
24 条回复
wbrobot
2022-10-24 15:06:41 +08:00
@A555 不是 sql 的问题,他这个描述一看就是人家把列表页生成静态, 更新不及时
kiolygenius
2022-10-24 15:50:36 +08:00
@ZhenShaw 连全拼都有同音词汇重码,我就不理解用声母缩写打字到底能快多少。
neptuno
2022-10-24 18:46:21 +08:00
100 条都让你爬了 98 条,这哪叫反爬呀。应该就是 bug 了
mikewang
2022-10-25 00:39:07 +08:00
有没有一种可能,这个列表一直在更新呢
第一页新增了值,后面自然会推后

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/889246

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX