请教一个反爬的技术

2023-01-10 11:44:00 +08:00
 gezimonkey

新加坡联合早报 https://www.zaobao.com/
新闻详情页面采用了一种没见过的技术应对复制与爬虫
例如 https://www.zaobao.com/news/china/story20230110-1351792

在 P 标签内加入了 data-s="yGMGEZQ===="这种标签,导致页面看起来段落顺序是正确的,但复制,或者爬取,就是错的 请大神指点一下

5274 次点击
所在节点    Python
22 条回复
gezimonkey
2023-01-10 16:41:37 +08:00
@getcharch 大佬你就是生产力!!!
NoOneNoBody
2023-01-16 12:27:19 +08:00
@likeme #14
@corcre #15
如果要爬取的内容是完整文字,js 只是用于渲染和排版,可以摒弃 DOM ,直接用正则,按自己规则重建排版

其实爬取万级以上页面,每页建 DOM(即使非 js)搜索和正则搜索,耗费资源差别很大,正则快很多
两者各有优劣,如果内容边界随机,例如随机的 class name 样式,正则要确定内容的位置不容易,要一定技巧,dom 就可以简单地用 path 就能找到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/907861

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX