请教一个反爬的技术

新加坡联合早报 https://www.zaobao.com/
新闻详情页面采用了一种没见过的技术应对复制与爬虫
例如 https://www.zaobao.com/news/china/story20230110-1351792

在 P 标签内加入了 data-s="yGMGEZQ===="这种标签,导致页面看起来段落顺序是正确的,但复制,或者爬取,就是错的请大神指点一下

gezimonkey

2023-01-10 16:41:37 +08:00

@getcharch 大佬你就是生产力!!!

NoOneNoBody

2023-01-16 12:27:19 +08:00

@likeme #14
@corcre #15
如果要爬取的内容是完整文字，js 只是用于渲染和排版，可以摒弃 DOM ，直接用正则，按自己规则重建排版

其实爬取万级以上页面，每页建 DOM(即使非 js)搜索和正则搜索，耗费资源差别很大，正则快很多
两者各有优劣，如果内容边界随机，例如随机的 class name 样式，正则要确定内容的位置不容易，要一定技巧，dom 就可以简单地用 path 就能找到

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/907861

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.