像 36 氪网站这样的帖子,该如何采集?

2022-09-27 10:11:49 +08:00
 joetao123

比如 https://www.36kr.com/p/1932814869170564 ,通过访问获取的是 js 和一些编码信息,没法通过 jsoup 这样的工具去解析 html 内容。

1456 次点击
所在节点    问与答
3 条回复
xiao109
2022-09-27 10:35:37 +08:00
跟豆瓣一样执行他的解码 js 文件获取实际的编码信息,不然就用无头浏览器然浏览器去执行 js 渲染一次。
raphaell2e
2022-09-27 11:28:31 +08:00
SleepyRaven
2022-09-27 11:28:59 +08:00
研究了一下,Sources 面板打开 app.[hash].js 可以看到 window.initialState.state 的 AES.decrypt 信息

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/883199

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX