爬虫，带样式的内容

2019-08-05 16:30:22 +08:00

dcalsky

页面中有一些内容，我需要爬下来。但是这些内容里可能包含了文字，图片，表格等等奇怪的东西。如果不把样式也一起爬出来然后渲染，那么不带样式的内容就会很丑，而且也没法很好地自适应移动端。

所以这种情况只能用 Puppeteer 等工具保存截图了对吗？而不是获取 html 代码。

1137 次点击

所在节点

3 条回复

dcalsky

2019-08-05 16:31:21 +08:00

内容里可能还有附件，那还得做个附件检测，然后自动 download 下来

holajamc

2019-08-05 16:33:42 +08:00

之前有一家的解决方法是保留 HTML 的 DOM 结构去教所有标签属性

dcalsky

2019-08-05 16:50:30 +08:00

@holajamc 如果不带 css 的话，还是会很丑，甚至错位。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.