发现一个很 awesome 的网站

2017-10-11 11:50:10 +08:00

LichMscy

https://mercury.postlight.com/web-parser/

号称可以直接拉到 HTML 的文章内容正文的数据，测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式，所以应该用的算法之类的实现。

大家有相关的资料可以参考下吗？对这个非常感兴趣

2079 次点击

所在节点

问与答

5 条回复

cubelate

2017-10-11 11:57:35 +08:00

有意思，可能是通过判断位置，z-index，大小之类吧。把自己当做浏览器，分析最前面最大块的内容。

airycanon

2017-10-11 12:04:09 +08:00

@kenshin 感觉简悦可以借鉴一下，处理不在支持列表中的网站。

ygger

2017-10-11 20:08:21 +08:00

这是我的一个正文提取器： http://kandouban.top/extractor

ygger

2017-10-11 20:15:03 +08:00

一些正文提取算法参考： https://code.google.com/p/cx-extractor/
http://www.cnblogs.com/jasondan/p/3497757.html#!comments

kenshin

2017-10-12 09:22:41 +08:00

@airycanon
之前有参考过这个，但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/396716

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX