有没有类似于 Safari 正文阅读模式的提取库推荐( Python )?

2017-05-24 18:23:03 +08:00
 douglas1997

最近看到一些比较好的文章打算记录一下, Safari 阅读模式做的是十分出色的。我想的是只把图片留下标签, 其他的全部转为文本。

我已经尝试了 Readability, newspaper 和一些基于行块分布函数的通用网页正文抽取算法的代码, 感觉效果不太好(相对于 Safari 的阅读模式)。大家有什么好的库推荐没有呢?

谢谢。

916 次点击
所在节点    问与答
1 条回复
polythene
2017-05-24 18:49:54 +08:00
安利一个我自己写的库: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor,目前我用它来提取 hacker news 上各种链接的正文,效果还挺好的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363534

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX