最近看到一些比较好的文章打算记录一下, Safari 阅读模式做的是十分出色的。我想的是只把图片留下标签, 其他的全部转为文本。
我已经尝试了 Readability, newspaper 和一些基于行块分布函数的通用网页正文抽取算法的代码, 感觉效果不太好(相对于 Safari 的阅读模式)。大家有什么好的库推荐没有呢?
谢谢。
1
polythene 2017-05-24 18:49:54 +08:00 1
安利一个我自己写的库: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor,目前我用它来提取 hacker news 上各种链接的正文,效果还挺好的。
|