正文提取的库(算法),大家有成熟的解决方案么

2016-09-02 03:11:42 +08:00
 phithon
想求一个提取文章正文的库或算法, python 的。
主要用在采集上,采集下来的东西准备去掉没用的头和尾,只保留正文。印象笔记有个浏览器扩展,点一下自动采集正文的,感觉准确度还不错,不知道 python 有此类解决方案没有?
5489 次点击
所在节点    Python
15 条回复
binux
2016-09-02 03:38:37 +08:00
qq316107934
2016-09-02 04:15:02 +08:00
@binux 哈哈哈,笑死了
northisland
2016-09-02 07:07:09 +08:00
找个 apache tika 教程看看,符不符合需求
HFcbyqP0iVO5KM05
2016-09-02 09:23:55 +08:00
搜啦,点开第一个又到这里来了😂
Yinz
2016-09-02 09:50:41 +08:00
讲道理 V2EX 的 SEO 是真的强
liteneo
2016-09-02 09:58:37 +08:00
readability
Lcys
2016-09-02 10:02:52 +08:00
p 牛~
dcsite
2016-09-02 11:23:42 +08:00
这是月经贴吗?每个月都有人问这个问题~
tumbzzc
2016-09-02 12:38:32 +08:00
@binux 6666 这个那么牛逼
Matrixlee
2016-09-02 12:50:35 +08:00
@binux 笑死啦
bearsiji
2016-09-02 12:57:56 +08:00
kepenj
2016-09-02 13:18:08 +08:00
@binux 6666
Chyroc
2016-09-02 23:53:40 +08:00
@Yinz 讲道理,在 v 站发了个帖子,过了几分钟去 google 答案,直接搜到了自己的帖子
Owenjia
2016-09-04 21:27:08 +08:00
也可以试下 newspaper 的,准备加功能了么这是……
phithon
2016-09-04 23:02:39 +08:00
@Owenjia wiki.ioin.in 新功能已经加上了,把链接都采集一下,用的 readability ,不过还是有些误差,需要自己对源码稍微修改

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/303361

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX