正文提取的库（算法），大家有成熟的解决方案么

2016-09-02 03:11:42 +08:00

phithon

想求一个提取文章正文的库或算法， python 的。
主要用在采集上，采集下来的东西准备去掉没用的头和尾，只保留正文。印象笔记有个浏览器扩展，点一下自动采集正文的，感觉准确度还不错，不知道 python 有此类解决方案没有？

5547 次点击

所在节点

Python

15 条回复

binux

2016-09-02 03:38:37 +08:00

http://lmgtfy.com/?q=%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96%E7%9A%84%E5%BA%93+python

qq316107934

2016-09-02 04:15:02 +08:00

@binux 哈哈哈，笑死了

northisland

2016-09-02 07:07:09 +08:00

找个 apache tika 教程看看，符不符合需求

HFcbyqP0iVO5KM05

2016-09-02 09:23:55 +08:00

搜啦，点开第一个又到这里来了😂

Yinz

2016-09-02 09:50:41 +08:00

讲道理 V2EX 的 SEO 是真的强

liteneo

2016-09-02 09:58:37 +08:00

readability

Lcys

2016-09-02 10:02:52 +08:00

p 牛~

dcsite

2016-09-02 11:23:42 +08:00

这是月经贴吗？每个月都有人问这个问题~

tumbzzc

2016-09-02 12:38:32 +08:00

@binux 6666 这个那么牛逼

Matrixlee

2016-09-02 12:50:35 +08:00

@binux 笑死啦

bearsiji

2016-09-02 12:57:56 +08:00

https://github.com/codelucas/newspaper/
不谢

kepenj

2016-09-02 13:18:08 +08:00

@binux 6666

Chyroc

2016-09-02 23:53:40 +08:00

@Yinz 讲道理，在 v 站发了个帖子，过了几分钟去 google 答案，直接搜到了自己的帖子

Owenjia

2016-09-04 21:27:08 +08:00

也可以试下 newspaper 的，准备加功能了么这是……

phithon

2016-09-04 23:02:39 +08:00

@Owenjia wiki.ioin.in 新功能已经加上了，把链接都采集一下，用的 readability ，不过还是有些误差，需要自己对源码稍微修改

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/303361

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.