V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
phithon
V2EX  ›  Python

正文提取的库(算法),大家有成熟的解决方案么

  •  
  •   phithon ·
    phith0n · 2016-09-02 03:11:42 +08:00 · 5489 次点击
    这是一个创建于 3038 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想求一个提取文章正文的库或算法, python 的。
    主要用在采集上,采集下来的东西准备去掉没用的头和尾,只保留正文。印象笔记有个浏览器扩展,点一下自动采集正文的,感觉准确度还不错,不知道 python 有此类解决方案没有?
    第 1 条附言  ·  2016-09-02 14:03:57 +08:00
    当然谷歌过,林林总总的比较杂,发这贴主要还是看看你们用的什么。。。
    我就选择回答最简单利落的 6 楼啦, readability
    15 条回复    2016-09-04 23:02:39 +08:00
    qq316107934
        2
    qq316107934  
       2016-09-02 04:15:02 +08:00 via Android
    @binux 哈哈哈,笑死了
    northisland
        3
    northisland  
       2016-09-02 07:07:09 +08:00 via Android
    找个 apache tika 教程看看,符不符合需求
    HFcbyqP0iVO5KM05
        4
    HFcbyqP0iVO5KM05  
       2016-09-02 09:23:55 +08:00 via Android
    搜啦,点开第一个又到这里来了😂
    Yinz
        5
    Yinz  
       2016-09-02 09:50:41 +08:00   ❤️ 1
    讲道理 V2EX 的 SEO 是真的强
    liteneo
        6
    liteneo  
       2016-09-02 09:58:37 +08:00   ❤️ 1
    readability
    Lcys
        7
    Lcys  
       2016-09-02 10:02:52 +08:00
    p 牛~
    dcsite
        8
    dcsite  
       2016-09-02 11:23:42 +08:00
    这是月经贴吗?每个月都有人问这个问题~
    tumbzzc
        9
    tumbzzc  
       2016-09-02 12:38:32 +08:00
    @binux 6666 这个那么牛逼
    Matrixlee
        10
    Matrixlee  
       2016-09-02 12:50:35 +08:00 via Android
    @binux 笑死啦
    bearsiji
        11
    bearsiji  
       2016-09-02 12:57:56 +08:00
    kepenj
        12
    kepenj  
       2016-09-02 13:18:08 +08:00
    @binux 6666
    Chyroc
        13
    Chyroc  
       2016-09-02 23:53:40 +08:00
    @Yinz 讲道理,在 v 站发了个帖子,过了几分钟去 google 答案,直接搜到了自己的帖子
    Owenjia
        14
    Owenjia  
       2016-09-04 21:27:08 +08:00
    也可以试下 newspaper 的,准备加功能了么这是……
    phithon
        15
    phithon  
    OP
       2016-09-04 23:02:39 +08:00   ❤️ 1
    @Owenjia wiki.ioin.in 新功能已经加上了,把链接都采集一下,用的 readability ,不过还是有些误差,需要自己对源码稍微修改
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5803 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 02:38 · PVG 10:38 · LAX 18:38 · JFK 21:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.