求推荐好用的网页减噪的 Python 库 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3810 天前的主题，其中的信息可能已经有所发展或是发生改变。

需要抓取很多新闻网站，但这些页面很多是极其不规范的使用 html ，那么如何自动化提取这些网页中的正文部分呢？
试用了几个，感觉还是有一些问题。。。。求推荐

第 1 条附言 · 2015-05-27 11:25:07 +08:00

好像大家多没有做过类似的，或者没有理解我的意思。
我是说提取网页正文，类似 pocket 那种。
已用过的库：
* [Goose](https://github.com/grangier/python-goose)
* [python-readability](https://github.com/buriy/python-readability)

看过的论文：
* [《基于行块分布函数的通用网页正文抽取算法》](http://cx-extractor.googlecode.com/files/%E5%9F%BA%E4%BA%8E%E8%A1%8C%E5%9D%97%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E7%9A%84%E9%80%9A%E7%94%A8%E7%BD%91%E9%A1%B5%E6%AD%A3%E6%96%87%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95.pdf)

大家还有用过/看过的其他的吗？

20 条回复 • 2015-05-27 22:17:12 +08:00

1

shierji

2015-05-27 10:46:49 +08:00 via Android

额 XPath选取还行啊

我遇到的主要是改版问题不过我感觉逻辑上多处理一下也行
我遇到的问题是很多新闻网站旧链接是孤岛没法从当前时间递归抓取不知道楼主有这个问题没有？

2

Valyrian

2015-05-27 10:49:00 +08:00

每个网站单独处理。。我上个实习就是干这个的，没有什么好办法

3

binux

2015-05-27 10:49:19 +08:00

现在正常一点的 html 库都能做到兼容不规范的 html
要不你试试 lxml

4

fy

2015-05-27 10:50:27 +08:00

@shierji 文不对题啊，楼主说的是那种自动分析网页，猜测正文大概位置的库。并不是说xpath选取不准确。

5

fy

2015-05-27 10:51:57 +08:00

= = 好像也并不是来着，如果是这样的话lxml的xpath确实已经够用了。

6

alexapollo

2015-05-27 10:52:36 +08:00

web extractor

7

binux

2015-05-27 11:05:36 +08:00

@fy 还真是「正文大概位置的库」，这种涉及策略的东西，想要好，就自己写一个吧。

8

TuxcraFt

2015-05-27 11:19:38 +08:00

你需要人工智能黑科技…… （逃

9

zts1993

2015-05-27 12:27:20 +08:00 via Android

招点实习生吧

10

simo

2015-05-27 12:35:38 +08:00

看下qq收藏网页助手，插件应该能反编吧

11

nbndco

2015-05-27 12:41:24 +08:00

libextract

12

hewigovens

2015-05-27 13:16:11 +08:00

Diffbot?

13

xixijun

2015-05-27 13:54:00 +08:00 via iPhone

不知道楼主说的不规则具体指的是什么。
bootstrap可以自动补全

14

zog

2015-05-27 14:05:42 +08:00

pip install html2text

15

zhicheng

2015-05-27 14:07:47 +08:00

https://github.com/rodricios/eatiht

16

13k

2015-05-27 14:32:33 +08:00

https://github.com/codelucas/newspaper

17

zztt168

2015-05-27 14:34:18 +08:00 via Android

在学习爬虫，感谢楼主和楼上的分享！

18

bigbook

2015-05-27 14:49:52 +08:00

https://github.com/buriy/python-readability
这个算是最好用的了

具体遇到什么问题了呢？

19

pango

2015-05-27 19:17:02 +08:00

楼主遇到点什么小问题？请具体说说。
一直在用python-goose爬youtube，从来没有出过什么问题。

20

shiznet

2015-05-27 22:17:12 +08:00 via iPhone

印象笔记在chrome的插件可以实现类似的功能

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 943 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 36ms · UTC 19:40 · PVG 03:40 · LAX 12:40 · JFK 15:40
♥ Do have faith in what you're doing.