求推荐好用的网页减噪的 Python 库

需要抓取很多新闻网站，但这些页面很多是极其不规范的使用 html ，那么如何自动化提取这些网页中的正文部分呢？
试用了几个，感觉还是有一些问题。。。。求推荐

shierji

2015-05-27 10:46:49 +08:00

额 XPath选取还行啊

我遇到的主要是改版问题不过我感觉逻辑上多处理一下也行
我遇到的问题是很多新闻网站旧链接是孤岛没法从当前时间递归抓取不知道楼主有这个问题没有？

Valyrian

2015-05-27 10:49:00 +08:00

每个网站单独处理。。我上个实习就是干这个的，没有什么好办法

binux

2015-05-27 10:49:19 +08:00

现在正常一点的 html 库都能做到兼容不规范的 html
要不你试试 lxml

2015-05-27 10:50:27 +08:00

@shierji 文不对题啊，楼主说的是那种自动分析网页，猜测正文大概位置的库。并不是说xpath选取不准确。

2015-05-27 10:51:57 +08:00

= = 好像也并不是来着，如果是这样的话lxml的xpath确实已经够用了。

binux

2015-05-27 11:05:36 +08:00

@fy 还真是「正文大概位置的库」，这种涉及策略的东西，想要好，就自己写一个吧。

TuxcraFt

2015-05-27 11:19:38 +08:00

你需要人工智能黑科技…… （逃

simo

2015-05-27 12:35:38 +08:00

看下qq收藏网页助手，插件应该能反编吧

xixijun

2015-05-27 13:54:00 +08:00

不知道楼主说的不规则具体指的是什么。
bootstrap可以自动补全

zztt168

2015-05-27 14:34:18 +08:00

在学习爬虫，感谢楼主和楼上的分享！

bigbook

2015-05-27 14:49:52 +08:00

https://github.com/buriy/python-readability
这个算是最好用的了

具体遇到什么问题了呢？

pango

2015-05-27 19:17:02 +08:00

楼主遇到点什么小问题？请具体说说。
一直在用python-goose爬youtube，从来没有出过什么问题。

shiznet

2015-05-27 22:17:12 +08:00

印象笔记在chrome的插件可以实现类似的功能

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.