需要抓取很多新闻网站,但这些页面很多是极其不规范的使用 html ,那么如何自动化提取这些网页中的正文部分呢?
试用了几个,感觉还是有一些问题。。。。求推荐
|  |      1shierji      2015-05-27 10:46:49 +08:00 via Android 额 XPath选取还行啊 我遇到的主要是改版问题 不过我感觉逻辑上多处理一下也行 我遇到的问题是很多新闻网站旧链接是孤岛 没法从当前时间递归抓取 不知道楼主有这个问题没有? | 
|  |      2Valyrian      2015-05-27 10:49:00 +08:00 每个网站单独处理。。我上个实习就是干这个的,没有什么好办法 | 
|  |      3binux      2015-05-27 10:49:19 +08:00 现在正常一点的 html 库都能做到兼容不规范的 html 要不你试试 lxml | 
|  |      5fy      2015-05-27 10:51:57 +08:00 = = 好像也并不是来着,如果是这样的话lxml的xpath确实已经够用了。 | 
|  |      6alexapollo      2015-05-27 10:52:36 +08:00 web extractor | 
|  |      8TuxcraFt      2015-05-27 11:19:38 +08:00 你需要人工智能黑科技…… (逃 | 
|      9zts1993      2015-05-27 12:27:20 +08:00 via Android 招点实习生吧 | 
|  |      10simo      2015-05-27 12:35:38 +08:00 看下qq收藏网页助手,插件应该能反编吧 | 
|  |      11nbndco      2015-05-27 12:41:24 +08:00 libextract | 
|  |      12hewigovens      2015-05-27 13:16:11 +08:00 Diffbot? | 
|  |      13xixijun      2015-05-27 13:54:00 +08:00 via iPhone 不知道楼主说的不规则具体指的是什么。 bootstrap可以自动补全 | 
|  |      14zog      2015-05-27 14:05:42 +08:00 pip install html2text | 
|  |      15zhicheng      2015-05-27 14:07:47 +08:00 | 
|      1613k      2015-05-27 14:32:33 +08:00 | 
|      17zztt168      2015-05-27 14:34:18 +08:00 via Android 在学习爬虫,感谢楼主和楼上的分享! | 
|      18bigbook      2015-05-27 14:49:52 +08:00 | 
|  |      19pango      2015-05-27 19:17:02 +08:00 楼主遇到点什么小问题?请具体说说。 一直在用python-goose爬youtube,从来没有出过什么问题。 | 
|  |      20shiznet      2015-05-27 22:17:12 +08:00 via iPhone 印象笔记在chrome的插件可以实现类似的功能 |