有没有新闻通用爬虫？可以智能识别爬虫和标题？

This topic created in 3228 days ago, the information mentioned may be changed or developed.

看了下一些收费 api 或者云爬虫可以做到提交网址返回正文，想请教下是个什么思路。
自己写爬虫都是针对一个站点定制 xpath 或者 css selector 规则，那这种通用的是怎么解决的呢？

3 replies • 2017-07-10 16:03:57 +08:00

bearsiji

Jul 10, 2017

bearsiji

Jul 10, 2017

https://github.com/GravityLabs/goose 还有这个你的目的就是内容提取，常见的方法是 HTML 节点结构打分

stcasshern

Jul 10, 2017

@bearsiji 谢谢。学习一个