看了下一些收费 api 或者云爬虫可以做到提交网址返回正文,想请教下是个什么思路。
自己写爬虫都是针对一个站点定制 xpath 或者 css selector 规则,那这种通用的是怎么解决的呢?
自己写爬虫都是针对一个站点定制 xpath 或者 css selector 规则,那这种通用的是怎么解决的呢?
1
bearsiji Jul 10, 2017 |
2
bearsiji Jul 10, 2017 https://github.com/GravityLabs/goose 还有这个 你的目的就是内容提取,常见的方法是 HTML 节点结构打分
|
3
stcasshern OP @bearsiji 谢谢。学习一个
|