多个新闻网站通用爬虫解决方案?

2021-10-28 19:40:55 +08:00
 perpetually
1 需要获取多个农业相关网站的新闻数据,这些数据都在类似于这样的网站( http://www.moa.gov.cn/)里面

2 这些网站里面还有大量的列表页和翻页内容,如果逐个写 xpath 或者正则翻页请求过于繁琐

3 有没有比较简单的包可以调用可以直接通用解决此类网站的所有列表页链接?

4 以及有没有一键启动所有的这些爬虫的方案,减少操作


507 次点击
所在节点    问与答
3 条回复
delectate
2021-10-28 19:56:59 +08:00
张一鸣:卧槽,有人来抢生意了?
perpetually
2021-10-28 22:51:55 +08:00
@delectate #1 和张一鸣没法比,我们就做个小点的自己用
czfy
2021-10-29 17:58:28 +08:00
有是有,一些公司搞机器学习的和爬虫的一起研究出了基于规则识别的新闻类网站爬虫方案,但这里面研发投入不少,应该没什么人会开源

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/811350

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX