像这种多新闻来源的爬虫，是每种来源都做一套爬虫？

如果不是，通常是用啥方法来做？

shanlan

2020-02-17 09:55:44 +08:00

1.官方 API
2.人肉抓取
3.定制爬虫

secsilm

2020-02-17 09:56:19 +08:00

@est 是个狠人，这得多少人干这

murmur

2020-02-17 09:56:31 +08:00

官方的新闻直接爬，非官方的人工洗稿

twor2

2020-02-17 09:56:47 +08:00

应该是人工的吧，至少半人工

secsilm

2020-02-17 09:58:44 +08:00

@murmur 直接爬的话，是不是也得每种来源搞一套爬虫？这工作量感觉不小啊

litmxs

2020-02-17 10:04:04 +08:00

就算是人力成本也不是很高吧

andylsr

2020-02-17 10:10:09 +08:00

@secsilm 原则上每个来源写一个解析就行了

est

2020-02-17 10:14:21 +08:00

@secsilm 没有人的话，万一新闻源搞了个大新闻，你自动同步上去，等于你也有一份泽任吧。

freakxx

2020-02-17 10:17:06 +08:00

不是一套，

一般是先自己搭个框架，
像这种，可以分别写爬取机制 + 清洗机制(parse )，然后做入库。

像 v 站一个老哥的，pyspider 用来做这玩意就还不错。

locoz

2020-02-17 10:21:10 +08:00

新闻类的直接上智能提取就行了，不用写规则，而且这种需求就无脑刷最新新闻那一页就行。
至于最终发布…显然部分非官方的新闻是人肉处理的，有新闻就直接推到编辑那，审核没问题了再提出关键内容放上去。

nocoolsandwich

2020-02-17 10:25:28 +08:00

看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data

delectate

2020-02-17 10:28:39 +08:00

来源就那几个，写规则就好；一般人机器爬，人肉审、二审、发。

alaikis

2020-02-17 10:37:58 +08:00

做几个规则，一个源配置一下就好呀，没那复杂

murmur

2020-02-17 10:39:36 +08:00

@secsilm 官方新闻其实就那么几个源，一个字都不能改

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.