像这种多新闻来源的爬虫,是每种来源都做一套爬虫?

2020-02-17 09:49:54 +08:00
 secsilm

如果不是,通常是用啥方法来做?

6601 次点击
所在节点    Python
33 条回复
est
2020-02-17 09:54:18 +08:00
这个大概率是坐了一个小编
shanlan
2020-02-17 09:55:44 +08:00
1.官方 API
2.人肉抓取
3.定制爬虫
secsilm
2020-02-17 09:56:19 +08:00
@est 是个狠人,这得多少人干这
murmur
2020-02-17 09:56:31 +08:00
官方的新闻直接爬,非官方的人工洗稿
twor2
2020-02-17 09:56:47 +08:00
应该是人工的吧,至少半人工
ired
2020-02-17 09:58:04 +08:00
@est 同意,人肉 API
secsilm
2020-02-17 09:58:44 +08:00
@murmur 直接爬的话,是不是也得每种来源搞一套爬虫?这工作量感觉不小啊
litmxs
2020-02-17 10:04:04 +08:00
就算是人力成本也不是很高吧
andylsr
2020-02-17 10:10:09 +08:00
@secsilm 原则上每个来源写一个解析就行了
est
2020-02-17 10:14:21 +08:00
@secsilm 没有人的话,万一新闻源搞了个大新闻,你自动同步上去,等于你也有一份泽任吧。
jellybool
2020-02-17 10:16:01 +08:00
@est 泽任这个词,excited !
freakxx
2020-02-17 10:17:06 +08:00
不是一套,

一般是先自己搭个框架,
像这种,可以分别写 爬取机制 + 清洗机制(parse ),然后做入库。



像 v 站一个老哥的,pyspider 用来做这玩意就还不错。
locoz
2020-02-17 10:21:10 +08:00
新闻类的直接上智能提取就行了,不用写规则,而且这种需求就无脑刷最新新闻那一页就行。
至于最终发布…显然部分非官方的新闻是人肉处理的,有新闻就直接推到编辑那,审核没问题了再提出关键内容放上去。
nocoolsandwich
2020-02-17 10:25:28 +08:00
看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data
delectate
2020-02-17 10:28:39 +08:00
来源就那几个,写规则就好;一般人机器爬,人肉审、二审、发。
alaikis
2020-02-17 10:37:58 +08:00
做几个规则,一个源配置一下就好呀,没那复杂
murmur
2020-02-17 10:39:36 +08:00
@secsilm 官方新闻其实就那么几个源,一个字都不能改
secsilm
2020-02-17 12:31:51 +08:00
@locoz 智能提取是个什么鬼
Ericcccccccc
2020-02-17 12:32:56 +08:00
人力成本很低啊
locoz
2020-02-17 12:38:57 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/645162

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX