有关于目前正在做的新闻数据流程的架构-构想,大神指教!!

2018-02-24 11:10:53 +08:00
 linhanqiu

https://www.evernote.com/shard/s658/sh/736891e2-f803-4f5b-a0ab-a955c25f9348/d37469e6988ab32ee30642712b656e6b

还没完成,希望大神们能够来指教一下

2554 次点击
所在节点    Python
19 条回复
newbier
2018-02-24 13:02:42 +08:00
小白,看得一脸盲,呵呵。在我眼里你就是大神了。
linhanqiu
2018-02-24 13:16:42 +08:00
@newbier 没有没有,本小白只是构想,还没完成呢
liudanking
2018-02-24 14:00:12 +08:00
研究一下 推酷?
pheyer
2018-02-24 14:13:59 +08:00
想 copy 一个头条吗,感觉没那么容易啊
lz 文章排版不错,是用 Evernote 内部的编辑器排版的吗?
linhanqiu
2018-02-24 14:28:45 +08:00
@liudanking
听过,可以试试
linhanqiu
2018-02-24 14:29:37 +08:00
@pheyer 哈哈,对,是 Evernote,国内的印象笔记不能分享,所以用了国外版本
w0000
2018-02-24 15:22:40 +08:00
楼主是要在公司做还是个人感兴趣做? @linhanqiu
linhanqiu
2018-02-24 15:35:42 +08:00
@w0000 现在在带一个小队,主要业务量到达一定程度了,想要构想一下未来的大架构,
w0000
2018-02-24 15:56:23 +08:00
不知道楼主的 数据源 多不多哈,爬虫采集的话,200w+ 量不是很大,有需要登录或者动态渲染的页面要抓的吗?如果有的通用爬虫都搞不定,nutch 感觉不好用,可能爬虫用 python 会开发起来好一些,数据清洗之后可能不需要关系数据库存,我这边也是公司在做类似的东西,金融舆情监控系统,跟你写的这个有一些相似的地方,有机会可以交流下
linhanqiu
2018-02-24 16:01:11 +08:00
@w0000 好的,好的,那太好了
Xrong
2018-02-24 16:03:06 +08:00
文档 404 ???
linhanqiu
2018-02-24 16:04:36 +08:00
@w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈,
linhanqiu
2018-02-24 16:05:36 +08:00
linhanqiu
2018-02-24 16:05:51 +08:00
ZSeptember
2018-02-24 16:42:39 +08:00
感觉什么都没说啊。。
以前做过类似的吧,资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。
需要登录的就每个都有单独做了,这个反爬太容易了。
用 kafka 做流处理,还是很不错的。
linhanqiu
2018-02-24 16:59:38 +08:00
@ZSeptember 多谢大神指教
linhanqiu
2018-02-24 17:01:42 +08:00
@ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗
ZSeptember
2018-02-24 17:16:49 +08:00
@linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已,还没有到什么架构这个程度。
需要登录的当然别人想做反爬就可以做,你换 IP 都没用啊,现在很多需要手机号,如果会封号,成本很高的。
Kafka 在这种业务中可以作为架构基础,解耦爬虫,清洗,统计分析业务,爬虫就只管爬数据,把爬取到的数据打到 Kafka 就不用管了,后续的什么服务都可以很方便的接入。
linhanqiu
2018-02-24 17:28:14 +08:00
@ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/432146

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX