有关于目前正在做的新闻数据流程的架构-构想,大神指教

2018-02-24 10:19:02 +08:00
 linhanqiu

https://app.yinxiang.com/shard/s18/nl/18910757/1dce62a8-9a86-4fb1-901f-2a4eef16871e?title=%E6%96%B0%E9%97%BB%E6%99%BA%E8%83%BD%E6%95%B0%E6%8D%AE%E7%BB%84%E7%BB%86%E8%8A%82%E4%BB%A5%E5%8F%8A%E6%B3%A8%E6%84%8F%E9%97%AE%E9%A2%98

还没完成,希望大神们能够来指教一下

2309 次点击
所在节点    Python
9 条回复
w0000
2018-02-24 10:40:34 +08:00
同在做这块相关的,怎么还要申请权限才能看
daydaydayup
2018-02-24 10:45:26 +08:00
为什么看你的博客还要权限 0 0!搞不懂了.
linhanqiu
2018-02-24 10:56:31 +08:00
数据组业务流程架构

需求以及产量
硬件需求
服务器需求
爬虫服务器
图片服务器
新闻日产量
爬虫 200w+
用户编辑 1w+
机器智能编辑 1w+
新闻数据流程
数据源
数据来源分类
爬虫
爬虫类型分类
通用搜索引擎爬虫:使用基于 Nutch 框架的爬虫框架
自定义爬虫:使用基于 asyncio、aiohttp 的爬虫框架
爬虫分布式架构
模式选择:分布式采用自治模式,爬虫服务器之间互相可以通信,通过保存一张服务器列表来记录其他服务器位置
爬虫种子调度管理
调度介质:redis 集群作为 url 暂时存储的载体,redis 之间互相通信,使用 hash 槽来保证高可用性一致性
去重保证:使用 k 分型 bloomfilter 替代普通的 bloomfilter 过滤器作为过滤器搭配 redis
种子状态保证(确保种子的有效性):
种子分级制度
人工编辑
机器自动编写
注意问题
数据采集

注意问题
数据清洗(验证数据正确唯一性)
数据重复清洗
对于新闻重复清洗原则
文本指纹去重:k-shingle -jarccard 系数计算 shingle 向量的相似度,向量空间,耗资源
文本指纹去重:Simhash 指纹-采用 hamming distance 来计算两个指纹之间的相似度,海量文本找出只有几位不同的,将 32 指纹分段以空间换时间
空间向量特征去重:无法应对海量文本两两去重
注意问题
数据存储(关系型数据库、对象存储)

注意问题
数据变形(批处理、并行计算)

注意问题
数据分析(机器学习、数据仓库)

注意问题
业务场景(日志分析,商品推荐、舆情分析、价格预测)

注意问题
项目管理以及部署
项目迭代管理
项目测试
项目部署
爬虫实例采用 docker 部署,使用 Google 的 Kubernetes 来管理

项目监控
实时监控
离线监控
linhanqiu
2018-02-24 11:11:24 +08:00
@w0000 https://www.v2ex.com/t/432146#reply0 不好意思,这个应该可以了
shaobin
2018-02-24 11:58:01 +08:00
哈哈 动态拨号 要了解一下吗?
linhanqiu
2018-02-24 12:46:23 +08:00
@shaobin 是 ASDL 吗,之前有了解过,不过没有太多使用,听说动态拨号破解 ip 限制很不错
linhanqiu
2018-02-24 13:15:11 +08:00
@shaobin 不过未来希望使用阿里云的弹性 ip 觉得应该能够替代这个
shaobin
2018-02-24 15:31:35 +08:00
@linhanqiu 嗯 adsl, 对于 IP 封锁比较严格的目标站比较有用。如果是新闻类型估计不需要动态 IP。( wuxianip 点 com )
linhanqiu
2018-02-24 15:37:44 +08:00
@shaobin 确实,新闻类站点还是反爬做的还是一般,有 header 封锁算是好的了,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/432115

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX