有关于目前正在做的新闻数据流程的架构-构想，大神指教

w0000

2018-02-24 10:40:34 +08:00

同在做这块相关的，怎么还要申请权限才能看

daydaydayup

2018-02-24 10:45:26 +08:00

为什么看你的博客还要权限 0 0!搞不懂了.

linhanqiu

2018-02-24 10:56:31 +08:00

数据组业务流程架构

需求以及产量
硬件需求
服务器需求
爬虫服务器
图片服务器
新闻日产量
爬虫 200w+
用户编辑 1w+
机器智能编辑 1w+
新闻数据流程
数据源
数据来源分类
爬虫
爬虫类型分类
通用搜索引擎爬虫：使用基于 Nutch 框架的爬虫框架
自定义爬虫：使用基于 asyncio、aiohttp 的爬虫框架
爬虫分布式架构
模式选择：分布式采用自治模式，爬虫服务器之间互相可以通信，通过保存一张服务器列表来记录其他服务器位置
爬虫种子调度管理
调度介质：redis 集群作为 url 暂时存储的载体，redis 之间互相通信，使用 hash 槽来保证高可用性一致性
去重保证：使用 k 分型 bloomfilter 替代普通的 bloomfilter 过滤器作为过滤器搭配 redis
种子状态保证（确保种子的有效性）：
种子分级制度
人工编辑
机器自动编写
注意问题
数据采集

注意问题
数据清洗（验证数据正确唯一性）
数据重复清洗
对于新闻重复清洗原则
文本指纹去重：k-shingle -jarccard 系数计算 shingle 向量的相似度，向量空间，耗资源
文本指纹去重：Simhash 指纹-采用 hamming distance 来计算两个指纹之间的相似度，海量文本找出只有几位不同的，将 32 指纹分段以空间换时间
空间向量特征去重：无法应对海量文本两两去重
注意问题
数据存储（关系型数据库、对象存储）

注意问题
数据变形（批处理、并行计算）

注意问题
数据分析（机器学习、数据仓库）

注意问题
业务场景（日志分析，商品推荐、舆情分析、价格预测）

注意问题
项目管理以及部署
项目迭代管理
项目测试
项目部署
爬虫实例采用 docker 部署，使用 Google 的 Kubernetes 来管理

项目监控
实时监控
离线监控

linhanqiu

2018-02-24 11:11:24 +08:00

@w0000 https://www.v2ex.com/t/432146#reply0 不好意思，这个应该可以了

shaobin

2018-02-24 11:58:01 +08:00

哈哈动态拨号要了解一下吗？

linhanqiu

2018-02-24 12:46:23 +08:00

@shaobin 是 ASDL 吗，之前有了解过，不过没有太多使用，听说动态拨号破解 ip 限制很不错

linhanqiu

2018-02-24 13:15:11 +08:00

@shaobin 不过未来希望使用阿里云的弹性 ip 觉得应该能够替代这个

shaobin

2018-02-24 15:31:35 +08:00

@linhanqiu 嗯 adsl，对于 IP 封锁比较严格的目标站比较有用。如果是新闻类型估计不需要动态 IP。（ wuxianip 点 com ）

linhanqiu

2018-02-24 15:37:44 +08:00

@shaobin 确实，新闻类站点还是反爬做的还是一般，有 header 封锁算是好的了，