大数据经验咨询

2021-01-25 12:10:22 +08:00
 JellyDong

背景

公司明年要做大数据相关的项目,目前没有相关工作经验人员,包括领导。

我们大概有几百台设备,每台设备每秒传输一次数据,大概有 1000 个字段。

我们现在是想分析这些数据,从而获得一些可以用来决策参考的信息。

问题

基于上述情况,有没有什么好的框架可以借鉴使用?或者说相关课程等有推荐吗?

感谢各位 V 友~

1762 次点击
所在节点    问与答
21 条回复
mwcodenoname
2021-01-25 12:13:56 +08:00
每次传输数据量有多大?数据存储周期有多长?分析数据需要的查询返回时间是多少?这些都要确定一下。
比较常用的方案就是 hadoop+hive+spark 这种。
czfy
2021-01-25 12:15:28 +08:00
这..真的有可能自己做成吗
感觉这种招人也没办法招,因为没有人懂,所以很难判断招来的人是否靠谱
相对来说最可能的就是找供应商了
JellyDong
2021-01-25 12:26:50 +08:00
@mwcodenoname
传输每次大概 1M 左右吧,周期的话我们现在是放到消息队列,然后去消费的。
JellyDong
2021-01-25 12:27:52 +08:00
@czfy 应该是不会找供应商的...可以找培训,后续我们自己做...
levelworm
2021-01-25 12:39:17 +08:00
你这个项目不小啊。。。假设五百台,一秒 1MB,一秒就是 0.5GB 。一分钟 30GB,一小时 1.8TB ,一天就是 43TB 。好想做这种项目啊。。。这个规模的数据肯定 Hadoop 跑不了了,其他的我也不懂。。。
czfy
2021-01-25 12:39:20 +08:00
@JellyDong 如果你觉得这是培训可以解决的问题..只能祝你好运
levelworm
2021-01-25 12:39:48 +08:00
@czfy 感觉这种项目经验很宝贵,的确很有意思。。。
czfy
2021-01-25 12:44:55 +08:00
@levelworm 我是在专门做大数据方面解决方案的公司,不是研发侧,但从我日常和客户以及内部沟通的情况来看,从 0 开始做这件事情,基本很难
levelworm
2021-01-25 12:53:00 +08:00
@czfy 我觉得也是,完全没经验的话,靠培训我觉得不是很乐观,即使是有开发经验(但是没有大数据开发经验的),因为大数据环境下很多坑都是新的,而且大概率每个坑很贵,无论是上云还是本地。我们公司是做手游的,数据量也不小,得有一整个团队来支撑。
mwcodenoname
2021-01-25 13:03:32 +08:00
@levelworm 这个规模存 hadoop,然后跑 hive 做离线分析应该是没啥问题的,不过集群规模要比较大了,没有团队和有经验的确实维护不动
levelworm
2021-01-25 13:11:30 +08:00
@mwcodenoname 如果要在线分析的话估计得 Spark 之类的?其实真的好想从头做这么一个项目。。。
JellyDong
2021-01-25 13:13:01 +08:00
@levelworm
@czfy
@mwcodenoname
现在这个项目类似于怎么说呢,科研?对于客户的话也是合作伙伴,是打算一起从头搞的。也可能会考虑找解决方案公司搭建好环境框架,然后后续我们自己维护
mwcodenoname
2021-01-25 13:46:57 +08:00
@levelworm 传统方案一般要做实时分析就是 spark 、flink 这种计算和 hbase 组合吧,不过最近 clickhouse 也很火,这个我就不熟悉了,这种项目光机器成本就不是一般能承受的了的
IceMimosa
2021-01-25 13:47:19 +08:00
1. 数据接收模块:多节点,可以自己写个 web 程序,简单处理下数据和规范格式,然后将数据以日志的方式落地。
2. 日志收集模块:简单点可以用 flume 收集日志,然后发到 kafka
3. kafka 消费模块:用 sparkstreaming,flink 之类的处理框架,将数据落到 hive 中( hdfs )
4. 离线处理:然后起离线任务去处理,可以用 spark,hive 之类的。后面就是数仓干的一些活,每天定时任务可以用 airflow 之类的进行调度。
5. 数据展示模块:将每天调度出来的统计数据,通过 spark 或者 sqoop 之类的导出的关系型数据库,或者干脆直接上 olap 框架。最后对接一些 bi 系统,比如 metabase,superset 等。

总之里面技术比较杂乱,还得考虑每个技术版本的兼容性问题。整个环境搭建起来也挺费事的,当然也有整体的解决方案比如 cdh,hdp 之类的。

相关课程的话,B 站应该有培训的视频,涉及面挺广的,不过学习周期就特别长了。。最好还是有个经验的人带着搞,不然到处都是坑😂
ward56
2021-01-25 14:11:37 +08:00
有幸参与过联通的 Hadoop 大数据,主要存储 GB 以上的数据包,不到半年几十 PB 。
hadoop 适合存储《大》数据,一次写入多次读取,你的数据真的很大吗?
从你目前提供的一点信息来看,你的案例比较适合 ES 框架,至于组件用什么,你得再根据自己具体业务选型。
JellyDong
2021-01-25 14:19:10 +08:00
@IceMimosa 是的 现在是想找那么个人带带,先入门
min
2021-01-25 14:43:46 +08:00
你这数据量不小了,先要把打算怎么分析这些数据搞得清清楚楚,根据分析使用数据的场景再出架构
masterclock
2021-01-25 14:59:05 +08:00
主业就是这方面的东西,说实话公司从 0 做起难度太大,意义也不大,除非是要做这个行业了。
1. 搞定这几百台各种各样设备的数据采集:各种 PLC 、Modbus 、OPC-UA 、哑设备?
2. 考虑网络连接等:以太网、无线、EtherCat 、Ethernet/IP ?
2. 打通企业现有的信息化系统、MES 、ERP ?
2. 理解数据,建立模型:谁来建模、谁来分析?
2. 考虑系统给谁用的,结果是给谁看的:老板、主管、技术人员 ?
JellyDong
2021-01-25 16:04:25 +08:00
@masterclock
可能后续会单独有一批人搞这个的,公司性质本来是产不多算科研性质吧,出了客户外还是有经费的...
不需要打通企业其他的信息化系统,后面的 确实是问题....
Chenamy2017
2021-01-26 09:33:36 +08:00
我们项目两人,然后领导经常嚷着要大数据,看到楼上涉及面很广呀,我也是够了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/748109

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX