怎么搭建一个大数据分析平台呢?想搭建一个自用的平台,数据量也不是很大 5T 左右吧

2018-02-05 22:29:12 +08:00
 jahan

现在想如何才能搭建一个大数据平台呢?有没有文档可以参考? 数据库都文本形式的, 有没有可视化的数据分析工具呢?拖动组件实现分析?

5479 次点击
所在节点    数据库
96 条回复
liyer
2018-02-07 14:57:54 +08:00
elasticsearch 的主要功能是用作搜索引擎
如果你只需要对 rawdata 进行分析,用可视化工具就可以了。
推荐 Microsoft power BI, 支持超多种数据格式,包括 txt 文本和 log 文件。
jahan
2018-02-07 15:28:39 +08:00
@liyer 基本上是对格式化的文本进行处理。觉得这样子能够减少建库搭台的麻烦。
elk 这种确实挺好的,看了下文档,问题是变化都太快了,官方的 document 都没有很仔细的写部署方案啊,网上的一堆都已经是过时了,(一个 head 就 plugin 了好久,发现其实早在 5.x 就不支持了)
求教一个能够比较完整搭建 elk 环境的文档位置。
power BI 也在试用。
defunct9
2018-02-07 15:35:02 +08:00
jahan
2018-02-07 15:54:10 +08:00
@defunct9 非常感谢。非常详细的参考,不过这个加载 head 的方法已经失效了,5.x 之后就不再支持了。
组件之间的变化太快了。
defunct9
2018-02-07 15:58:54 +08:00
@jahan 是你要用最新的啊。那就得看最新的文档。你退回一个版本,这个方法还没失效
vanvesee
2018-02-07 17:54:02 +08:00
自己用还是临时工程啊? 取决于手头的 Money...
如果团队小,建议用云端服务做数据存储和处理,需要分析的数据拉取后做自助分析( BI 工具:帆软、Tableau 等)。
否则硬件投入不算,后期的运维成本其实挺大的,当然你说这都不是事、动手能力强,那你就自己捣鼓也行。
jahan
2018-02-07 20:55:25 +08:00
@vanvesee 万事自己倒腾时间成本也很高。
不是临时工程,不过预算也有限。
所以想找一个比较成熟的方案(学习路经)。减少时间成本,硬件成本。
fireapp
2018-02-07 21:32:19 +08:00
先清洗能砍掉一多半数据,再丢进 druid 直接合并压缩到 1 / 3,最后数据量 1t 左右,秒级查询,理论上可行
前期清洗用 drill,批清洗就行,不用定义结构直接 sql 就是干,硬件的话 16 ~ 32G 内存,6 ~ 8T 硬盘的台式机就行了
不用上 hadoop,维护麻烦
jahan
2018-02-08 02:10:12 +08:00
@defunct9 搭过 600 台的集群,一开始做试验的时候用的 saltstack 的脚本,自动部署,两个 namenode,一个 hue+hive+pig+管理,三个 zookeeper+journalnode,3 个 datanode,用的 cloudera。没整理文档。没什么难度=================================
请教一下 saltstack 脚本哪里可以找到?谢谢。
jahan
2018-02-08 02:16:30 +08:00
@fireapp 非常感谢提供思路。不过 5t 已经是清洗过的数据了。elk 的方案也是类似直接 rawdata 开干。hadoop 的好处是有个地方保存,不过开始设计文件目录也是比较麻烦的事儿。
defunct9
2018-02-08 09:10:11 +08:00
@jahan 得自己写,让我帮忙搭也没问题。
defunct9
2018-02-08 09:57:22 +08:00
@jahan http://www.54tianzhisheng.cn/2017/09/09/Elasticsearch-install/ 新版的 es 和 head 安装,写的很不错
idcspy
2018-02-08 18:53:10 +08:00
火眼金睛个人破案神器中国的 I2
月光宝盒智能清洗数据团队协作分析
天罗地网大数据+机器智能+人脑智慧海量数据挖掘
jahan
2018-02-08 20:41:24 +08:00
@defunct9 非常感谢,少不了要请教你。
上面提供的链接也非常有用,准备先 elk 试试。
jahan
2018-02-08 20:43:53 +08:00
@idcspy 你这回复这么幽默,要我怎么回答呢,谢谢鼓励(挖苦)吧。如果再实在点透露点细节那就更好了。

感谢大家提供的信息,非常有价值。
idcspy
2018-02-09 10:48:23 +08:00
我没说清楚,你也没看懂,是个情报分析软件,就叫火眼金睛,摆渡任何一行就知道了,不过这软件不针对个人,有点麻烦.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/428727

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX