每天几百 G 的数据, 有什么好的办法管理, 比如 k8s?

2019-06-14 15:49:49 +08:00
 DinoStray

数据都是一条一条的, 比如 user:123, hash:123

彼此之间没有联系.

然后会写入文件, 目前每天 400 G 的数据, 通过定时脚本上传到阿里云 OSS.

写入文件既是为了持久化, 也是为了其他组件读取数据出分析统计结果.

最近一年内数据膨胀很厉害, 已经从单日 40G 快速涨到了现在 400G, 预计后续还会持续上涨.

所以目前想改进一下方案.

大家有什么推荐么. 最好是基于 k8s, 能跨阿里云 google 云实现的.

我的需求关键字应该是

  1. 持久化数据

  2. 数据可供消费

持久化的时间需求应该是半年

3560 次点击
所在节点    程序员
16 条回复
gz911122
2019-06-14 15:53:00 +08:00
写入数仓呗

这跟 k8s 没什么关系吧

阿里云有个 odps
xlent
2019-06-14 16:06:23 +08:00
阿里云的 sls,直接当日之存呢,也能消费
snappyone
2019-06-14 16:12:02 +08:00
跟 k8s 有啥关系,跨 google 阿里云这个也很迷啊
snappyone
2019-06-14 16:13:32 +08:00
另外这个需求挺适合 kafka 的
lihongjie0209
2019-06-14 16:16:03 +08:00
和 k8s 有什么关系?
pmispig
2019-06-14 16:18:45 +08:00
先部署一个 k8s 再部署一个 es ?
ai277014717
2019-06-14 16:25:49 +08:00
感觉没什么好改进的。可以尝试先消费数据?
fireapp
2019-06-14 17:04:09 +08:00
minio 走起,压缩 + 序列化
jingxyy
2019-06-14 18:36:22 +08:00
这么大的量 又有 olap 的消费需求 还是好好搞搞大数据那一套吧
petelin
2019-06-14 18:49:24 +08:00
@snappyone 这个应该不适合 一不需要多 replica 二不需要频繁读
压缩传到一个文件系统就完事了
hihipp
2019-06-14 19:01:48 +08:00
看楼主描述,每天文本数据并不是实时消费掉。

压缩文本数据,能节约好多空间,后续消费时只多了解压步骤。

压缩我推荐用 rar,设置恢复记录!!!
goodryb
2019-06-14 19:14:29 +08:00
压缩上传 oss,然后 odps 创建外部表,数据源就是 oss

如果不是经常查询老数据,可以设置定期转成归档存储,半年后自动删除
ColinZeb
2019-06-14 19:25:50 +08:00
@hihipp rar 压缩性能好点,但 7z 支持多线程比 rar 好
tyoung
2019-06-14 21:12:11 +08:00
MySQL+TokuDB 存储引擎,可以压缩 5 到 10 倍存储
Giny
2019-06-14 22:07:24 +08:00
emmm 跟 k8s 有关系 又是类似与键值对的形式 抱歉,我只能想到 etcd
luozic
2019-06-15 06:58:56 +08:00
键值对 ?还是啥值都有? key:value 的 es 集群一天 400G 没多少,Postgres 也能塞。 其他的 请搜大数据咋存的我。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/573976

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX