求教 V 友一个关于大量数据导入及查询的问题

2017-12-25 18:53:19 +08:00
 monway

有个 txt 大约 5G 左右,差不多有 1 亿多条数据,数据的格式为

2312313 123123123 1231231 qqqqqqq iiiii 1111111

请问大神们使用什么技术能实现快速导入及查询呢,需要模糊查询。。。(个人 PC 机处理( mac pro )) 集群什么的搞不起。。。。

1311 次点击
所在节点    数据库
15 条回复
linuxchild
2017-12-25 19:01:40 +08:00
分割了然后导入数据库?

或者单机 spark ?
stiekel
2017-12-25 19:39:11 +08:00
用 elasticsearch 吧,快速上手,查询也快。
stiekel
2017-12-25 19:39:39 +08:00
导入有 logstash。
gouchaoer
2017-12-25 19:56:53 +08:00
5 个 g 而且才一亿条数据,单机 mysql 随便搞
gouchaoer
2017-12-25 19:57:32 +08:00
模糊查询扫表也能扫完吧
zhx1991
2017-12-25 22:32:22 +08:00
es 应该可以
likuku
2017-12-26 02:06:55 +08:00
mac pro 有 16G 内存呢,5G 全放内存了事。
monway
2017-12-26 09:24:25 +08:00
@stiekel 谢谢,我试试
monway
2017-12-26 09:24:41 +08:00
@likuku 以后还有数据呢
monway
2017-12-26 09:24:58 +08:00
@gouchaoer 导入进数据库太慢
monway
2017-12-26 09:28:12 +08:00
@zhx1991 试试,谢谢
annielong
2017-12-26 09:35:03 +08:00
仅仅导入应该快,我现在遇到一个每一条记录要先查询 3 个不同表,如果不存在还要保存 3 次,速度根本提不上去
2ME
2017-12-26 09:47:57 +08:00
txt 分割 分割的区块拼接 sql 直接批量插进去 速度挺快的 确实是单机 mysql 随便搞
gouchaoer
2017-12-26 10:27:21 +08:00
@monway 你直接插入才 5 个 G 的数据很快的啊,用 batch insert 啊
idcspy
2017-12-26 11:41:52 +08:00
请问有不用数据库的方法没,查询速度慢点都行,导入整理太繁琐了,有个火眼金睛大数据,不过限定了特定行业才能试用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417522

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX