7 万多条的 json 如何储存检索

2018-12-15 23:07:09 +08:00
 heywin

大概有 700 多个字段吧,总共 70000 多条。有什么好方法能存储及高效检索,以及数据可视化呢。 试过 Mysql, bigquery 好像都不怎么行。 谢谢

3082 次点击
所在节点    程序员
19 条回复
tedd
2018-12-15 23:08:50 +08:00
上 Elastic search ?
tedd
2018-12-15 23:09:25 +08:00
可视化 Elastic 全家福也能搞定
lhx2008
2018-12-15 23:12:09 +08:00
这么少直接导进去 mongo 就好了
Vegetable
2018-12-15 23:13:15 +08:00
json 如果是固定格式的,MySQL 不会不行吧
嵌套的多就 MongoDB 咯,检索效率有保证,但是比较底层需要做的工作比较多.
可视化就是另一个问题了,和储存关系不大,不评论啦
jiezhi
2018-12-15 23:17:46 +08:00
solr?
liprais
2018-12-15 23:19:20 +08:00
spark 处理一遍丢进 mysql,7 万多条很轻松的
heywin
2018-12-15 23:36:24 +08:00
@liprais 多谢,我也想过,太懒了。实在不行就用 PySpark 先搞一下。
jimchen9999
2018-12-15 23:42:22 +08:00
7 万数据就用 spark 你还不如用 Bash
heywin
2018-12-15 23:51:22 +08:00
@jimchen9999 文件有 500 多 M,还是有点费劲。
congeec
2018-12-15 23:54:49 +08:00
700 多个字段是什么意思?
heywin
2018-12-15 23:58:57 +08:00
@congeec 不知道 json 黑话怎么说,键值对。
sagaxu
2018-12-16 00:06:56 +08:00
nuance2ex
2018-12-16 00:16:41 +08:00
70000 多条用 pandas 就可以了

pd.read_json 秒秒钟转好格式,
再直接调用 plt 调好参数函数可视化。

最后,
如果只是自用,可以调用 to_csv 保存
如果想持久话,用 to_sql
koodai
2018-12-16 00:24:07 +08:00
@nuance2ex 你电脑啥配置呀?
500M 加载起来有点费劲的
heywin
2018-12-16 00:28:21 +08:00
@nuance2ex 这个好!!!简单
谢谢
zchlwj
2018-12-16 01:02:28 +08:00
直接 mongo 啊
jimchen9999
2018-12-16 04:12:34 +08:00
500m 用 spark? spark 最起码都是 tb 起步吧
missdeer
2018-12-16 08:12:35 +08:00
mongodb?
sqlite3 也有 json 相关 api 了
还有个 unqlite 好像也有
imNull
2018-12-16 09:00:35 +08:00
临时用的话,我一般都是直接 bash 跑下拿出需要的数据。
不少新点子,mark

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/517922

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX