7 万多条的 json 如何储存检索

大概有 700 多个字段吧，总共 70000 多条。有什么好方法能存储及高效检索，以及数据可视化呢。试过 Mysql, bigquery 好像都不怎么行。谢谢

lhx2008

2018-12-15 23:12:09 +08:00

这么少直接导进去 mongo 就好了

Vegetable

2018-12-15 23:13:15 +08:00

json 如果是固定格式的,MySQL 不会不行吧
嵌套的多就 MongoDB 咯,检索效率有保证,但是比较底层需要做的工作比较多.
可视化就是另一个问题了,和储存关系不大,不评论啦

liprais

2018-12-15 23:19:20 +08:00

spark 处理一遍丢进 mysql,7 万多条很轻松的

heywin

2018-12-15 23:36:24 +08:00

@liprais 多谢，我也想过，太懒了。实在不行就用 PySpark 先搞一下。

jimchen9999

2018-12-15 23:42:22 +08:00

7 万数据就用 spark 你还不如用 Bash

heywin

2018-12-15 23:51:22 +08:00

@jimchen9999 文件有 500 多 M，还是有点费劲。

heywin

2018-12-15 23:58:57 +08:00

@congeec 不知道 json 黑话怎么说，键值对。

nuance2ex

2018-12-16 00:16:41 +08:00

70000 多条用 pandas 就可以了

pd.read_json 秒秒钟转好格式，
再直接调用 plt 调好参数函数可视化。

最后，
如果只是自用，可以调用 to_csv 保存
如果想持久话，用 to_sql

koodai

2018-12-16 00:24:07 +08:00

@nuance2ex 你电脑啥配置呀？
500M 加载起来有点费劲的

heywin

2018-12-16 00:28:21 +08:00

@nuance2ex 这个好！！！简单
谢谢

jimchen9999

2018-12-16 04:12:34 +08:00

500m 用 spark? spark 最起码都是 tb 起步吧

missdeer

2018-12-16 08:12:35 +08:00

mongodb?
sqlite3 也有 json 相关 api 了
还有个 unqlite 好像也有

imNull

2018-12-16 09:00:35 +08:00

临时用的话，我一般都是直接 bash 跑下拿出需要的数据。
不少新点子，mark

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.