本来想用 Python 的 pandas 来做一个数据分析,但是对 Python 不太感冒;
数据集不大,就是几十万行;
个人想用 hbase 存储然后用 ElasticSearch 实现来实现聚类等等功能,但是觉得有点大材小用;
想问问大家有什么其他的建议.
1
TimePPT 2017-12-05 15:18:30 +08:00
如果数据量不太大,本地跑跑又图快速干活,个人还是建议用 python pandas 这套,java 好像没见到特别好的简单框架直接拿来用。
网上搜了下,有人推荐这个,没用过,仅供参考 https://github.com/jtablesaw/tablesaw |
2
jowuIM OP @TimePPT tablesaw 不太行,100w-300w 行的数据量还行,但是我试了 2300w 行的数据发现实在是太慢了。还是不得不用 pandas,但是对 python 不是很熟悉,文档看起来真心虐人。
|