Java 有没有轻量级的跟大数据的统计、排序、缓存等这些关键字相关的高性能框架？

抛开大数据本身那些什么 hadoop 、spark 的不谈，那些都太重量级，比如我面临的场景也就几十万，几百万，顶多千万的数据，有什么相关的轻量级框架去处理这些吗？比如我了解的有 springbatch 框架，但好像不支持各个维度的统计各种自定义排序啥的，也不支持从大量数据中快速检索等，就是支持大量数据一边读一边写而已。老哥们有了解其他的流行的或小众的开源框架吗，欢迎推荐，多谢！

zoharSoul

2021-07-29 18:06:34 +08:00

轻量级不需要这些框架

几十万还处理个毛的大数据. mysql 直接就扛了

arbit

2021-07-29 18:07:59 +08:00

现在用的 mongodb，一个大表 collection 也有上亿数据，根据业务建好对应字段索引，感觉检索和排序的速度可以满足系统要求

potatowish

2021-07-29 18:17:09 +08:00

上 es

chendy

2021-07-29 18:43:03 +08:00

几千万 db 就搞定了

nanjingwuyanzu

2021-07-29 19:25:07 +08:00

我理解楼主的意思应该是处理，高性能框架。更什么数据库没啥关系

ikas

2021-07-29 19:36:09 +08:00

矛盾...大数据,轻量级,除非是做 ppt

young1lin

2021-07-29 19:38:05 +08:00

就用 Spring Batch 就行了，几千万数据自定义排序什么的，上 Es 。Spring Batch 官网学不到什么，还得看《 Spring Batch 权威指南》，而且这个好像是 Pivotal 团队贡献了 JSR 352 的规范，有能力的话可以把这个搭配下 Velocity 之类的模版框架，开源个 DashBoard 出来。这个 Spring Cloud Data Flow 我用了，我还提了个 issue，有代理会启动不了，Spring Batch Admin 已经不维护了，Spring Cloud Data Flow 官方就是强推 Maven 仓库 + K8s，本地启动，有点麻烦。

GrayXu

2021-07-29 20:19:17 +08:00

@ikas +1 轻量级就别叫大数据了。单点的统计排序的策略也很多。

zhenjiachen

2021-07-29 20:55:42 +08:00

apache flink ？可以 main 方法直接运行

littlewing

2021-07-30 00:10:54 +08:00

这点数据量放内存里暴力搜索没啥区别

zmzeng12

2021-07-30 08:21:10 +08:00

用 spark 就行，不需要部署，执行时候会自动在本地拉起 standalone 部署，运行结束后自动销毁。

abcbuzhiming

2021-07-31 11:20:44 +08:00

没有，Java 拖着一个虚拟机就不可能轻量，数据量小建议直接搞个脚本语言开搞，重型框架只有数据量足够大的时候才有价值

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/792526

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.