V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  huashengshu  ›  全部回复第 1 页 / 共 1 页
回复总数  6
@SummerWQM 讲道理,spark/hadoop 是需要巨大成本的,1000w 一年的量,一个列式数据库就搞定了
1000w 的短 key 也就 1-2G 吧,key 越多,内存膨胀越厉害,可以考虑分桶+hashmap
如果不需要精确值,可以考虑 HyperLogLog、bitmap,redis 也支持这两种数据结构
2018-11-09 18:33:05 +08:00
回复了 kimjxie 创建的主题 酷工作 深圳阿里巴巴 Python 高级开发工程师/专家
后海这边的吧? up↑
2018-11-08 12:54:15 +08:00
回复了 miniyao 创建的主题 Python Whoosh 全文检索有分布式的解决方案吗?
都考虑分布式扩展,直接上 es 了,whoosh 索引文件大了以后效率感人
2018-11-05 12:28:02 +08:00
回复了 songdg 创建的主题 Python 请教为什么不相等
浮点精度损失
顶,OPPO 是家好公司 :-)
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5101 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 05:43 · PVG 13:43 · LAX 21:43 · JFK 00:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.