我这个需求 适合用 clickhouse 吗

42 天前
BuGoooo  BuGoooo

目前大概有 10 亿条数据(陆续还会继续增加),就两个字段一个用户编码(随机的) 一个姓名。 我现在想做模糊匹配查询手机号做毫秒级的返回,比如输入编码后 3 位置后 4 位这些条件来输出所有编码一样的用户出来,用 clickhouse 合适吗

3110 次点击
所在节点   程序员  程序员
33 条回复
raycool
raycool
42 天前
用 ES 合适吧?
xausky
xausky
42 天前
如果都是后 N 位的话直接数据库索引就可以优化,如果是任意 N 位 PGSQL 的话可以用 pg_trgm
yudoo
yudoo
42 天前
非常合适啊 也好部署,数据压缩比较好对内存要求比较低
silentsky
silentsky
42 天前
合适
8355
8355
42 天前
es 成本更低
gazi
gazi
42 天前
es 更合适。
clickhouse 的任意位置模糊匹配查询很费劲
bronyakaka
bronyakaka
42 天前
搜索需求 毫无疑问是 es
root71370
root71370
42 天前
@8355 大家不都说 clickhouse 的成本要比 es 低吗?
mark2025
mark2025
42 天前
pgsql 的 FTS 搜索可以满足需求
NotLongNil
NotLongNil
42 天前
需要你再具体描述下你的搜索场景,是固定按后 3 位搜索?还是后 4 位?还是随机长度?
cobbage
cobbage
42 天前
Pika
me1onsoda
me1onsoda
42 天前
这么简单的需求 pg 其实就可以,支持表达式索引
levelworm
levelworm
42 天前
好奇一把,十个亿存储量多大?
spritecn
spritecn
42 天前
感觉,这个活普通 mysql 就能搞定啊,不要被各种教程说 2000 万以上 mysql 撑不住说法给忽悠
13240284671
13240284671
42 天前
@spritecn 模糊搜索呢,你用 mysql 搜试下,搜一次几分钟
silentsky
silentsky
42 天前
@spritecn 怎么想的 这个得看业务需要 如果数据分析那肯定不用 mysql 存储成本也高
lasuar
lasuar
42 天前
@spritecn #14 亿级模糊搜索超出 mysql 的能力范畴了,早点上专业的更合适。
homewORK
homewORK
42 天前
不适合
clickhouse 更适合的是时序 + 数据处理任务的数据
很明显你这个不是,只是查找。es 可能更合适,或者折腾一下 mysql 等
cosen
cosen
42 天前
应该问题不大,把后 3 位或后 4 位设计成分区,最多也就 1w 个分区,这样查数据也不会全表扫,可以试试
telemsg
telemsg
42 天前
各位需求都没明白吧(我反正是没有看懂) 就开始说技术了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111791

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX