几万条数据中找所有带某个字符串的记录怎么找比较快?

lz 这方面是个小白，现在一个项目有 1 万条数据，举个例子，地址：浙江省杭州市拱墅区天翼路等。我想把所有地址含有拱墅区这三个字的记录筛选出来。我原来是很傻地用一个 list 装，一个个找。现在想着，数据量大了，用数据库存然后找会不会更快？我试了下，用 list 一个个找约有 6ms，但是对数据库不大熟，有经验地老哥指点下怎么存怎么找快一点?

codehz

2021-04-09 20:44:11 +08:00

（如果只是匹配字符串的话，可以先分词，然后做词向量的方法处理。。。
但是考虑到这里似乎和地理位置相关，这个方法可能不太够用

yusheng88

2021-04-09 20:49:18 +08:00

kmp 算法，ac 自动机; 根据自己需求，选择 NFA 算法或 DFA 算法

xarthur

2021-04-09 21:00:46 +08:00

这个数量才多少点……算你一条 15 个字，用 UTF-8 编码，汉字三个字节。一万条数据才 439.45KB……

samohyes

2021-04-09 21:20:10 +08:00

@xarthur 我这情况比较特殊，6ms 对我来说已经占了我所用的一次整个流程的一半了。。。我得把这个时间再缩短下。。

xarthur

2021-04-09 21:49:54 +08:00

@samohyes 6ms 占了流程的一半……你整个流程才 12ms 啊。如果只是偶尔调用也不慢啊。

aec4d

2021-04-09 22:51:50 +08:00

最容易，最好理解的方法是 n-gram，空间换时间，比如 abc 分成 abc,ab,bc,a,b,c 放到字典里面，查询效率是 O(1)

dawangyezi

2021-04-09 22:56:10 +08:00

先分词，建立倒排索引，然后再找就快了。和检索引擎一个原理。也可以直接用数据库的全文检索插件做

billlee

2021-04-09 23:37:28 +08:00

1 万条数据，如果在意的是延迟，用数据库显然是不行的，一个网络 RTT 都要几毫秒了。
这种这是多个字符串搜索单个词，没有什么太好的优化方法了。要优化应该要从内存访问方面着手了，比如把链表改成连续内存。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/769573

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.