求微信聊天记录搜索算法的思路

2018 年 12 月 5 日
 xmflswood

今天发现微信的聊天记录搜索算法有点特殊:

例如聊天记录中有 evan69780 这句话

1.搜索 evan 匹配

2.搜索 evan697 匹配

3.搜索 van 不匹配

4.搜索 697 匹配

5.搜索 97 不匹配

请问这是一种什么思路呢?(想必是通过牺牲一定的准确性来提升搜索效率)

3552 次点击
所在节点    程序员
12 条回复
wdv2ly
2018 年 12 月 5 日
就是个 bug 而已
boileryao
2018 年 12 月 5 日
应该是分词+前缀适配
reself
2018 年 12 月 5 日
顶楼上,我也觉得很可能是分词+前缀
ballshapesdsd
2018 年 12 月 5 日
van you see?
mumbler
2018 年 12 月 5 日
97 之于 evan69780 可能权重太低而被过滤了,不如 97 年,1997
337136897
2018 年 12 月 5 日
楼主大佬请问下微信的聊天记录的数据库如何打开。。。
graysheeep
2018 年 12 月 5 日
@337136897 你能打开张小龙直接 500W 请你过去
unsized
2018 年 12 月 5 日
@graysheeep 现在的不知道能不能打开。至少今年 1,2 月份的时候可以。Android
azh7138m
2018 年 12 月 5 日
我猜类似 bitap 这种,取决于 score 怎么给和 token 怎么做

https://en.wikipedia.org/wiki/Bitap_algorithm
rb6221
2018 年 12 月 5 日
xmflswood
2018 年 12 月 5 日
@janus77 感谢!
falsemask
2018 年 12 月 5 日
刚测了一下,对方手机是 iphone,我的是安卓,我搜 van 搜不到,她能搜到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/514501

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX