Python whoosh 如何优化加速

2020-09-04 11:32:13 +08:00
 lixuda

第一次使用 whoosh 数据量 300 万条,索引后 1.5G 文件

根据文档查询,时间经常需要 7 秒以上,问问大神如何加速优化下?感谢

    ix = open_dir("indexdir")
    with ix.searcher() as searcher:
        myquery = Term("subject", "关键词")
        results = searcher.search(myquery,limit=10)
        for result1 in results:
            print(dict(result1))
        
3515 次点击
所在节点    Python
22 条回复
JasperYanky
2020-09-04 11:37:11 +08:00
上 es
wzw
2020-09-04 14:23:22 +08:00
我是自己写,全部放内存,用 fastapi
lixuda
2020-09-04 15:47:08 +08:00
@wzw 能参考下吗?
小白用户,放内存怎么写?
wzw
2020-09-04 15:58:21 +08:00
@lixuda #3 你看看 expiringdict 我这个方法也有不好的地方, 好的地方是 快!
sylvos
2020-09-04 17:01:57 +08:00
expiringdict 怎么用,有多快
lixuda
2020-09-04 17:06:19 +08:00
@wzw https://github.com/mailgun/expiringdict 这个?字典缓存?能否再详细点,非常感谢
zhuangzhuang1988
2020-09-04 17:10:16 +08:00
pypy??
whoosh 反正是纯 python 的.
lixuda
2020-09-04 17:25:25 +08:00
@zhuangzhuang1988 主要是想确认,是我使用的不对,还是本来就是这么慢。
nooper
2020-09-04 22:29:49 +08:00
2016 那都不维护了,你用它干啥。
lixuda
2020-09-05 09:38:59 +08:00
@nooper 图它简单方便
nonduality
2020-09-05 14:38:12 +08:00
或许你可以看下 whoosh 的索引数据结构,然后把它改为使用 diskcache 或 redis 做缓存后端。
nonduality
2020-09-05 14:42:28 +08:00
如果你在 Django 下使用 Whoosh,可以试下 Haystack (改起来应该很快),看是不是也这么慢,是否存在不恰当使用的地方。

如果还是很慢,但又不喜欢 ES 太重,可以考虑用 Xapian 做引擎,不过它对中文分词的支持会有点麻烦,知道怎么搞的话麻烦告诉下我。
lixuda
2020-09-05 15:01:10 +08:00
@nonduality 现在用 flask+whoosh,目前测试下来,20 万条在 1-3 秒,200 万,就 7 秒以上
nonduality
2020-09-05 15:04:58 +08:00
@lixuda Whoosh 有个支持 GAE blobstore 的索引后端,原则上在它基础上改出一个支持 Diskcache 后端的的不太难( Diskcache 很不错,用磁盘做缓存,速度跟 redis 相当)
nonduality
2020-09-05 18:56:49 +08:00
@lixuda 经过搜索,发现有篇文章「用 xapian 跟 mmseg 实现中文搜索」的方案很好

Xapian 比 Whoosh 快 4 倍到 60 倍,上亿条数据几秒内就能搞定,建议你试试
yucongo
2020-09-06 21:28:02 +08:00
elasticsearch 吧,秒搜,也就 1G 硬盘需求
nonduality
2020-09-07 12:07:25 +08:00
我已经改好出来一个基于 xapian 的搜索引擎,速度确实快很多。
lixuda
2020-09-07 13:18:25 +08:00
@nonduality 能否分享下?
nonduality
2020-09-07 13:40:22 +08:00
@lixuda 我的是配合 django haystack 的 xapian 后端。你可以根据「用 xapian 跟 mmseg 实现中文搜索」这篇文章改,我用的是 jieba 分词,用起来还比较方便。
mcds
2020-09-07 15:11:56 +08:00
时间应该都花在 open_dir 上了吧?把它做成 web 服务常驻内存就好,我现在索引文件大概在 700m 左右,查询时间 0.1s 左右

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/704151

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX