请教 sentence embedding 模型选择

332 天前
 codingbody

最近想做个中文的问答系统, 大致的流程如下:

问题和对应的答案是固定的,通过 sentence embedding model 把问题转化为向量存储在向量数据库,把用户输入的问题转化为向量并在向量数据库中查询的最匹配的 k 个问题,然后用户选择问题,并返回具体答案。

涉及到 embedding 模型的选择问题, 主要想找一个中文匹配度好的,我在 hugging face 看了模型的排名

https://huggingface.co/spaces/mteb/leaderboard

请教一下我这种场景应该关注模型的什么参数,有不错的模型也可以推荐一下,先谢谢啦。

1065 次点击
所在节点    机器学习
6 条回复
flyingfz
332 天前
flyingfz
332 天前
测试过几个,最后凭感觉选用了
https://huggingface.co/shibing624/text2vec-base-chinese-paraphrase

也在继续探索 。
mteb/leaderboard 的这些指标不懂啊 😂
flyingfz
332 天前
codingbody
332 天前
@flyingfz #2 谢谢,我也在探索探索😂
codingbody
332 天前
@flyingfz #3 这是要自己训练 embedding 模型么
seanlee97
235 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/959544

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX