收集了很多用户咨询的问题,如何采用 Python 提取出最常见的问题那?

2021-03-17 09:21:57 +08:00
 daijinming

我采用 jieba 进行了高频词汇的统计,然后再根据 高频词调出包含的问题,但是感觉这样也不是太好。用户问题一般方式不是太一样,但是关键字都是类似的,如何能提出相似度较高的问题,想求教下大家,不吝赐教

1827 次点击
所在节点    程序员
9 条回复
princelai
2021-03-17 10:04:53 +08:00
简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和,最后求余弦距离

复杂点就 bert 直接整句输入,输出一个 768 维向量,最后还是余弦距离 /Ball-Tree/KD-Tree 这些,无新增直接聚类也应该可以。
chogath
2021-03-17 10:17:25 +08:00
统计学问题
xiaoxinshiwo
2021-03-17 12:10:33 +08:00
daijinming
2021-03-17 12:59:18 +08:00
@xiaoxinshiwo 我也是这个感觉,不明觉厉
daijinming
2021-03-17 13:00:05 +08:00
@princelai 兄台,理解你说的这话,都需要啥基础
princelai
2021-03-17 13:46:13 +08:00
@daijinming #5 只想了解名词大概意思,学 NLP 三天就够了,要想了解原理怎么也得学 2 月吧
qW7bo2FbzbC0
2021-03-17 17:23:05 +08:00
https://zhuanlan.zhihu.com/p/166499896 我也看到了这个,不知道和 ES 方案比起来如何
MOONLIGHTT
2021-03-17 18:58:39 +08:00
目前深度学习来做文本理解的方案一般是 预训练+finetune,预训练模型里面一般都采用 bert 或者 bert 的变种。

具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm
superrichman
2021-03-17 19:20:50 +08:00
用 jiagu 提取关键词试试? 这个应该是最简单的, 就调一个函数

https://github.com/ownthink/Jiagu

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/762328

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX