V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
daijinming
V2EX  ›  程序员

收集了很多用户咨询的问题,如何采用 Python 提取出最常见的问题那?

  •  
  •   daijinming · 2021-03-17 09:21:57 +08:00 · 1693 次点击
    这是一个创建于 1107 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我采用 jieba 进行了高频词汇的统计,然后再根据 高频词调出包含的问题,但是感觉这样也不是太好。用户问题一般方式不是太一样,但是关键字都是类似的,如何能提出相似度较高的问题,想求教下大家,不吝赐教

    9 条回复    2021-03-17 19:20:50 +08:00
    princelai
        1
    princelai  
       2021-03-17 10:04:53 +08:00
    简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和,最后求余弦距离

    复杂点就 bert 直接整句输入,输出一个 768 维向量,最后还是余弦距离 /Ball-Tree/KD-Tree 这些,无新增直接聚类也应该可以。
    chogath
        2
    chogath  
       2021-03-17 10:17:25 +08:00
    统计学问题
    xiaoxinshiwo
        3
    xiaoxinshiwo  
       2021-03-17 12:10:33 +08:00
    daijinming
        4
    daijinming  
    OP
       2021-03-17 12:59:18 +08:00
    @xiaoxinshiwo 我也是这个感觉,不明觉厉
    daijinming
        5
    daijinming  
    OP
       2021-03-17 13:00:05 +08:00
    @princelai 兄台,理解你说的这话,都需要啥基础
    princelai
        6
    princelai  
       2021-03-17 13:46:13 +08:00
    @daijinming #5 只想了解名词大概意思,学 NLP 三天就够了,要想了解原理怎么也得学 2 月吧
    qW7bo2FbzbC0
        7
    qW7bo2FbzbC0  
       2021-03-17 17:23:05 +08:00
    https://zhuanlan.zhihu.com/p/166499896 我也看到了这个,不知道和 ES 方案比起来如何
    MOONLIGHTT
        8
    MOONLIGHTT  
       2021-03-17 18:58:39 +08:00
    目前深度学习来做文本理解的方案一般是 预训练+finetune,预训练模型里面一般都采用 bert 或者 bert 的变种。

    具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm
    superrichman
        9
    superrichman  
       2021-03-17 19:20:50 +08:00
    用 jiagu 提取关键词试试? 这个应该是最简单的, 就调一个函数

    https://github.com/ownthink/Jiagu
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5238 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 09:38 · PVG 17:38 · LAX 02:38 · JFK 05:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.