V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
gaocc
V2EX  ›  问与答

注意到 V2EX 评论页的一个细节,第一条评论上方的分类是怎么来的?

  •  1
     
  •   gaocc · 2018-03-27 13:42:07 +08:00 · 1561 次点击
    这是一个创建于 2432 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,有点好奇,在第一条评论上方会有几个词语,是文章内容里的,怎么获取的,为什么是这几个?是 lucence 或者 ES 的分词?怎么提取的呢?

    点击还能根据分词的类别进入对应列表,感觉很方便,想了解下,只是思路也行?

    感谢各位 geek

    12 条回复    2018-03-27 16:14:41 +08:00
    gaocc
        1
    gaocc  
    OP
       2018-03-27 13:43:06 +08:00
    比如这次就是分词,评论,V2EX,lucence 这几个关键字
    lllllllllllllll
        2
    lllllllllllllll  
       2018-03-27 13:46:38 +08:00
    应该是从你的问题描述和标题里面 抽出来的关键字。。具体有没有用机器学习算法不清楚。
    gaocc
        3
    gaocc  
    OP
       2018-03-27 13:49:39 +08:00
    @lllllllllllllll ……想了解是怎么抽取和分离的,思路也行
    lllllllllllllll
        4
    lllllllllllllll  
       2018-03-27 13:51:52 +08:00
    @gaocc 语义识别算法吧,很久之前就见过类似的算法。
    SourceMan
        5
    SourceMan  
       2018-03-27 13:53:22 +08:00
    crab
        6
    crab  
       2018-03-27 13:53:50 +08:00
    之前看站长说过用的 jieba
    zakokun
        7
    zakokun  
       2018-03-27 13:54:30 +08:00
    应该就是简单的分词而已,别想太多。
    zxy
        8
    zxy  
       2018-03-27 13:56:25 +08:00
    关于 V2EX 新的自动打标签功能 /t/96918
    gaocc
        9
    gaocc  
    OP
       2018-03-27 14:07:34 +08:00
    @SourceMan 你发的这个,我测试了下有毒啊。标题用默认的苹果新闻,内容全删了,然后在 v2 里找一篇文章复制上去,没一个关键字和文章内容有关,全是苹果啥啥的
    gaocc
        10
    gaocc  
    OP
       2018-03-27 14:08:55 +08:00
    @zxy 这好像是正解……我了解下,感谢
    Tink
        11
    Tink  
       2018-03-27 14:11:40 +08:00 via iPhone
    jieba
    gaocc
        12
    gaocc  
    OP
       2018-03-27 16:14:41 +08:00
    求问,jieba 只能用 python 来写吗? java 可以吗?
    如果不行,java 用什么可以代替 jieba
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2793 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 02:33 · PVG 10:33 · LAX 18:33 · JFK 21:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.