V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
akfish
V2EX  ›  分享创造

撸了一个 SAE 上的中文关键字提取服务,TF-IDF 算法

  •  1
     
  •   akfish ·
    akfish · 2014-08-31 07:13:44 +08:00 · 6023 次点击
    这是一个创建于 3497 天前的主题,其中的信息可能已经有所发展或是发生改变。

    使用的SAE的中文分词服务,关键字提取算法用的TF-IDF,语料库来自教育部的语料库在线。
    SAE的中文分词服务只能从SAE访问,服务端需要部署在SAE上。
    参数未细调,大概测试了下基本上靠谱,后面项目里用上了再调。

    链接:
    * Blog
    * Demo
    * GitHub - Seger Demo
    * GitHub - Seger

    6 条回复    2014-08-31 16:05:51 +08:00
    andybest
        1
    andybest  
       2014-08-31 07:32:26 +08:00
    词库不太全,比如:中秋发福利:开发者专属定制 Coding 月饼!

    中秋,专属 没有正确的分词
    akfish
        2
    akfish  
    OP
       2014-08-31 07:43:20 +08:00
    @andybest 显示的只是关键词,不是完整的分词。
    SAE分词的词性分得太细了,权重还没细调,“中秋”词性为“时间专指”,显然我漏掉了。
    ChanneW
        3
    ChanneW  
       2014-08-31 12:48:41 +08:00
    部署在 SAE 上的程序把接口留出来不就哪里都能用了么
    akfish
        4
    akfish  
    OP
       2014-08-31 14:54:53 +08:00 via iPad
    @ChanneW 就是这样搞的
    dbbbit
        5
    dbbbit  
       2014-08-31 15:37:27 +08:00
    @akfish
    权重加的是否太暴力了。
    动词,名词,形容词, 副词之外权重都为 0?
    SAE 的分词确实好细,100+的词性
    akfish
        6
    akfish  
    OP
       2014-08-31 16:05:51 +08:00
    @dbbbit 看了几篇文献,权重基本上都是这么暴力,主要的考虑是其它词性的词大多是对内容没贡献的虚词、高频词,如果不过滤掉估计也得逐步加进停止词列表。
    看到的文献里大多没有把词性分得像SAE这么细,所以其实名词、动词、形容词、副词基本上就能涵盖大部分有效内容了。
    于是现在就要tweak那100+词性的权重,目前的实现肯定是漏了些,比如1L提到的时间专指词“中秋”。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3942 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 10:22 · PVG 18:22 · LAX 03:22 · JFK 06:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.