V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Reign
V2EX  ›  程序员

除了中文分词,英文有没有相关分词的 API 或者开源软件?

  •  
  •   Reign · 2017-02-15 22:02:42 +08:00 · 4695 次点击
    这是一个创建于 2867 天前的主题,其中的信息可能已经有所发展或是发生改变。

    英文的分词也不只是用空格分开那么简单,比如: The golden gate bridge is located in San Francisco ,这句话如果简单的用空格 explode 的话,最终会将“ golden gate bridge ”以及“ San Francisco ”给分拆开来而失去原有的意义,有没有这方面英文词组相关的分词 api 或者开源程序?

    13 条回复    2020-11-16 19:33:24 +08:00
    knightdf
        1
    knightdf  
       2017-02-15 22:16:14 +08:00
    你想多了,这已经不是简单的分词了,是 entity extraction 了
    ligyxy
        2
    ligyxy  
       2017-02-15 22:24:35 +08:00 via Android
    second order phrase model
    yangyaofei
        3
    yangyaofei  
       2017-02-15 22:27:23 +08:00 via Android
    @knightdf 这不是 n-gram 么……
    neurocomputing
        4
    neurocomputing  
       2017-02-15 22:28:28 +08:00
    stanford 有开源的 NLP 包
    slixurd
        5
    slixurd  
       2017-02-15 22:30:58 +08:00
    所以一般英文处理的时候会保留位置信息...
    knightdf
        6
    knightdf  
       2017-02-15 22:32:16 +08:00
    @yangyaofei n-gram 只是方法
    knightdf
        7
    knightdf  
       2017-02-15 22:37:54 +08:00
    @knightdf 我说 extraction 也不对,应该叫 recognition
    cszeus
        8
    cszeus  
       2017-02-16 03:15:04 +08:00
    是想做 named entity recognition 还是 tokenization?
    cszeus
        9
    cszeus  
       2017-02-16 03:16:14 +08:00
    反正可以看看 standford 的 http://nlp.stanford.edu/software/CRF-NER.shtml#Starting 或者 NLTK
    freeman
        10
    freeman  
       2017-02-16 09:02:45 +08:00
    还有那种没有空格的,比如: goldnecklace(gold necklace)
    holajamc
        11
    holajamc  
       2017-02-16 14:54:39 +08:00
    斯坦福的 CoreNLP ,如果是 Java 程序员的话可以直接用,也可以配合 Python NLTK ,另外连续相同的单词首字母大写可以划分为一个词咩(逃
    liyu4
        12
    liyu4  
       2017-02-16 17:20:19 +08:00
    wocao ,英文分词你还要怎么样!
    BarryLu
        13
    BarryLu  
       2020-11-16 19:33:24 +08:00
    您好!请问一下,这个分词需求您后来用什么解决了?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 23:12 · PVG 07:12 · LAX 15:12 · JFK 18:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.