除了中文分词,英文有没有相关分词的 API 或者开源软件?

2017-02-15 22:02:42 +08:00
 Reign

英文的分词也不只是用空格分开那么简单,比如: The golden gate bridge is located in San Francisco ,这句话如果简单的用空格 explode 的话,最终会将“ golden gate bridge ”以及“ San Francisco ”给分拆开来而失去原有的意义,有没有这方面英文词组相关的分词 api 或者开源程序?

4670 次点击
所在节点    程序员
13 条回复
knightdf
2017-02-15 22:16:14 +08:00
你想多了,这已经不是简单的分词了,是 entity extraction 了
ligyxy
2017-02-15 22:24:35 +08:00
second order phrase model
yangyaofei
2017-02-15 22:27:23 +08:00
@knightdf 这不是 n-gram 么……
neurocomputing
2017-02-15 22:28:28 +08:00
stanford 有开源的 NLP 包
slixurd
2017-02-15 22:30:58 +08:00
所以一般英文处理的时候会保留位置信息...
knightdf
2017-02-15 22:32:16 +08:00
@yangyaofei n-gram 只是方法
knightdf
2017-02-15 22:37:54 +08:00
@knightdf 我说 extraction 也不对,应该叫 recognition
cszeus
2017-02-16 03:15:04 +08:00
是想做 named entity recognition 还是 tokenization?
cszeus
2017-02-16 03:16:14 +08:00
反正可以看看 standford 的 http://nlp.stanford.edu/software/CRF-NER.shtml#Starting 或者 NLTK
freeman
2017-02-16 09:02:45 +08:00
还有那种没有空格的,比如: goldnecklace(gold necklace)
holajamc
2017-02-16 14:54:39 +08:00
斯坦福的 CoreNLP ,如果是 Java 程序员的话可以直接用,也可以配合 Python NLTK ,另外连续相同的单词首字母大写可以划分为一个词咩(逃
liyu4
2017-02-16 17:20:19 +08:00
wocao ,英文分词你还要怎么样!
BarryLu
2020-11-16 19:33:24 +08:00
您好!请问一下,这个分词需求您后来用什么解决了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/340752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX