最近在研究 NLP,很多模型都是需要对数据进行预处理,进行分句、分词。那么,对于英语来说,目前分句、分词最好的或者比较多人用、效果最佳的是什么包(或者方法)呢?
下面给出个人的猜测:
1
liwl 2019 年 1 月 15 日
jiba
|
2
liwl 2019 年 1 月 15 日
结巴分词
|
3
TotoroSora 2019 年 1 月 15 日 via Android 之前做项目用的 nltk,配合正则做一些细节调整。周围人也基本都在用 nltk。
|
4
EPr2hh6LADQWqRVH 2019 年 1 月 15 日
英语还用分词?逗我?
英语的词是分好的啊,空格就是分词 |
5
SeaRecluse 2019 年 1 月 15 日
英文正则分割最方便,如果效果不好请先清洗数据。
|
6
timle1029 2019 年 1 月 15 日
我觉得楼主说的是 phrase finding 吧,应该是类似于这片文章里介绍的 https://dl.acm.org/citation.cfm?id=1119287
|
7
aREMbosAl 2019 年 1 月 15 日
英语分词什么意思
|
8
SleipniR 2019 年 1 月 15 日 via Android
英语不需要分词,默认空格已经分好了,但是要做词形还原。
|
9
yanaraika 2019 年 1 月 15 日
nltk 不知道高到哪里去了 结巴在技术上是在搞笑吗
|