目前 NLP 中,对英语进行分句、分词,最佳体验是哪种?

2019-01-15 10:02:31 +08:00
 yzc27

最近在研究 NLP,很多模型都是需要对数据进行预处理,进行分句、分词。那么,对于英语来说,目前分句、分词最好的或者比较多人用、效果最佳的是什么包(或者方法)呢?

下面给出个人的猜测:

  1. nltk
  2. spacy
  3. 正则分割
  4. 暴力用.分句;用空格分词 ...
4173 次点击
所在节点    问与答
10 条回复
liwl
2019-01-15 10:38:35 +08:00
jiba
liwl
2019-01-15 10:38:58 +08:00
结巴分词
TotoroSora
2019-01-15 10:41:38 +08:00
之前做项目用的 nltk,配合正则做一些细节调整。周围人也基本都在用 nltk。
EPr2hh6LADQWqRVH
2019-01-15 10:43:06 +08:00
英语还用分词?逗我?

英语的词是分好的啊,空格就是分词
SeaRecluse
2019-01-15 10:43:58 +08:00
英文正则分割最方便,如果效果不好请先清洗数据。
timle1029
2019-01-15 10:59:58 +08:00
我觉得楼主说的是 phrase finding 吧,应该是类似于这片文章里介绍的 https://dl.acm.org/citation.cfm?id=1119287
aREMbosAl
2019-01-15 12:10:13 +08:00
英语分词什么意思
SleipniR
2019-01-15 12:34:18 +08:00
英语不需要分词,默认空格已经分好了,但是要做词形还原。
yanaraika
2019-01-15 12:36:00 +08:00
nltk 不知道高到哪里去了 结巴在技术上是在搞笑吗
yzc27
2019-01-15 18:58:02 +08:00
@liwl 結巴不是只針對中文的嗎?我個人只是聽說過結巴,沒去詳細了解。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/527126

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX