如何实现一篇英文文章分割成一个一个的句子？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 3765 days ago, the information mentioned may be changed or developed.

英语一般句子都是以(.) 或 (?) 或 (!) 结尾的(先不考虑引号)，可是英语里面有好多缩写也使用了(.)，如果直接使用(.) 或 (?) 或 (!) 分割文章的话，好多缩写使用(.)的地方也会被误分割了。目前我的思路是先用正则将已知的缩写里的(.)转化为一个特殊的标记，如(#)，等分割完后再转化回来。可是缩写太多了，比如说什么地名或者姓名之类的，例如 U.S.A. ，在输入文章之前是不可知的，就很难将规则写进去，也无法找到一个列表，列出英文的常用的带有(.)的缩写。想问下 v 友，有没有现成的工具之类的，可以实现文章的分割？或者有什么比较好的思路？实在不行的话，只能尽量写进去过滤缩写的规则，然后再人工检查了。

缩写

分割

文章

句子

17 replies • 2020-08-12 17:53:57 +08:00

qiayue

PRO

Jan 8, 2016 via Android

点空格当做分割符

lovez

Jan 8, 2016

@qiayue Mr. aaa 之类的，也不行的，而且如果录入的文章，也不能保证点后面有空格。

DuckJK

Jan 8, 2016

那么，这样可以不，根据单词数量或者长度来分割(.)，符合长度的才分割。

qiayue

PRO

Jan 8, 2016 via Android

中文没有任何空格都能搞定分词，英文肯定有相关的算法，你找找，没必要自己想算法。

lovez

Jan 8, 2016

@DuckJK 也有只有一个单词的话呀 0.0

hahastudio

Jan 8, 2016

有可能得上自然语言分析之类的工具了，比如 Python 和 NLTK ：
http://stackoverflow.com/questions/9474395/how-to-break-up-a-paragraph-by-sentences-in-python
http://textminingonline.com/dive-into-nltk-part-ii-sentence-tokenize-and-word-tokenize

如果自己实现的话，我猜就需要这样了：
0. 现有一个用标点结尾的词库 ("Mr."，"Dr."）
1. 找到所有语句终结的标点
2. 往前看一个词，如果在词库里，就忽略这个标点
3. 按剩下的标点分句

hahastudio

Jan 8, 2016

https://en.wikipedia.org/wiki/Sentence_boundary_disambiguation

lovez

Jan 8, 2016

@qiayue 中文分词那个太高级了吧，那个我再接着 google 一下。我刚刚又查了一些，貌似是英语的要求有标点符号后要空格，句点空格做分割应该可以进一步，但还是不能完全解决问题。