英语一般句子都是以(.) 或 (?) 或 (!) 结尾的(先不考虑引号),可是英语里面有好多缩写也使用了(.),如果直接使用(.) 或 (?) 或 (!) 分割文章的话,好多缩写使用(.)的地方也会被误分割了。目前我的思路是先用正则将已知的缩写里的(.)转化为一个特殊的标记,如(#),等分割完后再转化回来。可是缩写太多了,比如说什么地名或者姓名之类的,例如 U.S.A. ,在输入文章之前是不可知的,就很难将规则写进去,也无法找到一个列表,列出英文的常用的带有(.)的缩写。想问下 v 友,有没有现成的工具之类的,可以实现文章的分割?或者有什么比较好的思路?实在不行的话,只能尽量写进去过滤缩写的规则,然后再人工检查了。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.