有哪些中文断句的类库或者 API 推荐?

2019-03-05 23:04:10 +08:00
 c4f36e5766583218

打了一大段话,各种符号任意使用,换行不换行随意。如何把这一段话断句? (多分享点 java 的最好~

4405 次点击
所在节点    程序员
15 条回复
Mac
2019-03-05 23:22:48 +08:00
去看看锤子大爆炸,好像提过用的谁家的 API
youngxhui
2019-03-05 23:28:58 +08:00
你是说分词吗? hanlp 这个库不错 JAVA 的
c4f36e5766583218
2019-03-05 23:55:03 +08:00
@Mac 支持断句吗?
@youngxhui 拆分成句子,不是分词
c4f36e5766583218
2019-03-06 00:07:20 +08:00
第 1 条附言打错了,是“就是把一大段话分成若干个句子”
Maboroshii
2019-03-06 00:28:06 +08:00
枚举所有的标点符号自己写一个不就是了。。
c4f36e5766583218
2019-03-06 00:37:35 +08:00
@Maboroshii 这很弱吧,(至少得带点语义分析吧。都 9102 年了
c4f36e5766583218
2019-03-06 01:06:09 +08:00
NLPchina/nlp-lang,就是通过标点符号分句的。剔除!!!
c4f36e5766583218
2019-03-06 01:09:44 +08:00
xuanwu
2019-03-06 02:08:26 +08:00
如#5 所言. 先举些不能通过标点分句的例子吧, 否则很难理解你的需求.
如果有实用目的, 欢迎在这里开 issue: https://github.com/program-in-chinese/house_of_10000_business
Iamnotfish
2019-03-06 02:32:49 +08:00
结巴断句?
theks
2019-03-06 02:38:20 +08:00
只考虑开源的吗?商用的也可以看看。我用过百度的 nlp 处理语义分析,关键词提取之类的,如果需求不复杂是可以用的。
c4f36e5766583218
2019-03-06 10:44:21 +08:00
@theks 那个好像是提取摘要
@Iamnotfish 结巴能断句
@xuanwu 比如发了条微博,一大段话只使用了逗号,需要把它拆分成几个句子(split,至于哪个逗号 split 哪个逗号不 split 由程序处理了)。
xuanwu
2019-03-06 11:13:16 +08:00
@c4f36e5766583218 哦, 听起来是要判断哪几段短句是构成一个完整句子, 比如说, 我这句话, 就只有两句?

1. 哦, 听起来是要判断哪几段短句是构成一个完整句子.
2. 比如说, 我这句话, 就只有两句?

感觉比分词来的更主观, 难度估计更大吧.
c4f36e5766583218
2019-03-06 12:14:23 +08:00
@xuanwu 感觉是,我后来往深了想了想,一段话有上下文联系的,要有语义分析的断句还真蛮复杂的
c4f36e5766583218
2019-03-14 14:36:34 +08:00
好吧,貌似我搜到的 3 个 github 项目都是通过标点符号断句的~~~~。(散了散了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541528

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX