大家有没有比较好的分词 API 推荐

2020-08-13 12:34:47 +08:00
 l890908
分词断句,比如——

“我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标...”

分词为——

我们 希望 V2EX 能够 成为 中文 世界 中 氛围 最好 的 社区,而 实现 这个 目标 ...

相对智能和稳定一点,付费也可,网上搜了一些前排的,感觉都有点缺陷。
4480 次点击
所在节点    程序员
25 条回复
Merlini
2020-08-13 22:38:02 +08:00
既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。
https://github.com/baidu/lac
Baboonowen
2020-08-13 23:32:02 +08:00
北大分词
levelworm
2020-08-14 07:32:15 +08:00
@KalaSearch 梁哥做的对吧,微博上有关注
encro
2020-08-14 10:40:53 +08:00
@laminux29

结巴分词有 2 个问题:

1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。

2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。





1,HMM 模式支持自动发现新词。

2,运行过性能测评?那么结巴的c++,GO,Java 实现呢?
mjikop1231
2020-08-14 19:18:00 +08:00
deepl 的分词,除了贵还好用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/697932

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX