1
dovme 2020-08-13 12:41:05 +08:00 1
jieba 分词
|
2
rabbull 2020-08-13 13:00:29 +08:00 1
`import jieba as jb`
|
3
johnsona 2020-08-13 13:04:53 +08:00 1
boson 分词
效果很好 页面就可以体验,但限制次数 不要用 ip 代理去撸,不要逼得别人要登录才可以体验 |
4
huobazi 2020-08-13 13:07:11 +08:00
中国人都用 "结巴" O(∩_∩)O 哈哈~
|
5
zhou00 2020-08-13 13:14:12 +08:00
jieba, 精确模式,得到的结果跟你要的结果一样
|
6
marcong95 2020-08-13 13:54:15 +08:00
@jsisjs20130824 #3 搜了下这个 boson,搜到一个 BosonNLP.com 的网站,似乎已经停止对外开放还是怎么着,跳转到了阿里巴巴集团的登录页,用自己的淘宝账号似乎是登不进去,需要内部账号
|
7
wangritian 2020-08-13 14:03:20 +08:00
jieba/hanlp
|
8
johnsona 2020-08-13 14:10:02 +08:00
|
9
zcfnc 2020-08-13 14:12:08 +08:00
我也是一直用的 jieba
给楼主参考一下 import jieba as jb result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标..") print(result) ···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', ',', '而', '实现', '这个', '目标', '..']··· |
10
KalaSearch 2020-08-13 14:30:08 +08:00 via iPhone
请问分词是在什么场景下用?看起来是为了提高搜索的召回率?
如果是搜索的话,可以尝试下卡拉搜索,不用自己配置分词 |
11
zxc12300123 2020-08-13 14:33:27 +08:00
bosonnlp, hanlp 都不错,jieba 真的很差。。
|
12
KalaSearch 2020-08-13 14:37:46 +08:00 via iPhone 1
|
13
519718366 2020-08-13 14:49:24 +08:00
借楼问下,java 版的 hanlp 能获取 同义词的 扩展不
比如同义词:super,超级 输入:super hanlp 分词处理后,我能获取到 super 以及它的同义词 超级 |
14
l890908 OP @jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方?😂😂😂
|
17
xiaoliu926 2020-08-13 16:51:18 +08:00
我用的百度分词,50W 次免费
|
18
laminux29 2020-08-13 17:12:19 +08:00
结巴分词有 2 个问题:
1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 |
19
netnr 2020-08-13 17:31:15 +08:00
|
20
linvaux 2020-08-13 21:26:33 +08:00
用 lucene 的 IK 分词器
|
21
Merlini 2020-08-13 22:38:02 +08:00
既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。
https://github.com/baidu/lac |
22
Baboonowen 2020-08-13 23:32:02 +08:00
北大分词
|
23
levelworm 2020-08-14 07:32:15 +08:00 via Android
@KalaSearch 梁哥做的对吧,微博上有关注
|
24
encro 2020-08-14 10:40:53 +08:00
@laminux29
结巴分词有 2 个问题: 1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 1,HMM 模式支持自动发现新词。 2,运行过性能测评?那么结巴的c++,GO,Java 实现呢? |
25
mjikop1231 2020-08-14 19:18:00 +08:00
deepl 的分词,除了贵还好用
|