|  |      1dovme      2020-08-13 12:41:05 +08:00  1 jieba 分词 | 
|      2rabbull      2020-08-13 13:00:29 +08:00  1 `import jieba as jb` | 
|  |      3johnsona      2020-08-13 13:04:53 +08:00  1 boson 分词 效果很好 页面就可以体验,但限制次数 不要用 ip 代理去撸,不要逼得别人要登录才可以体验 | 
|  |      4huobazi      2020-08-13 13:07:11 +08:00 中国人都用 "结巴" O(∩_∩)O 哈哈~ | 
|  |      5zhou00      2020-08-13 13:14:12 +08:00 jieba, 精确模式,得到的结果跟你要的结果一样 | 
|  |      6marcong95      2020-08-13 13:54:15 +08:00 @jsisjs20130824 #3 搜了下这个 boson,搜到一个 BosonNLP.com 的网站,似乎已经停止对外开放还是怎么着,跳转到了阿里巴巴集团的登录页,用自己的淘宝账号似乎是登不进去,需要内部账号 | 
|  |      7wangritian      2020-08-13 14:03:20 +08:00 jieba/hanlp | 
|  |      8johnsona      2020-08-13 14:10:02 +08:00 | 
|  |      9zcfnc      2020-08-13 14:12:08 +08:00 我也是一直用的 jieba 给楼主参考一下 import jieba as jb result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标..") print(result) ···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', ',', '而', '实现', '这个', '目标', '..']··· | 
|  |      10KalaSearch      2020-08-13 14:30:08 +08:00 via iPhone 请问分词是在什么场景下用?看起来是为了提高搜索的召回率? 如果是搜索的话,可以尝试下卡拉搜索,不用自己配置分词 | 
|      11zxc12300123      2020-08-13 14:33:27 +08:00 bosonnlp, hanlp 都不错,jieba 真的很差。。 | 
|  |      12KalaSearch      2020-08-13 14:37:46 +08:00 via iPhone  1 | 
|  |      13519718366      2020-08-13 14:49:24 +08:00 借楼问下,java 版的 hanlp 能获取 同义词的 扩展不 比如同义词:super,超级 输入:super hanlp 分词处理后,我能获取到 super 以及它的同义词 超级 | 
|  |      14l890908 OP @jsisjs20130824  这个找了半天没找到注册获得 TOKEN 的地方?😂😂😂 | 
|  |      17xiaoliu926      2020-08-13 16:51:18 +08:00 我用的百度分词,50W 次免费 | 
|      18laminux29      2020-08-13 17:12:19 +08:00 结巴分词有 2 个问题: 1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 | 
|  |      19netnr      2020-08-13 17:31:15 +08:00 | 
|  |      20linvaux      2020-08-13 21:26:33 +08:00 用 lucene 的 IK 分词器 | 
|  |      21Merlini      2020-08-13 22:38:02 +08:00 既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。 https://github.com/baidu/lac | 
|  |      22Baboonowen      2020-08-13 23:32:02 +08:00 北大分词 | 
|  |      23levelworm      2020-08-14 07:32:15 +08:00 via Android @KalaSearch 梁哥做的对吧,微博上有关注 | 
|  |      24encro      2020-08-14 10:40:53 +08:00 @laminux29  结巴分词有 2 个问题: 1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 1,HMM 模式支持自动发现新词。 2,运行过性能测评?那么结巴的c++,GO,Java 实现呢? | 
|  |      25mjikop1231      2020-08-14 19:18:00 +08:00 deepl 的分词,除了贵还好用 |