1
alexkh 2013-06-04 16:50:12 +08:00
jieba分词?
|
2
swulling 2013-06-04 16:53:22 +08:00
Python的话,直接Google『中文分词 Python』
中英文混合分析和中文分词有啥区别么。。多出来的英文部分不要太简单 |
3
kenneth OP |
4
swulling 2013-06-04 17:40:30 +08:00
|
6
Eson 2013-06-04 18:35:45 +08:00
分词使用的话,其效果我觉得很大程度上取决于你的词典,不然程序再怎么做也不可能尽如人意
|
7
Hualin 2013-06-04 18:58:01 +08:00 1
先对原文进行正则表达式匹配,把英文单词 数字 符号 和其他非中文字符进行 tokenize,然后把新的序列交给中文分词算法。
比如句子 string1:我爱 python,,, tokenize 为 string2:我爱 `EN`SYM`SYM`SYM` 然后交给中文分词,其中 EN 代表 英文单词特征,SYM代表标点符号特征 然后进行汉字标记 string3:SSSSSS 其中 S 表示单独成词的标记,其他 label 可以为 B (一个长词的开始),M(一个长词的词中),E (一个长词的结束)。英文单词和数字以及标点也被认为是 S (单独成词的汉字)。 |
9
Gestalt 2013-06-08 20:11:40 +08:00
看你对准确度的要求了……
CRF++,用这个实现个中文分词然后训练语料好的话似乎召回率能到97% |