汉字编码的字符,识别出来是 Russian:
{'encoding': 'ISO-8859-5', 'language': 'Russian', 'confidence': 0.21185371684458437}
当然 confidence 也显示的很低的。出现这种 confidence 过低的情况,基本就是误判了,有什么方式纠正吗?
1
DoctorCat 2017-09-16 13:47:36 +08:00
只能优化算法了吧。
官方给了个原理性的 paper 链接: http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html 可以重点看看 GB2312 的 confidence 计算方式 |
2
janxin 2017-09-16 16:38:01 +08:00 via iPhone
要内容够多越多越准
|