上万个文本文件,编码不统一,想全部转为 utf8 啥的统一完事,求助有什么好软件,谢谢
1
darer 2022-08-07 15:40:21 +08:00 1
用 python + chardet
|
2
kokutou 2022-08-07 15:45:53 +08:00 1
编码检测不一定准。。
|
3
nightwitch 2022-08-07 18:12:15 +08:00 via Android 1
如果不能指定源编码就只能靠算法推测,没法保证 100 %的准确率。。
|
4
lkk 2022-08-07 20:34:24 +08:00 2
所有文本先全部转成 UTF-8 格式
第一遍,搜素文本内容中含有“�Ҫ¨2ѧϰ”任意字符的,将其移动到"以 UTF-8 的方式读取 GBK 编码的中文"目录 第二遍,搜素文本内容中含有“锟斤拷”任意字符的,将其移动到"以 UTF-8 方式读取 GBK 编码的中文,然后又用 GBK 的格式再次读取"目录 剩下的就是 UTF-8 的。 然后分别转换之前两个目录。 |
5
1217950746 2022-08-08 18:19:56 +08:00 via iPhone
@lkk 高级
|