如何用代码识别文件是 *文本文件* 还是 *二进制文件*,只能通过后缀名吗

2019-07-01 15:29:14 +08:00
 daijinming

判断文本文件可以通过文件头,识别出是 UTF\GBK\或是 Unicode 什么的,但如何识别文本文件 还是 二进制文件 该怎么办?

5715 次点击
所在节点    程序员
41 条回复
Sylv
2019-07-01 15:32:43 +08:00
重新组织一下语言吧,你语文老师看到了应该会挺生气的。
binux
2019-07-01 15:34:47 +08:00
不是 UTF\GBK\或是 Unicode 什么的就是二进制文件呗,多简单的事啊
daijinming
2019-07-01 15:37:06 +08:00
@binux 不是这个意思,我是说判断文本文件采用哪种编码比较简单,但是区分 *文本文件* 和 *二进制*文件比较困难
koebehshian
2019-07-01 15:38:07 +08:00
参考文本编辑器的做法
jasonyang9
2019-07-01 15:39:53 +08:00
daijinming
2019-07-01 15:40:41 +08:00
@koebehshian 记事本打开图片文件也是可以,不过显示的是乱码
txy3000
2019-07-01 15:40:43 +08:00
你想以什么样的编码方式读取文件是由你决定的 文件都是 2 进制序列
sunsulei
2019-07-01 15:41:24 +08:00
哪些文件定义为二进制文件?哪些又是文本文件? 图片算二进制文件吗?不也是可以用文本编辑器打开.
daijinming
2019-07-01 15:42:09 +08:00
@txy3000 二进制文件哪有编码呀,比如 图片,只要程序识别出无法显示出文本就好,而不是用乱码展示
AlloVince
2019-07-01 15:42:20 +08:00
`file --mime-type /path_to_your_file`
binux
2019-07-01 15:43:08 +08:00
@daijinming 我意思是只要你能判断编码的就是文本文件,反之是二进制文件
hacher
2019-07-01 15:44:40 +08:00
hacher
2019-07-01 15:46:11 +08:00
git 是判断前 8000 字节是否含有"\x00"
daijinming
2019-07-01 15:48:04 +08:00
@binux 理论上这么讲没问题,但是现有的网上的代码,都是这么判断 是不是 utf 编码,是不是 unicode 编码,... 还不是默认就是 ASCII 了,比如 https://blog.csdn.net/zh_geo/article/details/85859026
yankebupt
2019-07-01 15:49:17 +08:00
unicode 的有超出文本区字符的直接判二进制。非 unicode....么....
上古时代(19xx)的判定方法是
第 8 bit 占用率接近 40%-60%的算二进制,占用不到 5%的判文本.....中文非常用字超 25%的判二进制....其他看着随便判就是

只适用于基本用途,因为....
会误杀各种奇葩文件,纯色多的位图,各种冷门语言的文件等等各类文件...随便找个硬盘扫一下误判率不低于 5%...
daijinming
2019-07-01 15:49:27 +08:00
@hacher 这个听着靠谱
binux
2019-07-01 15:52:05 +08:00
@daijinming ASCII 才 128 个字符,是不是你自己不会判断吗,为什么要照着抄 ?
pkookp8
2019-07-01 15:54:03 +08:00
可以读到已知头的算已知格式
其余全算二进制
koebehshian
2019-07-01 15:55:11 +08:00
@daijinming 我又没说记事本,记事本压根没有判断是文本文件还是二进制文件。我用 emeditor, 它可以
daijinming
2019-07-01 16:00:15 +08:00
@hacher 包含 含有"\x00"就是二进制文件吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/578971

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX