思路:
就我所知,所有文件格式都有着特定结构的数据,这样就有了某种特征,那是否能够提取其特征,再通过 AI 来识别特征,以此来识别文件格式?
详细过程:
例如有一个未知格式的文件,
我们以二进制来读取这个文件, 每隔 X 位换行,不足一行填 0, 这样就能组成一个 X 为宽的 01 阵列。
将 0 转成白色矩形,1 为黑色矩形,我们就能得到一个充满小的黑色正方形的图像,而这份图像就存在某种特征。
我们以各种文件格式的文件生成的图像训练 AI,并提取识别其图像特征
再与未知格式的文件对比,发现符合纯文本文件的图像特征
于是我们可以用 atom 打开它,atom 识别其为 python 源代码文件
天啦噜,原来是 py 文件啊!!!!