求一个相似文件(图片)检查软件,并能生成 md5 的制表,可以方便对比!

2016-09-23 15:14:30 +08:00
 lun10439547

需求: 检查相似图片,在第一次检查几十万的图片后,记录每个图片的 md5 数值,之后检查图片是否相似直接对比已经检查过的 md5 数值就可以了,并记录这个新检查的 md5 数值。 讲的有点绕口,但意思还是很明确的!

关键是后来检查的图片不需要在从新检查所有图片一次,只需要对比下已经检查过的 md5 数值或者其他就可以了。

1477 次点击
所在节点    问与答
7 条回复
UnisandK
2016-09-23 15:16:00 +08:00
md5 是肯定不行的。。
zhiyuan91
2016-09-23 15:24:20 +08:00
计算 64 位 simhash ,海明距离在 3 以为的可以认为相似。图片可以预处理一下。
zhiyuan91
2016-09-23 15:25:19 +08:00
@zhiyuan91 3 以内
xujinkai
2016-09-23 15:25:37 +08:00
必然不能是 MD5 , MD5 的特点是数据差一点, MD5 值就变化非常大。
查图片用的算法生成的值,效果是图片差的不大,值也差的不大,这样值越接近说明图片越相似。
Izual_Yang
2016-09-23 19:52:15 +08:00
首先,你如果用 md5 ,那就只是一般的文件查重而已,就没必要特意说明是用来检查图片——因为只有每一个字节都相同的图片才是 md5 相同,否则再怎么相似也没用。
其次,如果你不重新检查所有图片一次,你怎么知道以前的文件还在不在,有没有修改过?
lun10439547
2016-09-23 22:38:08 +08:00
@UnisandK
@zhiyuan91
@xujinkai
@Izual_Yang

确实如你们所说的,靠 md5 来分辨其实我也可以用,图片来源里固定的几个网站,主要分辨我到底下载过没,当然最好还是能忽略分辨率与裁剪所带来的 md5 值变化。。。。
Izual_Yang
2016-09-23 22:54:40 +08:00
@lun10439547 我自己用的是 visipics 。
另外你说的图站是那些图站,如果是基于 danbooru 的那应该是自带 md5 的吧。
话说你可以直接用 md5 命名文件……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308450

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX