目前有近 100w 图片需要判重,挑了几个 hash 算法,正在跑 hamming code,都是 128bit 的 binary
这些图片都是经过 md5 与判重之后的图片了,所以需要找出来一些汉明距离接近的肉眼观察一下
所以要找到一些距离是 0,1,2,3 的图片组。
当然了,挨个计算一次(1M * 1M = 1T)
好像似乎,也不是很长时间吧,还勉强能接受,跑几天跑完了
有什么能再快一些的算法吗?
目前有一台机器(9400f+1660s)可以跑一点机器学习,勉强够看。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.