求 NAS 照片去重方案

2023-03-15 14:20:52 +08:00
 luckjoe680
大佬们 有没有用起来不错的 nas 照片跟视频的去重方案呀 有很多重复的备份照片 很头疼 求分享
5894 次点击
所在节点    NAS
24 条回复
stevenbipt
2023-03-15 14:33:46 +08:00
如果是文件相同写个脚本跑一下文件的 hash 应该就能找出来了,如果是文件不同比如分辨率不同这种图片找 cv 库看看有没有什么对比算法,视频的话感觉够呛,可以考虑一下视频的特征这些是否相同来匹配一下
coderluan
2023-03-15 14:39:02 +08:00
把磁盘挂载到 Windows 下面,然后随便找个去重软件跑一下,Duplicate File Finder 之类的
yfugibr
2023-03-15 14:40:38 +08:00
hello365
2023-03-15 14:45:03 +08:00
我前几个月清理重复照片用的 Duplicate Cleaner Pro 5 ,感觉清理规则很丰富,买的授权,网上也有破解版的,别的软件没对比过。
shunia
2023-03-15 15:27:19 +08:00
@yfugibr #3 这个 repo 一直在更新,但是完全没发版是为啥,必须自己编译?
shunia
2023-03-15 15:27:41 +08:00
楼主的需求很有市场,期待一个靠谱的回复。
shunia
2023-03-15 15:30:33 +08:00
@stevenbipt #1 就你说的第一句话要做成一个实际可用的版本就需要操心很多事情啊。性能,可靠性,备份等等。
总不会说干着干着程序挂了图片被整没了吧?
windirt
2023-03-15 15:33:51 +08:00
群晖 NAS ,自带的存储空间分析器
创建一个报告,潜在的重复文件打勾,指定检索的文件夹,忽略文件名,修改时间,会按照 md5 对比,然后执行报告,就在后台慢慢整理了,整理完就会有一个表格,自己按表格处理吧
santom
2023-03-15 16:07:21 +08:00
我威联通用的 Fdupes
https://www.qnapclub.eu/en/qpkg/418
aircargo
2023-03-15 16:09:03 +08:00
前几年还有自动分析对比的功能,现在新版本貌似都没了。
FightPig
2023-03-15 16:09:30 +08:00
我用的绿联的,好像自带了
terrytw
2023-03-15 16:11:57 +08:00
推荐 dupeguru
LeeReamond
2023-03-15 16:19:35 +08:00
自己写一个去重感觉比较靠谱,之前测试过开源的照片方案感觉都不太行,遑论去重组件了
yfugibr
2023-03-15 16:41:15 +08:00
@shunia #5 不太清楚,我用的还是 2020 年的那个版本,也没遇到啥问题
bao3
2023-03-15 16:41:48 +08:00
群晖的话有自动去重。楼上有人写了
virlaser
2023-03-15 16:54:09 +08:00
把目录挂到电脑上用 duplicate cleaner 扫
可以根据相似度对比照片
可以根据一定时间窗口内的视频关键帧对比视频
GeekSuPro
2023-03-15 17:06:35 +08:00
极空间自带重复文件照片去重
gumuxi
2023-03-15 17:27:05 +08:00
我也有这个需求,NAS 是 OMV 系统的,插个眼,没有合适的我得空自己开发一个。
dolorain
2023-03-15 17:33:00 +08:00
自己写个脚本跑 hash 一撞就行了呀,以下是代码:

#!/bin/bash

# 指定需要检查的目录路径
dir_path="/path/to/directory"

# 切换到目录
cd $dir_path

# 循环遍历目录下的所有文件
for file1 in *; do

# 如果当前文件不是图片文件,则跳过检查
if ! [[ $(file "$file1") =~ "image" ]]; then
continue
fi

# 计算当前文件的哈希值
hash1=$(md5sum "$file1" | awk '{ print $1 }')

# 遍历当前文件之后的所有文件,寻找是否存在哈希值相同的图片
for file2 in $(ls $file1 ../*); do

# 如果当前文件不是图片文件或与自身重复,则跳过检查
if [ "$file1" = "$file2" ] || ! [[ $(file "$file2") =~ "image" ]]; then
continue
fi

# 计算当前文件的哈希值
hash2=$(md5sum "$file2" | awk '{ print $1 }')

# 如果哈希值相同,则判定为重复图片,删除其中一张图片
if [ "$hash1" = "$hash2" ]; then
echo "Duplicate image found: $file1 and $file2. Deleting $file2"
rm -f "$file2"
fi

done

done

echo "老子处理完了."
anubu
2023-03-15 18:03:23 +08:00
md5 太粗暴了,好久之前用 python 写过一段算海明距离的图片去重脚本,网上搜搜应该有很多,简单的去重也够用了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/924193

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX