背景
想找一个文件找了十分钟终于找到!于是很气愤,准备整理、梳理一下。
初步排查了下目前设备里的所有文件,发现自己的文件管理做的可以说是非常混乱,什么规则都有!
大概根据不同文件夹的需求划分:
- 是否具有时效性?即一次性文件,过了一段时间可能只会因为比较仓鼠还会留着的;
- 是否具有重要性?即丢了很心疼的,需要符合 321 备份原则,即 3 份副本、2 种介质、1 个异地容灾;
- 是否具有时序性?即可以按时间序归档的,如摄影素材;
- 是否具有去重要求?即该文件夹内存在大量重复元素,如修改过 N 版的 PPT ;
- 是否可以对外共享?即该文件夹应该可以让别人直接拿 U 盘来拷,无需检查文件夹内容是否含有私人东西;
- 是否是容易获取的网络资源?即系统镜像、软件离线安装包等不值得 321 备份的文件,但又很大;
- 是否可以局域网共享?即影视资源文件夹等,可以直接在家里公开的;
- 是否包含少量大文件需要引用的情况?如某培训文件夹,会放报名材料、笔记 但同文件夹放网课录屏就太大了,不好备份,且做全量备份等时候没必要把视频多备份好几份;
- 是否会包含大量增量?即有打散需求,如论坛资源收集,会有大量子文件夹,需要按某规律打散以供缩短该目录索引速度和查找;
- 是否需要快速 /随机访问?即对存储介质有要求,如大量小文件需求 ssd ,而不是 hdd ;
- 是否是冷数据?即上传到云端也无所谓,取回时间可以接受;
- 是否需要多版本 /快照?即基本的数据保护和回档;
- 是否需要多设备同步?即 Resilio Sync 等软件同步;
存储地点的特性如下:
- unraid 机械阵列:写入速度极慢( 30MB/s )但自动获得该存储盘的读取性能和 1 块盘的冗余保护,读取速度基本相当于单机械盘读取;
- unraid 机械 RAID0:仅用作 pt 下载;
- unraid 机械 16T 单盘:用作数据中转;
- qnap RAID10:读写速度适中,自带快照功能,且仅在有变化时自动快照;
- truenas MIRROR:开启去重,用于个人改来改去的文件和项目储存 自带压缩;
- truenas 单盘:自带压缩;
又因为我做了两地三中心的同步 /备份策略 还用了软件辅助
- qnap 在老家 四盘 raid10 ,50M 外网 ipv4 ,目前主要用于个人照片、媒体类存储,和家人共享影视资源;
- unraid 在家里 9 盘 2.5G 本地访问 100M 外网 ipv6 ;
- truenas 在公司 双盘 mirror 2.5G 本地访问 50M 外网 ipv4 ;
- 腾讯云轻量北京 4C4G8M + 1TB 外置云盘(活动薅的);
- 每一台都能独立放下我个人的所有文件(除了腾讯云);
- 115 会员 100+T 容量,用于秒下种子,如 Manjaro 系统镜像就挺方便的秒下;
- cloudreve pro 用于管理 onedrive 分享;
- 天翼云盘会员 用于大文件分享,优点是会员费便宜,等于白送;
- 夸克云盘会员 用于监控视频加密储存,优点是网页端可以上传大文件;
- kodexplorer 用于管理本地文件,或者反向分享,即上传到我本地;
- gitea 用于管理代码仓库;
- dokuwiki 用于管理配置文件或笔记;
- seaweedfs 用于存储大量小文件,如爬虫爬取的东西;
- minio 用于应用往里存些东西,本地文件形式方便通过其他软件形式拿;
大概排查了下目前还合理的安排:
- O 镜像软件:编号存储系统镜像、常用软件,如 Win 镜像、华为 ensp 软件等;
- thumb:存放 pt 下载所有资源的缩略图,按 pt 种子号的最后一个数字建子文件夹 如 thumb/0/456790 不然单一文件夹子文件夹太多;
- M 多媒体:编号存放个人拍摄的图片、视频素材、网课录屏、会议录音;
- d:下载文件夹 也用作文件中转站,存放所有尚未分类的文件夹;
- capture:监控文件夹 存储时间序的监控视频 仅本地一份 云端加密一份 不做额外复制;
- L 分享:按编号整理的分享文件夹,随意拷贝或者不加密传到云端分享;
- docker:备份容器文件,如 mongodb 、postgresql ;
- VM:备份虚拟机整机;
- 个人:个人文件、如学校相关材料;
- 工作:工作相关材料;
- 生活:业余爱好、如业余无线电、3D 打印等;
- device:某一设备的全量备份,用于随时恢复出厂设置然后 cp 过去;
- bilibili:存放某些视频的完整下载和字幕、弹幕等信息;
- Archive:存放 Readonly 的一些文件夹,或者过段时间就可以转为云端备份的文件夹,这个最难定义;
但是会遇到的情况如下:
- 分类并不正交,如按照论文、专利、标准、竞赛、项目划分的话,项目里的论文就不能放在论文文件夹里吗,以后寻找的时候又找不到;
- 同一份文件到处都是,可能还有不同的版本,如省大创立项申报书同时出现在开题和中期和结题文件夹里,中间还经历过变动,又比如客户解决方案 PPT-V1 、V2 、V2 已交流带注释、V3 、VXX 最终版转 pdf 已发客户;
- 让别人给我传文件的时候,kodexplorer 好像不太安全,因为要给一个公用账号给别人,并且好像有漏洞能非授权访问其他文件;
- cloudreve pro 部署在腾讯云,文件走本地带宽低,但速度稳定,走 onedrive 带宽随机,但不从我服务器走流量(长时间走这种文件下载流量会占用我正常应用的带宽);
- 备份需求每次都在本地变出原始文件+加密文件。造成双倍占用,直到传到云端才能删除,需求一个 overlay 方案,希望可以直接挂在未加密文件夹的加密挂载点,直传云端;
- 某些全量备份恢复的时候提示 openssl 默认的 hash 算法已经从 md5 改成 sha256 了,旧有纯云端加密备份还要重新下载下来解压备份,希望有一个透明的代理能自动加解密,在尝试用阿里云盘小白羊改;
- 自己做了一套校验工具,可以根据多种 hash 判断文件是否完整,并且支援各类网盘的秒传,如百度、115 、夸克,但是分享文件的时候给秒传链接还是太超前了,很多人不会用油猴;
- 同步需求目前使用 Resilio Sync ,没买按需同步,感觉想换 Seafile 试试,不知道能不能更优雅的多设备同步文件;
大家都是怎么解决这些需求(进行文件分类整理存放)的呢?
目前我个人文件大概 4TB 左右 很少访问的文件大概 20TB 总阵列大小 200TB 左右 云端总空间 200TB 左右
影视资源 100TB 左右 大都可以扔 纯粹是因为硬盘比较大还没扔