几百万张缩略图硬盘存储方案?

2019-06-03 18:06:47 +08:00
 hardwork

怎么存储才能较高效读写,每张图片也就几 k 到几十 k,之前存在一个文件夹下,inode 太大,rm -rf 都要删很久很久,就像卡死了一样.

c++的小服务,有什么存储库可用吗,或者如何分散合并到硬盘?

4220 次点击
所在节点    程序员
30 条回复
loading
2019-06-03 20:57:42 +08:00
minio
可以做分布式了,都说是开源的 aws s3
luozic
2019-06-03 21:14:30 +08:00
小图 不上 DB 那种存文件的,读取不是想死?
opengps
2019-06-03 21:14:34 +08:00
@dog 只是个概念,单个文件夹之下的数量不宜过多
wbrobot
2019-06-03 21:25:50 +08:00
豆瓣是自己造轮子解决的:beansdb
zzl22100048
2019-06-04 10:00:05 +08:00
两个亿的图片怎么比较好?频繁读,少量写
FrankHB
2019-06-04 13:55:02 +08:00
@Livid 单机呢?
然后不管多出来的网络成本,确定把问题转换为风险管控和砍价上兜得住么。
二次开发成本呢?
(怕是要和抠脚皮大汉打一架:Who does that server really serve?)
我现在要在本机索引万以上的大小 1M 左右的截图,要求能任意两图之间快速预览加注标签近似比较自动去重,持久存储效率平均不低于 FLIF 的 30%;暂且先不管价钱,有什么 IaaS 方案能救吗?
tenwx
2019-06-04 14:03:27 +08:00
@FrankHB zfs 可以做到自动去重,但可能有点耗内存
FrankHB
2019-06-04 14:19:12 +08:00
@tenwx 不是基于直接二进制比较或者 hash 的去重,跟内容特征相关,基本上肯定是要二次开发的。
不过这个是没支持手动标注分类的优先级高……考虑到我的输入数据中大部分特征相似分类也不太复杂,但是各种奇形怪状,不容易自动提取,短时间内弃疗了,实在不行等标记完一并手动凑数吧。
个别情况有损压缩和无损图源会在同一个地方倒是适合自动,不过数量不多也算了……
yanzixuan
2019-06-04 15:02:04 +08:00
@keepeye hbase 吧。还挺好用的。
yanzixuan
2019-06-04 15:05:27 +08:00
@winglight2016 riak 吧。分布式的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/570453

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX