部分网盘的「秒传」功能是否有弊端?体现在哪些方面?

2015-12-20 16:56:33 +08:00
 Tiande

RT

猜测是匹配文件的 MD5 共享链接,因此出错率应该相当低?

然而 谷歌硬盘 似乎没有这方面特性。
比较好奇是因为谷歌的硬盘足够多,不需要多人链接同一个文件,
还是其他什么原因?

综上。

5911 次点击
所在节点    问与答
25 条回复
loading
2015-12-20 17:00:41 +08:00
因为,版权问题!

国内秒传的,基本都是电影…

正常来说,能出现海量 md5 一样的文件,除了是涉及版权的东西,我想不到其他巨大的文件!
v1024
2015-12-20 17:03:02 +08:00
安全问题,碰撞 md5 到其他人的私人文件=泄漏
Tiande
2015-12-20 17:20:37 +08:00
@loading 好像是在哪看到过:某云的「保存到我的网盘观看」,是为了避免视频的版权问题。

@v1024 听起来似乎能实现。看来私密的文件还是不存这类网盘好。
f7ee9404
2015-12-20 17:20:54 +08:00
还有游戏
weaming
2015-12-20 17:28:03 +08:00
可以在 md5 基础上加些别的参数啊,比如创建日期,大小,什么的,不就可以大大减小碰撞几率了?支持秒传。
gamexg
2015-12-20 17:35:07 +08:00
怕碰撞吧?
即怕人恶意碰撞,也怕非恶意碰撞照成丢失文件、泄露隐私之类的问题。
印象中 onedrive 第一次也是不会秒传。

一直都好奇理论上讲绝对会出现 md5 碰撞的情况,即使多个 hash 同时使用也会出现碰撞。有数学大牛给计算一下以百度云的规模碰撞几率有多大吗?
Tiande
2015-12-20 17:56:51 +08:00
@weaming 大文件秒传确实很爽。 cdate mdate 可以随意改,加到一起算可以减少碰撞,但也没法匹配相同文件了吧。
loading
2015-12-20 18:21:03 +08:00
那只能说谷歌很聪明,如果出现秒传,别人就能用有版权的文件去测试,如果出现秒传,不就能告谷歌了?

谷歌有的是带宽,你传上去,先对 md5 ,如果一样,对什么时间这些,最后,一个个字节对一次…一样就
8e47e42
2015-12-20 18:26:42 +08:00
有啊有啊,有不点名的网盘比较的是文件名+修改日期+文件大小,分分钟泄成渣
fzinfz
2015-12-20 18:38:38 +08:00
OS 和存储硬件都能做到数据去重,服务器上不一定存储多份相同文件
比如:
https://technet.microsoft.com/en-sg/library/hh831602.aspx
google: Data Deduplication EMC/netapp/IBM/...

秒传又是另一个话题了
weaming
2015-12-20 19:46:40 +08:00
@Tiande 我是指在出现 md5 碰撞的时候,再去比对日期,大小
weaming
2015-12-20 19:47:37 +08:00
@Tiande 好像说错了,不能这么做
KexyBiscuit
2015-12-20 21:54:28 +08:00
因为保护用户隐私,秒传需要扫描每个用户的文件并生成唯一特征码,尽管不能由此直接复原出文件,仍有几率间接碰撞。
不,不是说海外网盘不扫描你的文件, OneDrive 要扫描的,禁止儿童色情等内容。除此之外,不侵犯用户隐私。
c742435
2015-12-20 22:19:39 +08:00
两个问题,
1 是如果你上传了小黄片,别人之前上传过,然后你妙传了。然后别人被举报了 然后你的片没了。
2 是,有极低可能,比如苹果的新 Xcode 发布了,有人通过 md5 碰撞,预先上传了包含恶意代码但是 md5 和正常 Xcode 一样的文件,然后你上传的时候是妙传,但是下载的时候包含恶意文件
不过我觉得后者可能性非常小
sandideas
2015-12-20 22:26:54 +08:00
md5 碰撞的概率太低了。。相同大小再碰撞的概率更低吧
zjqzxc
2015-12-20 22:47:28 +08:00
已验证百度网盘是仅做 md5 验证(两年前试验过,现在不清楚)
md5 碰撞几乎是不可能的;首先文件大小都不同,根本都用不着 md5 ;
文件大小相同 md5 还相同,真能遇上这事儿感觉出门买彩票去

@c742435 感觉理论上后者几乎不可能发生;如果保证修改后文件大小一致,还包含恶意代码,还不破坏原始文件的执行,真有这技术还用来黑 xcode 干嘛。。。
zado
2015-12-20 23:50:16 +08:00
MD5 “天然”碰撞几乎不可能出现,但是人为制造现在已经很简单了,早就有报版权保护组织通过故意制造碰撞的方法来阻止 BT 传播盗版。
alect
2015-12-21 00:52:26 +08:00
网服务器传输内容的时候,貌似本来也不用花费服务器商什么成本,因为他们注重的是下载而不是上传。。你给他传东西基本上可以做到不限制,而他传给你则要付出比较大的成本
他可以让你先传进去,让你以为没有相同的文件,然后他存储的时候判断是否有一一样的文件,不会多次重复存储。
我觉得国内的这些秒传更多的是考虑用户,因为大家的上传带宽太小,既然你都传了干脆传之前判断一下 MD5 ,你高兴就好。。
Tink
2015-12-21 02:17:49 +08:00
文件还没上传上去的时候这个 md5 是咋出来的啊
sneezry
2015-12-21 02:31:48 +08:00
@Tink 所以秒传都需要客户端的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/244844

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX