全世界的服务器里大概有多少数据是有效数据呢?

2023-01-25 23:17:49 +08:00
 kaiki

重复数据,如备份、缓存等应该占了大部分服务器的内容吧,如果当做一个图书馆,那就像三国演义的书架就有成百上千,而这些书架上放的还都是同一个版本,这样大概可以看做是“无效数据”了。 如果不考虑实际作用,只把每一种有用的数据的第一份当做有效数据,即复制 /切片等衍生的数据都当做无效数据的话,全世界的服务器里的有效数据的占比能有多少呢?

2737 次点击
所在节点    随想
10 条回复
opengps
2023-01-25 23:48:48 +08:00
360 的总裁某个时刻曾经有过一个说法,全互联网的数据是 2EB 。
不过,op 所说的“无效数据”是难以界定的,比如你买的三国演义,阅读范围是你周边的人,我买的三国演义,阅读范围是我周边的人,书虽然相同,但显然并非无效
xiadong1994
2023-01-26 00:00:35 +08:00
一些国际巨头自己的数据都有 EB 级别了
723X
2023-01-26 01:00:16 +08:00
想想你脑子里有多少数据是有效数据,这玩意搞不好是收敛于某个值的
Rocketer
2023-01-26 02:29:14 +08:00
所以云服务才能节约啊,重复的东西可以只存一份,闲置的资源可以动态分配给有需要的用户……

一个速度更快、有多重备份、有专业人员维护的服务,比你自己租裸机搭建还要便宜,你觉得这钱是从哪里省出来的呢?
em70
2023-01-26 03:05:33 +08:00
可以从训练大型 AI 模型用的数据量来估计,目前最大的语言模型 gpt3 训练用了 45TB,假设只占总数据的 1%,那整个网络有效数据就是 4.5EB

事实上整理比 gpt3 大的训练集数据已经非常困难了,不低于 1%应该是可信的
snw
2023-01-26 08:30:44 +08:00
@em70
TB 上面是 PB ,再上面才是 EB
leonshaw
2023-01-26 09:48:28 +08:00
信息熵?
alect
2023-01-26 11:13:59 +08:00
@Rocketer #4 这个不是云服务器吧,而是云网盘。
Rocketer
2023-01-26 11:40:37 +08:00
@alect 云服务,没有器。

网盘是一种云服务,还有其他云服务如函数计算、对象存储、云数据库等,都是云服务
NoOneNoBody
2023-01-26 12:37:54 +08:00
定义请求:“有效”,按你的定义似乎是 unique
那身份证号仅有身份证排号的最初数据才是有效的,制卡时印上去的已经算是复制了

即使是缓存、备份、历史……数据,我认为都是有效的,只是低频使用而已

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/910645

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX