微信如果保存全部聊天记录,一年的聊天记录成本大致在多少?

2023-06-30 11:03:31 +08:00
 chenjia404

假设微信有 14 亿日活,一年一个人需要 10mb 存储空间,那么一年需要 1.3 万 t 存储,如果算 1t ssb 存储 1000 人民币,那就一年需要 1300 万人民币。实际很多数一年聊天记录到 1mb 都难,再使用一些压缩技术,存储成本更低了。

聊天记录基本上不需要全文索引这些,只要按用户进行索引和存储就行了,用一些 nosql 就行了,而且可以用 hdd ,甚至使用归档存储,那么感觉一年几十万人民币就能搞定存储。如果要加上实时的按用户查询,那就用 hdd ,分用户进行存储,使用类似 ssdb 这样的 nosql ,也很快。

我看到一些计算方法说要几十亿、几百亿的存储成本,这个计算完全不合理,每个人的聊天记录,大部分都是群聊的图片、视频。

3736 次点击
所在节点    问与答
33 条回复
Seanfuck
2023-06-30 11:06:50 +08:00
“实际很多数一年聊天记录到 1mb 都难”,怎么得出这结论的?手机上的聊天数据动不动就是几十 G
x86
2023-06-30 11:07:58 +08:00
我觉得应该后端检测,命中敏感词关键字各类判定的存着等审计,其它没什么卵用的就存用户手机上拉倒。
chenjia404
2023-06-30 11:12:40 +08:00
@Seanfuck #1 有没有可能这些是图片和视频,尤其是群聊,用户自己发的文字没有这多。
Seanfuck
2023-06-30 11:47:59 +08:00
@chenjia404 只存文字没什么意义,现在聊天内容里图片语音视频占的比例很高。
jim9606
2023-06-30 13:56:06 +08:00
如果是纯文字,哪怕积累几年也是占不了多少空间的。但实际上大部分都是图片表情语音,这些体积很难压下来的。
别忘了早期微信宣称比起 qq 优势是可以发语音不需要会打字。
lilei2023
2023-06-30 14:04:16 +08:00
纯文本的没多少,好多是图片,视频之类的,比较占空间
56rhcrivs55TVKdX
2023-06-30 14:09:07 +08:00
我不知道你算的对不对, 但是按照我的经验, 贵的从来不是存储, 而是流量
aptupdate
2023-06-30 14:15:44 +08:00
一年 10MB 大部分人是不可能的,就算压缩也不可能。
因为聊天记录不止文字,随便发几张图就超过 10MB 了,还有大量的语音、视频文件。
但是话说回来 telegram 却能做到,只是单纯的因为杜罗夫财大气粗?
OutOfMemoryError
2023-06-30 14:16:58 +08:00
我前两天给我安卓下的聊天记录拉出来了(纯 sqlite db ),不包含图片。附件,大概 1.2G 一年的聊天记录
bjzhush
2023-06-30 14:17:00 +08:00
@aptupdate 不要忘记了 TG 有个选项,最长 12 个月不登录账号就会被注销
OutOfMemoryError
2023-06-30 14:17:52 +08:00
@OutOfMemoryError 补充一下,图片、转发的消息和其他东西在 sqlite db 里面都是以 xml 格式呈现的
xmumiffy
2023-06-30 14:18:42 +08:00
微信存是存了,只不过为啥要给你查,这没好处。反正现在没有第二个可以和微信竞争的聊天工具
lisxour
2023-06-30 14:20:52 +08:00
@aptupdate qq 不是一样做到了,qq 的色图群你以为就少?
jujusama
2023-06-30 14:22:53 +08:00
re. telegram
deorth
2023-06-30 14:24:20 +08:00
因为微信没做图片 id ,发一次存一份,要存就炸了
zgw0
2023-06-30 14:26:03 +08:00
存储成本不高,但是开放给用户查的话,这个成本就高了
maskerTUI
2023-06-30 14:37:11 +08:00
纯文字的 10mb 应该够了,但是很多是语音、图片、视频,这些才是存储的大头,另外需要配置 raid ,配置容灾。
2333wz
2023-06-30 14:38:38 +08:00
@x86 你私人审计就是没有审计,#哥找你就是没有存档。
danikeng7890
2023-06-30 14:48:12 +08:00
不是说没有存聊天记录吗?
nothingistrue
2023-06-30 14:56:10 +08:00
你应该先区分个人聊天跟群聊,然后要看成本和收益的对比,不能只看成本。

个人聊天的成本毫无意义,因为他所属清晰,收钱毫无障碍,成本永远能被收益覆盖掉。但微信为什么不干呢,看看你的微信聊天记录里面,有多少个人聊天有多少群聊就知道了。

群聊方面,微信这种随意拉群的特点,直接导致群聊的内容归属模糊,收益为零,这时候还考虑什么成本高低,有成本都懒得搞。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/952944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX