本来乌烟瘴气的喷张小龙有点看不下去,但确实还有一个技术问题挺令我感兴趣的,想听听大家的观点,对,就是微信聊天记录的保存问题

2019-01-12 00:26:21 +08:00
 ibegyourpardon

说的是微信服务端存储聊天数据这事。

微信官方是说,确定一定肯定的说没在服务器保存的。

有人信。

有人打死不信,坚定的认为在我国政策下,怎么可能不保存。

有人半信半疑,比如我。而且认为实际操作的时候可能有所取舍。

因为我有个问题还真想不明白。

如果微信真的保存用户的聊天记录,我还蛮认真地想问问认为保存了聊天数据的的这个流派,10 亿 DAU 的 APP,大量信息,结构复杂,无意义数据众多,这个存储和给公检法提供检索真的是那么容易实现的事吗?

Telegram 在 18 年 3 月宣布月活 2 亿,一个月 60 亿,现在应该也上涨了,但信息的结构复杂度和数量应该是确实不如微信的。且不说微信,哪怕是 Telegram,对这种级别的聊天信息保存用什么样的信息结构来存储才比较现实和合理呢?

然后 Telegram 固然是做到了历史记录的保存,虽然我没研究过对历史记录的保存时限,但对微信来说,如果非要保存的话,似乎也有一些方案。在我国国情下,应该是只需要针对一些重点人员进行监控和保存即可,并不需要全员信息保存。而且好像只要加个保存的时限处理,好像问题也解决的七七八八了,比如只保存三个月……

6443 次点击
所在节点    微信
44 条回复
dobelee
2019-01-12 00:42:04 +08:00
歪了,这根本不是什么技术问题,聊天记录这些冷数据跟 google 的索引相比简直不值一提。

另外,ICP 备案过的都知道明确规定网站运营者 xxx 天内要保存 ugc 内容及 ip 等信息及可查询,连个人网站都这么严肃,tc 这么成熟的流程,居然真的有人半信半疑。。。
orangeade
2019-01-12 00:43:03 +08:00
网络安全法要求六个月

QQ 都能选择同步时长,微信相比 QQ 有什么难度

另外 tg 消息没微信复杂? tg 有文字 图片 图文组合 图片组合 gif 视频 语音 视频聊天 投票 广播 bot inline-bot markdown 链接预览,以及它们之间各种组合
RYAN0UP
2019-01-12 00:50:42 +08:00
@orangeade 赞同,tg 的消息结构确实要比微信复杂。
qiayue
2019-01-12 00:54:07 +08:00
@dobelee ICP 备过案很多次的表示不知道你说的事情
johnnie502
2019-01-12 00:54:16 +08:00
聊天记录热转冷的时候做个关键字分析,把结果继续热存储就好了,并不需要对所有原始信息做检索
swulling
2019-01-12 01:23:29 +08:00
按帐号压缩存储就好了啊,这个真的没有一点难度,空间也不会很大,视频音频图片文字可以分别调整压缩比和存储周期。如果纯文字,量非常小。

此外一般司法机关不会有搜索的需求,主要是给一个帐号,把某段时间的聊天记录导出来就完了。

至于说存没存,这个没法证明也没法反证,只能看腾讯的信誉值以及你个人相不相信。
lance6716
2019-01-12 01:28:14 +08:00
@swulling 你可以看一下微信本地占用空间,估计一下单用户的占用
swulling
2019-01-12 01:29:41 +08:00
另外微信还说过不会把聊天记录用作大数据分析,结果刚刚年度报告就出来了,不用大数据分析聊天记录,能说下怎么出来的这个报告么。

这个算是保存聊天记录的石锤了
swulling
2019-01-12 01:31:41 +08:00
@lance6716 不同媒体介质不同的存储周期就很容易解决,文字甚至可以永久保存,也没多大。

你可以自己算算。假如微信存储从诞生以来的全部文字记录,需要多少空间
night98
2019-01-12 01:32:38 +08:00
@swulling #8 接口调用统计吧
swulling
2019-01-12 01:38:21 +08:00
@night98 随便举个例子,微信数据报告中有各个年龄段最喜欢的 emoji

要做到这一点,一种方法是按照你说的所谓接口调用统计,需要用户在每发一个 emoji 的时候,调用一个所谓的接口,把年龄 用户 id emoji 传过去,这不是脱裤子放屁么…

那这种容易,还是我直接保存全量聊天记录,直接用 mr 或者别的什么方法统计下各个年龄段的 emoji 频率简单呢…
night98
2019-01-12 01:40:51 +08:00
@swulling #11 日志分析啊,保存全量基本上不可能,以微信的体量肯定会定时压缩历史数据并打包的。
594duck
2019-01-12 01:51:03 +08:00
@qiayue 每个地区要求不一样的,以前页游的时候要求连聊天记录都要备份 3 个月。
x86
2019-01-12 01:57:08 +08:00
人家是不想做,真当做不出来?
swulling
2019-01-12 02:37:54 +08:00
@night98 聊天记录么为什不可能…很多人对纯文字的存储量有明显的误区。

微信 2018 报告中,每天发送的消息数是 450 亿,就算都是文字,我们假设平均长度四十个汉字,这个绝对高估了吧。

那么就是 450 亿×80 字节,也就是 3TB,而文字的压缩比基本可以做到 10%,也就是 0.3TB

现在一般存储服务器是 4TB×12 块盘,假设三副本冗余,一台机器可以存储 53 天全中国的微信聊天记录。

就算平均长度 400 个汉子,也不过一台机器存储 5.3 天记录,而腾讯有几十万服务器…
cattrace
2019-01-12 07:13:15 +08:00
退一万步说,不记录也代表不了什么,整天在那宣传为了隐私更是让人觉得虚伪,群聊、朋友圈都是要监控留存的这点以为大家不清楚么。
cattrace
2019-01-12 07:34:57 +08:00
顺带想请 tx 解释一下 2018 微信数据报告的“最受欢迎表情”的数据来源。
xianrentiao
2019-01-12 07:56:21 +08:00
QQ 为什么能做到?
happyz90
2019-01-12 08:27:08 +08:00
最受欢迎的表情,这个不用保存聊天记录也能统计吧,感觉没什么奇怪啊。。。比如统计大学食堂最受欢迎的菜品,不一定要把每个人每天的点菜记录都记录下来吧。。。
alfchin
2019-01-12 09:17:44 +08:00
@cattrace 这个要啥保存数据,直接 app 上统计就好了。发一次计数器加一。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/526241

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX