本来乌烟瘴气的喷张小龙有点看不下去,但确实还有一个技术问题挺令我感兴趣的,想听听大家的观点,对,就是微信聊天记录的保存问题

2019-01-12 00:26:21 +08:00
 ibegyourpardon

说的是微信服务端存储聊天数据这事。

微信官方是说,确定一定肯定的说没在服务器保存的。

有人信。

有人打死不信,坚定的认为在我国政策下,怎么可能不保存。

有人半信半疑,比如我。而且认为实际操作的时候可能有所取舍。

因为我有个问题还真想不明白。

如果微信真的保存用户的聊天记录,我还蛮认真地想问问认为保存了聊天数据的的这个流派,10 亿 DAU 的 APP,大量信息,结构复杂,无意义数据众多,这个存储和给公检法提供检索真的是那么容易实现的事吗?

Telegram 在 18 年 3 月宣布月活 2 亿,一个月 60 亿,现在应该也上涨了,但信息的结构复杂度和数量应该是确实不如微信的。且不说微信,哪怕是 Telegram,对这种级别的聊天信息保存用什么样的信息结构来存储才比较现实和合理呢?

然后 Telegram 固然是做到了历史记录的保存,虽然我没研究过对历史记录的保存时限,但对微信来说,如果非要保存的话,似乎也有一些方案。在我国国情下,应该是只需要针对一些重点人员进行监控和保存即可,并不需要全员信息保存。而且好像只要加个保存的时限处理,好像问题也解决的七七八八了,比如只保存三个月……

6443 次点击
所在节点    微信
44 条回复
swulling
2019-01-12 09:20:03 +08:00
@alfchin 那需要再年初 pm 就把年底数据报告应该统计哪些数据想好并不再改需求,否则过去了就没法统计了。

你觉得可能存在一年都不改的需求么……就 PM 的尿性?
alfchin
2019-01-12 09:44:36 +08:00
@swulling 请学会拆分至最小需求
erjinzhi
2019-01-12 10:09:08 +08:00
大概率是不存,也没必要。自己的产品协议都清楚,哪个地方需要监控,和地方配合流量解析就行,反正 wx 服务端不存
Daath
2019-01-12 10:57:19 +08:00
微信说我没有保存啊,因为我用的是兄弟单位 QQ 的服务器保存的
swulling
2019-01-12 11:06:27 +08:00
@alfchin 是用很小的成本把数据保存起来随时分析简单,还是年初加什么计数器简单?
hilbertz
2019-01-12 11:41:02 +08:00
现在还有人搞不清楚微信到底有没有看你的聊天记录?你们什么时候产生了国产 app 关注用户隐私的错觉?
SuperMild
2019-01-12 11:46:03 +08:00
在技术上,仅仅保存,特殊情况才调用(冷数据),与作为聊天记录提供给用户随时访问,费用不一样吧。
ho121
2019-01-12 11:59:09 +08:00
只说微信自己没保存,又没说别人没保存
snw
2019-01-12 12:07:03 +08:00
TG 聊天记录暂时没保存时限,直到钱烧光为止。
TG 除了消息类型多,群人数也远高于微信群,所以超级群的历史消息是统一的
snw
2019-01-12 12:08:43 +08:00
另外,官版 TG 暂时无法以中文搜索历史记录
jfdnet
2019-01-12 13:09:23 +08:00
视频或者照片(原图)什么的你要是没有下载到本地(就是收到后有打开过),过一段时间是会失效的,会无法打开只能看缩略图。这样的使用体验其实大概已经能说明了微信的存储策略了吧。
laike9m
2019-01-12 14:14:42 +08:00
@swulling 难道不能直接统计么。。
Telegram
2019-01-12 17:54:39 +08:00
就微信那个视频压缩率,不管你多屌的手机,拍出来都跟马赛克似的。能占用多大存储?

人家 tg 一个毛片几 G 都能给你存,下载嗖嗖的。
est
2019-01-12 18:52:35 +08:00
@swulling 一天 3T 其实很容易做。10T 的集群一个人就能搭出来维护。

我相信微信是真没存聊天记录,但是腾讯存没存,深圳派出所存没存就是另外一回事了。
alfchin
2019-01-12 19:16:32 +08:00
@swulling 呵呵,成本上差别可大了。
EscYezi
2019-01-12 19:20:13 +08:00
@snw 我一直想问的问题就是如果 TG 的聊天记录&文件把服务器塞满了怎么办......反正我是没少往 saved message 里面放东西
swulling
2019-01-12 20:39:20 +08:00
@alfchin 看上面的计算,成本可以低到忽略。
lynskylate
2019-01-12 21:54:41 +08:00
..你是不是太小看大公司的存储了,之前在某家的时候,每天产生的客服语音数据就有几百 g,拿来标注训练,对大公司来说,硬盘是最不值钱的几个硬件了。
alfchin
2019-01-12 22:46:07 +08:00
@swulling 你把全部的数据跑一次试试看。存储最多是花小钱,把那些数据拿去统计才是花大钱的。
alfchin
2019-01-12 22:49:14 +08:00
@lynskylate 存储本来就不花钱,处理才是花钱的。语音公司可以这么玩是因为那些玩意不需要再次处理。微信的记录今天有个新活动方案,然后吭哧吭哧把一整年的数据都搞出来然后开始统计?正常点的直接在界面上加入各种统计,作为诊断数据直接批量发回。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/526241

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX