有没有搜集过人们的聊天记录做数据分析??

2020-08-09 19:41:10 +08:00
 l890908
比如搜集个几百万聊天记录,从而统计分析出网络聊天中人们最常用的词汇,表达方式书写习惯什么的?
5513 次点击
所在节点    奇思妙想
33 条回复
kaiki
2020-08-09 19:46:50 +08:00
这种东西你做了会说出来吗?不会有人质疑你隐私安全问题?
em70
2020-08-09 19:55:56 +08:00
啥都不用分析,能删掉敏感信息,把这么大量的聊天记录建库建索引,已经是个很有价值的语料库了,开放出去,会有五花八门的应用
l890908
2020-08-09 20:08:22 +08:00
@kaiki 没有什么问题啊,我现在去各种群搜集记录分析也可以的啊,提取说的话而已,不存在隐私安全问题
l890908
2020-08-09 20:09:05 +08:00
@em70 是,就是这个意思,市面上有没有相关的资源?
wpblank
2020-08-09 20:13:04 +08:00
哈哈哈 我还真收集过,只是一直没来得及也不会分析。
raaaaaar
2020-08-09 20:58:56 +08:00
你猜输入法的云补全,云推荐的那些词语频率是怎么来的。
agagega
2020-08-09 21:36:24 +08:00
往黑暗了想,可以收集各种论坛微博上的嘴臭数据,做出一个终极祖安对线机器人
wxb2dyj
2020-08-09 21:36:42 +08:00
@l890908 你怎么想的,怎么可能没问题?你把个人隐私当 shit 吗?
Mogugugugu
2020-08-09 22:02:40 +08:00
有、有个群的群主用小号机器人记录了所有的聊天记录,然后生成了词云。
WebKit
2020-08-09 22:15:30 +08:00
有啊,之前群机器人就有记录功能
yingqi7
2020-08-09 22:22:13 +08:00
输入法不就干这个事,你要说他不分析过谁信
l890908
2020-08-09 22:24:19 +08:00
@wxb2dyj 我在 qq 群里把聊天记录复制下来做数据分析侵犯了什么隐私?愿闻其详
lithiumii
2020-08-09 22:30:38 +08:00
腾讯好像公布过微信聊天最常用的 emoji 之类的
x86
2020-08-09 22:55:00 +08:00
@Mogugugugu 罗磊?我印象里他写过他的 tg 群做过这个操作
em70
2020-08-09 23:06:36 +08:00
@l890908 这个数据只能在腾讯,搜狗手上,他们不会放出来的
locoz
2020-08-09 23:41:28 +08:00
以前干过这种事,结果分析完某群之后发现出现最多的词是:爸爸、管理员、牛逼…
laminux29
2020-08-09 23:41:43 +08:00
1.国外的 IM 类 APP 会收集用户聊天记录,主要用于广告与商业活动。

2.国外的 IM 类 APP,还会被国外的 FBI 以及国外的 zf 机构,要求收集用户聊天记录,用于备案与查询。

3.国外的商业类 APP 会想方设法收集用户设备的剪切板与文件,主要也是用于广告与商业活动。

4.国外很多商业场所、公司、zf 机构,会被要求安装监控与存储设备,来拦截用户的上网记录、聊天记录,并且保存 3 个月至半年。
dioxide
2020-08-10 00:01:23 +08:00
@laminux29, 而且他们还对外声称: “我们十分注重用户隐私,绝不会.......”
Perry
2020-08-10 00:12:13 +08:00
散了散了,原来楼主只会收集群消息。黑产加群玩这个多少年了,楼主不知道?
grazie
2020-08-10 05:37:54 +08:00
@laminux29 选 signal 就完事了,让 fb 系滚蛋(

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696888

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX