大数据时代保护隐私的另一方向:往大数据里投毒

2021-01-29 11:13:15 +08:00
 billytv
大家都说在大数据下隐私都暴露无遗,各种 app 的广告精准投递,与其小心地防着,也许能换个方式向大数据里投毒?如爬虫一样,防守一方往数据里投假数据,混淆虚实,爬虫一方不小心就把假数据当成真,得到无效数据。

简单实现方式:
在已登录淘宝 /京东账号,搜索与自己兴趣毫无关联的产品,如玉石、茶叶等, 模拟长时间浏览 /加购物车 /咨询小二等操作。

经过一轮操作,推荐页面已变得与个人兴趣不太相关,简单实现投毒。

进一步投毒:
所有厂商用于识别个人画像的东西,如手机型号,使用时间(半夜打开)、IP 与地理 (使用代理)、输入法、音频 (如真有偷听) 都可以进行投毒, 另一方面可以多人公用账号来混淆对个人精准识别 (但可能会有安全风险, 而且据说不少 app 能根据用户手指滑动习惯精准识别用户)

自动化:
利用 xposed/圈 x 等工具自动化操作,定时往 APP/sdk/各大广告联盟输送无效数据

如果这个方式有效且落实得好,即使账号已经实名制,但各大厂拿到的个人画像已经变成模糊不清,营销变得毫无意义
7864 次点击
所在节点    奇思妙想
51 条回复
kaiki
2021-01-29 11:17:50 +08:00
用魔法打败魔法还是挺难的,毕竟道高一尺魔高一丈。
我在淘宝上搜索一个我之前从来没搜过的商品,直接让我滑验证码。
如果大数据足够强大,通过对用户进行画像,剔除无关数据,那灌垃圾行为就可以被发现,退一步来说,现在已经画得差不多了,灌垃圾也不过是多加几笔罢了,影响不了大数据对你的真实信息的判断,除非你的在所有平台的数据无关联或无规律可循。
arcadia
2021-01-29 11:22:49 +08:00
这个如果能实现,可能要系统化的帮你做一个假身份,模拟人每天都在产生大量的假行为。但是真做出来了,你使用各种 APP 的体验也都会差很多
czfy
2021-01-29 11:24:14 +08:00
主要是,太麻烦了..或者说门槛相对高,无法普及,无法大规模反制
当然关心隐私的个人这么做是可以的,多一个人是一个人
kaiki
2021-01-29 11:27:16 +08:00
@arcadia 其实没那么复杂,假身份太假更容易被拆穿,最主要的还是不同的 APP 身份隔离,让背后的数据收集无法归类为一个身份。
billytv
2021-01-29 11:28:59 +08:00
@kaiki 用户画像会随着时间而改变, 比如一个单身的人恋爱了, 他需要的东西跟之前完全不一样, 兴趣 /爱好这些也会慢慢产生变化, 至于判断垃圾数据的机制, 就跟爬虫与反爬一样, 是技术的较量, 没有说哪一方一定会赢, 试了才会知道
kaiki
2021-01-29 11:32:27 +08:00
@billytv 变化一般是循序渐进的,就像我遇到的例子,突然搜索从来没搜过的东西他会让我验证,很明显就是发现了异常,同理灌垃圾这种行为也是会被检测到的,它可以先画,但是是否标记为有效数据,得再继续深入了。
你这个想法在 V 站不是第一次出现,我认为单纯的无效数据很容易过滤,如果能创建有依据、连续的数据,更容易产生干扰效果。
jiezhi
2021-01-29 11:34:14 +08:00
以前也想过试图扰乱对手,只要我跑得步伐够乱,敌人就看不清我的方向。

但最后应该是数据挖掘技术更强了。
xiangyuecn
2021-01-29 11:36:42 +08:00
深挖洞 广积粮 扔掉手机 剪断网线
imn1
2021-01-29 11:42:29 +08:00
前几天好像已经有一帖讨论过了

很难,难点在于难以坚持
信息鲜活度是个很重要的参数,技术上就是权重,近期的信息权重肯定更大,除非一直保持信息投毒这种操作,否则过一段时间,这个有毒信息鲜活度降低(权重减少),那么你的日常操作又重新占了主要的权重,没用

#1 说的是另一方面,现在很多“追踪隐私”的操作,已经和账户联系相当紧密了,变成了风控的一个部分,如果进行大量自我数据污染,搞不好就是封号
你可以试试切换多个 IP 访问 v2ex,先说一句,出问题我不担责,🐶

我现在用的是行为隔离的方案,但向别人推荐时,99.9%都嫌麻烦
所以,“大部分人愿意用隐私换便利”,将成为今后几十年的一个恒久金句
liulaomo
2021-01-29 11:54:21 +08:00
可以利用浏览器插件来实现
DAMNYOU
2021-01-29 11:56:34 +08:00
真简单的方法就是用假身份证,反正画像再真实 你用的都是壳,随时可以抛弃。
jasonyang9
2021-01-29 11:59:27 +08:00
必须有自动化工具,居家旅行必备。让它 Y 的去分析
love
2021-01-29 12:09:39 +08:00
典型的损人不利己,费了半天劲一顿操作对自己啥好处也得不到
dswyzx
2021-01-29 12:11:41 +08:00
画像不一定就必须每人一个画像,太过离谱的,比如年入千把天天浏览奢侈品的直接当垃圾数据过滤,然后取多数人的相似结果给你推怎么办
Varobjs
2021-01-29 12:57:26 +08:00
最简单就是不要实名,但你觉得现在不实名可能吗
wangkun025
2021-01-29 13:01:42 +08:00
支持你。
hahastudio
2021-01-29 13:09:04 +08:00
wolfie
2021-01-29 13:16:00 +08:00
本地数据文件、好友关系 算是大多数人更关注的隐私数据。
广告还是那么些个广告,个人反而更希望推的质量高一些。
remarrexxar
2021-01-29 13:44:58 +08:00
《掟上今日子的备忘录》里的一个故事,一个内向自闭的女中学生喜欢阅读却不想暴露自己的爱好,所以在旧书店买书的时候会故意混杂大量无关的书一起买。但是对于专业的书店店长来说时间一长依旧能分析出她喜欢什么书,店员后来依旧准确的推荐出了女孩喜欢类型的书。对于大数据分析也是一样的道理。
recall704
2021-01-29 13:47:18 +08:00
之前就干过,QQ 空间照片经常有提问

“这是 xxx 吗?”

我都点不是,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/749476

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX