V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leaveeel
V2EX  ›  问与答

关于联系方式加密的疑惑

  •  
  •   leaveeel · 2024-09-29 17:40:16 +08:00 · 1981 次点击
    这是一个创建于 368 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到不少帖子在需要进一步交流的时候会提供通过 base64 加密的手机/微信/QQ/email/...我在顺手解码后得到的就是上述联系方式的完整字符串,极少数会加盐后编码。这就导致你的 base64 编码并没有起到增强隐私的作用,而通过真实联系方式加密后直接就能搜索出回复过该编码的帖子。

    在仅仅是防止爬虫骚扰的情况下,对一些只爬手机号、email 的可能有效。现在大多留的是微信,我不清楚微信有没有加好友的 api ,即使有在调用之前尝试解码也不费事,手机、邮箱也可以在不需要额外人工的情况下尝试解码后进一步骚扰,和明文区别已经不大了。

    而如果加盐后再编码就能很大程度解决这个问题,比如: v2ex 微信号 ABCD => djJleOW+ruS/oeWPt0FCQ0Q=

    +括号内微信( ABCD) => K+aLrOWPt+WGheW+ruS/oe+8iEFCQ0Qp

    两个编码都能用于指向同一个微信,也能加大其他个人信息和这次编码产生联系的成本。但是这么做的人不多。

    14 条回复    2024-10-04 18:49:39 +08:00
    cmdOptionKana
        1
    cmdOptionKana  
       2024-09-29 17:42:50 +08:00
    其实都泄漏得差不多了,我觉得没必要整复杂,直接暴露原文就行。
    leaveeel
        2
    leaveeel  
    OP
       2024-09-29 17:48:54 +08:00
    @cmdOptionKana 现在普遍是原文加密的字符串,尤其是技术论坛。个人觉得这种粗暴的加密多此一举,没法保证隐私也给其他人增加操作,防君子不防小人了。
    cmdOptionKana
        3
    cmdOptionKana  
       2024-09-29 17:50:27 +08:00
    @leaveeel 我觉得就是赶时髦而已,形式主义大于实际意义。
    llxvs
        4
    llxvs  
       2024-09-29 17:54:07 +08:00 via iPhone
    1. 爬虫可以区分邮箱、手机号、普通文本的 base64 吗?退一步讲,爬虫可以区分 base64 与其他文本吗?
    2. base64 可以防止搜索引擎收录,防止根据邮箱/手机号等搜索到你的帖子,尤其是对于不能删帖的本论坛来说。
    leaveeel
        5
    leaveeel  
    OP
       2024-09-29 18:09:36 +08:00 via Android
    @llxvs 不知道但实际不需要知道,只要爬到的格式非手机邮箱的字母数字符号组合就可以尝试 decode 。
    而第二点我在正文提到过,搜索引擎同样会收录 base64 码,不经过处理的号码和编码是一一对应的,想查依然能查到。
    itechify
        6
    itechify  
    PRO
       2024-09-29 20:10:20 +08:00
    我习惯 pastebin
    NoOneNoBody
        7
    NoOneNoBody  
       2024-09-29 21:48:08 +08:00
    @cmdOptionKana #3
    并不是,你找个熟人的 email 或微信号去搜索引擎搜一下,看看他的足迹都到过什么地方?

    然后想想编程随想

    只想到有意收集,思维局限了,其实存在更多的情况是“无意”收集
    NoOneNoBody
        8
    NoOneNoBody  
       2024-09-29 22:17:16 +08:00
    @leaveeel #5
    问个问题:
    爬了一千万个网页
    1.用正则能直接匹配出 email ,确认是 email(是否真实另算),能占 90%以上
    2.那么,base64 呢,不会整个网页都是 base64 吧,先匹配出 base64 的部分,解码,再判断是否 email ,效率应该低于 50%,成本大效率低,且这些爱用 base64 的人,警觉性也略高于前面 1 的
    假如你做黑产的话,这两种人都一视同仁么?就算明知会拉高成本也把 2 列为目标?

    当绝大部分人都放弃 1 ,采用 2 ,这样两者拉平,成本才会拉平

    当然有反向操作的情况,就是专找敌对份子的人,他们会找那些见不得光都爱“加密”的
    cmdOptionKana
        9
    cmdOptionKana  
       2024-09-29 22:51:58 +08:00
    @NoOneNoBody 用 base64 骗自己,还不如用明文提高警觉性,涉黄就隔离身份换个邮箱,涉政那要做的措施就多了。
    NoOneNoBody
        10
    NoOneNoBody  
       2024-09-29 23:10:34 +08:00
    @cmdOptionKana #9
    首先,隔离身份是正确的,但跟这个不是一个方向的话题
    假如我有三个电话号码,或者邮箱,给不同圈子的人,确实那个圈子的人只会联系其中之一,他们极可能并不会知晓另外两个圈子的身份
    但是如果三个圈子都是会在网上公开,且被搜集的,那这三个电话号码都会收到跟这三个圈子毫无关系的广告骚扰,或者诈骗,但如果都用“密文”,就会少很多,所以我说这是两个方向的话题

    稍微处理[可以但不是重点]保护真实身份,重点是减少那些漫无目的、无差别的收集行为
    NoOneNoBody
        11
    NoOneNoBody  
       2024-09-29 23:38:25 +08:00
    @cmdOptionKana #9
    我再透点隐私帮你扩宽一下思维:
    我有个圈子,里面几乎没有会编程的,绝大多数是文字工作者,他们中应该只有少数几个知道 base64
    他们用的是什么方式对联络信息遮罩呢?
    答案是非常原始的方法 —— 繁体汉字写数字、emoji 、贴图……

    其实对于爬虫来说,程序员用 base64 反而是最弱的,越原始的方案工作量越大,哈哈
    不是说采集者不能采集、不能“解密”,而是他们要面对很多不同情形做不同的对策,情形越多成本越大
    lloovve
        12
    lloovve  
       2024-09-29 23:47:41 +08:00 via iPhone
    可以做继续短链接的临时名片
    yvkino
        13
    yvkino  
       2024-09-30 02:01:26 +08:00
    手机号里随机加个字母就好了
    julyclyde
        14
    julyclyde  
       363 天前
    没什么用
    只是一种文化现象而已
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   848 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 18:21 · PVG 02:21 · LAX 11:21 · JFK 14:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.