其实你们 base64 让爬虫更好收集联系方式了

2023-01-03 18:13:20 +08:00
 edis0n0
爬虫收集别的论坛里用户留下的联系方式要一个个解析 电话 微信 QQ 之类关键词的上下文,还要处理 wx: vx:v :这些各种奇怪的称呼和写法,甚至要上简单的 NLP 。V 站都不用分析,直接提取所有 base64 ,短一点的里面内容极大概率是联系方式
8869 次点击
所在节点    程序员
59 条回复
cairnechen
2023-01-03 18:18:43 +08:00
base64 不是防爬虫的,是防止通过简单搜索就能完成 [人肉]
securityCoding
2023-01-03 19:14:45 +08:00
防社工的
evan6
2023-01-03 19:15:20 +08:00
把「我的联系方式是 xxxxxxxx 」转成 base64
baobao1270
2023-01-03 19:16:51 +08:00
@cairnechen
@securityCoding

防止社工感觉也不成立,专业的社工软件要集成进一个自动搜索 base64 其实很简单
hertzry
2023-01-03 19:59:46 +08:00
穿着内裤裸奔,总比什么都不穿好。
wunonglin
2023-01-03 20:13:32 +08:00
好的。下次用 SHA256
yankebupt
2023-01-03 20:20:06 +08:00
base64 不是一种防收集方式
而是一种警告:
“小心,这人会 btoa ,收集他的联系方式有你好果子吃”
loading
2023-01-03 20:32:29 +08:00
然后呢?你能穿过 gmail 的第一道防御?
realpg
2023-01-03 23:19:23 +08:00
@hertzry #5
比喻不恰当
应该是捂着脸裸奔
lambdaq
2023-01-03 23:22:45 +08:00
直接申请一个能 base64 解码的邮箱地址。
pennai
2023-01-03 23:42:58 +08:00
@wunonglin fyutftydrxrfyufiyu78678567-=-
justfun
2023-01-03 23:54:42 +08:00
好的 下次留 md5
inframe
2023-01-03 23:55:26 +08:00
换 base32 ,每次发布时指定一下编码格式,加点干扰字符
SunsetShimmer
2023-01-04 00:01:20 +08:00
混淆过的 JavaScript 怎么样?

```
function _0x4556(){var _0x2a9476=['\u6d4b\u8bd5\uff1a\u6211\u7684\u8054\u7cfb\u65b9\u5f0f\u662f','\x6c\x6f\x67','\x33\x30\x52\x68\x45\x52\x78\x51','\x35\x37\x35\x38\x39\x37\x55\x46\x46\x4c\x45\x46','\x35\x36\x33\x30\x30\x38\x38\x42\x67\x6a\x44\x6e\x41','\x31\x39\x39\x34\x35\x32\x62\x48\x74\x59\x4c\x6a','\x32\x34\x56\x71\x71\x6e\x55\x6b','\x32\x79\x49\x74\x6c\x56\x6e','\x38\x31\x34\x31\x37\x30\x71\x78\x66\x46\x72\x55','\x39\x67\x44\x4c\x72\x47\x43','\x38\x4b\x73\x56\x41\x51\x6d','\x32\x31\x33\x38\x39\x38\x38\x72\x61\x67\x46\x74\x67','\x6e\x42\x72\x4d\x4c','\x61\x73\x64\x73\x61\x73\x64\x2e\x63\x6f','\x37\x35\x34\x58\x6e\x49\x48\x76\x7a','\x31\x34\x38\x31\x34\x31\x34\x48\x41\x56\x48\x76\x65','\x31\x39\x35\x37\x34\x30\x35\x46\x79\x4c\x78\x44\x55'];_0x4556=function(){return _0x2a9476;};return _0x4556();}(function(_0x579769,_0x4391a9){var _0x135ebc={_0x2386ed:0x19e,_0x1e29fd:0x19d,_0x19f1e9:0x195,_0x41eea9:0x19c,_0x1039b1:0x198,_0x386c4e:0x1a5,_0x4f6823:0x19b},_0x165af4=_0x331e,_0x446e8f=_0x579769();while(!![]){try{var _0x13b3c9=parseInt(_0x165af4(_0x135ebc._0x2386ed))/(-0xa*-0x77+0x846*0x2+-0x1*0x1531)+parseInt(_0x165af4(_0x135ebc._0x1e29fd))/(0x1*-0x8b+-0x2655*-0x1+0x7c*-0x4e)*(parseInt(_0x165af4(0x1a1))/(-0xf89+0x2197+-0x1*0x120b))+-parseInt(_0x165af4(0x1a0))/(-0x233b*-0x1+-0x2412+0x49*0x3)*(parseInt(_0x165af4(_0x135ebc._0x19f1e9))/(-0x1107*0x1+-0x1*0x15ff+0x1*0x270b))+parseInt(_0x165af4(_0x135ebc._0x41eea9))/(0x1*-0x19bb+-0x1f7*0xe+0x3543)*(parseInt(_0x165af4(0x199))/(0xa7d*0x3+0x55*0x11+0xb*-0x35f))+-parseInt(_0x165af4(0x19a))/(0x469*-0x2+-0x2*-0x4+0x8d2)*(-parseInt(_0x165af4(0x19f))/(-0x1d39+0x48c+0x18b6))+-parseInt(_0x165af4(_0x135ebc._0x1039b1))/(0x173*-0x1+-0x1*-0x1fff+-0x8e*0x37)*(parseInt(_0x165af4(_0x135ebc._0x386c4e))/(0x1d*-0x53+-0xaf9*0x3+0x2a5d))+parseInt(_0x165af4(_0x135ebc._0x4f6823))/(-0x2*0x1348+0xea*-0x4+0x2a44)*(-parseInt(_0x165af4(0x1a4))/(0x1fca+-0xfbd+0x1*-0x1000));if(_0x13b3c9===_0x4391a9)break;else _0x446e8f['push'](_0x446e8f['shift']());}catch(_0x2117c4){_0x446e8f['push'](_0x446e8f['shift']());}}}(_0x4556,-0x1*-0x61dd7+0x1*0x28a3b+-0x26a61*0x1));function _0x331e(_0x403d30,_0x159d24){var _0x2b0f3b=_0x4556();return _0x331e=function(_0x49b134,_0x3c2993){_0x49b134=_0x49b134-(0x1*-0x1daf+-0x19b1+0x38f5*0x1);var _0x19ed6f=_0x2b0f3b[_0x49b134];return _0x19ed6f;},_0x331e(_0x403d30,_0x159d24);}function _0x109a9f(){var _0x543f84={_0x20e762:0x1a2,_0xf05216:0x196},_0xf5fff3=_0x331e,_0x84b98f={};_0x84b98f[_0xf5fff3(_0x543f84._0x20e762)]=_0xf5fff3(_0x543f84._0xf05216)+'\x61\x73\x64\x66\x67\x68\x6a\x6b\x6c\x40'+_0xf5fff3(0x1a3);var _0x91475e=_0x84b98f;console[_0xf5fff3(0x197)](_0x91475e[_0xf5fff3(0x1a2)]);}_0x109a9f();
```
512357301
2023-01-04 00:19:33 +08:00
主要是提高联系成本,防骚扰的,毕竟无聊的人很多,但是懒人更多
DrakeXiang
2023-01-04 00:35:03 +08:00
但是 base64 你要怎么判断? abcd123 和真正的 base64 你怎么区分?
ysc3839
2023-01-04 00:44:03 +08:00
我认为是否的。base64 在各类 html 中大量存在,要过滤的话就得先解析 html ,提取出显示文本,再提取 base64 。而邮箱这种规则的字符串几乎不会在别的地方出现。
ttyhtg
2023-01-04 00:46:54 +08:00
才发现,这里没有私信功能啊。大家是不是可以用 gpg 加密联系信息回帖,然后个人简介放上自己的公钥?今天看了 gpg 相关的东西
edis0n0
2023-01-04 01:06:13 +08:00
@DrakeXiang #16 那可太简单了,判断解出来的内容是不是中英文就可以了
@ysc3839 #17 正常的网站不可能把 base64 的未解码形态直接展示给用户,除非用户将它作为内容提交。
ysc3839
2023-01-04 01:18:06 +08:00
@edis0n0 html 代码可以包含 base64

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/906333

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX