其实你们 base64 让爬虫更好收集联系方式了

2023-01-03 18:13:20 +08:00
 edis0n0
爬虫收集别的论坛里用户留下的联系方式要一个个解析 电话 微信 QQ 之类关键词的上下文,还要处理 wx: vx:v :这些各种奇怪的称呼和写法,甚至要上简单的 NLP 。V 站都不用分析,直接提取所有 base64 ,短一点的里面内容极大概率是联系方式
8869 次点击
所在节点    程序员
59 条回复
zxCoder
2023-01-04 15:38:24 +08:00
@opengps 唉 以前一直在贴吧求种子,留的都是自己的 qq 邮箱
JamesMackerel
2023-01-04 16:07:36 +08:00
@ttyhtg 笑死,我刚刚测了一下往我的个人简介里塞我的 gpg pub key ,然后他提示我个人简介长度不能超过 2000 字符。
chinni
2023-01-04 16:21:17 +08:00
@JamesMackerel 用 ecc
yianing
2023-01-04 16:26:55 +08:00
@JamesMackerel keys.opengpg.org 上传之后塞指纹
yianing
2023-01-04 16:27:57 +08:00
@yianing 搞错了是 openpgp https://keys.openpgp.org/
laqow
2023-01-04 17:10:34 +08:00
那啥 app 搞个什么只能在自家需要人脸识别手机号登录的软件用的什么码就把所有人身家信息收集齐了
Rehtt
2023-01-04 17:17:28 +08:00
用 url safe 的 base64 就没有特征了
edis0n0
2023-01-04 17:38:58 +08:00
@Rehtt #45 全试一遍解码后没有非标准字符就是特征,爬虫服务器又不缺那一点 CPU ,解析 base64 网卡爬冒烟了 CPU 都跑不满
ttyhtg
2023-01-04 17:55:38 +08:00
@JamesMackerel 上传到公钥服务器,放上链接应该也行吧
BaseException
2023-01-04 19:06:28 +08:00
我用带有自动过期时效限制的 url
Fo3256Go
2023-01-04 21:46:38 +08:00
那就用莫斯电码配合 base64 ,加密还嫌多?
莫斯电码+ base64 + aes256 ,三合一

你慢慢解去吧。
SenLief
2023-01-04 21:54:40 +08:00
我觉得应该用 email 最好,可惜现在很少有人用了。
vangjing
2023-01-05 09:56:06 +08:00
-----BEGIN PGP MESSAGE-----

hF4D7DlMirAJB+ISAQdAeuur4R4gQVICaj8XRYBnA4DEAZwqBORVm4e+4dBmclww
t10Uj0E9pP+BRvbMP2k8TgfgeAmHduRaRJQ+guETZtD/Hb5GstqvFENopZYHJTKt
1MAPAQkCEORpYGO6tBq6kEO+iSvRheRqsQxvc5RS3X5JkEaQDeqaN4rCV2e8lVlI
jtzBtcUKwsbu0zwxX9lwL8ZebDtmN+nYYcstEIl9yH+ROaQUQm794Pn+3I0w19PY
mdOPaNutUHVZ5ESHKE6XboXpjVWFr3eIosA1hCNn7YZiuVuRFv9XdGSwaTMnwNLQ
VRBAUaDYRqubJoDR8kTxXwM4/dCmlqgt2i4Xcg/7iXWIypnAPEblHH4+9tAD2mqU
xOzwQiwC+HmcDgGLf/UO8n5m
=MMLm
-----END PGP MESSAGE-----
dobelee
2023-01-05 11:21:41 +08:00
wechat 建议转 base64 前加一些不规则描述。邮箱没什么必要。
edis0n0
2023-01-05 11:47:47 +08:00
那你们不如不发出来,留自己硬盘里最安全
@wunonglin
@justfun
@pennai
@SunsetShimmer
@Fo3256Go
Rehtt
2023-01-05 18:37:29 +08:00
@edis0n0 那照你这样说的话 wx: vx:特征不就更明显了吗,再加上大部分人 vx:后面一般接手机号匹配一下就全出来了
edis0n0
2023-01-05 18:40:31 +08:00
@Rehtt #54 太多了 还有 加薇: 微 x: 有的淘宝闲鱼这种商业产品的敏感词检测都检测不出来,你爬虫不可能适配完
SunsetShimmer
2023-01-05 22:36:49 +08:00
@edis0n0 用 JavaScript 意味着你可以把这个东西贴进你正在使用的浏览器(既然在浏览网页,一定是有浏览器的吧?)的调试控制台里,F12 、复制、粘贴、Enter 、拿到信息。
Rehtt
2023-01-06 08:59:30 +08:00
@edis0n0 那我完全可以 微 x:xxx 再转 base64 ,这样永远比明文复杂一个步骤

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/906333

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX