其实你们 base64 让爬虫更好收集联系方式了

2023-01-03 18:13:20 +08:00
 edis0n0
爬虫收集别的论坛里用户留下的联系方式要一个个解析 电话 微信 QQ 之类关键词的上下文,还要处理 wx: vx:v :这些各种奇怪的称呼和写法,甚至要上简单的 NLP 。V 站都不用分析,直接提取所有 base64 ,短一点的里面内容极大概率是联系方式
8864 次点击
所在节点    程序员
59 条回复
edis0n0
2023-01-04 01:19:42 +08:00
@ysc3839 #20 可以包含,但是不会把 base64 原始形态直接渲染在页面上展示给用户
ysc3839
2023-01-04 01:21:11 +08:00
@edis0n0 所以就得先解析 html ,提取出显示文本,再提取 base64 ,成本比爬邮箱等高多了。
gowl
2023-01-04 01:23:12 +08:00
这个链接会跳转为一个邮箱地址,并且在 24 小时之后自毁:

https://www.fadingurl.org/item/2301.6351.8758.1986
melkor
2023-01-04 01:24:03 +08:00
电话和邮箱的特征也很明显,好像只有微信号这种帐号比较难判断……
edis0n0
2023-01-04 01:26:57 +08:00
@ysc3839 #22 任何一个主流的爬虫框架都会自动解析显示文本呀
hsfzxjy
2023-01-04 01:36:39 +08:00
其实感觉可以试试以帖子的 id 为密钥作对称加密
totoro625
2023-01-04 07:33:38 +08:00
把邮箱地址中的 @改为#都能减少 99%的骚扰邮件
至少,屏蔽了简单无脑的爬虫
gccdchen
2023-01-04 09:53:42 +08:00
那可以考虑 base64 中注入 sql 攻击?
sometime
2023-01-04 10:14:41 +08:00
直接上图片吧,字体用些特殊字体
jiangzm
2023-01-04 10:29:05 +08:00
杠屁呀
nocwat
2023-01-04 10:30:35 +08:00
@ttyhtg 你可以试试 Keybase
november
2023-01-04 10:35:24 +08:00
那就指定 base64 的次数不就可以了, 比如三次 base64 表示为:3base64 ,3xbase64 ,bsse643 ,bsse64x3 等等格式,甚至 base64 base64 base64 ,或者 abc | x3.

那你来爬一下?
zoharSoul
2023-01-04 10:52:13 +08:00
base64 没什么特征啊 , 你怎么知道是 base64?
litchinn
2023-01-04 11:06:54 +08:00
@november 哈哈,刚想说提供信息的时候贴一下要经过几次转换
dianso
2023-01-04 11:07:30 +08:00
交易区爬虫能抓取?????
opengps
2023-01-04 11:22:13 +08:00
op 试下百度自己的名字,手机号,邮箱,车牌号等信息看看。如果毫无防御,大数据会比你更懂你,过于暴露的信息自然会让人有所抵制公开信息的发布
Bingchunmoli
2023-01-04 12:21:09 +08:00
主要是防止搜索引擎吧,
DI64QrUrruOAmKO7
2023-01-04 12:47:14 +08:00
我用虚拟邮箱: https://moakt.com/zh
ajaxgoldfish
2023-01-04 12:55:40 +08:00
防 Google 蜘蛛的,防君子不防小人
zed1018
2023-01-04 13:00:56 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/906333

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX