如何有效识别黑链。

2016-08-04 09:36:56 +08:00
 latent

最近,在写网站黑链识别,但是对于各种网站的链接,怎样有效地能够识别出,该 href 就是黑链,或者减少误报率,各位老司机有没有各种好姿势。

3758 次点击
所在节点    Python
8 条回复
qqpkat2
2016-08-04 09:46:31 +08:00
这很难识别,黑链直接加到你正常的友情链接那里去,你怎么识别
要么就看过滤黑链的关键字,比如什么私服啊,不孕不育啊
曾经黑了几百网站放黑链的路过。
xhowhy
2016-08-04 10:02:11 +08:00
黑链现在也不必隐藏了
latent
2016-08-04 11:06:39 +08:00
@qqpkat2 是阿,想法也是关键字,可是没关键字,根本就很难分辨是不是黑链阿
SlipStupig
2016-08-04 13:36:19 +08:00
@latent 之前做过类似的挂马检测,不知道你是本地还是远程,远程麻烦一点,我说一下之前检测挂马的方法:
1.优先检测外链,本地样本算一个模糊 hash ,再比对远程下载的内容如果比对成功,就是被黑了
2.基于 url 参数测试,很多做挂马会判断你的浏览器版本,根据这个去模拟不同参数输出结果(容易误报),还是要检测差异有多大,比如用普通参数访问没内容,如果用 baidu spider+这个 ua 头就会跳转,这个一定有问题
2.基于模板聚类去识别(很多都是动态文件),但是里面的 css 布局和元素分布是相同的,可以做一个有效识别(其实就是那么几票人干的,需要一定的样本做 k-mean )
3.基于链接相似度抓取网页,跟当前 url 参数差异很大的,比如某网站都是:/index.php?mode=page&number=1 这种有 990 个,突然出现了一个:/hack/hack.html ,这个链接可以报可疑,然后结合关键字(很多都是广告联盟的,可以分析一下这类特殊链接是否是网站联盟)
4.开沙盒行为检测,模拟浏览器去访问,然后根据规则分析沙盒内的异常行为(估计你用不到)
qqpkat2
2016-08-04 14:10:40 +08:00
@latent 代码检查也是可以的
隐藏的,通过 js 的 document.write 的,绝对坐标超出屏幕范围的
imn1
2016-08-04 14:14:22 +08:00
你是拉登还是蓝灯?
想知道你对黑链如何定义,这个决定范围
ershisi
2016-08-04 15:04:29 +08:00
链接的颜色判断 /链接的位置判断。 head foot 里的链接判断。另外,各种脚本下现在的黑链不应该是判断爬虫然后再展现了吗?
tSQghkfhTtQt9mtd
2016-08-04 17:04:37 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/297001

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX