网站 404 页面识别技术方案探讨(~!~本人基于余弦相似性算法研究了一部分~!~)

2018-06-04 17:05:29 +08:00
 nmask

前段时间研究了下基于余弦相似性的 404 页面识别技术方案,这是当时记录的笔记与心得,有兴趣的可以看看:

https://thief.one/2018/04/12/1/

研究结果虽然提升了 404 页面识别的准确性,但感觉仍有不足,有兴趣的可以一起探讨探讨。

注明:由于完整代码涉及公司项目,就不全部放出来了。再了解了具体实现方案后,代码实现还是比较容易的。

这是博客里面最终写到的 404 页面测试 api:

https://api.nmask.cn/not_exist_page_calculation/?target_url=https://www.baidu.com/not_exist_page

2704 次点击
所在节点    分享创造
7 条回复
amamiyasachi
2018-06-04 20:31:24 +08:00
https://api.nmask.cn/not_exist_page_calculation/?target_url=http://www.meowmere.com/abcd
拿自己的网站自定义 404 试了一下,很强=。=
amamiyasachi
2018-06-04 20:42:07 +08:00
location ~ ^/this_is_nmask_test_404_page.* {
content_by_lua_block {
ngx.print('1')
}
}
添加了这么一段,屏蔽了测试页面=。=
codehz
2018-06-05 00:05:17 +08:00
话说有些部署在 github pages 上的单页应用,就提供了一个 404.html,然后内容全靠 js 跑,这种应该没法准确判断吧
nmask
2018-06-05 10:14:59 +08:00
@amamiyasachi 哈哈,我可以设置个随机路径,就没法屏蔽啦。
nmask
2018-06-05 10:15:36 +08:00
@codehz 应该可以,只要 404 页面不会随机变化,就能判断
codehz
2018-06-05 10:16:54 +08:00
@nmask 我的意思是这样的话无论实际上是不是 404 页面,获取到的 html 都是一样的,只能通过执行 js 才能获得内容。。。。
nmask
2018-06-05 10:21:59 +08:00
@codehz 嗯呢,这种得用 headless chrome 等无头浏览器的技术去加载 js,最终的渲染以后的源码。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/460290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX