前段时间研究了下基于余弦相似性的 404 页面识别技术方案,这是当时记录的笔记与心得,有兴趣的可以看看:
https://thief.one/2018/04/12/1/
研究结果虽然提升了 404 页面识别的准确性,但感觉仍有不足,有兴趣的可以一起探讨探讨。
注明:由于完整代码涉及公司项目,就不全部放出来了。再了解了具体实现方案后,代码实现还是比较容易的。
这是博客里面最终写到的 404 页面测试 api:
https://api.nmask.cn/not_exist_page_calculation/?target_url=https://www.baidu.com/not_exist_page
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.