收藏夹里收藏的技术博客和政经类文章已经超过 500 篇了,而且时间跨度极长,比如会出现有一篇文章七八年前看过感觉还不错,下载收藏了,但是今年又看到,又感觉不错,忘记已经有了于是又存了一份的问题。
有什么算法能在新文章入库前进行查重检查吗。还要考虑排版,截取等等因素,因为文章经常因为不同网站转载,转出来的东西细微上有一些区别
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.