大体原理是使用人工智能的 CLIP 模型,对用户的文字输入进行编码,并搜索拥有最佳匹配编码的图像,从而实现基于语义的检索。CLIP 的优势是无需针对新类别进行训练,可以看做 zero-shot ;并且允许用户输入任意搜索字符串(比如“笑着躲在门后的黑色柴犬”),从而实现比较复杂的搜索任务,当然并不是 100%准确。
应该是无需联网,完全本地运行(但我没确认),应该可以给想在本地建立照片库并希望实现一些类似于 google photo 照片搜索功能的人们提供了一个新思路。
https://www.reddit.com/r/MachineLearning/comments/pb6ime/p_rclip_use_clip_to_search_for_your_photos_in_the
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/798420
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.