基于以上的架构,它目前拥有以下的特性: 1 、如果想要搜索到这个内容,该内容源文件必须在服务器上,或曾经在服务器上(取决于是否要提供预览功能); a 、可能会有版权风险; b 、提供预览会对储存和带宽产生挑战; 2 、内容的泛用性搜索上挑战,需要针对每个资源站定制爬虫; a 、如果没有改站点的爬虫,并把视频 /图片爬回至服务器,就无法制作该站点资源的搜索索引; b 、这是一个可刑可拷的爬虫; 3 、Faiss 限制 a 、搜索索引需要载入到内存中才能运行,1G 运行内存大约可以索引 500k 张图片(未压缩情况下) 4 、模型限制 a 、虽然可以在纯 CPU 环境中跑吧,速度也还行,但是没试过高并发业务场景; b 、如果在纯 CPU 环境中跑,Faiss 每次更新索引会随着数据的增加而线性增加;