首页   注册   登录
 dusu 最近的时间轴更新

dusu

V2EX 第 425066 号会员,加入于 2019-06-27 10:21:16 +08:00
dusu 最近回复了
4 天前
回复了 xiatong 创建的主题 Java 根据电影某一帧,匹配到某个电影。
电影检索核心其实还是降维的问题。

电影先降维到每一秒为截图,剔除掉相似度大的截图,存大盘鸡或 oss,然后转 simhash 之类的存检索库,求相似度应该能粗略解决一些需求。

假如一本电影 2 小时,截图 7200 张,滤重后假设 5000 张?算检索 100w 部电影最终也就降维到 50 亿张图片的 simhash 检索而已。

当然,图片特征识别应该是在检索降维中比较重要的一些细节等等,个人小团队要想做好这个引擎,应该有很长的路要走。
@AaronLiu00

🙏以及感谢各位,虽然和我想的差一点

不过已经按思路手撸了一个前后端版本,准备小范围实践下

之前已经有前人开源过图片生成

https://github.com/jklmnn/imagejs/

按说明处理过后,发现 chrome 安全检查已经屏蔽非 javascript header 执行 js 了,so 只能放弃…

P.S. 图片加 php / asp 代码早已经是皆知的事情了哈,那个不存在绕过文件头的问题,和我这个还不太一样

P.S. 图片压缩部分,我确认了一下,浏览器上 png 压缩率不是很高,一般图床也不会对 png 做特别处理,只要 png 数据不是特别多的情况下,效果应该还能接受,不过也要全面测试
@locoz 如果是存三方图床上的话,那还会有跨域问题...
楼主只考虑了正常请求,当你被 baiduspider/googlebot/bytesipder 等爬哭又不能禁的时候你就知道有多痛苦了,所以,这种讨论在我看来意义不大,该用带宽的时候你想省都省不了。(俺的站每天 2 亿请求)
同自己写,这玩意得自己分布式,记住单机检测是肯定不可信的,分发任务和执行任务环节都会可能出问题,多核机用 swoole 走多进程协程检测,检测几 w 个毫无压力,慢慢写,过程很 easy 的
@fluorinedog 感谢老哥指导,小弟受教~之前确实理解错了
不过我觉得可以通过控制每个 hll 桶内元素的数量去解决误差?
像类似于可能在 1w 或 10w 的数据集的时候误差比较小,
那么通可以过 id % 桶数量 找到对应 key 来减少误差,
个人想法哈,仅供讨论...
提供解决方案参考
对于重要的下载地址直接 rewrite
aaa.rar
可以重写为
aaa20191007.rar

根据更新频率自己安排时间颗粒度
保证用户下载的内容是最新的就行
语义化? vuetify 了解一下
62 天前
回复了 mamasan 创建的主题 Redis 使用 Redis 计数的问题
inc 和 dec 都需要额外处理高并发下一次购买多件的问题
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1923 人在线   最高记录 5043   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 12ms · UTC 00:12 · PVG 08:12 · LAX 16:12 · JFK 19:12
♥ Do have faith in what you're doing.