这里有人开头条号(今日头条)吗?

2017-04-28 12:33:30 +08:00
 wangleineo

每次上传视频都会被系统提示说这个视频已经有重复,通知是上传 10 分钟以后才发出来,所以估计是逐帧比较对齐?

有什么办法可以骗过这个自动重复检测系统?比如写个脚本随即改动像素数据...

有经验的指导一下

5936 次点击
所在节点    问与答
35 条回复
gelilaohuang
2017-04-28 12:51:19 +08:00
根据我做了半年的经验,没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑
wangleineo
2017-04-28 12:53:09 +08:00
@gelilaohuang 加上字幕就可以了嘛?大部分图像还是一样的,识别不出来?
xy19009188
2017-04-28 12:54:37 +08:00
加入片头啥的就行了,也可以加水印
gelilaohuang
2017-04-28 12:59:04 +08:00
@wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动,比如加上下黑边栏,或者部分不重要的剪掉或者加速,一般外国的比较多,所以就手动加上翻译…很久没搞了…折腾时间回报少
lonelygo
2017-04-28 12:59:44 +08:00
逐帧比较计算资源代价太大,抽帧可能性比较大,而且有可能前面抽帧多,后面抽帧少(前面如果相似度高,就没有必要往后了)所以,这个逻辑应该成立。
加字幕,水印,片头,估计可破
gelilaohuang
2017-04-28 13:05:38 +08:00
@lonelygo let it be?
ZE3kr
2017-04-28 13:09:27 +08:00
也许就是逐帧比较,YouTube 有类似的做法(但只是将所有的视频与部分版权视频比较): https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较
menc
2017-04-28 13:13:38 +08:00
别想了,我就是头条的,视频消重是机器学习算法做的,你这么搞没有用的。
menc
2017-04-28 13:16:46 +08:00
给你几篇参考资料看一下:
CNN 网络直接学习二进制特征
Learning to Hash Paper, Code and Dataset: http://cs.nju.edu.cn/lwj/L2H.html
Learning to Hash for Big Data: A Tutorial

台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目:
Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016.
代码是基于 Caffe 的: https://github.com/kevinlin311tw/cvpr16-deepbit

Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision.
SSDH 代码是基于 Caffe 的: https://github.com/kevinlin311tw/Caffe-DeepBinaryCode

K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015.
代码是基于 Caffe 的: https://github.com/kevinlin311tw/caffe-cvprw15
Slide: http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf


卷积层特征聚合为全局特征
A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015.
特征简称为 sum-pooled convolutional features (SPoC descriptors)

G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016.
特征简称为 R-MAC:Regional Maximum Activation of Convolutions
Matlab/MEX 代码: http://cmp.felk.cvut.cz/~toliageo/soft.html

Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015.
特征简称为 CroW
代码为 Python: https://github.com/yahoo/crow
在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上,CroW 的 mAP ( mean Average Precision )均高于 SPoC 和 R-MAC 等算法。
sadscv
2017-04-28 13:20:36 +08:00
哈哈顶楼上,顺便附上知乎关于 youtube 视频查重的问题讨论的链接
https://www.zhihu.com/question/54131172
wangleineo
2017-04-28 13:21:56 +08:00
@menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的,在头条里面用各种关键字都找不到,你们是不是把站外的视频( youku 之类的)也索引了?

另外机器学习也不是不能骗: http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence
menc
2017-04-28 13:24:15 +08:00
@sadscv UTB 的长视频很多,因此 UTB 对模型性能要求特别高,在精度和性能之间要做 trade off,实际上如果按照 paper 精做的话,黑框什么的是没发过版权系统的,好在头条短视频多,体量也不如 UTB 大,可以把模型做的比较精细
menc
2017-04-28 13:28:17 +08:00
@wangleineo
没有索引站外视频,但是有版权方打预防针说我们哪些视频是不允许上的,因此也可能涉及到版权问题。
这篇 paper 当年非常火,基本是人人都知道的。然而实操性不强,因为用户是黑盒的,拿不到模型的信息。
如果你真有能力 train 一个 anti model 来欺骗这个模型,何苦还需要在头条号发视频呢你说是么:-)
wangleineo
2017-04-28 13:37:47 +08:00
@menc 模型做那么精细,肯定会有不少 false positive 吧?(很怀疑我的视频就是)有统计过吗? 你们的策略是,宁可错杀三千,也不放过一个?
wangleineo
2017-04-28 13:40:58 +08:00
@menc 另外,好像头条的政策是是即使有重复,也可以发出来,只是系统不推荐了,是这样吗?还是说压根就没人看得见?
menc
2017-04-28 13:44:43 +08:00
@wangleineo 有几种状态的,只有最被版权方重视的那些视频(热门电视剧什么的)会最苛刻处理。
几种状态不知道能不能说,暂且不说了吧。
menc
2017-04-28 13:45:14 +08:00
@wangleineo 我记得误杀可以提人工的
wangleineo
2017-04-28 13:49:32 +08:00
@menc 谢谢,我试试。
WhiteT
2017-04-28 13:52:22 +08:00
除了相似度非常高的,其他还是会人工 check 一遍,并不是『宁可错杀三千,也不放过一个』
wangleineo
2017-04-28 13:58:47 +08:00
@WhiteT 哦,这就好解释了,视频上有 Youku 的水印,明显不是原创,所以。。。

不过即使被算法过滤过,每个可疑视频都人工过一遍这个工作量不小啊。真是做到极致,NB !

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/357920

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX