这里有人开头条号（今日头条）吗？

gelilaohuang

2017-04-28 12:51:19 +08:00

根据我做了半年的经验，没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑

wangleineo

2017-04-28 12:53:09 +08:00

@gelilaohuang 加上字幕就可以了嘛？大部分图像还是一样的，识别不出来？

xy19009188

2017-04-28 12:54:37 +08:00

加入片头啥的就行了，也可以加水印

gelilaohuang

2017-04-28 12:59:04 +08:00

@wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动，比如加上下黑边栏，或者部分不重要的剪掉或者加速，一般外国的比较多，所以就手动加上翻译…很久没搞了…折腾时间回报少

lonelygo

2017-04-28 12:59:44 +08:00

逐帧比较计算资源代价太大，抽帧可能性比较大，而且有可能前面抽帧多，后面抽帧少（前面如果相似度高，就没有必要往后了）所以，这个逻辑应该成立。
加字幕，水印，片头，估计可破

gelilaohuang

2017-04-28 13:05:38 +08:00

@lonelygo let it be?

ZE3kr

2017-04-28 13:09:27 +08:00

也许就是逐帧比较，YouTube 有类似的做法（但只是将所有的视频与部分版权视频比较）： https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较

menc

2017-04-28 13:13:38 +08:00

别想了，我就是头条的，视频消重是机器学习算法做的，你这么搞没有用的。

menc

2017-04-28 13:16:46 +08:00

给你几篇参考资料看一下：
CNN 网络直接学习二进制特征
Learning to Hash Paper, Code and Dataset： http://cs.nju.edu.cn/lwj/L2H.html
Learning to Hash for Big Data: A Tutorial

台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目：
Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016.
代码是基于 Caffe 的： https://github.com/kevinlin311tw/cvpr16-deepbit

Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision.
SSDH 代码是基于 Caffe 的： https://github.com/kevinlin311tw/Caffe-DeepBinaryCode

K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015.
代码是基于 Caffe 的： https://github.com/kevinlin311tw/caffe-cvprw15
Slide： http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf

卷积层特征聚合为全局特征
A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015.
特征简称为 sum-pooled convolutional features (SPoC descriptors)

G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016.
特征简称为 R-MAC：Regional Maximum Activation of Convolutions
Matlab/MEX 代码： http://cmp.felk.cvut.cz/~toliageo/soft.html

Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015.
特征简称为 CroW
代码为 Python： https://github.com/yahoo/crow
在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上，CroW 的 mAP （ mean Average Precision ）均高于 SPoC 和 R-MAC 等算法。

sadscv

2017-04-28 13:20:36 +08:00

哈哈顶楼上，顺便附上知乎关于 youtube 视频查重的问题讨论的链接
https://www.zhihu.com/question/54131172

wangleineo

2017-04-28 13:21:56 +08:00

@menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的，在头条里面用各种关键字都找不到，你们是不是把站外的视频（ youku 之类的）也索引了？

另外机器学习也不是不能骗： http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence

menc

2017-04-28 13:24:15 +08:00

@sadscv UTB 的长视频很多，因此 UTB 对模型性能要求特别高，在精度和性能之间要做 trade off，实际上如果按照 paper 精做的话，黑框什么的是没发过版权系统的，好在头条短视频多，体量也不如 UTB 大，可以把模型做的比较精细

menc

2017-04-28 13:28:17 +08:00

@wangleineo
没有索引站外视频，但是有版权方打预防针说我们哪些视频是不允许上的，因此也可能涉及到版权问题。
这篇 paper 当年非常火，基本是人人都知道的。然而实操性不强，因为用户是黑盒的，拿不到模型的信息。
如果你真有能力 train 一个 anti model 来欺骗这个模型，何苦还需要在头条号发视频呢你说是么:-)

wangleineo

2017-04-28 13:37:47 +08:00

@menc 模型做那么精细，肯定会有不少 false positive 吧？（很怀疑我的视频就是）有统计过吗？你们的策略是，宁可错杀三千，也不放过一个？

wangleineo

2017-04-28 13:40:58 +08:00

@menc 另外，好像头条的政策是是即使有重复，也可以发出来，只是系统不推荐了，是这样吗？还是说压根就没人看得见？

menc

2017-04-28 13:44:43 +08:00

@wangleineo 有几种状态的，只有最被版权方重视的那些视频（热门电视剧什么的）会最苛刻处理。
几种状态不知道能不能说，暂且不说了吧。

menc

2017-04-28 13:45:14 +08:00

@wangleineo 我记得误杀可以提人工的

wangleineo

2017-04-28 13:49:32 +08:00

@menc 谢谢，我试试。

WhiteT

2017-04-28 13:52:22 +08:00

除了相似度非常高的，其他还是会人工 check 一遍，并不是『宁可错杀三千，也不放过一个』

wangleineo

2017-04-28 13:58:47 +08:00

@WhiteT 哦，这就好解释了，视频上有 Youku 的水印，明显不是原创，所以。。。

不过即使被算法过滤过，每个可疑视频都人工过一遍这个工作量不小啊。真是做到极致，NB ！