V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wangleineo
V2EX  ›  问与答

这里有人开头条号(今日头条)吗?

  •  1
     
  •   wangleineo · 2017-04-28 12:33:30 +08:00 · 5943 次点击
    这是一个创建于 2769 天前的主题,其中的信息可能已经有所发展或是发生改变。

    每次上传视频都会被系统提示说这个视频已经有重复,通知是上传 10 分钟以后才发出来,所以估计是逐帧比较对齐?

    有什么办法可以骗过这个自动重复检测系统?比如写个脚本随即改动像素数据...

    有经验的指导一下

    35 条回复    2017-05-02 16:28:46 +08:00
    gelilaohuang
        1
    gelilaohuang  
       2017-04-28 12:51:19 +08:00 via Android   ❤️ 1
    根据我做了半年的经验,没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑
    wangleineo
        2
    wangleineo  
    OP
       2017-04-28 12:53:09 +08:00
    @gelilaohuang 加上字幕就可以了嘛?大部分图像还是一样的,识别不出来?
    xy19009188
        3
    xy19009188  
       2017-04-28 12:54:37 +08:00 via Android   ❤️ 1
    加入片头啥的就行了,也可以加水印
    gelilaohuang
        4
    gelilaohuang  
       2017-04-28 12:59:04 +08:00 via Android
    @wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动,比如加上下黑边栏,或者部分不重要的剪掉或者加速,一般外国的比较多,所以就手动加上翻译…很久没搞了…折腾时间回报少
    lonelygo
        5
    lonelygo  
       2017-04-28 12:59:44 +08:00
    逐帧比较计算资源代价太大,抽帧可能性比较大,而且有可能前面抽帧多,后面抽帧少(前面如果相似度高,就没有必要往后了)所以,这个逻辑应该成立。
    加字幕,水印,片头,估计可破
    gelilaohuang
        6
    gelilaohuang  
       2017-04-28 13:05:38 +08:00 via Android
    @lonelygo let it be?
    ZE3kr
        7
    ZE3kr  
       2017-04-28 13:09:27 +08:00 via iPhone
    也许就是逐帧比较,YouTube 有类似的做法(但只是将所有的视频与部分版权视频比较): https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较
    menc
        8
    menc  
       2017-04-28 13:13:38 +08:00   ❤️ 1
    别想了,我就是头条的,视频消重是机器学习算法做的,你这么搞没有用的。
    menc
        9
    menc  
       2017-04-28 13:16:46 +08:00   ❤️ 3
    给你几篇参考资料看一下:
    CNN 网络直接学习二进制特征
    Learning to Hash Paper, Code and Dataset: http://cs.nju.edu.cn/lwj/L2H.html
    Learning to Hash for Big Data: A Tutorial

    台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目:
    Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016.
    代码是基于 Caffe 的: https://github.com/kevinlin311tw/cvpr16-deepbit

    Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision.
    SSDH 代码是基于 Caffe 的: https://github.com/kevinlin311tw/Caffe-DeepBinaryCode

    K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015.
    代码是基于 Caffe 的: https://github.com/kevinlin311tw/caffe-cvprw15
    Slide: http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf


    卷积层特征聚合为全局特征
    A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015.
    特征简称为 sum-pooled convolutional features (SPoC descriptors)

    G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016.
    特征简称为 R-MAC:Regional Maximum Activation of Convolutions
    Matlab/MEX 代码: http://cmp.felk.cvut.cz/~toliageo/soft.html

    Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015.
    特征简称为 CroW
    代码为 Python: https://github.com/yahoo/crow
    在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上,CroW 的 mAP ( mean Average Precision )均高于 SPoC 和 R-MAC 等算法。
    sadscv
        10
    sadscv  
       2017-04-28 13:20:36 +08:00
    哈哈顶楼上,顺便附上知乎关于 youtube 视频查重的问题讨论的链接
    https://www.zhihu.com/question/54131172
    wangleineo
        11
    wangleineo  
    OP
       2017-04-28 13:21:56 +08:00
    @menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的,在头条里面用各种关键字都找不到,你们是不是把站外的视频( youku 之类的)也索引了?

    另外机器学习也不是不能骗: http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence
    menc
        12
    menc  
       2017-04-28 13:24:15 +08:00
    @sadscv UTB 的长视频很多,因此 UTB 对模型性能要求特别高,在精度和性能之间要做 trade off,实际上如果按照 paper 精做的话,黑框什么的是没发过版权系统的,好在头条短视频多,体量也不如 UTB 大,可以把模型做的比较精细
    menc
        13
    menc  
       2017-04-28 13:28:17 +08:00
    @wangleineo
    没有索引站外视频,但是有版权方打预防针说我们哪些视频是不允许上的,因此也可能涉及到版权问题。
    这篇 paper 当年非常火,基本是人人都知道的。然而实操性不强,因为用户是黑盒的,拿不到模型的信息。
    如果你真有能力 train 一个 anti model 来欺骗这个模型,何苦还需要在头条号发视频呢你说是么:-)
    wangleineo
        14
    wangleineo  
    OP
       2017-04-28 13:37:47 +08:00
    @menc 模型做那么精细,肯定会有不少 false positive 吧?(很怀疑我的视频就是)有统计过吗? 你们的策略是,宁可错杀三千,也不放过一个?
    wangleineo
        15
    wangleineo  
    OP
       2017-04-28 13:40:58 +08:00
    @menc 另外,好像头条的政策是是即使有重复,也可以发出来,只是系统不推荐了,是这样吗?还是说压根就没人看得见?
    menc
        16
    menc  
       2017-04-28 13:44:43 +08:00
    @wangleineo 有几种状态的,只有最被版权方重视的那些视频(热门电视剧什么的)会最苛刻处理。
    几种状态不知道能不能说,暂且不说了吧。
    menc
        17
    menc  
       2017-04-28 13:45:14 +08:00
    @wangleineo 我记得误杀可以提人工的
    wangleineo
        18
    wangleineo  
    OP
       2017-04-28 13:49:32 +08:00
    @menc 谢谢,我试试。
    WhiteT
        19
    WhiteT  
       2017-04-28 13:52:22 +08:00
    除了相似度非常高的,其他还是会人工 check 一遍,并不是『宁可错杀三千,也不放过一个』
    wangleineo
        20
    wangleineo  
    OP
       2017-04-28 13:58:47 +08:00
    @WhiteT 哦,这就好解释了,视频上有 Youku 的水印,明显不是原创,所以。。。

    不过即使被算法过滤过,每个可疑视频都人工过一遍这个工作量不小啊。真是做到极致,NB !
    bukip
        21
    bukip  
       2017-04-28 15:24:16 +08:00
    @menc 收藏了。

    那么我加个滤镜有用吗?
    menc
        22
    menc  
       2017-04-28 15:43:42 +08:00
    @wangleineo 因为漏了真版权视频会收到律师函的,所以都要人工过一遍:-)
    murmur
        23
    murmur  
       2017-04-28 15:54:01 +08:00
    别人发的视频,你在转到头条上。。。等于。。你也有责任吧?
    sobigfish
        24
    sobigfish  
       2017-04-28 16:43:25 +08:00
    所以说 lz 不厌其烦发盗版视频到头条到底是为了什么?
    wangleineo
        25
    wangleineo  
    OP
       2017-04-28 17:33:34 +08:00
    @sobigfish 并不是盗版,有版权的东西不碰。只是 UGC 的视频,你可以理解成转载
    http://www.toutiao.com/i6413504197278302722/
    sobigfish
        26
    sobigfish  
       2017-04-28 18:42:37 +08:00
    所以说大自然的搬运工?
    wangleineo
        27
    wangleineo  
    OP
       2017-04-28 19:09:03 +08:00
    @sobigfish 而且是二手搬运工
    murmur
        28
    murmur  
       2017-04-28 19:20:45 +08:00
    @wangleineo 所以用户上传的东西就没有版权了么?好正义凛然
    lonelygo
        29
    lonelygo  
       2017-04-29 10:37:39 +08:00
    @gelilaohuang 嗯?怎么?
    kidult
        30
    kidult  
       2017-04-29 11:35:04 +08:00
    这年头做垃圾搬运工也好有技术含量
    ShiHou
        31
    ShiHou  
       2017-04-29 11:36:57 +08:00
    @menc 这几篇是把 Conv 当特征提取器然后做 hash,都是基于单帧的,混弄起来很容易。 头条现在还没有引进时间序列相关的算法么
    wangleineo
        32
    wangleineo  
    OP
       2017-04-29 20:55:46 +08:00
    不是垃圾,我都是精选的吉他演奏视频。要承认信息的聚合、筛选也是有价值的。
    menc
        33
    menc  
       2017-05-02 10:53:48 +08:00
    @ShiHou
    concat 一下效果其实不错的,就是不太适合生产场景,有些冗余。
    视频的哈希和图片当然还是有区别的,也有一些额外的处理。
    ShiHou
        34
    ShiHou  
       2017-05-02 13:19:06 +08:00
    @menc 我试了一下. 这种方法很容易愚弄,可以加(基本)不影响视频质量的隐藏水印来避开查重。

    目前还是一个比较简单的雏形,我中旬赶完会议后,会把代码整理下放出来。
    menc
        35
    menc  
       2017-05-02 16:28:46 +08:00
    @ShiHou 期待,烦请在这个帖子下留言提醒一下,谢谢了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5501 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 07:15 · PVG 15:15 · LAX 23:15 · JFK 02:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.