原创!在文章中添加“文字指纹”,追踪盗版源头

2021-04-29 12:07:26 +08:00
 sillydaddy

帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

这个问题的背景就不多说了,说多了都是泪。直接呈上我思考的方案,欢迎点赞+批判:


我的方案


  1. 要有注册机制,以便区分不同的用户

  2. 对于同一篇著作内容,在分发给不同的用户前,都加上独特可区分的水印,一旦出现盗版,可以知道是哪个用户泄露

  3. 定位盗版源头后,永封源头用户,钱款不退。提高用户被永封后的直接损失,把走法律诉讼这种高成本的动作转移给对方。

  4. 重点讨论给纯文字添加水印的方法,要让这种水印不能轻易被抹除、篡改。方法包括:

    • 文字替换,同义词替换
    • 句子的顺序调换
    • 句子、段落的增+,减-

盗版者的手段和困境


抹除水印的方法,说白了就是对带有水印的内容,进行“扭曲变形”,让水印无法再辨别。那么文字的“扭曲变形”,就只能是修改文字自身的内容了。那么,分析一下针对上面 3 种“文字水印”的破环手段和效果:

  1. 针对特定的“文字替换,同义词替换”

    只要我把文章中的所有字词都用同义词替换一遍,原有的替换效果就全被破坏了

  2. 针对特定的“句子的顺序调换”

    只要我把文章中的句子顺序都打乱,原有的调换效果就被破坏了

  3. 针对特定的“句子、段落的增+,减-”

    只要我把文章中的句子段落随机增删,原有的增+减-效果就被破坏了

等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行,但随意增+删-,以及调换句子顺序,那文章还能读吗?

对,这就是试图破坏这些水印所面临的困难!也是这些水印可行的原因!


三维水印空间


字词替换、句子顺序调换、句子增+减-,这 3 种方法中,每一种下面都有 N 多种具体的选择,都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话,这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印,则是这“三维水印空间”中的某 1 点:

盗版者并不知道所加水印点的具体位置,所以要破环它,只有尽量扰乱整个水印空间,也就是说,

这意味着什么呢:

而添加水印对创作者的难度呢:

大家怎么看


可以看出,水印空间的维度越高,破坏水印越困难,而添加水印则越简单。上面给出的是一个 3 维的水印空间,也就是添加“文字水印”的 3 种方法,还有其他的方法吗?

11286 次点击
所在节点    奇思妙想
106 条回复
imnpc
2021-04-29 16:56:21 +08:00
起点对抗了这么多年 ,最终 PC 使用 WEB 图片 + APP 混淆加密解密,
挡不住图片截图以后 OCR,
也挡不住合作方 API 被提取文本内容
qdzzyb
2021-04-29 17:42:38 +08:00
nft 上链
bleaker
2021-04-29 17:58:00 +08:00
起吗了解下 unicode 吧,zero width space 不用的吗... 还有各种别的黑科技
James369
2021-04-29 18:00:36 +08:00
实体书都盗走,更何况数字书,别做无畏的挣扎。对付盗版只能靠重罚。
tutustream
2021-04-29 18:11:28 +08:00
了解一下现在都是洗稿了,照搬都是机器人 bot 干的低级活。
dsg001
2021-04-29 18:13:07 +08:00
文字水印,PC 时代起点就这么防盗版,每隔一段时间就封批账号,然而只要成本低于收益,手打组依旧更新
delpo
2021-04-29 18:30:01 +08:00
@woodensail 你这招早就有实践了,比如说斗鱼的关注人数就是用的自定义字体显示的数字,然而还不是会被 ocr
sillydaddy
2021-04-29 19:58:59 +08:00
@renmu123 #44
我不知道你有没有看懂主题里的意思。你的意思是分发给 1000 个用户的一篇文章,修改 10 个同义词,调整 10 个句子顺序,增减 10 个句子,也算是人工成本太高吗?我不知道这怎么能跟洗稿联系起来。真正要洗稿的是盗版者,因为要去掉水印。两者的工作量不在一个级别。

@xuanbg #52
没看明白

@Cloutain #60
我不明白为什么都会认为使用这 3 种方法会改变文章的意思,根据常识也知道一篇文章表达的意思有成千上万种写法。而且你举的文学作品,科研论文这些类型,明显不是这篇主题要针对的类型。一个作家会把他的作品改成 N 多个不同版本分发给不同的读者?科研论文需要收费和防盗版?
sillydaddy
2021-04-29 20:10:10 +08:00
@libook #58
感谢还有人关注我的分析逻辑。这楼里太多不审题,不思考,臆想和硬杠的了。

你说得第 1 点我不太明白,对包含水印的任意点位作修改,并不能消除水印的效果吧?比如我相对于原文,修改了词组 a,调换了句子 b,增加了句子 c,作为水印。如果盗版者修改了词组 d,调换了句子 e,增加了句子 f,那么与原文比对后,还是能发现水印 abc 啊。如果水印 a 被破坏了,还是有水印 bc,这时取最近的估计也能发现是原有的 abc 。

第 2 点确实可能是问题。
xuanbg
2021-04-29 20:17:44 +08:00
@sillydaddy 就是一篇文章里面随机找几个词,替换成同义词。譬如道路替换成马路,猫咪替换成喵星人,这样一点也不影响阅读。然后把这个信息和你的用户 ID 一起存起来。。。

因为每个人看到的文章被替换的文字都不一样,所以当作者在别的地方发现文章被盗用时,根据这个特征就能找到你的用户 ID 。
sillydaddy
2021-04-29 20:18:15 +08:00
@dsg001 #66 原来如此,这个还真不知道。说明封帐号造成的损失还是太小了。
sillydaddy
2021-04-29 20:20:30 +08:00
@xuanbg
好吧。。不过,这就是我这篇主题的意思啊。
CODEWEA
2021-04-29 20:22:06 +08:00
卧槽 还行 和那个图片上字符串有一拼
discrete
2021-04-29 20:51:56 +08:00
我还是觉得用 UTF-8 零宽字符做水印比较骚。
gBurnX
2021-04-29 20:53:27 +08:00
建议先去知网搜一下。这个问题,国家很早就在资助了,作为国家级课题,目前已有一部分研究成果。
slzcz
2021-04-29 23:12:42 +08:00
个人想法,如果是直接文本型 /文档型成型的类型,采用随机排版的方式不知是否合理。
例如 a 用户看到的是\t,b 用户看到的是\n,c 用户看到的是\t\t 。
筛选出泄露之后,再通过不断的二分 /特殊标记(譬如楼上所说的替换什么的)找出泄露。
当然,如果是一坨的文字,OCR 和手打党可破。
secondwtq
2021-04-29 23:13:46 +08:00
我看明白了,楼主这个方法就是专门针对割韭菜类的文章的
我只能庆幸古典著作、zf 文件、新闻通稿等的作者不需要靠这些来割韭菜 ...
mainjzb
2021-04-30 00:19:52 +08:00
楼主说的类似于电影水印,说的是水印实现的技术问题,而非解决盗版的问题。

例如我们可以从文章: http://news.cctv.com/2016/12/05/ARTIvCq22Q9dw6k2naR4r4KK161205.shtml
得到以下片段:
一旦盗版片源被发现,制片、发行、院线等各方都可以第一时间将信息进行反馈。通过平台检测,一小时内,就能精确定位盗版内容出自哪家影院的哪一个场次,大幅提高维权效率,降低维权成本。

所以,如果存在一个文字水印的技术,结果是可以降低维权成本和效率。那么讨论这个技术的可行性是值得的,前面的某些楼层完全偏离了主题。
mainjzb
2021-04-30 00:24:10 +08:00
有一个漏洞在于:我创建 5 个账号,我每个账号截取 1/5 的文章,然后拼接而成,这样的文章依旧语义通顺,且难以追寻。
mainjzb
2021-04-30 00:26:34 +08:00
进一步说,我创建 N 个账号的账号池,(也可能是盗取的账号,暗示微博)
文章每换一个段落,我就随机取一个账号去获取,最后拼接成整个文章。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX