一个网站的终极内容防复制的设计,没见过更加丧心病狂的了,求破求算法

2014-01-27 10:23:27 +08:00
 zxp
很多年前发现的一个奇葩网站,内部所有文章的内容都用一种奇葩的防复制设计,不但防机器人,还防人肉复制,曾想破了脑袋去破,最终还是放弃了,耿耿于怀了很多年,原始网址忘记了,就用一个图片来说说这个设计吧,看看大家有没有破法。



整篇文章被多个表格包围,表格大小随机,一个文字一格,手工复制出来,导成纯文字版整个文章文字顺序全部打乱,无法阅读。
6839 次点击
所在节点    分享发现
32 条回复
Livid
2014-01-27 10:26:45 +08:00
如果对方还考虑 SEO 的话,把 UA 伪装成百度看看能不能拿到不同的输出。
raincious
2014-01-27 10:42:40 +08:00
截图OCR转换。
jjplay
2014-01-27 11:09:10 +08:00
国人都是人才...
Evance
2014-01-27 11:17:38 +08:00
如果生成的算法在后端,那么通过字符串处理的办法,很大情况情况无解,通过 @raincious 所说的办法比较有效。
如果算法在前端,找到生成脚本修改处理的算法函数即可。
hq5261984
2014-01-27 11:25:22 +08:00
chrome浏览器 粘帖为纯文本。
然后自己再排版。
bengtuo
2014-01-27 11:27:06 +08:00
只要能看到正确的内容 便是可以破的
FrankFang128
2014-01-27 11:27:18 +08:00
好办法。 对付copy者很管用。
FrankFang128
2014-01-27 11:28:14 +08:00
@bengtuo 中文OCR识别度太烂,所以楼主说的这种暂时无解,我觉得。
Mutoo
2014-01-27 11:36:15 +08:00
其实也不是没办法,可以把每个字的位置信息提取出来,然后做一个二维链表把它们重新排序。就像古代印刷术那样,最后得到文字内容。

提取位置的方法有很多,这里我弄了个示例
http://jsfiddle.net/mutoo/w5KJz/
casparchen
2014-01-27 11:40:04 +08:00
他怎么处理的,你就逆处理呗。比如他是按原文本行列号生成表格坐标,那只需将坐标转换成行列号再拼凑字符串即可
icedx
2014-01-27 12:14:37 +08:00
@FrankFang128 没有识别不出来的文字 只有识别不出文字的软件
jinwyp
2014-01-27 12:21:23 +08:00
我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制
yangff
2014-01-27 12:23:19 +08:00
@jinwyp 前端绘制都可以做,大不了自己编译个chrome把freetype的接口暴露出来,直接服务端下发图片就行了,只能ORC。
x86
2014-01-27 12:25:17 +08:00
贴个地址出来
raincious
2014-01-27 12:26:22 +08:00
@FrankFang128 False。就算建立自己的字图索引,网页截图那么高精度的采样,识别这个,没有任何问题。
zxp
2014-01-27 12:26:33 +08:00
关键是上面只是这个网站页面的一种情况,最纠结的就是表格还有嵌套,所以要写个机器人来自动抓内容面临的困难太大了,网站内容的自动生成的算法也很让人困扰,最后只能怀疑网站是全人工手动制作的,只能佩服站长为了防复制的巨大毅力了。。。
Mutoo
2014-01-27 12:38:30 +08:00
@zxp 建立字符位置信息可以无视嵌套。位置是相对于网页边界的。
zxp
2014-01-27 12:39:55 +08:00
@Mutoo 啊,很对,很好的思路!
zxp
2014-01-27 12:43:24 +08:00
内容生成的算法其实之前也想过一些,比较靠谱的是先生成表格的布局,对每个格子进行编号,然后对格子排序,把文字内容按顺序填写进去,相对抓取的难度应该要小一些。
hsu
2014-01-27 12:43:47 +08:00
@Mutoo 赞一个。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/98481

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX