如何隐藏页面的文字来避免爬虫?

2017-01-21 08:00:28 +08:00
 nikoo
原创文学网站,同行基本是把文章转换为图片后显示,但这样的问题是转换时消耗服务器资源与样式调整比较麻烦,但好处是不仅可以防止爬虫同时还可以防止用户直接复制文章。

如果在不考虑用户直接复制文章,仅做到加密 /隐藏文字来防止页面源码爬虫的话,有什么实现方法呢?

我知道理论与技术上这不可能做到完全避免内容被针对性的复制与爬取,但只要做到能杜绝大部分的通用爬虫与没有 Javascript 引擎的爬虫就可以了。

希望看到各位的奇技淫巧与思维的火花。
4608 次点击
所在节点    问与答
26 条回复
bxb100
2017-01-21 12:06:06 +08:00
那你 seo 不得炸
b821025551b
2017-01-21 12:28:54 +08:00
正常文章里随机几个字加一次 span , span 之间加干扰 span 文字,加上隐藏属性的类;两种 span 的 class 随机换, js 加载不同的 css 。这样可以不影响用户浏览器正常的观看,但是爬虫会多很多干扰文字导致无法阅读。
gamexg
2017-01-21 13:00:33 +08:00
我见过最疯狂的是自定义字体,比如“啊”字字体显示为“吧”。
你拷贝出来的全部牛头不对马尾。

疯狂些可以动态生成字体,经常变换。
fffflyfish
2017-01-21 17:16:42 +08:00
参考百度文库的做法,直接转换成不可复制的 flash
elviscai
2017-01-21 18:25:01 +08:00
fantasts
2017-01-21 19:55:12 +08:00
百度知道使用的办法是替换一些文字为图片,起点使用 js 输出文字。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/335996

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX