到目前为止，到底有没有一种防爬虫但是不会误伤谷歌爬虫的完美方法？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3399 days ago, the information mentioned may be changed or developed.

自己一个网站，都是自己辛辛苦苦用键盘敲出来的数据，纯原创站，自己很用心在做这个网站，但是说实话，一个新手都可以用火车头不费吹灰之力把我的网站数据全爬过去，其实如果不是谷歌的话，我想了很多种防爬虫的手段，比如：

js 生成数据，抓取 phantomjs 之类的 headless 浏览器的特征码， ban 掉它
同一个 ip 短时间内抓取数据太多， ban 掉它
没有 header 之类的访问， ban 掉它
检测客户端访问抓取 css 文件没有，没有的话就 ban 掉它
客户端 js 加密一个 token ，和服务器端公用一个 key 来解密，每次提交都要验证这个 token
学习Flickr一样，任何搜索结果只显示4000个结果，避免一次性清仓大处理被爬虫抓完了，后台把sitemap所有数据提交给谷歌，但是貌似这样会不会伤及SEO，毕竟内链之间就断开了

感觉这些合在一起基本可以过滤大部分新手了，但是，这些很有可能把可爱的谷歌爬虫给误伤了，现在服务器端验证 header 为 Googlebot 貌似也不起任何作用，都可以伪造，大家有哪些防爬虫但是不会误伤谷歌爬虫的完美方法？讨论一下，谢谢

防爬虫

Ban

误伤

token

46 replies • 2018-08-09 07:57:38 +08:00

just4test

Jan 18, 2017

不是可以通过 IP 验证吗

alwayshere

Jan 18, 2017

@just4test 谷歌有哪些 ip ？

vbs

Jan 18, 2017

搜索关键字：
google crawler 验证

alwayshere

Jan 18, 2017

@vbs 谢谢，世界上搜索引擎还有很多， bing yandex 百度搜狗之类的感觉验证完好渺茫

rocksolid

Jan 18, 2017

如果不嫌麻烦能不能先放部分数据，部分垃圾数据，等过个一两天再把真实数据更新上去

gouchaoer

Jan 18, 2017 via Android

天真

binux

Jan 18, 2017

没有。即使假设有，再不济，我去抓 google 不就好了。

aibay

Jan 18, 2017

这个真没有

KeepPro

Jan 18, 2017 via Android

把所有的数据展示都放到 canvas 里面显示，或者生成图片。

annielong

Jan 18, 2017

折中方案就是显示一半，剩下的加个强验证，通过后显示，

run2

Jan 18, 2017

不用每次访问都验证 IP 啊，首次见的（疑似） bot 验证，过了的 IP 就加入到你特定的白名单里

Zzzzzzzzz

Jan 18, 2017

没有，而且各引擎为了评估网站是否针对它们吐数据作弊，都会有其他非公开的 UA 和 IP 段的爬虫做检验，你这样反而适得其反

mnhkahn

Jan 18, 2017

useragent 可以判断

golmic

Jan 18, 2017 via Android

楼主能不能告诉我地址我想练练我的爬虫技能...

doubleflower

Jan 18, 2017

内容里面随机插网站名字 /网址，别人相当于给你免费宣传了

smallaccount

Jan 18, 2017

搜索引擎原创识别才是最根本的吧
另外就是版权的法律保护，国外如果 copy 的话貌似可以直接主机商关站的

clino

Jan 18, 2017

ip 确实可以哈 https://support.google.com/webmasters/answer/80553
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

TaMud

Jan 18, 2017

你都把衣服脱光了给人家看了
你说你要怎么样保护密秘？？

你可以把整个网页变成一张图片

你也可以把整个网站做成一个 flash

usernametoolong

Jan 18, 2017

你不放网址我们怎么帮你提高一下？（捂脸

ningcool

Jan 18, 2017

纯原创的话，一天你写不了几篇文章。所以，哪怕你技术上屏蔽了别人，你无法阻挡别人去复制啊！

ihuzhou

Jan 18, 2017

@golmic 兄台爬过网易云的吗，我被里面的加密难住了

grayon

Jan 18, 2017

您使用的 IP 访问网站过于频繁,为了您的正常访问,请先输入验证码

hyuwang

Jan 18, 2017

可以数据不要放全
让浏览引擎索引到关键字和标题就行了

用户浏览的时候多点一下才能拿到全部的 content
感觉现在挺多国外网站这么干

TaMud

Jan 18, 2017

难道你们不知道有 selenium 这东西？？？

sometimesna1ve

Jan 18, 2017

插个题外话，以前还真的爬过 canvas 画的数据。比如下面这个 URL 里面：

http://v.qq.com/datacenter/0dfpyvfa7tp0ewe.html

一些具体的数字就是用 canvas 画出来的。

办法就是先截图，然后调用 OCR 识别图片上面的数字。
当时用的 tesseract ，对数字的识别准确率还蛮高的（当然对图片有些简单的放大和二值化处理之后，准确率才上来的）。

不过，上面这个腾讯的视频指数页面，有些别的反爬处理，很难搞，最终还是放弃了。