谷歌的爬虫是怎么爬取到那些孤立的网站的

2016-11-17 19:44:50 +08:00

whwq2012

我建了两个网站，没有任何被任何博客添加友链，没有在任何网站上留下过 url ，但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫（虽然我设置了 robots.txt 不让爬取）。难不成是靠遍历 ip 地址吗？

3447 次点击

所在节点

11 条回复

xzem

2016-11-17 20:08:41 +08:00

比如说 chrome

DesignerSkyline

2016-11-17 20:13:21 +08:00

Google chrome 的安全检测服务可能会导致这个现象

yankebupt

2016-11-17 20:16:25 +08:00

爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫，比如安全机构

yushiro

2016-11-17 20:18:53 +08:00

网站有域名，根据域名注册商的列表爬。

whwq2012

2016-11-17 22:05:02 +08:00

@DesignerSkyline 什么意思？

whwq2012

2016-11-17 22:07:19 +08:00

@yushiro 这个列表域名注册商可以随便就给别人吗？

DesignerSkyline

2016-11-17 22:13:38 +08:00

@whwq2012 safebrowsing probes

yushiro

2016-11-17 22:13:58 +08:00

@whwq2012 你注册域名的时候是不是要查询域名是否被注册？这都是公开的

whwq2012

2016-11-18 19:11:32 +08:00

@yushiro 虽然是这样的，但是也不会给整个数据库吧

julyclyde

2016-11-18 21:46:06 +08:00

@whwq2012 跟给数据库有啥区别？让它挨个试还影响注册商性能呢，比如直接给数据库

flynaj

2016-12-15 00:09:24 +08:00

看 ip 地址，如果不是 google 的服务器就是伪造的，可能是扫描

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.