谷歌的爬虫是怎么爬取到那些孤立的网站的

2016-11-17 19:44:50 +08:00
 whwq2012

我建了两个网站,没有任何被任何博客添加友链,没有在任何网站上留下过 url ,但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫(虽然我设置了 robots.txt 不让爬取)。难不成是靠遍历 ip 地址吗?

3447 次点击
所在节点    Google
11 条回复
xzem
2016-11-17 20:08:41 +08:00
比如说 chrome
DesignerSkyline
2016-11-17 20:13:21 +08:00
Google chrome 的安全检测服务可能会导致这个现象
yankebupt
2016-11-17 20:16:25 +08:00
爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫,比如安全机构
yushiro
2016-11-17 20:18:53 +08:00
网站有域名,根据域名注册商的列表爬。
whwq2012
2016-11-17 22:05:02 +08:00
@DesignerSkyline 什么意思?
whwq2012
2016-11-17 22:07:19 +08:00
@yushiro 这个列表域名注册商可以随便就给别人吗?
DesignerSkyline
2016-11-17 22:13:38 +08:00
@whwq2012 safebrowsing probes
yushiro
2016-11-17 22:13:58 +08:00
@whwq2012 你注册域名的时候是不是要查询域名是否被注册? 这都是公开的
whwq2012
2016-11-18 19:11:32 +08:00
@yushiro 虽然是这样的,但是也不会给整个数据库吧
julyclyde
2016-11-18 21:46:06 +08:00
@whwq2012 跟给数据库有啥区别?让它挨个试还影响注册商性能呢,比如直接给数据库
flynaj
2016-12-15 00:09:24 +08:00
看 ip 地址,如果不是 google 的服务器就是伪造的,可能是扫描

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/321272

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX