未公开的域名被蜘蛛爬,到底是哪一环出了问题?

2016-12-06 02:02:42 +08:00
 CloudnuY

先后被 GoogleBot 、 BaiduBot 、 Baidu-YunGuanCe 等蜘蛛爬,发现之后写了Deny * 的 robot.txt ,这几个蜘蛛还在爬,除了云观测其他的都在爬一些不存在的网页,被服务器返回了 404 。

部分日志如下图

2020 次点击
所在节点    问与答
10 条回复
wjm2038
2016-12-06 02:10:57 +08:00
chrome 访问过就会被爬, qq 微信也同理。。。
CloudnuY
2016-12-06 02:24:32 +08:00
@wjm2038 所以说用 Chrome 访问过的 URL 就会被提交到 googlebot 吗…………

那为什么他要爬一些并不存在的网址。。。
wjm2038
2016-12-06 02:49:59 +08:00
@CloudnuY 你这个日志没有的话我也不知道为什么啊。。你好歹贴个日志啊,顺便记得把网址手动打码
wjm2038
2016-12-06 02:53:26 +08:00
@CloudnuY 顺便根据我猜测,谷歌爬的是看你这个是什么框架的,百度的没看到 404 ,还有谷歌会忽略 deny *的
twl007
2016-12-06 03:08:27 +08:00
@wjm2038 Google 应该不是忽略 而是该抓还是抓 只是最后不会在搜索结果页面呈现出来罢了
badcode
2016-12-06 03:21:20 +08:00
这个问题涉及的不仅仅是网站这边,还有访客的环境!
forestyuan
2016-12-06 11:52:56 +08:00
域名只要注册了,都能在 whois 查到,所以我觉得不存在公不公开的问题
CloudnuY
2016-12-06 15:26:48 +08:00
@badcode @wjm2038 访客只用微信和 QQ 打开过,百度的云观测怎么就知道这个二级域名了呢。。。


@forestyuan 其实准确的说是未公开的二级域名。。。
ye10010
2016-12-06 21:54:06 +08:00
会否是宝塔软件或者 cloudxns 会自动推送?
反正 dnspod 上可以开启搜索引擎推送功能.
CloudnuY
2016-12-06 23:30:47 +08:00
@ye10010 设置里面都没开通这功能,难道会偷偷推送。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/325529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX