气人的 Google,蜘蛛乱抓页面

2020-04-04 12:41:51 +08:00
 pinews
因为是个人网站,很多地方比较马虎,因为用这 chrome,google 就把我的测试页面抓取了,这些测试页面只在 chrome 上打开过,从来没在网上公开过。
7843 次点击
所在节点    Google
22 条回复
anUglyDog
2020-04-04 12:48:05 +08:00
还算合理吧,毕竟是一家的.
Tianao
2020-04-04 12:49:02 +08:00
请正确配置 robots.txt 。
mrchi
2020-04-04 12:49:53 +08:00
测试页面公网能访问吗?你写 robots.txt 了没?
Tianao
2020-04-04 12:51:51 +08:00
另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。
mnssbe
2020-04-04 12:52:21 +08:00
chrome 里有个设置会把 url 发送给 google,你可以反选
wolfan
2020-04-04 13:00:28 +08:00
roobts 对国产作用不大,但对国外的多少比国内的强。
dot2017
2020-04-04 13:32:36 +08:00
你这个测试页面上有外链出去到别的被索引过的页面吗,google bot 抓取展现是双向的
deplives
2020-04-04 14:23:46 +08:00
是否正确配置 robots ? 如果有,再来吐槽。如果没有,请找自己的原因
dobelee
2020-04-04 15:13:57 +08:00
能公网访问就别抱怨。。
pinews
2020-04-04 20:07:16 +08:00
@mnssbe 隐私和安全性里的东西我都没有开启。
@anUglyDog 开发人员有时会测试一些敏感信息,这也能被抓取?

@dot2017 这。。。,好吧,有的。
pinews
2020-04-04 20:08:55 +08:00
@dot2017 但是 google 怎么可能知道,除非还是通过 chrome 记录的,我没开启啊
iasuna
2020-04-04 20:12:52 +08:00
@pinews 看来是没设置 robots.txt 那既然在公网上了 也没啥不能抓取的啊
daozhihun
2020-04-04 20:17:37 +08:00
你没设 robots,google spider 咋知道哪些是敏感的
alan0liang
2020-04-04 20:18:47 +08:00
Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了😂
aureole999
2020-04-04 23:07:26 +08:00
@pinews 比如你链接的页面是属于 Google 的或者有 Google ads,analytics 之类的,那 Google 肯定能拿到 referer 啊,referer 就是你自己的页面了。
binux
2020-04-04 23:30:03 +08:00
把 Google 换成 360 浏览器再来看看评论
miaomiao888
2020-04-05 00:10:33 +08:00
@binux 你这种叫啥来着? 算了还是给你拉红一下
mxalbert1996
2020-04-05 01:21:22 +08:00
你有敏感信息就不要放公网上,放公网上就设个访问限制,你放公网上又不设访问限制又不写 robots 被抓了还怪人家?
binux
2020-04-05 02:26:38 +08:00
ksdd521lr
2020-04-05 02:32:54 +08:00
google 的骚操作哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659308

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX