V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shaojz2005
V2EX  ›  问与答

测试网站不小心被百度收录了,通过 useragent 判断并返回 403 有效吗?

  •  
  •   shaojz2005 · 2019-08-20 11:37:32 +08:00 · 860 次点击
    这是一个创建于 1727 天前的主题,其中的信息可能已经有所发展或是发生改变。

    测试网站不小心被百度收录了,而且有时候比正式网站的权重更高,无语了。

    但是测试网站还要用,不方便关掉。网上看到有个在 nginx 配置里,根据 useragent 来返回 403 的方法:

    if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") { return 403; }

    不知道百度这些搜索引擎会不会伪造 useragent 来绕过限制进行收录呢?

    3 条回复    2019-08-21 23:28:02 +08:00
    learningman
        1
    learningman  
       2019-08-20 14:16:40 +08:00 via Android
    建议试试 robots.txt
    shaojz2005
        2
    shaojz2005  
    OP
       2019-08-20 14:45:41 +08:00
    @learningman 不能阻止收录首页
    googlefans
        3
    googlefans  
       2019-08-21 23:28:02 +08:00
    将测试域名做 301 转向正式网站域名
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2837 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:48 · PVG 17:48 · LAX 02:48 · JFK 05:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.