我参考了: https://developers.google.cn/search/reference/robots_txt?hl=zh-cn 知乎 robots.txt: https://www.jianshu.com/robots.txt 简书 robots.txt: https://www.zhihu.com/robots.txt
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10
Allow: /$
Disallow: /
Allow: /view/article/*
我只需要爬虫爬取 /和 /view/article/下的内容,其它都不希望它爬取。这样设置有问题吗? (另外,知乎的 robots 文件真的啰嗦。。。)
1
anUglyDog OP https://technicalseo.com/tools/robots-txt/
我用这个工具查我现在设置的 robots.txt ,好像跟我预想的结果不一样。。。 |