我参考了: https://developers.google.cn/search/reference/robots_txt?hl=zh-cn 知乎 robots.txt: https://www.jianshu.com/robots.txt 简书 robots.txt: https://www.zhihu.com/robots.txt
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10
Allow: /$
Disallow: /
Allow: /view/article/*
我只需要爬虫爬取 /和 /view/article/下的内容,其它都不希望它爬取。这样设置有问题吗? (另外,知乎的 robots 文件真的啰嗦。。。)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.