最近搜东西时,发现微信的 robots.txt 文件禁止了除首页和几个页面的爬虫索引: https://mp.weixin.qq.com/robots.txt
User-Agent: *
Allow: /$ #关于此指令解释在链接 [2] 文末
Allow: /debug/
Allow: /qa/
Allow: /wiki
Allow: /cgi-bin/loginpage
Allow: /cgi-bin/wx
Disallow: /
作为中文互联网最大的内容平台之一,微信竟然只对其他搜索引擎开放了几个页面[1],如果需要搜微信公众号的文章必须得在微信内,或者腾讯系搜索引擎——搜狗内进行搜索,这是否已经涉嫌违反了《反垄断法》?
[1] https://www.google.com/search?q=site:mp.weixin.qq.com
[1] https://www.baidu.com/s?wd=site%3Amp.weixin.qq.com
[2] https://developers.google.com/search/reference/robots_txt
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.