github 不准 baidu 爬取 难道这就是 baidu 比 google 菜的原因

2017-11-07 12:56:00 +08:00
 cy97cool
https://github.com/robots.txt

翻到最下面,github 对没有列出的其他搜索引擎的 bot(包括百度)直接 Disallow: / 了

难道这就是 baidu 比不上 google 的原因?
3181 次点击
所在节点    GitHub
11 条回复
chenwenup
2017-11-07 12:59:08 +08:00
这是 baidu 比不上 google 的表现吧,并不是原因。
cy97cool
2017-11-07 13:01:53 +08:00
@chenwenup 但反过来说 爬不了 github 的项目信息,用户想搜个 github 上的项目搜不到,自然更加比不上咯
coolcoffee
2017-11-07 13:03:35 +08:00
stackoverflow 没有禁止百度, 百度依然比较难检索, 可能是爬虫在墙内,爬墙外比较慢, 然后为了用户体验就把它 KO 了
oott123
2017-11-07 13:05:13 +08:00
archive.org 看,github 曾经允许过百度爬取。

https://web.archive.org/web/20150217105548/https://github.com/robots.txt
https://web.archive.org/web/20150218110340/https://github.com/robots.txt

github 在 2015 年 2 月 18 日移除了对百度蜘蛛的允许,我一开始觉得可能是和 GFW 大炮有关,后来查了一些 wiki 发现这个比 GFW 大炮还早,不知道是什么原因了。

可能是 12306 抢票事件?
MrSoda
2017-11-07 13:08:15 +08:00
当年 DDOS github 的时候就是劫持的 baidu 的流量,应该是这个原因吧
jjianwen68
2017-11-07 13:10:58 +08:00
加这个 bot 是不是要给 github 钱?
Ellison
2017-11-07 13:35:54 +08:00
Disallow?说的好像百度遵守 robots 协议一样
f2f2f
2017-11-07 13:37:33 +08:00
@coolcoffee 说得百毒上那么多收录的 H 站都是在国内的服务器咯?
Antidictator
2017-11-07 13:41:06 +08:00
@Ellison #7 #7 2333333
bearqq
2017-11-07 15:38:47 +08:00
我在百度搜到过 tumblr,下面一行红字,大意是该网站访问不稳定
est
2017-11-07 15:40:58 +08:00
@oott123 反过来是好事

国内很多舆情系统是基于 baidu 的数据,如果 baidu 把 github 给爬了不知道多少 编程思考 之类的 blog 会被检索到,然后瞬间被封。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/404259

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX