百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?

2014-11-06 10:04:02 +08:00
 baskice
我维护的 萌娘百科 wiki.moegirl.org 这一地址大约3年前就被GFW掉了,域名换成zh.moegirl.org之后,百度一直拒绝将wiki.moegirl.org链接更新成zh.moegirl.org。(不管我提交了多少次网站改版通知)

最近查了下百度的收录情况,在站长工具平台里,百度显示平均收录1条(是首页,wiki.moegirl.org/Mainpage)。偶尔会反弹突然收录很多第二天又全部删掉。

到底是什么原因导致百度一直拒绝将结果里的wiki.moegirl.org改成zh.moegirl.org

百度不改,导致搜索 [萌娘百科] 这一关键字的用户,70%以上会直接撞墙。即便用户之后访问zh.moegirl.org也会因为墙导致至少15分钟内无法访问任何境外网站而无法访问。
4247 次点击
所在节点    问与答
44 条回复
Sunyanzi
2014-11-06 16:04:05 +08:00
给萌娘百科的站长跪 ...

不是看了这个帖子我都没发现萌娘百科居然还有一个被认证了的域名 ...

一般搜索的时候其实不会有这个问题 ... 随便举几个例子 ...

http://www.baidu.com/s?wd=%E7%9C%9F%E7%99%BD%20%E8%90%8C%E5%A8%98
http://www.baidu.com/s?wd=%E7%A9%B9%20%E8%90%8C%E5%A8%98
http://www.baidu.com/s?wd=%E5%B2%9B%E9%A3%8E%20%E8%90%8C%E5%A8%98

比如上述几个 ... 搜具体人物的时候链接都是正确的 ...

加尾缀「萌娘」只是为了净化显示 ... 不加的话也是一样的 ...

再及如果以关键字「萌娘百科」搜索 ... 虽然第一条是错的 ...

但下面紧跟着就是「R-18」和「prpr」 ...

我觉得看到这两个标签还能不为所动毅然决然的去点首页的人 ... 撞墙也是活该了吧 ...
Starduster
2014-11-06 17:23:08 +08:00
我是来围观萌娘百科的
Quaintjade
2014-11-06 17:58:42 +08:00
百度的搜索结果很混乱的,有时过期搜索结果删了,过段时间又冒出来。
garipan
2014-11-06 18:06:40 +08:00
围观萌娘百科
tumutanzi
2014-11-06 18:27:38 +08:00
这事我有发言权。

你的根域名进了黑名单,你搞其它二级域名有什么用?百度坚持“原则”就是不会放出这些黑名单域名的,但是,百度会一直在服务器上收录哪怕是黑名单的内容——方便哪天解禁?

我本人的域名 tumutanzi.com 一年多前就上了黑名单了,百度一点收录都没有,但服务器的日志发现百度的蜘蛛经常来转——哪怕我用ROBOTS.TXT禁止它都没有用。而国内其它的小搜索引擎倒是收录我的HTTPS页面。

百度是多么坚持原则的啊……
lsylsy2
2014-11-06 19:04:43 +08:00
恩,萌娘百科的备案和相关的一部分东西是我做的。
wiki二级域名被墙有一段时间了……是关键字reset,不是IP被封(记得),后来似乎解封过?
然后当时是把wiki域名智能解析到国内,做了301,所有国内用户都会301过去,包括百度;然后主站内容在国内也是有反代的;最近因为不明原因,反代到源(linode美国西)的网络很不稳定,就暂时取消了。
@tumutanzi 并不是百度的黑名单,刚才测试了下萌百的百度收录还有八万多;我们也并不非常在乎百度“有没有”收录。但是在我们做了301的情况下百度依旧收录旧域名(被墙)而不是新的域名这非常蛋疼……
AlanZhang
2014-11-06 19:07:40 +08:00
个人感觉,百度还不如360和搜狗。搜一个英文,360和搜狗都能搜到,就是百度搜不到。
binux
2014-11-06 20:00:02 +08:00
LZ你就是搜“萌娘百科” 出 wiki.moegirl.org 的问题?找人帮你改了。
收录没问题吧?如 @Sunyanzi 所说,看起来大部分收录的实际是 zh.moegirl.org
lsylsy2
2014-11-06 20:04:20 +08:00
@binux 你在狼厂么……orz
恩,就是这个问题,然后有时候收录也会收录到wiki.moegirl.org/xxx
wdlth
2014-11-06 20:33:27 +08:00
百度还收录U2B和FB呢,FB甚至还有连通率……
baskice
2014-11-07 07:36:31 +08:00
@binux 是的,目前似乎只有首页还是 wiki.moegirl.org,其他都是正确的zh.moegirl.org了。目前看起来百度收录大部分是正常的

(虽然百度明显没有遵守robots.txt收了大量额外的死循环之类的特殊页面)
elvba
2014-11-08 12:57:55 +08:00
@Sunyanzi "看到这两个标签还能不为所动毅然决然的去点首页的人" 23333
baskice
2014-11-19 05:09:43 +08:00
@binux 百度搜索的结果又变回wiki.moegirl.org了哈哈哈哈。这是怎么回事?
binux
2014-11-19 09:59:20 +08:00
@baskice 原来好过一段时间吗?貌似这次不是人工规则,而是13号貌似有一次成功抓取。
baskice
2014-11-20 00:24:23 +08:00
@binux 为什么wiki.moegirl.org的“权重”那么高,系统抓到一次就无视设置的301到zh.moegirl.org
binux
2014-11-20 16:44:42 +08:00
@baskice 好过吗?
baskice
2014-11-23 10:11:23 +08:00
@binux 16天前似乎是被人工强制设置成zh.moegirl.org了。过来几天又变成wiki.moegirl.org
binux
2014-11-23 10:35:32 +08:00
@baskice 其实是反过来,原来是被人工强制设置为了 wiki.moegirl.org 然后让人把规则下了。现在是真的抓到了 wiki.moegirl.org ...
binux
2014-11-24 15:52:28 +08:00
@baskice 现在对 wiki.moegirl.org 停止DNS解析了吗。。
baskice
2014-11-25 11:48:12 +08:00
@binux 怎么会人工强制设置成wiki.moegirl.org呢?

是的,干脆把wiki.moegirl.org的解析去掉了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/144316

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX