鄙站使用phpcms系统搭建。
下面有若干二级域名,例如
a.domain.com/b.domain.com/每个二级域名下都有若干栏目和文章,进行了伪静态处理(nginx),例如
a.domain.com/category1/1.shtmlb.domain.com/category2/2.shtml后台程序做过二次开发,实际上是会忽略url里“栏目”这个属性的(就是上面例子里的 category1,category2);只会处理后面的数字id去查找数据库里对应的记录,然后解析并显示出来。也就是说
a.domain.com/category1/1.shtml和
b.domain.com/category2/1.shml会读取同样的“内容”(正文区域),但是显示的“模板”会不一样(除了正文以外的html)
最近发现一个奇怪的问题:百度会收录“不存在”的链接:
例如本来我数据库里有这样一条记录
b.domain.com/category2/2.shml意思是id=2的文章,属于站点b下的category2栏目。
但是百度会收录成
a.domain.com/category1/2.shml也就是说,它记录了错误的站点和栏目
我检查过了,前台页面里根本就没有这样的“错误”链接。
那么百度这种混乱的收录,到底是怎么来的呢? 蜘蛛会去尝试这种“没有身份证”的链接吗?(虽然实际上可以打开,但根本没有任何地方可以找到入口)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/179773
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.