百度抓取中文 URL 有问题?求大神专家指导!!

2014-10-21 13:37:44 +08:00
 fising
原来地址:/search?q= + urlencode(中文)

百度给抓取成:/search + urlencode(?q=urlencode(中文))

导致很多抓取错误 出现404页

请问如何解决?
2839 次点击
所在节点    问与答
23 条回复
weboshr
2014-10-21 13:56:54 +08:00
robots.txt 添加一项

Disallow: /*?*
alex321
2014-10-21 15:10:39 +08:00
百度自己的测试工具检查轻应用的授权 js 是否成功添加的测试工具都有问题,解析 utf-8 和 gb2312 时,php 出错。。
百度知道、轻应用与合作方做数据测试时,往正式库里面插入了大量(注意,是大量)垃圾数据。。
……
这种事情我能告诉你们咩。。
qiayue
2014-10-21 15:13:31 +08:00
code4app.com 有中文 url ,百度抓取没有问题
楼主发出你的网站看看吧
millken
2014-10-21 15:17:07 +08:00
我只能告诉这个是你程序问题
fising
2014-10-21 20:00:28 +08:00
@millken 为啥谷歌没问题呢
fising
2014-10-21 20:00:58 +08:00
@weboshr 这句是啥意思啊,可否解释一下
jasontse
2014-10-21 20:03:13 +08:00
@fising
禁止抓取带问号的 URL
binux
2014-10-21 20:04:32 +08:00
贴一个出错url(短一点的)我给你看看
fising
2014-10-21 20:11:58 +08:00
fising
2014-10-21 20:13:18 +08:00
@binux 贴到这里URL被V2EX转换了。你直接复制。不要点击这里的链接。
binux
2014-10-21 20:18:56 +08:00
@fising 你确定百度最近爬了你这个url?
binux
2014-10-21 20:23:27 +08:00
@fising 没事,我自己另找了一个。
这链接是从站长平台灌的,你看下你提交的sitemap是不是有问题。
fising
2014-10-21 20:30:36 +08:00
@binux 百度站长系统,出错列表里有这个记录
fising
2014-10-21 21:50:39 +08:00
binux
2014-10-21 21:59:40 +08:00
这站没什么价值就不管了
fising
2014-10-21 22:01:26 +08:00
@binux 别这么说呀呀呀呀。这是讨论技术。
Showfom
2014-10-21 22:07:56 +08:00
@fising 你的这个站开源不= =
caomu
2014-10-21 22:47:04 +08:00
我只是来围观看楼上的大大们卖萌的 =。=
blijf
2014-10-21 23:49:06 +08:00
我已经不在乎它收不收了,已经全换SSL
fising
2014-10-22 09:32:44 +08:00
@Showfom 已经开源了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/140494

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX