Hexo 搭建博客提交百度 sitemap 抓取失败

2015-04-24 16:28:24 +08:00
 eleveneat

最近自己用Hexo搭建了一个简简单单的博客,最初是同步到Github Pages,然而发现在百度站长工具提交sitemap会显示抓取失败,想着可能是某些原因百度不能抓取Github,所以就把博客迁移到GitCafe Pages,可是提交sitemap给百度依然还是抓取失败。
自己也考虑过也许是用Hexo里面插件生成的sitemap格式不符合百度要求,所以在网上也用工具生成了自己网站的sitemap.xml,提交上去还是抓取失败。
因为自己在这一方面不太熟悉,不清楚究竟是哪一环节出了问题,所以想请问一下大家?

图片为百度站长上显示抓取失败的截图:

8557 次点击
所在节点    问与答
8 条回复
Tiande
2015-04-24 16:52:04 +08:00
hexo 的 sitemap 确是不符合百度标准,以下这个插件生成的可以:
https://github.com/coneycode/hexo-generator-baidu-sitemap
但是百度本身不能抓取 github 数据,所以无法提交。

你可以在 hexo 下生成规范的 百度sitemap ,然后修改成 gitcafe 地址下的,再提交试试。

最好还是找个 免/收费空间 测试一下,万一 百度 连 gitcafe 也不能抓取呢。
(国内主机都要备案,我是没干啥党必欲除之的事情,但真麻烦啊,在万网买域名送的两年免费空间,碰都没碰。)

“怎么说呢,我只能说百度太2了”
eleveneat
2015-04-24 18:05:47 +08:00
其实hexo-generator-baidu-sitemap这个插件我也用过,也不行......
难道是因为我没有备案的原因?
eleveneat
2015-04-24 18:06:23 +08:00
@dtdnqsb
其实hexo-generator-baidu-sitemap这个插件我也用过,也不行......
难道是因为我没有备案的原因?
Tiande
2015-04-24 18:12:48 +08:00
@eleveneat 只有国内主机需要备案。你用 gitcafe 备什么。
可能是百度故意不收录的吧,你换个 vps 或 空间 试试。
BeanMrx
2016-02-24 22:10:03 +08:00
因为 Github 屏蔽了百度的爬虫,我的也一样。
我域名没有备案、没有 VPS 也没空间,整了一个用新浪云免费云主机的方案。
http://blog.beanmr.com/2016/02/24/solve-github-baidu-spider-blocking/
BeanMrx
2016-02-24 22:14:17 +08:00
从你放出来图看~
百度应该缓存了你的 DNS 结果 199.27.75.133 是 Github 的服务器,也就是百度还认为你的博客在 Github 上。
你可以进入抓取诊断随便抓你的一个地址,如果抓取失败的话你注意一下爬虫抓的 IP ,直接放到浏览器访问如果不是你的服务器,你可以点击反馈 IP ,百度会重新 DNS 你的服务器 IP 。
还有一种可能是你忘了改 DNS 啦~哈哈~
BeanMrx
2016-02-24 22:14:43 +08:00
@Tiande 这次真的 Github 把百度干了
Tiande
2016-02-25 00:52:02 +08:00
@BeanMrx 对,后来发现百度抓取 GitHub 内容的时候是被拒绝的。

然而这个帖子坟了 306 天 蛤蛤。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/186051

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX