Baiduspider 不爬我的 phpbb 站怎么办?

2013-05-28 02:38:12 +08:00
 marguerite
唔...这站就是针对国内的。所以即使 Baiduspider 爬你 30% 流量也得由它,可问题是我这儿后台显示从未来过。

哭死了啊。

forum.suse.org.cn

phpbb 论坛,有标准 sitemap。

google 每天爬的可欢了。

我也不知道为什么我天然屏蔽了百度。robots 和 .access 都没限制过它。是不是因为我没有 www.suse.org.cn 首页的关系啊?
5957 次点击
所在节点    站长
20 条回复
yfdyh000
2013-05-28 02:55:54 +08:00
marguerite
2013-05-28 17:32:25 +08:00
@yfdyh000 站长工具让我认证,可是我把认证文件放到 forum.suse.org.cn 它就说认证不成功云云
yfdyh000
2013-05-28 21:04:40 +08:00
lemonda
2013-05-28 21:09:25 +08:00
和phpbb没关系吧,www.ultrakvm.com marguerite.su 都没收录,原因应该是用了https
marguerite
2013-05-29 02:47:07 +08:00
@yfdyh000 等会儿,是一定要先有站长工具,然后才能有爬虫过来?
marguerite
2013-05-29 02:47:57 +08:00
@lemonda 不可能,我 ssl 刚上两天,之前它干嘛去了...
yfdyh000
2013-05-29 03:14:03 +08:00
@marguerite 不是,只是让你用工具查查原因。现在403当然认证不成功。
marguerite
2013-05-29 06:45:43 +08:00
@yfdyh000 权限,它是 root 权限不是 nobody:nogroup...资深 Linux 开发者犯这种二也...
lemonda
2013-05-29 11:43:25 +08:00
@marguerite
由于上面写的是“后台显示从未来过” ,而站点的外链除了一个2011年以外,大部分是今年4月份左右才有的。所以想确认下问题是百度蜘蛛没来爬过还是爬过但没收录?可以从log查看,IP 类似 123.125.71.* 如果通过 http://zhanzhang.baidu.com/sitesubmit/ 提交过网址,查看提交日期后几天log即可

如果是没来爬过,昨天百度抓取异常工具升级版上线了,刚好可用上。

如果是爬过但没收录,可以按可能原因建立些单页来排除,下面是一些排查优先级低的因素。

PHP原因:之前用phpbb建过站,ubuntu论坛也是用phpbb,百度也没道理因为没滥用的建站软件不收录站点。
IP段原因:同IP段 www.ikde.org 收录正常
marguerite
2013-05-29 18:28:31 +08:00
@yfdyh000 亲,权限已改,现在能访问 bdsitemap.txt 了,也更新文本了,但是站长工具依然报错无法认证。
marguerite
2013-05-29 18:29:01 +08:00
@lemonda 我去瞧瞧 nginx.log
marguerite
2013-05-30 17:44:49 +08:00
@lemonda 没提交 sitemap,因为站长工具报错,但是在百度提交入口那边提交网站了。

grep -r "Baidu" ./access.log
220.181.108.160 - - [30/May/2013:02:12:09 -0400] "GET /viewtopic.php?t=100&p=699 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
123.125.71.23 - - [30/May/2013:02:50:32 -0400] "GET / HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.152 - - [30/May/2013:03:18:48 -0400] "GET /viewtopic.php?t=134&p=1030 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.141 - - [30/May/2013:03:52:08 -0400] "GET /viewtopic.php?t=157&p=1870 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
123.125.71.116 - - [30/May/2013:04:25:28 -0400] "GET /viewtopic.php?t=195&p=2233 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.90 - - [30/May/2013:05:32:08 -0400] "GET /viewtopic.php?t=271&p=2295 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

就来这么几次,这 Log 我看不懂哎
lemonda
2013-05-30 21:05:12 +08:00
@marguerite 有来爬但没收录,去掉SSL后等一段时间吧。
marguerite
2013-05-30 21:51:21 +08:00
@lemonda ssl 肯定不能去哈。我去问问我们自己的技术怎么回事
binux
2013-05-31 12:10:13 +08:00
我觉得单纯是因为抓不了https。。
zhttty
2013-05-31 12:59:48 +08:00
@marguerite
你可以单独建部分标题索引静态页面出来等着爬
marguerite
2013-06-18 14:40:10 +08:00
@lemonda 不到一分钟前forum.suse.org.cn使用文件验证验证失败,原因:暂不支持https网站验证。

站长工具更新了。
alphamm
2013-06-19 10:16:50 +08:00
度娘完全不鸟https。
不过虽然号称不收录https,我全https站还是被收了个首页。
lemonda
2013-06-20 12:31:07 +08:00
@marguerite 首页已收录
marguerite
2013-06-21 13:47:54 +08:00
@lemonda 因为我不强制 HTTPS 了...而且站长工具完全是废柴嘛,唯一有用的 sitemap 提交好像还是邀请制的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/70352

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX