走 cloudflareCDN 的 GithubPages 网站爬虫无法抓取么?

2015-05-26 19:44:51 +08:00
 Syaoran
个人博客在github上,走cf的cdn,不管用百度抓取诊断还是站长工具的都是403,我一个朋友同样的方案也是403…但是测试了一个用wp的能正常抓取,一个同样github的用hexo的也能抓取(不过他同时放在gitcafe,可能dns有分开解析吧)

所以403是什么情况呢?能正常访问的,貌似只有爬虫被block了
2356 次点击
所在节点    问与答
5 条回复
lyragosa
2015-05-26 21:00:55 +08:00
cf的CDN非常奇怪……会block掉各种奇奇怪怪的访问,尤其是HTTPS,我试用了大约两周之后还是去掉了……
wy315700
2015-05-26 21:05:09 +08:00
把安全防护关了
Syaoran
2015-05-26 22:59:02 +08:00
@wy315700 已经是免费用户能选择的最低级别了,我看Analysis有谷歌的Crawler…
402645707
2015-05-27 00:18:55 +08:00
貌似迅雷也会被屏蔽
typcn
2015-05-27 05:08:51 +08:00
@lyragosa HTTPS 是 ECDSA 证书的,很多老旧的辣鸡爬虫不可能支持,比如百度的爬虫就很恶心。

另外,百度屏蔽就屏蔽吧,反正我都是手动屏蔽的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/193917

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX