蜘蛛抓取页面的时间为什么在日志中看不到图片,ccs,js,等的请求?

2013-04-08 18:00:19 +08:00
 soho176
查看日志,看百度蜘蛛的抓取只能看到网址返回了200,但是这个网址中的图片等信息为什么没有日志,难道是根本没有访问这个页面?如果是在浏览器中访问页面的话,应该是图片等信息都有请求的日志记录的啊。这是怎么回事?
3077 次点击
所在节点    程序员
7 条回复
lichao
2013-04-08 18:13:18 +08:00
蜘蛛只抓取 HTML,图片以及,CSS, JavaScript 抓取了也没有用,所以不抓
soho176
2013-04-08 18:16:39 +08:00
@lichao 但是为什么在日志中看不到 图片请求的日志,只有网址的请求日志,这个网址上是有图片的,对这个网址进行了访问 按说应该图片也要产生请求的啊,难道是 蜘蛛的请求只返回html 代码,不返回其他的吗?
CoX
2013-04-08 18:18:29 +08:00
@soho176 蜘蛛抓取页面,不会对页面解析,所以不会请求图片的
cloudzhou
2013-04-08 21:49:31 +08:00
@soho176 你要理解http协议,比如使用 curl ,wget 来获取页面,那么不会访问页面上的js和img的
likexian
2013-04-08 23:08:59 +08:00
一般来说蜘蛛只读页面html,不读引用的其它文件,但google soso这些蜘蛛都会读css
dorentus
2013-04-09 01:20:47 +08:00
其实浏览器的话,假如我把样式和脚步都禁掉,然后访问你的页面,也是不会去下载 HTML 里面外链的 CSS 和 Javascript 等资源的。

最基本的搜索引擎蜘蛛,一般就是抓取下页面(HTML),简单解析一下,找出里面的到其它页面的链接,然后再去抓这些页面(HTML),如此反复。

至于 Google bot,假如我没记错的话(某年应该有个新闻提到的),现在它应该甚至都会去把 JS 抓下来执行一下,以更好地分析某些前端脚本比较复杂的页面。。。
dorentus
2013-04-09 01:24:47 +08:00
说到图片蜘蛛,它的抓取时机并不一定和网页的蜘蛛同步的。

比如 google bot 抓取了你的一个页面,发现里面有几张图片,它应该会把这些图片记为要抓取的,告知 google image bot,然后 google image bot 会在自己觉得合适的时机去抓取这些图片(假如它认为你的页面优先级不高,甚至会很长时间都不去抓)。

这样应该可以解释为什么你只在日志里面集中看到了网页被抓取了,而图片没有。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX