百度和谷歌是怎么识别网页的初始发布日期的呢

2015-07-23 02:07:41 +08:00
 logonod

比如http://news.qq.com/a/20150722/037755.htm的发布日期是2015-07-22 15:15

html代码里是<span class="article-time">2015-07-22 15:15</span>

可是不同的网页标识是不一样的,搜索引擎是怎样识别的呢

sitemap里可能有,但很多网站不提供sitemap

header里有last-modified,可视很多都没有

难道是搜索引擎实时爬取的吗~_~

2726 次点击
所在节点    问与答
6 条回复
msg7086
2015-07-23 02:39:45 +08:00
还有第一次爬到的时候。
Septembers
2015-07-23 06:44:41 +08:00
我记得以前Firefox可以直接获取文件的修改时间 好像现在隐藏起来了
inmyfree
2015-07-23 09:21:54 +08:00
你可以看http请求的response heads就知道了,里面有个返回是创建时间,最后一次修改时间的,这个就和http状态码304联系的
inmyfree
2015-07-23 09:24:18 +08:00
楼主你已经知道答案了...通过这种策略就已经可以显示大部分的发布时间了
lujjjh
2015-07-23 10:31:07 +08:00
你看很多搜索结果没有日期,有日期的也不一定有 Last Modified 就知道这东西跟 Response Header 或者 Google 的最后一次抓取时间没什么关系了。

Google 还有个“Structured data markup”的概念,可以实现的效果比如豆瓣搜索结果的评分显示:



甚至还可以放一些图表上去



不过 Date Author 之类的跟 Structured data markup 没什么关系,就是硬生生从 HTML 里分析出来的,不信你可以自己写个网站测试一下。这可能是个双向的过程,一方面 Google 根据最常见的 date、author 或者时间的格式来适配获取日期,另一方面网页设计师看这样 Google 能获取到日期和作者那就把 className 直接拿过来用吧。



只能说 Google 在搜索体验上下了很大的功夫。
logonod
2015-07-23 11:50:19 +08:00
@lujjjh
@inmyfree
@Septembers
@msg7086
谢谢各位 好像真的是从html上爬的,和response header无关
google的爬虫下了不少功夫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/207688

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX