比如http://news.qq.com/a/20150722/037755.htm的发布日期是2015-07-22 15:15
html代码里是<span class="article-time">2015-07-22 15:15</span>
可是不同的网页标识是不一样的,搜索引擎是怎样识别的呢
sitemap里可能有,但很多网站不提供sitemap
header里有last-modified,可视很多都没有
难道是搜索引擎实时爬取的吗~_~
1
msg7086 2015 年 7 月 23 日
还有第一次爬到的时候。
|
2
Septembers 2015 年 7 月 23 日
我记得以前Firefox可以直接获取文件的修改时间 好像现在隐藏起来了
|
3
inmyfree 2015 年 7 月 23 日
你可以看http请求的response heads就知道了,里面有个返回是创建时间,最后一次修改时间的,这个就和http状态码304联系的
|
4
inmyfree 2015 年 7 月 23 日
楼主你已经知道答案了...通过这种策略就已经可以显示大部分的发布时间了
|
5
lujjjh 2015 年 7 月 23 日 你看很多搜索结果没有日期,有日期的也不一定有 Last Modified 就知道这东西跟 Response Header 或者 Google 的最后一次抓取时间没什么关系了。
Google 还有个“Structured data markup”的概念,可以实现的效果比如豆瓣搜索结果的评分显示: ![]() 甚至还可以放一些图表上去 ![]() 不过 Date Author 之类的跟 Structured data markup 没什么关系,就是硬生生从 HTML 里分析出来的,不信你可以自己写个网站测试一下。这可能是个双向的过程,一方面 Google 根据最常见的 date、author 或者时间的格式来适配获取日期,另一方面网页设计师看这样 Google 能获取到日期和作者那就把 className 直接拿过来用吧。 ![]() 只能说 Google 在搜索体验上下了很大的功夫。 |
6
logonod OP |