为什么小站点在搜索引擎的结果中排名却靠前?

最近发现一些关键字在谷歌的搜索结果中排名非常靠前,可是本博客的Pagerank=0,有时连0都没有。可是Google为什么会注意到这点呢?比如:当你搜索”Google ufo 麦田圈”时,易IT博客的文章 Google放出第二个UFO Logo(麦田圈Doodle) - 易IT博客就排名第一。具体见下图:

前几天,Search Engline Journalde Ann Smarty也发现了这个问题,她的文章里讲到那些排名靠前的小站点或新站点的网页甚至连优化都做的不好。在Webmasterworld的贴子解释到,这是一种“混合(blended)”的搜索方式。排名最靠前的搜索结果是混合不同搜索结果的“集簇(集合,clusters)”后给出的,目的是为了给用户更多的选择。

这种混合可能包括以下几种形式:

强制较新鲜的搜索结果排名靠前

综合导航类的网页、信息类和事务类的网页

综合对同一个关键词有不同解释的网页

综合各种类型搜索的结果,比如本地搜索,产品搜索,图片搜索和新闻搜索等

。。。Google有时强制从有不同意思和意义的网页集合中拿来某些网页放到搜索结果的第一页,即使有时这些网页的排名不是很高。。。

一点补充,几年前有段时间Google在改进技术强制把某些搜索结果放在固定的位置

以上的理论是基于Google的专利“在搜索短语的搜索结果中自动产生分类(Automatic taxonomy generation in search results using phrases)”,这个专利描述了下面的算法:

搜索结果可以混合不同集簇的代表性结果

一个用来查询的短语可能会与几个网页的集簇相关联。每个集簇是一组可能包含其他不同短语作为关键字的网页,是作为当前查询短语结果的补充。这假设创建集簇的短语是由一组提供被专利称为“信息增益(information gain)”的单词的组合。

再来一个例子,当你在谷歌、百度和必应中搜索“众包 维基经济学”时,你会得到下面的结果:

谷歌搜索结果:

百度搜索结果:

必应搜索结果(注:必应还没收录上面的那篇文章,反而收录了众包的标签页):

看来每个搜索引擎都有这样一种机制,只是收录的速度、更新的快慢和具体的算法不同。

另外一个现象就是,我猜想Google多数时候会根据搜索结果生成的时间来判断哪个是最初的源,而最早产生的重复内容会排名靠前。而百度则可能会把网站的排名作为主要考虑的因素。比如,相同一篇博客,原创的一般会在google的搜索结果中靠前,而在百度,排名高网站转载的可能会靠前。当然,这只是个人经验,并不是绝对的,因为有时在google搜索重复内容时也是大站的结果靠前。

原文:http://yi-it.com/blog/pivot/entry.php?id=92