四个著名的搜索引擎算法-

四个著名的搜索引擎算法四个著名的搜索引擎算法搜索引擎算法一：TrustRank 算法TrustRank 是近年来比较受关注的基于链接关系的排名算法。TrustRank 中文可以翻译为信任指数。TrustRank 算法最初来自于 2004 年斯坦福大学和雅虎的一项联合研究，用来检测垃圾网站，并且于 2006 年申请专利。TrustRank 算法发明人还发表了一份专门的 PDF 文件，说明 TrustRank 算法的应用。TrustRank 算法并不是由 Google 提出，不过由于 Google 所占市场份额最大，而且 TrustRank 在 Google 排名中也是一个非常重要的因素，所以有些人误以为 TrustRank 是 Google 提出的。更让人糊涂的是，Google 曾经把 TrustRank 申请为商标，但是 TrustRank 商标中的 TrustRank 指的是 Google 检测含有恶意代码网站的方法，而不是指排名算法中的信任指数。TrustRank 算法基于一个基本假设：好的网站很少会链接到坏的网站。反之则不成立，也就是说，坏的网站很少链接到好网站这句话并不成立。正相反，很多垃圾网站会链接到高权威、高信任指数的网站，意图提高自己的信任指数。基于这个假设，如果能挑选出可以百分之百信任的网站，这些网站的 TrustRank 评为最高，这些 TrustRa，nk 最高的网站所链接到的网站信任指数稍微降低，但也会很高。与此类似，第二层被信任的网站链接出去的第三层网站，信任度继续下降。由于种种原因，好的网站也不可避免地会链接到一些垃圾网站，不过离第一层网站点击距离越近，所传递的信任指数越高，离第一级网站点击距离越远，信任指数将依次下降。这样，通过 TrustRank 算法，就能给所有网站计算出相应的信任指数，离第一层网站越远，成为垃圾网站的可能性就越大。计算 TrustRank 值首先要选择一批种子网站，然后人工查看网站，设定一个初始 TrustRank 值。挑选种子网站有两种方式，一是选择导出链接最多的网站，因为 TrustRank 算法就是计算指数随着导出链接的衰减。导出链接多的网站，在某种意义上可以理解为“逆向PR 值”比较高。另一种挑选种子网站的方法是选 PR。值高的网站，因为 PR 值越高，在搜索结果页面出现的概率就越大。这些网站才正是 TrustRank 算法最关注的、需要调整排名的网站。那些 PR 值很低的页面，在没有TrustRank 算法时排名也很靠后，计算 TrustRank 意义就不大了。根据测算，挑选出两百个左右网站作为种子，就可以比较精确地计算出所有网站的 TrustRank 值。计算 TrustRank 随链接关系减少的公式有两种方式。一是随链接次数衰减，也就是说第一层页面 TrustRank 指数是一百的话，第二层页面衰减为 90，第三层衰减为 80。第二种计算方法是按导出链接数目分配 TrustRank 值，也就是说一个页面的 TrustRank 值是一百，页面上有 5 个导出链接的话，每个链接将传递 20%的 TrustRank 值。衰减和分配两种计算方法通常综合使用，整体效果都是随着链接层次的增加，TrustRank 值逐步降低。得出网站和页面的 TrustRank 值后，可以通过两种方式影响排名。一是把传统排名算法挑选出的多个页面，根据 TrustRank 值比较，重新做排名调整。二是设定一个最低 TrustRank 值门槛，只有超过这个门槛 TrustRank 值的页面，才被认为有足够的质量进入排名，低于门槛的页面将被认为是垃圾页面，从搜索结果中过滤出去。虽然 TrustRank 算法最初是作为检测垃圾的方法，但在现在的搜索引擎排名算法中，TrustRank 概念使用更为广泛，常常影响大部分网站的整体排名。TrustRank 算法最初是针对页面级别，现在在搜索引擎算法中，TrustRank 值也通常表现在域名级别，整个域名的信任指数越高，整体排名能力就越强。搜索引擎算法二：Google PRPR 是 PageRank 的缩写。Google PR 理论是所有基于链接的搜索引擎理论中最有名的。SEO 人员可能不清楚本节介绍的其他链接理论，但不可能不知道 PR。PR 是 Google 创始人之一拉里佩奇发明的，用于表示页面重要性的概念。用最简单的话说就是，反向链接越多的页面就是最越重要的页面，因此 PR 值也越高。Google Pr 有点类似于科技文献中互相引用的概念，被其他文献引用最多的文献，很可能是比较重要的文献。PR 的概念和计算我们可以把互联网理解为由节点及链接组成的有向图，页面就是一个个节点，页面之间的有向链接传递着页面的重要性。一个链接传递的 PR 值决定于导入链接所在页面的 PR 值，发出链接的页面本身 PR 值越高，所能传递出去的 PR。也越高。传递的 PR 数值也取决于页面上的导出链接数目。对于给定 PR 值的页面来说，假设能传递到下级页面 100 份 PR，页面上有 10 个导出链接，每个链接能传递 10 份 PR，页面上有 20 个导出链接的话，每个链接只能传递 5 份PR。所以一个页面的 PR 值取决于导入链接总数，发出链接页面的PR 值，以及发出链接页面上的导出链接数目。PR 值计算公式是：PR(A)=(1-d) + d(PR(t1)/C(t1)+PR(tn)/C(tn)A 代表页面 APR(A)则代表页面 A 的 PR 值d 为阻尼指数。通常认为 d=0.85t1tn 代表链接向页面 A 的页面 t1 到 tnC 代表页面上的导出链接数目。C(t1)即为页面 t1 上的导出链接数目。从概念及计算公式都可以看到，计算 PR 值必须使用迭代计算。页面A 的 PR 值取决于链接向 A 的页面 t1 至 m 页面的 PR 值，而 t1 至 tn页面的 PR 值又取决于其他页面的 PR 值，其中很可能还包含页面A。所以 PR 需要多次迭代才能得到。计算时先给所有页面设定一个初始值，经过一定次数的迭代计算后，各个页面的 PR 值将趋于稳定。研究证明，无论初始值怎么选取，经过迭代计算的最终 PR 值不会受到影响。对阻尼系数做个简要说明。考虑如图这样一个循环(实际网络上是一定存在这种循环的)。外部页面 Y 向循环注入 PR 值，循环中的页面不停迭代传递 PR，没有阻尼系数的话，循环中的页面 PR 将达到无穷大。引入阻尼系数，使 PR 在传递时自然衰减，才能将 PR 计算稳定在一个值上。PR 的两个比喻模型关于 PR 有两个著名的比喻。一个比喻是投票。链接就像民主投票一样，A 页面链接到 B 页面，就意味着 A 页面对 B 页面投了一票，使得 B 页面的重要性提高。同时，A 页面本身的 PR。值决定了 A 所能投出去的投票力，PR 值越高的页面，投出的票也更重要。在这个意义上，传统基于关键词匹配的算法是看页面自己说页面内容是什么，基于链接的 PR 则是看别人怎么评价一个页面。第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始，不停地随机点击链接，访问下一个页面。有时候这个用户感到无聊了，不再点击链接，就随机跳到了另外一个网址，再次开始不停地向下点击。所谓 PR。值也就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多，被访问到的概率也越高，因此 PR值也越高。阻尼系数也与随机冲浪模型有关。(1 一 d)=015 实际上就是用户感到无聊，停止点击，随机跳到新 URL 的概率。工具条 PR真正的用于排名计算的 Google PR 值我们是无法知道的，我们所能看到的只是 Google 工具条 PR 值。需要清楚的是，工具条 PR 值并不是真实 PR。值的精确反应。真实：PR 值是一个准确的、大于0.15、没有上限的数字，工具条上显示的 PR 值已经简化为 0-10 十一个数字，是一个整数，也就是说 PR 值最小的近似为 0，最大的近似为 10。实际上每一个工具条 PR 值代表的是很大一个范围，工具条 PR5 代表的页面真实 PR。值可能相差很多倍。真正的 PR 值是不问断计算更新中的，工具条 PR 值只是某一个时间点上真实 PR。值的快照输出。工具条 PR 几个月才更新一次，过去一年工具条 PR 值更新的日期如下所示:2010 年 4 月 1 号；2009 年 12 月 31 号；2009 年 10 月 29 号；2009年 6 月 23 号；2009 年 5 月 26 号；2009 年 4 月 1 号；2008 年 12 月31 号。工具条 PR 与反向链接数目呈对数关系，而不是线性关系。也就是说从 PR1 到 PR2 需要的外部链接是 100 个的话，从 PR2 到 PR3 则需要大致 1000 个，PR5 到 PR6 需要的外部链接则更多。所以 PR。值越高的网站想提升一级所要付出的时间和努力比 PR 值比较低的网站提升一级要多得多。关于 PR 的几个误解PR 的英文全称是 PageRank。这个名称来源于发明人佩奇(Page)的名字，巧合的是 Page 在英文中也是页面的意思。所以准确地说PageRank 这个名字应该翻译为佩奇级别，而不是页面级别。不过约定俗成，再加上形成巧妙的一语双关，大家都把 PR。称为页面级别。PR 值只与链接有关。经常有站长询问，他的网站做了挺长时间，内容也全是原创，怎么 PR 还是零呢?其实 PR 与站长是否认真、做站多少时间、内容是否原创都没有直接关系。有反向链接就有 PR，没有反向链接就没有 PR。一个高质量的原创网站，一般来说自然会吸引到比较多的外部链接，所以会间接提高 PR。值，但这并不是必然的。工具条 PR 值更新与页面排名变化在时间上没有对应关系。在工具条PR 值更新过程中，经常有站长说 PR 值提高了，难怪网站排名也提高了。肯定的说这只是时间上的巧合而己。前面说过，真实的用于排名计算的 PR 是连续计算更新的，随时计入排名算法。我们看到的工具条 PR 几个月才更新一次，当我们看到有 PR 更新时，真实的 PR早在几个月之前就更新和计入排名里了。所以，通过工具条 PR 变化，研究 PR 值与排名变化之间的关系是没有意义的。PR 的意义Google 工程师说过很多次，Google PR 现在已经是一个被过度宣传的概念，其实 PR 只是 Google 排名算法 200 多个因素之一，而且重要性已经下降很多，SEO 人员完全不必太执着于 PR 值的提高。当然，PR 还是 Google 排名算法中的重要因素之一。除了直接影响排名，PR 的重要性还体现在下面几点。网站收录深度和总页面数。搜索引擎蜘蛛爬行时间以及数据库的空间都是有限的。Google 希望尽量优先收录重要性高的页面，所以 PR 值越高的网站就能被收录更多页面，蜘蛛爬行内页的深度也更高。对大中型网站来说，首页 PR值是带动网站收录的重要因素之一。更新频率。PR 值越高的网站，搜索引擎蜘蛛访问得就越频繁，网站上出现新页面或旧页面上内容更新时，都能更快速被收录。由于网站新页面通常都会在现有页面上出现链接，更新频率高也就意味着被发现的速度快。重复内容判定。当 Google 在不同网站上发现完全相同的内容时，会选出一个作为原创，其他作为转载或抄袭。用户搜索相关关键词时，被判断为原创的那个版本会排在前面。而判断哪个版本为原创时，PR 值也是重要因素之一。这也就是为什么那些权重高、PR 值高的大网站，转载小网站内容却经常被当作原创的原因。排名初始子集的选择。前面介绍排名过程时提到，搜索引擎挑选出所有与关键词匹配的文件后，不可能对所有文件进行相关性计算，因为返回的文件可能有几百万几千万，搜索引擎需要从中挑选出一个初始子集再做相关性计算。初始子集的选择显然与关键词相关度无关，而只能从页面的重要程度着手，PR 值就是与关键词无关的重要度指标。现在的 PR 算法比当初拉里佩奇专利中的描述肯定有了改进和变化。一个可以观察到的现象是，PR 算法应该已经排除了