[备案网]Google新算法意义何在

Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合，几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件（LocalScore）的链接对你网站的排名的影响程度有着深远的意义。　　我列了一个简单的公式来说明新算法的效果和影响（谨供参考）：　　“旧”Google排名公式 = {（1-d）+a （RS）} * {（1-e）+b （PR * fb）}　　“新”Google排名公式 = {（1-d）+a （RS）} * {（1-e）+b （PR * fb）} *{（1-f）+c （LS）}　　其中：　　RS = 相关性得分：　　基于网页标题（Title），元标识（Meta tags），正文标题（Headlines），正文（Body text），URL和图片Alt文字，锚文字（Anchor Text）等元素中出现的关键词得出的分数。　　PR = 页面等级：　　基于链接至你网站的网页数量及其PR值得出的分数。　　原始公式为PR （A） = （1-d） + d （PR （t1）/C （t1） + …+ PR （tn）/C （tn））　　其中D为阻尼因子，一般设为0.85;　　公式可描述为：A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。　　LS = 行业得分（LocalScore）：根据专家文件计算得出的分数。　　a，b，c = 调节控制比重：Google用于精工调整查询结果　　d，e，f = 阻尼控制：Google用于精工调整查询结果。目前“f”值可能为“0”。　　fb = 因子基数：Google工具栏山所显示的页面等级得分范围从1到10，但它实质上并不是一个线性函数，而是一个指数/对数函数。　　经过分析，我们认为它有一个趋近于8的基数。即PR为5的网页的值比PR为4要多8倍之多（PR5=PR4X8），同样，一个PR值为8的网站比一个PR值为4的网站的值要高出4000多倍（PR8=PR4X8X8X8X8）。　　Google新算法的优势/优点　　页面因子极易被人利用和控制，例如最早被用作排名因子的META TAGS，就由于很多网站无度的关键词充斥泛滥而不得不被搜索引擎喊停。　　此外，在开始的时候，由于顾忌到真实来访者的感受，对网站内容一般作手脚的并不多，但后来亦难免诱惑，过度优化，甚至页面上放上许多“隐形”的内容已是屡见不鲜的伎俩。页面因子确实无形中赋予网站管理员太多“恶意”控制权。　　而在Google的新算法中，各排名因素所占比重分别如下：　　总“排名”得分由三部分组成：　　相关性得分（页面因素），页面等级得分（非页面因素）和行业得分（非页面因素）：　　相关性得分（RS）= 20%，页面等级值（PR） = 40%，行业得分（LS） = 40%　　其中：　　RS （相关性得分：页面相关度） –是所有SEO努力的转换结果；　　PR （页面等级得分：外部链接度） –是所有建立链接的努力的转换结果；　　LS （行业得分：专家文件链接度） –是得自专家文件的链接的转换结果；　　从上述结果不难看出，页面优化的得分只占到20%，Google显然已将重心转至非页面因子上，而把排名控制权越来越多地从网站管理员手中夺回来。　　假若一个水平一般般的优化专家可以拿到RS中的10分，而一个水平很高的优化专家最高也不过能拿到18，19分，大家可以看到：这两个水平悬殊的优化专家之间的差别仅仅只有8分而已！　　Hilltop算法是否以实时方式运行　　Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。　　而一旦了解了Hilltop算法后，我们很难相信这样的奔腾服务器能够具备如此的处理能力：试想一下，首先要从成千上万的主题性文件中找到“专家文件”，然后计算目标网页自这些专家文件的链接的得分，然后再将数值返回Google算法的其它排名系统，并做进一步处理—而所有这些要在大约0.07秒内–这个让Google举世闻名的搜索速度内完成。确实使人难以置信。　　Hilltop算法的运行频率及涵盖范围　　我们认为，要保证Google一贯的“闪电般”搜索速度，Google会对搜索频率较高（热门）的查询词（即所谓的“商业词”黑名单）定期运行批处理，并将结果存储起来供日后使用。　　Google的数据库拥有数目庞大的高查询频率的查询词，收集自实地搜索和其AdWords自助广告系统中所使用的关键词。　　Google很可能对关键词搜索次数设置了上限值，凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统，然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理，可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。　　同时，每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新，但稍小规模的批处理的数据库更新会更加频繁一些。　　对于那些用户查询频率不算高，因而无此“荣幸”被纳入Hilltop算法的查询词语，Google仍将使用原来的算法并显示原来的排名结果。　　因而对于那些高度明确或专业化的关键词，由于它们被排除在新算法的范围之内，因而有望保持原来的排名。　　Hilltop算法为何经过如此长时间才投入使用　　Google早在2003年2月就获得了该专利，但在实际投入使用前，需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性，所以需要对其兼容性做大量测试，然后再评估算法整合后所提供的结果，再做精工调整，然后是进一步的繁复测试…　　我想所有这些都需要大量时间。　　Google新算法的不利方面/瑕疵　　经过进一步分析，我们发现了该算法存在着的若干缺陷和不足：　　Hilltop的前提是每个专家文件都是完全公正的，且无欺*和人工操纵成分。然而情况可能并非如此理想。　　专家文件的一个小小污点就可以对排名产生极大的负面影响。　　Hilltop意图通过“权威性”专家文件的链接来确定一个网页的行业可信度，但又不能够明确保证这些所谓的“专家文件”的”“量”确是名副其实。　　运行Hilltop算法需要大量的计算机处理能力，因而我们猜测Hilltop算法（可能）是每个月对收集到的全部高频率（热门）查询词运行一次批处理。　　由于Google算法将40%重心转移至Hilltop，且Hilltop算法运行后的得分会保持至下一次批处理，因而在此期间搜索结果很可能不会有太大变动。　　此外，由于“专家”网页的投票方式往往不会有太大变动，因而在某段时期内我们可能只会看到一些“陈旧”的搜索结果。　　这一点悖离了搜索引擎的“提供最新、最好”的查询结果的宗旨。　　除了“权威网页”，用户同样希望看到一些新鲜的内容，然而对“新”Google而言，用户只有寄望于那些查询频率不太高，从而未被纳入Hilltop系统的查询词语上看到“新鲜”的查询结果了。　　新站点对热门查询词的排名的难度将越发加大。看来对于那些特别热门的查询词，Google对新网站或新内容的排名的门槛是越来越高了。　　商业性站点要链向网络分类目录，贸易协会，政府贸易机构，教育机构，公益性组织的站点并非难事，故而这样的站点会占据搜索结果的前十名位置。

相关文章