Loading...
  所在位置:论坛首页 -> 【龙海网络】-SEO专区 -> 【龙海网络】-Google-SEO -> google引擎研究
回复
标题:google引擎研究收藏 编辑 删除 楼主 | 上一篇 下一篇
龙海CEO
等级:龙海CEO
权限:管理员
积分:104081
金钱:104081
声望:101790
经验:101790
发帖数:1256
注册:2007年3月9日
资料 短消息2007-3-15 3:01:45



google引擎研究

Google一说
网友经常有这样的反映:我的网站提交Google很长时间了,怎么就是找不到我的网页呢?有些对 搜索引擎工作原理不熟悉的人甚至认为,只需将网页做好,上传到网站空间,就会自动登陆搜索引擎。



  对后一种情况可以打个比方,就好象一个人自生下来就成了孤儿,而且又一直独处,不跟任何人接触,突然有一天却愤愤不平地说,为什么谁都不认识我!?网站也是同样,你不进行宣传和推广,它就象茫茫网海中的一座孤岛,被人发现的机会几乎没有。



  前一种情况稍好些,至少知道要将网站提交到Google,这种做法在几年前也许有效,但现在就不够了。可以这么说,网站链接是搜索引擎存在的基础。从全文搜索引擎工作原理中可以看出,搜索引擎是依*跟踪各网站间的链接来找到网站和抓取网页信息的,如果网站都相互独立,搜索引擎的工作效率、所提供信息的广度和质量都会大打折扣。



  对Google而言,链接可是它的“命根子”,也是它成功的关键。所以Google一有机会就向你灌输这样的观念:出去找链接吧,不然你的网站是不会被我们接受的。Google曾在一次搜索引擎学术会议上说明了收录网站的最低标准,即当你向Google提交网址时,至少要保证已有一个外部链接。实际上如果网站的外部导入链接足够多的话,你根本用不着直接将网址提交给Google(而且Google也不建议你这么做),这样反而会更快地被Google收录。



  现在我们知道了链接在登陆Google时的作用,下面介绍一下获得外部链接的方法。在介绍之前,有必要先将有关链接的概念澄清一下:



  外部链接: External Links。本网站外部的链接,一般是指其他网站连到本网站的链接。
  内部链接: Internal Links。本网站内部网页之间的链接。
  反向/导入链接: Backward Links或Incoming/Inbound Links。意义与“外部链接”接近,指其他网站连到本网站的链接。
  导出链接: Outgoing/Outbound Links。指从本网站连到其他网站的链接。



  * 获得外部链接的方法



  1、将网站提交到门户网站



  获得外部链接最简单的方法是将网站提交到各大门户网站,目前 搜狐、 新浪、 网易都提供收费网站登录服务,收费从几百到数千元不等。虽然需要一定的投入,但网站推广的角度说,这是必须付出的代价,而且大型门户上的链接会让你更快地登陆Google引擎,同时还可改善网站在Google上的 排名。



  2、与其他网站交换链接



  前面说过网站的外部反向链接越多,被Google找到的可能性就越大,因此你可以向其他网站申请交换链接。



  3、将网址提交到其他的类型网站



  这方面与通常意义上的网站推广策略是相吻合的,为了提升网站的访问量,我们可以将网址加到行业门户站点、网上
论坛
,留言簿等等各种允许添加网址链接的地方,这样也会增加Google找到我们的机会。



  * 在寻找外部链接时应注意的问题



  一般情况下,更多的网站外部导入链接会让你更快地登陆Google搜索引擎,但这并不意味着你可以不求策略地与任何网站建立连接,其中要遵循几个基本原则:



  1、链接对象是否已被Google收录



  在寻找连接网站时有一个基本原则,就是首先确认目标网站是否已被Google收录,主要是看该网站是否有PageRank得分,而且分值越高越好。



  2、链接对象是否被Google惩罚



  如果某个网站被Google惩罚,而你却与它建立链接的话,不仅无助于登陆Google,相反会被殃及池鱼,你的网站也可能被Google惩罚。

Google排名的意义:
根据Jupiter MediaMetrix 2002年公布的统计数据,79%的互联网用户依靠搜索引擎获取信息,信息搜索成为仅次于电子邮件的互联网第二大应用。而在众多搜索引擎当中,Google以其庞大的搜索量,快速而精准的搜索结果和极高的知名度成为搜索引擎的代名词,因此自然成为企业网站推广的首选。
Google排名优化:
优化的方式形形色色,一般无外乎按照一定的关键词,通过对网站结构,页面因素和外部链接的优化,使网站得到最佳的搜索引擎排名。但事实上我们发现,有一些网站由于采取了不正确的优化策略,不但未能有效提升网站的排名,反而使网站排名惨跌甚至遭到搜索引擎删除。在此我们列出被Google明令禁止的属SPAM性质的优化技术供大家借鉴。

一:隐藏文本/隐藏链接
一般指网页专为搜索引擎所设计,但普通访问者无法看到的文本内容或链接。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。

隐藏文本内容(Invisable/hidden text)
意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。

隐藏链接(Invisable/hidden links)
意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。
现在大多数搜索引擎都能检测隐藏技术,并视为作弊。因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚。虽然在Google上不乏使用隐形技术而侥幸逃脱的网站,但多数人还是认为不值得冒这个险。其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果。

二:网页与Google描述不符
一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。“诱饵行为(Bait-&-Switch)”就属于此类偷梁换柱之举--创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。

三:误导性或重复性关键词

误导性关键词(Misleading Words)
在页面中使用与该网页毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。这种做法严重影响了搜索引擎所提供结果的相关性和客观性,为搜索引擎所深恶痛绝。

重复性关键词(Repeated Words)
这种作弊技术也被称为“关键词堆砌欺*(Keyword Stuffing)”,它利用搜索引擎对网页正文和标题中出现的关键词的高度关注来对关键词进行不合理的(过度)重复。类似的其它做法还包括在HTML元标识中大量堆砌关键字或使用多个关键字元标识来提高关键词的相关性。这种技术很容易被搜索引擎察觉并受到相应惩罚。

四:隐形页面(Cloaked Page)
对实际访问者或搜索引擎任一方隐藏真实网站内容,以向搜索引擎提供非真实的搜索引擎友好的内容提升排名。

五:欺*性重定向(Deceptive redirects)
指把用户访问的第一个页面(着陆页)迅速重定向至一个内容完全不同的页面。

“鬼域(Shadow Domain)”
这是最常见的欺*性重定向技术,通过欺*性重定向使用户访问另外一个网站或页面。一般利用HTML刷新标识(Meta Refresh)来实现。大多搜索引擎都不会索引使用该标识的页面。如果你使用刷新标识来检测浏览器或分辨率,那么就请使用&#106ava******,且尽可能延长重定向时间。如果一定要使用重定向功能,那么请务必确保刷新周期不少于10秒钟。

还有一种情况就是当用户打开一个网站,该网站声称其网站已移至新域名下,并请用户点击新域名链接进入网站。但当用户进去后才发现,这个链接是一个“会员”链接。这也属欺*性重定向行为。

六:门页(Doorway Page)
也叫“Bridge/Portal/Jump/Entry Page”。是为某些关键字特别制作的页面,专为搜索引擎设计,目的是提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,且重定向至另一域名的真实网站。搜索引擎的Spiders往往忽略对那些自动重定向到其它页的页面的检索。

七:复制的站点或网页
最常见的当属镜象站点(Mirror Sites)。通过复制网站或卬页的内容并分配以不同域名和服务器,以此欺*搜索引擎对同一站点或同一页面进行多次索引。现在大多数搜索引擎都提供有能够检测镜象站点的适当的过滤系统,一旦发觉镜象站点,则源站点和镜象站点都会被从索引中删除。

八:作弊链接技术/恶意链接(Link Spamming)
典型的作弊链接技术包括:

链接工厂(link farms)

大宗链接交换程序(bulk link exchange programs)

交叉链接(Cross Link)

“链接工厂”(亦称“大量链接机制”)指由大量网页交叉链接而构成的一个网络系统。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。一个站点加入这样一个“链接工厂”后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要“奉献”自己的链接,籍此方法来提升链接得分,从而达到干预链接得分的目的。如今搜索引擎发现它们已然不费吹灰之力。只要发现,不管属有意还是无意,“链接工厂”中的所有站点都难逃干系。

九:其它

日志欺*行为
通过对一些页面等级较高的站点进行大量的虚假点击以求名列这些站点的最高引用者日志中,从而获得它们的导入链接。Google已然意识到这种行为并将对利用这种途径获得导入链接的站点采取相应措施。

门域(Doorway Domain)
专为提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,然后重定向至其它域名的主页。由于搜索引擎一般忽略自动重定向至其它页的页面的检索,所以不提倡使用这种技术。


什么是PageRank?

PageRank是Google衡量网页重要性的工具,测量值范围为从1至10分别表示某网页的重要性。在Google工具栏可以随时获得某网页的PageRank值。在这里我们将透视PageRank的一些特殊之处,从而对其能够获得较为深入的了解,使广大用户能够更好的使用和了解Googel。

  网站 排名的历史渊源

  上世纪90年代早期网络刚刚兴起之时,每天都有大量的含有特别行业内容的站点发布于网上。网上冲浪者却没有相应的工具定位这些他们认为存在的,但是却没有办法找到域名或网址的站点。到了1993年,雅虎诞生了。雅虎的诞生为网民减轻了这些烦恼。雅虎最初将每一个它所找到的网站,按照所属的分类目录进行划分组织,建立起一个整洁的、可以逐级查找的,雅虎同时也在网站上置入一个 搜索引擎可以根据中存在的“关键词”搜索到网站。接着其他搜索引擎如Altavista ,Excite, Lycos等也相继推出供用户使用的搜索工具。他们中的大多数是根据找到的元标识中的关键词来识别网站的相关性。
  
  事情好像发展地很顺利,但是当站主及网管意识到可以在元标识中插入行业关键词或其他站点代码,就可以巧妙的得到搜索结果页面上的较高的位置的时候问题来了。有一段时间,搜索引擎的结果被这些垃圾网站搞得乱七八糟,他们用某些相关的关键词充斥于网站的各个角落,可是展现在用户面前的实际内容确实糟糕透顶。那些信用较高、地位重要的搜索引擎开始受到挑战,他们必须采取更好的措施精确为用户输出的搜索结果。

  Google网页级别祥解

  Google意识到了传统搜索引擎所面临的这种问题。如果相关性有网管来控制的话,那么排名结果必将被他们人为安排的大量相关关键词所污染,掩蔽了真正的相关性。

  网络的本质就是超链接。我们从逻辑上分析,每个人都让自己的网站与某些重要的站点相链接,那么,本质上,这个站点就投了对方的一票。当上百上千个站点链接到这个站点时,我们认为这个站点是一个很好的很重要的站点也就非常符合逻辑了。

  就是在这样的逻辑推理下,Google的两位创始人Sergey Brin及Larry Page建立了一个搜索引擎算法公式,即将排名比重转移到了网页意外的因素上。他们的公式被命名为“PageRank”(以创建人Larry Page的名字命名)。Google就是利用这一公式计算链接到某一网页的网站数量,然后按照从1-10分别给予表示重要度的分数。链接到网页的站点越多,PageRank的分数越高。

  Sergey Brin和Larry Page在1998年把PageRank技术配置进Google一同推出。结果出乎的成功。Google这种难以认为控制的算法公司得出的出众的相关结果大大超过了竞争对手。这种新的算法不仅有助于提供出权威的高质量的信息,而且使得站主即网管很难利用作弊手段取得较高排名。

  Google的PageRank之所以如此重要,就是因为影响网页排名的因素主要是依赖于网页意外的因素,而非能够认为操纵的因素。

  Google对PageRank的解释

  在Google网站上有一个专门的域名介绍PageRank(
http://www.Google.com/technology/

  PageRank完全依靠的是网络的民主特性,利用大量的链接结构表明某个单独页面的价值。本质上来说,Google把链接转换为一次投票,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。 Google 也不是纯粹考虑投票的数量,还对投票的网页进行分析。本身很重要的网页的投票有助于增强其他对方网页的重要度。

  重要的是,Google会记录每次的搜索行为,高质量的网站能够获得较高的PageRank分值。当然,重要的网页如果不能匹配你的查询就没有任何价值。所以,Google把PageRank技术及文本匹配技术进行结合从而搜索出既重要又相关的的结果。Google的匹配技术不是只考虑词条在网页上的出现次数,而是检查网页内容(及链接网页的内容)的所有方面,从而决定该网页是否匹配你的查询。

  更多信息访问Google PageRank介绍:

  搜索引擎排名与PageRank的关系

  虽然每个搜索引擎都严格保密各自的明确的搜索算法,但是搜索引擎分析人士相信搜索引擎结果(排名列表)是“Page Relevance”与“PageRank”因素综合承继的结果。

  Ranking = (Page Relevance) x (PageRank)

  PageRank逻辑算法无疑是具有重大意义的,而且这种算法不能够被网管人员轻易操纵。Google的搜索结果能够显示出如此高的相关性无疑也是它能够获得彻底成功的重要原因之一。大多数其他搜索引擎已经完全采用同类模式作为自己的搜索算法,而有的搜索引擎将这种算法在决定结果排名中的重要程度进行定义后应用与自己的搜索结果中。
自网络发展的初期,搜索引擎就一直不断的努力试图开发出可以排列相关网页的搜索算法。大多数搜索引擎重视于“链接流行度”(link popularity),作为评价网页重要度及用于索引的标准

  Google 工具栏

  Google工具栏供人免费下载安装,除了某些有用的功能外,比较显著的一个特点就是它可以告诉用户目前正在访问的每个网页的PageRank值。

  下载后的Google工具栏位于浏览器窗口下部,可随时随地进行网上搜索。工具栏显示出每个页面从1-10不等的PageRank分值。对于Google未索引的网页,工具栏不会显示出该页的PageRank分值。需要提醒的是,该分值是针对网页而言,而非网站。

  注:PR值越高,说明营销人员要针对相应的搜索词条获得较高的排名位置就有更多的竞争。所以,我们建议根据关键词优化你的网页PR值。

  什么是链接流行度?

  “链接流行度”系统是基于网页获得的链接的数量及质量而定的。也就是说,指向你的网页的链接数量越多,你的网页将被搜索引擎认为越重要。数量并不是决定网站重要度的唯一因素,重要度还取决于其他因素,包括被链接到本站点的站点的质量、他们的内容的质量及与本站点的行业相关性等。

  链接到本站点的网页会把PageRank的部分分值分配到本站点。所以链接页面的PageRank分值越高,分配给本站点的分值也就越高。

  PageRank也会被链接页面商店所有导出链接所瓜分。譬如,同样PR为5的链接网页,导出链接只有15个的网页会比导出链接为100个的网页分配给你更多的分值。

  所以重要的是要从PR值较高并且总体导出链接数量较少网页才能获得安全链接。

  如何检测链接流行度

  最简单的检测网站流行度的方法就是利用Google搜索,方法如下:

  link:
http://www.yoursite.com/

  其它主要搜索引擎在搜索你的链接流行度时都有不同的规则。

  建立链接流行度提高PageRank

  建立链接流行度是搜索引擎营销的一个重要方面。尽管认为的提高PageRank不是意见容易的事,但是你通过改善链接流行度就可以不难做到。通过长期不懈的关注建立链接的工作,你就会提高站点的PageRank,大大改善自己的站点排名。

  就在不久前,Google及其他搜索引擎配制了某些类似与PageRank的算法成分(如TSPR”Topic Sensitive PageRank”,Hilltop“Links from expert document.”),进一步将决定排名的比重放置在页面以外因素上。
随着页面以外因素在网站排名中受到重视,所以提高加强这些因素的重视就变得越来越重要。当越来越多的网管意识到PageRank及链接流行度的重要性时,就不难在同行业中与其他站点进行链接交换了。

如何应对Google的新算法?大家可以根据下面所列的一些要点采取相应的措施。


3-1. 关键词的研究:扩大覆盖面

搜索引擎策略的中心思想是确定恰当的关键词来锁定目标群体。但有很多网站管理员却在这一步上掉以轻心,只在屈指可数的几个平平常常的关键词身上铆足了劲,却不知这种策略失之偏颇。关键词研究的主要目标应该是确定目标群体所有可能使用的关键词,其中包括了品牌名称、地理位置及修饰语等“修饰成分”。


尽管对网站的每个页面只能围绕两到三个关键词进行关键词优化,但通过关键词和修饰成分的有机结合,亦可大幅提高网站对搜索结果的覆盖率。对于Google在去年11月15号所做的更新,有很多实施了有效关键词策略的网站管理员压根就没有注意到。原因很简单:他们锁定的是所有可能相关的关键词,覆盖面极广,所以虽然个别一般性的关键词的排名下降了,但网站的整体访问量并未受到什么影响。


若只针对少数关键词,而且这些关键词都有很好的排名,这种策略看起来似乎也蛮不错。可是一旦搜索引擎改变了排名算法,就象Google这次一样,这种缺乏灵活性的策略可就撞上南墙了--正确的做法是锁定所有可能相关的关键词,扩大对搜索结果的涵盖面,给自己的搜索引擎策略打下一个坚实的基础。


3-2. 网站结构的有效性


为保证“广泛的关键词”策略的有效性,网站需要进行组织,让搜索引擎可以顺利地遍历或检索网站内的所有网页。为了更好的理解这一点,让我们先来看看搜索引擎的Spiders是如何遍历网站的。


在对网站的第一次造访中,Spider首先会取得一个叫做Robots.txt的文件来决定是否允许它检索。


当Spiders从另外一个站点发现你网站的链接时,若Robots.txt文件里并未声明不允许它访问该页面,则Spiders会把这个页面保存下来。它不一定就是主页,也可能是你网站的其它页面。


Spider在对这一页进行检索时,它会从中摘录一些关于内容方面的信息和页面上的所有链接,并将其放入搜索引擎的里面。如果它所认为你的网站十分重要,它稍后会检索这些链接页面。


如果你在网站的每个页面上都放了一组指向网站主要部分的链接(网站全局导航链接),那么接下来这些链接页极有可能得到Spider的检索。假设网站上的每个页面上都依次放有指向网站主要内容的链接,那么搜索引擎要想遍历整个网站真是易如反掌。


因而,最有效的网站结构当属自顶而下(Top-Down)或金字塔型设计结构。规模较大的网站(至少十几页)应设立一个网站地图页,用以列出网站的所有内部链接页。SUN微电子公司的网上大师级人物杰可布.尼尔森(Jakob Nielsen)认为:一个网站设计的精良与否的一个重要标志就是是否有网站地图。


许多人对文本链接方式的网站导航持排斥态度(可能因为它不那么漂亮吧),而是热衷于Flash或动态网页(DHTML)形式的菜单。使用这种导航方式的人要当心了,因为搜索引擎目前尚无法很好地支持这种导航系统。不过别担心,只需将文本导航链接放到网页的最下方,这样既保持了你喜欢的网站风格,又向搜索引擎提供了更对它们口味的东西,可谓皆大欢喜。


内容清楚的文字性链接不但可使你的网站很容易得到Spiders的检索,而且对我们这些真实的访问者来说亦一目了然。做文字链接时需注意一个问题:尽量让网站的内容只需最多两三次点击就可以打开,可创建一个网站地图把这些链接放到一起。


3-3. 创建大量优化网站内容


网站的结构就象一个框架。我们已经知道了如何构建一个友好的网站结构,接下来该向结构中填加内容了。


先记住完成步骤一(3-1)后找到的所有相关关键词以及相应的修饰语,现在我们可以在每一页的内容上,在下面几个地方放上相关的主要关键词,并予以恰当的修饰:
1. 网页的<TITLE>中
2. HTML中包含的主题进行匹配,查询与主题的关系越密切,则主题性页面级别得分效果越佳。此外,由于一个给定的查询条件可能会与中多个主题匹配,所以页面级别计算中出现的任何小错误都将由关联的一定数量的主题性页面级别得分平摊,因而近似的主题性页面级别得分即可提供高质量的搜索结果。详细论述可参看"TSPR理论-如何应对Google PageRank排名新算法"。我们相信,无论Google采用什么新算法,其目的均旨在向用户提供更为精准的搜索结果。

HillTop (LocalScore) 算法
作者:Atul Gupta
Google新算法的庐山真面目到底是什么?这仍然是个迷。而在Google网站上,从其"对高质量内容网站进行奖励及对采用恶意技术的网站进行惩戒"内容中,亦无什么新内容可寻端倪。自然,作为搜索引擎,这种做法是完全可以理解的。搜索引擎的算法应该是保密的,因为它们对新算法的任何评论,同意或否定的言行都会泄露其新算法,而任何对排名系统的一丁点泄漏都有可能被一些人钻了空子,并用来恶意操纵搜索结果,从而破坏搜索结果的客观公正性。
我们根据一些比较具有可行性的推测,并结合实际研究、试验,以及对搜索引擎行为的发展趋势和历史的知识基础,得出了一些发现。首先,我们来看看对于Google新算法的一些比较值得注目的发现:



1.Google新算法种种之种种传言 & 猜测

对于Google新算法主要有下面这样一些传言和猜测:

开始使用词典对号入座;

意图施压使商业站点使用Adwords广告服务;

开始使用"基于贝叶斯定理的SPAM过滤系统" ;

开始处罚互惠链接,"优化"网页,或"链接文本" ;

众多猜测中,"Google意图施压使商业站点使用Adwords广告服务"显然占了上风。许多搜索引擎优化分析家都认为:Google通过一个保密的过滤系统"黑名单"来对商业网站进行筛选,从而达到上述目的。对此观点我实在不敢苟同。解释如下…

1.1 是否若查询条件中包含"商业性关键词"时,Google会对搜索结果进行筛选?

因为这次更新中损失最惨重的是一些商业网站,所以有很多搜索引擎优化专家都认为Google开始对那些含有所谓"商业性关键词"的查询条件所产生的查询结果进行筛选。而从优化专家针对此所做的一些最初的测试结果来看,确实也表明了一些看起来似乎能够证实这种推测的征兆。

1.2 Google此举动机何在?

如果这是真的,那么Google为什么要这样做?这种推测的后盾在于Google算法更新的时间正好在圣诞购物季节之前,并适逢其IPO上市之际。分析家认为:Google这样做是为了向商业性站点施加压力,如果这些商业网站期盼在一年一度的美国传统的圣诞购物季节得到丰厚赢利的话,就得花钱做AdWords自助广告。免费午餐看来是没有了。还有一些人则认为Google此举旨在为其最终业绩(即基线)涂抹上一点光明的色彩来打动其未来投资者。

1.3 那么又是谁取代了商业站点原来的交椅?

从结果页上看,前20个结果好象都是一些官方站点(.gov),教育类站点(.edu),公益组织性站点(.org),目录及非美国本土的站点。由于这些站点一般并不太需要做广告,所以分析家们据此相信:提升这些类型的网站不会影响到Google的广告收入,同时还可以对商业性站点施压并迫使其加入Google的AdWords自助广告阵营中来。

1.4 Google从何获得"商业性关键词"名单?

从Google的AdWords广告系统,Google已然拥有一个大型的"商业性关键词"的。有趣的是,等于是那些广告客户和商业性站点的所有者自己把哪些是"好的商业词语"告诉给Google了-Google通过广告者对关键词语的竞标价格的变化完全可以看出每个关键词语的"价值"来。

1.5 事实究竟如何?Google是否确是在用"商业关键词"名单来过滤掉商业站点?

我个人认为:这种想法实在与事实太过相悖,而且我坚信:Google并不象分析家们所认为的在"过滤"站点。而且我相信,Google压根就没有什么"商业关键词"名单。一度流行的这种"过滤名单"理论是分析家们从自己所看到的迹象上得出的,而事实上这些所谓的迹象是由于其它原因所引发的,而并不是什么"过滤"所导致的。后面我会就此问题向大家详细解释和阐述。

不可否认,从实践中我们确实可以看到一些象"过滤"的结果,但我们有理由相信这样的结果实际上是Google新算法的一种"副产品",而非Google本意。新算法意图对商业性网站而不是公益性网站施加影响。稍后我会向大家详细解释…

Scroogle.org,这个由不喜欢Google的群体所建立的网站,原来可以通过一种巧妙的方式从Google上提取数据,并向用户提供一种可检查网站在Google上的"未过滤"的往日排名结果的工具。不过由于Google现已更新了算法以禁止此类查询,故Scroogle.org现已无法提供这样的工具。不过,该网站仍显示有一个从其网站上多方搜索而收集到的所谓"Filter Hit"名单。我研究过这个名单。 我觉得,它充其量也只能证明了Google并未使用任何如上所说之名单。不然的确话,如何解释"California Divorce Attorney"位于名单之首而"Books"或"Adult"却屈居最下席?难道在Google眼里,"California Divorce Attorney"比"Books"或"Adult"更有商业价值?

Google任何从正常的排名机制中过滤掉把商业性站点的企图都是对Google品牌,乃至对其公正的搜索结果信誉的严重损害。若真有这样的企图,那Google真是太短视了,根本配不上它的品牌和它的服务。Google的股票上市(IPO)和最终业绩都将因此而毁于一旦。此外,Google也说过,其"搜索服务"和"AdWords自助广告"服务分属两个不同的工作部门,且互不搭界、互不影响。对此我还是相信的。


2.Google搜索技术的几个明显变化

2.1 Google开始采用词干技术(stemming)

Google确已在搜索结果中采用了词干技术。在早先,如果搜索一个单数查询条件如"home garden",则搜索结果中不会出现如"home gardens","home gardening"这样的关键词变化形式,反之亦然。对于Google的用户来说,这种特性可能是一件好事情,因为搜索提供的结果更多了,但站在搜索引擎优化的立场来看,由于搜索结果的骤然增加,对关键词的竞争亦骤然加剧。

2.2 Google于搜索结果中使用了拼写纠错工具

Google开始将其拼写检查工具用于搜索结果中。例如,当输入查询条件为"Search Engine Optimisation"后,以往Google只会提示你是否是要找"Search Engine Optimization",但显示的还是符合"Optimisation"的搜索结果。不过现在则能看到"Optimization"的搜索结果。再如:"e-mail solution"和"email solution"的搜索结果一致,而"e-commerce"则与"ecommerce"的搜索结果是一致的,这样就增加了数据的竞争性。

3.对Hilltop算法的分析和推测

3.1 为什么采用新算法

大多数网迷们都知道,页面等级算法是由Google的创始人Sergey Brin和Larry Page所倡起的,用以精良网站在搜索结果中的排名。这也是自1998年Google发布以来的取得种种骄人成绩的重要因素之一。

但页面等级系统亦存在着一个基本的缺陷,Google也深知这一点。它根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的"重要性值"。同时亦将链接页面的页面等级考虑在内。指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。但是,"页面等级值"并非针对查询词语,因而一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的页面等级值而获得一个比较高的排名。

美国加州的克利须那。伯哈拉特(Krishna Bharat) 意识到基于页面等级的排名系统中所存在的这种瑕玼,并于2000年提出了一种新算法,他称其为"Hilltop"算法,并于2001年的一月份申请了Hilltop专利权,Google成为受让方。不言而喻,Google已然意识到这种新算法与其页面等级系统的整合将为Google的排名系统带来良好的效果。

我深信,在Google最近的更新中,不但运用了Google自身的页面等级和相关性算法,而且还结合使用了Hilltop算法用于精工调整页面等级的效果,只不过Hilltop算法可能已迥异于它最初的模样了。

3.2 什么是Hilltop算法?

对此算法有兴趣了解并想挖根究底的人可以看看克利须那。伯哈拉特当年所写的Hilltop论文及详细的Hilltop专利信息。但对我们大多数人来说,只要知道Hilltop算法到底是个什么东东就可以了。简单地说,页面等级决定一个网页的"权威性",而Hilltop(LocalScore)则决定匹配一查询条件的一个网页的"权威性"。

Bharat提出:在利用"页面等级"来寻找"权威"网页时,不应单纯依赖于值的大小来定夺,而应将重点放在它与查询主题的相关性上; 即不但需要考虑网页的页面等级,还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,那些来自于"相关主题"的文档的链接就更有意义了 (Bharat称这种"相关主题"文档为"专家文档"),一个网页的所有外部"专家文档"链接构成了该网页的"权威性值"。Hilltop算法的意义在于:相同主题网站之间的链接应比非相关网站的链接具有更高的价值。

Hilltop算法以如下方式计算一个网页的"权威值"(这只是极为简单的一个例子):

以该关键词进行一次普通查询找专家文档"文集"。"专家文档"的定义有严格标准,因该"文集"应是数量上易于管理的一组网页。

从返回的专家列表中把成员站点(见下注解*)和镜象站点去掉。

根据所获得的上述专家文档对其投票的数量和质量,网页被分配以一个“局部分数”(LocalScore)。然后按网页的“局部分数”进行排名。
*注解:成员站点指来自同一个域,或域相同而后缀不同的站点,如ibm.com,ibm.co.uk,ibm.*****等等,或指来自相邻的IP地址的站点 (前三位IP地址相同,形如64.129.220.xxx)


此外,若两个站点均为相同IP地址下的宿主,则认为其中一个是另外一个站点的成员站点。(即:若ww.abc.cwww.ibm.com均为相同IP地址下的宿主,则
http://www.abc.com/http://www.ibm.co.uk/的成员站点)
Hilltop算法的一个极其重要的特征在于:若没有找到搜索引擎认为数量足够的“专家文件”(要求至少需有两票),则该算法失效,即返回结果为零。换言之,对于高度明确化的查询条件(查询词语),Hilltop算法的结果很可能为“0”。这是该算法的一个独特特性。如此一来,造成了SEO一族中的大部分人都深信Google的确在用“商业词”过滤名单来过滤掉商业网站。

事实上,在Hilltop算法无法奏效时,将显示“旧”Google的搜索结果。这些查询条件的集合就是SEO一族所收集并称之为的“商业词名单”。这一效果无意中却提供了一个强有力的证据,表明Google确是采用了Hilltop算法。2003年11月15号,Google基于新算法的更新之后, 某分析家就指出:在进行查询时,若对某一查询条件加上一些“不包含”的无意义字符,如“car rental – ghjkl”,则Google将会显示以往(算法变化前)的搜索结果,而绕过所谓的“商业词”过滤名单。

例如,若查找“real estate –hdfkdhgk”,则Google将试图返回所有关于“real estate”,同时内容中又不包含“hdfkdhgk”的页面。又由于包含“hdfkdhgk” 这种字眼的网页几乎没有,所以按道理来讲,Google返回的查询结果应该和“real estate”的查询结果是相同的。然而结果却出人意料:Google所显示的查询结果和采用新算法之前的搜索结果的排名是相同的。事实上,Scroogle.org这个网站就是捕捉Google的搜索结果在排名上的不同,并以此得出一个所谓的“商业词”过滤名单。

在所谓的“商业词”背后到底是什么?

我们相信,“商业词”过滤式效果只是Hilltop算法的一个衍生症状。每当用户进行类似“real estate –hdfkdhgk”的查询时,Google都会对整个查询词语进行Hilltop运算,当无法找到足够的包含这种查询词语的“专家文件”时,该算法将返回一个零值(即零效果)。 这就意味着我们通过这种多少有些滑稽的特殊排除词语绕过了Hilltop算法, 这时候Google的其它算法就该出头发挥作用了,而它们所提供的查询结果明显地和算法更新前的查询结果是一样的! 后来Scroogle.org的声名鹊起让Goolge发现了这个bug。后来Google为了防止此类漏洞,索性把查询分成两步走,先把排除条件词语放一边,将查询条件送至Hilltop进行运算,如此一来,由于Hilltop不再同时对排除条件进行解析,所以可保证其正常发挥效用,并提供相应的搜索结果,然后再将此结果传递给Google算法,Google根据最初查询中的排除条件从Hilltop提供的结果中将符合排除条件的网页剔除,然后再将结果显示给用户。这也就是为什么我们现在用上面的法子再也无法看到“旧Google”的搜索结果的原因了。

Google新算法意义何在

Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合,几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。
我列了一个简单的公式来说明新算法的效果和影响 (谨供参考):

“旧”Google排名公式 = {(1-d) a (RS)} * {(1-e) b (PR * fb)}

“新”Google排名公式 = {(1-d) a (RS)} * {(1-e) b (PR * fb)} *{(1-f) c (LS)}
其中:

RS = 相关性得分:基于网页标题(Title)。元标识(Meta tags), 正文标题(Headlines),正文(Body text)。URL,图片Alt文字,锚文字(Anchor Text)等元素中出现的关键词得出的分数。
PR = 页面等级:(基于链接至你网站的网页数量及其PR值得出的分数。原始公式为PR (A) = (1-d)   d (PR (t1)/C (t1)   …  PR (tn)/C (tn)),其中D为阻尼因子,一般设为0.85; 公式可描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。
LS = 行业得分(LocalScore):根据专家文件计算得出的分数。

a,b,c = 调节控制比重:Google用于精工调整查询结果

d,e,f = 阻尼控制:Google用于精工调整查询结果。目前“f”值可能为“0”。

fb = 因子基数:Google工具栏山所显示的页面等级得分范围从1到10,但它实质上并不是一个线性函数,而是一个指数/对数函数。经过分析,我们认为它有一个趋近于8的基数。即PR为5的网页的值比PR为4要多8倍之多(PR5=PR4X8),同样,一个PR值为8的网站比一个PR值为4的网站的值要高出4000多倍(PR8=PR4X8X8X8X8)。

Google新算法的优势/优点

页面因子极易被人利用和控制,例如最早被用作排名因子的META TAGS,就由于很多网站无度的关键词充斥泛滥而不得不被搜索引擎喊停。此外,在开始的时候,由于顾忌到真实来访者的感受,对网站内容一般作手脚的并不多,但后来亦难免诱惑,过度优化,甚至页面上放上许多“隐形”的内容已是屡见不鲜的伎俩。页面因子确实无形中赋予网站管理员太多“恶意”控制权。而在Google的新算法中,各排名因素所占比重分别如下:

总“排名”得分由三部分组成:相关性得分(页面因素),页面等级得分(非页面因素)和行业得分(非页面因素):
相关性得分(RS)= 20%,页面等级值(PR) = 40%,行业得分(LS) = 40%
其中:

RS (相关性得分:页面相关度) --是所有SEO努力的转换结果;

PR (页面等级得分:外部链接度) --是所有建立链接的努力的转换结果;

LS (行业得分:专家文件链接度) --是得自专家文件的链接的转换结果;

从上述结果不难看出,页面优化的得分只占到20%,Google显然已将重心转至非页面因子上,而把排名控制权越来越多地从网站管理员手中夺回来。假若一个水平一般般的优化专家可以拿到RS中的10分,而一个水平很高的优化专家最高也不过能拿到18,19分,大家可以看到:这两个水平悬殊的优化专家之间的差别仅仅只有8分而已!

Hilltop算法是否以实时方式运行

Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。而一旦了解了Hilltop算法后,我们很难相信这样的奔腾服务器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性文件中找到“专家文件”,然后计算目标网页自这些专家文件的链接的得分,然后再将数值返回Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。

Hilltop算法的运行频率及涵盖范围

我们认为,要保证Google一贯的“闪电般”搜索速度,Google会对搜索频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理,并将结果存储起来供日后使用。Google的拥有数目庞大的高查询频率的查询词,收集自实地搜索和其AdWords自助广告系统中所使用的关键词。Google很可能对关键词搜索次数设置了上限值,凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。 同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的进行同步更新,但稍小规模的批处理的更新会更加频繁一些。

对于那些用户查询频率不算高,因而无此“荣幸”被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键词,由于它们被排除在新算法的范围之内,因而有望保持原来的排名。

Hilltop算法为何经过如此长时间才投入使用

Google早在2003年2月就获得了该专利,但在实际投入使用前,需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性,所以需要对其兼容性做大量测试,然后再评估算法整合后所提供的结果,再做精工调整,然后是进一步的繁复测试…我想所有这些都需要大量时间。

Google新算法的不利方面/瑕疵

经过进一步分析,我们发现了该算法存在着的若干缺陷和不足:

Hilltop的前提是每个专家文件都是完全公正的,且无欺*和人工操纵成分。然而情况可能并非如此理想。专家文件的一个小小污点就可以对排名产生极大的负面影响。

Hilltop意图通过“权威性”专家文件的链接来确定一个网页的行业可信度,但又不能够明确保证这些所谓的“专家文件”的”“量”确是名副其实。

运行Hilltop算法需要大量的计算机处理能力,因而我们猜测Hilltop算法(可能)是每个月对收集到的全部高频率(热门)查询词运行一次批处理。由于Google算法将40%重心转移至Hilltop,且Hilltop算法运行后的得分会保持至下一次批处理,因而在此期间搜索结果很可能不会有太大变动。此外,由于“专家”网页的投票方式往往不会有太大变动,因而在某段时期内我们可能只会看到一些“陈旧”的搜索结果。这一点悖离了搜索引擎的“提供最新、最好”的查询结果的宗旨。除了“权威网页”,用户同样希望看到一些新鲜的内容,然而对“新”Google而言,用户只有寄望于那些查询频率不太高,从而未被纳入Hilltop系统的查询词语上看到“新鲜”的查询结果了。

新站点对热门查询词的排名的难度将越发加大。看来对于那些特别热门的查询词,Google对新网站或新内容的排名的门槛是越来越高了。

商业性站点要链向网络分类目录,贸易协会,政府贸易机构,教育机构,公益性组织的站点并非难事,故而这样的站点会占据搜索结果的前十名位置。


哪些站点是Google新算法最可能的殃及者?

成员站点/域群集/运行于相同服务器下的MLM(多层营销系统程序)程序。

过度依赖“页面”优化因子的网站。

依赖高度竞争性的查询词语来获得访问量的网站。

对网站拥有者的若干建议:

排名规则已发生重大改变,网站的成功推广需从提高PR值及获得更多来自“专家文件”的链接着手;

尽可能为更多主流网上分类目录(DMOZ,Yahoo,About,LookSmart等),贸易目录,黄页,贸易协会和资源页等所收录;

避免使用域群集/成员程序或带有成员性质的系统;

避免来自可疑的FFA站点及链接工厂的互惠链接。

若干需要澄清的传言:

关于“过度优化会受到惩罚”之说--过滤优化本身就是一种SPAM,因而受到惩罚也是理所当然的事情。然而当前大多数商业网站所受到的排名冲击并非由于受到惩罚,而是由Google将重心从页面因子转至非页面因子而造成的。网站的良好优化仍必不可少。

关于“建立外部链接不再重要”之说--建立链接流行度还是和从前一样举足轻重,甚至还有可能会更加重要。Google专利的页面等级算法仍旧占据举足轻重的地位。

关于“Google开始使用‘商业词’过滤名单”之说--Google并没有使用任何“过滤名单”来惩罚商业站点。Google也无意去“惩罚”或“筛掉”任何东西,它所力求的只是建立一个能够识别最具备相关性网页的系统。

站点收录进DMOZ,Google目录和商业目录收录会让Google认为该站点属商业性网站,从而对其进行惩罚--正相反,由于这些目录都是质量非常之高的“专家文件”,因而得到这些目录的链接不但不会受到惩罚,反而会带给你较高的收益。

随着Google对其算法的大更新,我们不得不承认,要想让网站得到好的排名真是越来越不容易了。若只采用简单的优化技术,如元标识(Meta)或页面优化,几乎没办法得到理想排名。我们需要顾及很多的算法变量,而不仅仅是一个Meta Tags。搜索引擎优化会更为专业化。老式的优化伎俩已经不管用或收效甚微了。现在需要计划和实施的是全方位的SEO策略。为保证成效,SEO专家现在需要做的是投入更多的智慧、研究、分析、计划和时间。这样的话,SEO的优化“成本”亦将逐渐增高。

PPC(付费点击)的价格会继续攀升。PPC广告方式不但会成为网上营销策略的一个主要组成部分,而且需要保证相应的搜索引擎访问量。现在,网站的外部链接和页面等级愈加重要。它对排名的影响更加重要。搜索引擎优化和建立链接的结合已势在必行。此外,搜索引擎排名算法的更新不仅会越加频繁,而且幅度会越来越大。现在,定期的搜索引擎优化维护变得尤为重要。对网站的搜索引擎优化不仅是必须的,而且大有裨益。

很多网站都丢掉了它们原来的好排名,因而尤其需要搜索优化专家。每一次更新算法都是对搜索引擎优化人员名单的一次缩水。搜索引擎的优化和排名生意变得愈加困难,然而也愈加重要了。
  


   文章来源:
http://bbs.1teng.net/




点此打开链接!龙海CEO
2007-3-15 3:01:45 顶部
dsdsds11
等级:龙海贵宾
权限:普通用户
积分:3
金钱:3
声望:3
经验:3
发帖数:3
注册:2008年11月25日
资料 短消息编辑 删除 引用 第2楼
点此打开链接!魔域私服
点此打开链接!魔域sf
点此打开链接!传世私服
点此打开链接!传奇世界私服
点此打开链接!传世私服
点此打开链接!传奇世界私服
阿里巴巴点此打开链接!传世私服
零度点此打开链接!传奇世界私服
点此打开链接!GPS导航
点此打开链接!GPS
点此打开链接!GPS论坛
点此打开链接!盘龙
点此打开链接!流氓高手II
点此打开链接!琴帝
点此打开链接!神墓
点此打开链接!极品家丁
点此打开链接!恶魔法则
点此打开链接!坏蛋是怎样炼成的II 点此打开链接!星辰变
点此打开链接!星辰变后传
点此打开链接!鹿鼎记
2008-11-25 15:08:02 顶部
dsdsds11
等级:龙海贵宾
权限:普通用户
积分:3
金钱:3
声望:3
经验:3
发帖数:3
注册:2008年11月25日
资料 短消息编辑 删除 引用 第3楼
点此打开链接!清风小说网<BR>点此打开链接!武侠修真<BR>点此打开链接!玄幻魔法<BR>点此打开链接!都市言情<BR>点此打开链接!历史军事<BR>点此打开链接!侦探推理<BR>点此打开链接!科幻动漫<BR>点此打开链接!恐怖灵异<BR>点此打开链接!散文诗词<BR>点此打开链接!盘龙<BR>点此打开链接!坏蛋是怎样炼成 <BR>点此打开链接!三国风云<BR>点此打开链接!邻家有女初长成<BR>点此打开链接!鬼吹灯 <BR>点此打开链接!飞升之后<BR>点此打开链接!庆余年<BR>点此打开链接!七界传说
2008-12-2 18:39:33 顶部
dsdsds11
等级:龙海贵宾
权限:普通用户
积分:3
金钱:3
声望:3
经验:3
发帖数:3
注册:2008年11月25日
资料 短消息编辑 删除 引用 第4楼

点此打开链接!武林外传
点此打开链接!武林外传私服
点此打开链接!魔域私服
点此打开链接!魔域SF
点此打开链接!盘龙
点此打开链接!流氓高手II
点此打开链接!琴帝
点此打开链接!神墓
点此打开链接!极品家丁
点此打开链接!恶魔法则
点此打开链接!坏蛋是怎样炼成的II

点此打开链接!三国风云
点此打开链接!邻家有女初长成
点此打开链接!鬼吹灯
点此打开链接!飞升之后
点此打开链接!庆余年
点此打开链接!七界传说
点此打开链接!清风小说网
点此打开链接!武侠修真
点此打开链接!玄幻魔法
点此打开链接!都市言情
点此打开链接!历史军事
点此打开链接!侦探推理
点此打开链接!科幻动漫
点此打开链接!恐怖灵异
点此打开链接!散文诗词

2008-12-18 12:27:26 顶部
快速回复
  • 支持UBB,HTML标签

  • 高级回复

  • 操作选项: 评分 加精 解精 奖惩 设专题 设公告 解公告 固顶 总固顶 解固顶 结帖 解结帖 锁帖 解锁 移帖 删帖

    Copyright © 2008-2012 www.longhainet.com Powered By: 龙海网络 友情连接:Mold Sources