搜索引擎抓取操作(Webcrawling或spidering)是整个搜索操作的起点,资料抓取操作的优劣关系到搜索品质的好坏。搜索引擎抓取操作因为全球网页的大量资料、频繁的更新频率和动态页面的产生,而使得抓取操作越来越困难。搜索引擎的策略会有以下的组合。

  (1)、选择策略,到底该获取哪些网页。

  (2)、重访策略,多久重新获取已经访问过的网页。并行策略,如何安排分散式的资料获取。

  (3)、不扰策略,如何在获取资料时,不影响网站的效能。

  并行策略与搜索引擎优化没有太大的关联,我们不再深入讨论。后续就来谈搜索引擎的选择策略、重访策略与不扰策略。不同的搜索引擎有不同的资料获取策略,不过最终目的都是希望把力气花在优秀的资料上,如果有余力再去获取其他的资料。因此选择策略就主宰了获取优秀资料的重任。

  计算机不会知道什么样的资料才是优秀的资料,因此起点就由人来决定。多数搜索引擎会由可以信赖的第三方开始,这个可以信赖的第三方就是具有公信力的目录网站、学术单位、公家单位与非营利的组织团体。因此被这个可以信赖的第三方所链接的网站就具备较优势的起点,但是并非保证能够有优秀的结果。

  因此许多人认为被目录网站(如dmoz.org)或被学术单位收录可以有较好的搜索结果,其实只是一个误会,最后结果是否能够如愿,还牵涉太多的因素。有太多网站没有被信赖的第三方链接,却比被信赖的第三方链接的网站有更优秀的搜索结果。

  不管如何,有个优势的起点总是好事,因此搜索引擎优化操作还是尽量要被信赖的第三方链接。如果还是无法被链接的话,那么使用各搜索引擎的登录网站(urlsubmit)也是一个方法。

  最好你的网站已经建置完成,或已经接近完整,再去登录网站,详细说明在下节。被搜索引擎列为获取的对象之后,再来就是搜索引擎到底隔多久会来获取资料。有些网站可能时时刻刻都被搜索引擎访问,但有些网站几天才被搜索引擎访问一次。

  决定搜索引擎访问频率的因素有两个:网站的重要性与网站的更新率。如果你的网站重要性高,但是不常更新,搜索引擎也不会时常访问。如果你的网站重要性不高,但是时常更新,搜索引擎也可能会提升访问频率。举个例子,如果原本你的网站每天被搜索引擎访问一次,如果搜索引擎每次来访都发现有新资料,并且这些新资料被搜索点击或链接的成绩不错的话,搜索引擎就会缩短成半天来访一次。如果每次来访又都发现有新资料,并同样这些新资料被搜索点击或链接的成绩不错的话,搜索引擎的访问频率就会继续提升。

  相反的,如果原本你的网站每天被搜索引擎访问一次,但搜索引擎每次来访都没有新资料,搜索引擎就会变成两天访问一次。如果两天访问一次还是没有发现新资料,搜索引擎的访问频率就会逐渐降低。

  但是如果你每天更新大量资料,但都是一些垃圾资料,而无法获得优秀的搜索点击或链接成绩的话,那么搜索引擎仍然会维持原本的访问频率,甚至于可能降低访问频率。

  所以到底谁决定搜索引擎的访问频率?其实就是你自己。只要你己经开始被搜索引擎收录,你就是搜索引擎访问频率的决定者。以上所说明的就是搜索引擎访问频率的算法,也就是让搜索引擎获取操作最有效率的做法',几乎所有知名的搜索引擎都是遵循同样做法的,只是访问频率的调升或调降数量大小的不同,以及判断搜索点击或链接成效的方式不同。

  如果想要让搜索引擎提升拜访网站的频率,最好的方式就是经常增加可以吸引读者的内容。

  搜索引擎的不扰策略主要就是,不要因为搜索引擎的访问而影响正常读者的存取。如果搜索引擎每次到访都发现反应速度很慢,则搜索引擎会减少访问次数,甚至如果多次访问都无法连线,则会把网站列为断线观察,如果继续无法连线则就会删除既有的索引资料。因此拥有足够的频宽与稳定的系统也是促使搜索引擎提高到访率的重要因素之一。

  但是如何能够知道搜索引擎到底是否能够顺利获取你的网站资料呢?并不是你自己可以连上你的网站就代表其他来源也能顺利连线。

  搜索引擎连到你的网站的路径未必和你连上你的网站的路径相同,如果要能够确定的话,最好由各区域的PingTest工具来确认连线成功及反应速度。笔者就曾经碰过自己连自己网站没有问题,但是外国连到自己的网站断线,或是美国的搜索引擎无法获取资料的情况。以目前的网络连线品质及网络连线监督,其实还有很大的改善空间,如果在此情况下自己的网站莫名其妙地被搜索引擎除名,真的是哑口无言了。

  因此了解搜索引擎的选择策略、重访策略与不扰策略,是提升搜索引擎资料获取量的重要知识。但是这也是黑帽做法操作的对象,企图引导搜索引擎做出错误的策略,来提升自己的资料获取量或降低竞争对手的资料获取量。