网络营销教学 江西网络营销 网络营销培训
网络营销教学网欢迎您! Welcome to http://www.wlyx007.com !
发布-网络营销教学 | 查看- | 发表时间-2010-12-16
  

探秘搜索引擎是如何抓取网页信息的

  
  当用户搜索关键词的时候,搜索引擎程序会从服务器中的数据库中找到相关信息,进行相关性匹配,然后排序,最后展示给用户一个搜索结果。但是,众所周知,搜索引擎的数据库中包含大量的网页信息,而且不断在更新变化,那么,搜索引擎是如何获得这些网页并存储起来的,并且加以整理排序展现给用户的呢?今天,网络营销教学网网络营销顾问就为广大网络营销人一起探秘搜索引擎是如何抓取网页信息的:

  关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。

  

蜘蛛程序如何抓取网页

  互联网就是由一个个链接构成的,蜘蛛程序由链接或链接列表开始,顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行。

  当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的想服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引,所以提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。

  

链接信息处理

  
  当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体,查看描述这些链接的载体(文字、图片或其他信息)。

  发现链接载体,比如文字、图片或一个符合(即使是空格符)也都可能成为链接载体!

  存储链接数据

  

蜘蛛程序处理网页更新

  互联网上存在在网页太多太多,一些是经常更新的,一些是一年半载都没有变化的,那么,如果网页更新了,如果等到蜘蛛回到这里发现更新信息,可能要等上几天甚至几周的时间了,这也是为什么我们有时候在搜索引擎点击一个搜索结果,会发现“网页无法打开”、“你所查找的页面已经被删除”等等情况,这是因为蜘蛛程序上次成功抓取并存放在搜索引擎索引中的信息,而现在这个页面的地址或内容现在发生了变化。

  所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率(在以往的网站分析中经常提到),以保证我们网页在搜索引擎数据库中的索引是最新的。

  比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。

  最后,网络营销顾问说明一下今天晚上这么晚了,为什么网络营销教学网还要写这篇文章呢?原因有二:一是为广大网络营销人分享一下搜索引擎是如何抓取网页信息的,相信通过本篇文章网络营销人对搜索引擎抓取网页的基本原理一定有所了解了,有不理解的地方请及时与网络营销顾问联系,我们一起来探讨这些神秘的问题;二是你也许已经发现,网络营销教学网每周有规律的更新两篇文章,就是因为分析了蜘蛛爬行日志之后,网络营销顾问发现,搜索引擎已经习惯每周的这两天会来看网络营销教学网,并抓取相关网页!以上两大原因,也正好说明了网络营销顾问吴远君老师的那句话:网站不但是做给用户看的,也是做给搜索引擎看的!

Welcome to 网络营销教学网!
« 企业如何做好软文创作和软文推广
探秘搜索引擎是如何分析网页内容的 »

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

网络营销教学 江西网络营销 网络营销培训 行业网络营销 网络营销学习

Welcome to 网络营销教学网!
Welcome to 网络营销教学网!