发布-网络营销教学 | 查看- | 发表时间-2010-12-16
探秘搜索引擎是如何抓取网页信息的
当用户搜索关键词的时候,搜索引擎程序会从服务器中的数据库中找到相关信息,进行相关性匹配,然后排序,最后展示给用户一个搜索结果。但是,众所周知,搜索引擎的数据库中包含大量的网页信息,而且不断在更新变化,那么,搜索引擎是如何获得这些网页并存储起来的,并且加以整理排序展现给用户的呢?今天,网络营销教学网网络营销顾问就为广大网络营销人一起探秘搜索引擎是如何抓取网页信息的:
关于搜索引擎获得网页的工具,是一款爬行程序(俗称蜘蛛),蜘蛛程序每天都会爬行大量的网页,并将一些新的网页信息带到服务器以便进行网页索引的建立。
蜘蛛程序如何抓取网页
互联网就是由一个个链接构成的,蜘蛛程序由链接或链接列表开始,顺着这些链接爬行并发现网页信息,蜘蛛程序爬行每一个页面,当这个页面不再有新的链接信息的时候,它就返回,下次再到这个页面的时候,再去爬行。当给它足够的时间,他就会找到互联网所有的网页信息(至少是被链接的),在爬行的时候,它还会不断的想服务器提供信息,所以我们在进行网站日志分析的时候,如果发现某一个网页被某个搜索引擎的蜘蛛程序程序爬行并成功抓取数据,那么,这个网页就很有可能被索引,所以提高网页的索引数据(收录量)对于一个网站的搜索引擎优化(SEO)是非常有利的。
链接信息处理
当蜘蛛程序在爬行链接的过程中,它还会对爬行过的链接进行处理,因为链接需要载体,查看描述这些链接的载体(文字、图片或其他信息)。
发现链接载体,比如文字、图片或一个符合(即使是空格符)也都可能成为链接载体!
存储链接数据
蜘蛛程序处理网页更新
互联网上存在在网页太多太多,一些是经常更新的,一些是一年半载都没有变化的,那么,如果网页更新了,如果等到蜘蛛回到这里发现更新信息,可能要等上几天甚至几周的时间了,这也是为什么我们有时候在搜索引擎点击一个搜索结果,会发现“网页无法打开”、“你所查找的页面已经被删除”等等情况,这是因为蜘蛛程序上次成功抓取并存放在搜索引擎索引中的信息,而现在这个页面的地址或内容现在发生了变化。所以这里我们要做的,就是努力增加蜘蛛爬行页面的频率(在以往的网站分析中经常提到),以保证我们网页在搜索引擎数据库中的索引是最新的。
比如蜘蛛程序今天访问了网站的两个网页并成功抓取,隔了两个星期,它再来访问这两个页面的时候,这两个网页其中一个更新了,另一个确没有,那么,蜘蛛程序可能会在一个星期内再次回访更新过的那个网页,而在一个月后才去访问没有更新的那个网页,随着时间的推移,蜘蛛程序会更加频繁是爬行经常更新的网页,以达到更新服务器中的索引数据,向用户提供最新的网页信息。
最后,网络营销顾问说明一下今天晚上这么晚了,为什么网络营销教学网还要写这篇文章呢?原因有二:一是为广大网络营销人分享一下搜索引擎是如何抓取网页信息的,相信通过本篇文章网络营销人对搜索引擎抓取网页的基本原理一定有所了解了,有不理解的地方请及时与网络营销顾问联系,我们一起来探讨这些神秘的问题;二是你也许已经发现,网络营销教学网每周有规律的更新两篇文章,就是因为分析了蜘蛛爬行日志之后,网络营销顾问发现,搜索引擎已经习惯每周的这两天会来看网络营销教学网,并抓取相关网页!以上两大原因,也正好说明了网络营销顾问吴远君老师的那句话:网站不但是做给用户看的,也是做给搜索引擎看的!
或许您还对下面的文章感兴趣
- 外贸网站如何做好SEO战略工作部署(2010-10-3 21:8:52)
- 互联网时代保险业网络营销的必要性和可行性(2010-9-15 21:0:12)
- 网络营销教学网站分析百度推广恶意点击的问题(2010-9-12 21:21:29)
- 网络营销教学之网上开店平台选择(2010-9-7 23:52:26)
- 网络营销教学网浅谈网络营销的趋势与前途(2010-9-6 21:2:34)
- SEOer做好站内优化的十四个实战技巧(2010-7-26 16:1:42)
- 企胜网赢:网站性能对SEO的影响以及解决方法(2010-7-20 17:45:12)
- SEO工程师告诉你Google优化三大定律(2010-7-10 14:45:23)
- 网络营销使网上卖车梦想变成现实(2010-7-9 14:54:2)
- 微博已然成了网络营销教学的新武器(2010-7-7 16:0:33)
最新文章
- [12/29]如何有效开展百度竞价排名推广
- [12/01]企业PPC推广与网站SEO优化的优缺点分析
- [12/01]网络营销教学网介绍7款本地PHP环境搭建工具
- [11/16]网络营销教学网讲述企业网站建设定位的重要性
- [11/09]网络营销教学网站提供全面顾问式网站建设服务
- [10/21]做好网站优化排名需要做好网站文章伪原创工作
- [10/17]怎样写好原创文章
- [10/17]怎样使网站发挥其真正的价值
- [10/16]网站具有哪些共性功能
- [10/16]选择网页设计公司的标准
- [10/12]互动网络营销有哪些特点
- [10/12]企业网站优化经常出现的错误
- [10/08]怎样做好网站优化
- [10/07]如何获取高质量外链途径
- [10/07]如何获取高质量外链途径
- [09/29]怎样突破链接困境
- [09/29]搜索引擎作弊有哪些形式
- [09/21]制作企业网站要做好网站用户体验
- [09/13]如何提升网站在百度的收录量
- [09/06]如何避免企业网络营销同质化
随机文章
最近评论


◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。