刚刚学了一部分的seo,大概对搜索引擎有了一部分的概念。想起我们从无到有,真的是很不容易。反之如果连搜索引擎到底是什么样子我们都不知道的话,日后怎么能够作为我们的工作呢?那么就由我来为大家大概介绍一下搜索引擎的原理是什么。首先需要知道的是搜索引擎有三大系统:1.信息收集系统 2.预处理系统 3.查询服务系统。
第一、信息收集系统
爬虫(蜘蛛)老师上课的时候给我们举得很生动的例子,把信息抓取系统想象成一只大蜘蛛,它从各个站点提取网页内容,然后将内容传回搜索引擎数据中心便于我们以后分析。互联网上就是有无数只这样的蜘蛛,网线就是蛛网,网站就是树枝,它们爬来爬去寻找着想要的美味--网页内容。蜘蛛担当了网页站点内容收集的任务,对于站长来说是非常重要的。蜘蛛是你与搜索引擎之间的一个使者。蜘蛛经常光顾你的网站,你把你想让搜索引擎获得的东西放在网站上等待蜘蛛来捕捉。一般正常网站蜘蛛的爬行在1-2周左右一次,但是每次爬完之后不会立刻就显示在搜索引擎之上,会经过一个加工和处理的等待时间才会体现在搜索引擎之上。
蜘蛛从网站上带走了什么呢?蜘蛛带走的信息包括:1.标题 2.网址链接 3.摘要。因此这三个信息是我们要关注的重点。蜘蛛的喜好就如人一样,我们都会知道大概什么地方会有丰盛的晚餐,我们才会先抄那里去。蜘蛛也是一样的,一些大型的网站对于蜘蛛有着很强的吸引力,引起蜘蛛对于它们总是乐于奔波的爬来爬去。而对于小站的光临相对来说就少一些了。所以如果你想得到蜘蛛的重视就需要在大站上发一些通向自己站点的连接来“诱惑”蜘蛛上钩。当蜘蛛知道你这里有美味的大餐可以吃,就会经常光顾,但是当你总是给它吃那几个页面的时候他也会烦。以后光临的时间将间隔越来越长,因此经常给蜘蛛们换换口味。这就是网站的更新。还有一个很关键的重点是:死链接和错误链接。也许有人会问:什么是死链接?什么是错误链接? 为什么死链接和错误链接是一个重点呢? 最近偶尔会看一些比较火的论坛上看到一些文章,其中有一个帖子是这么说的:“从用户的角度来看,死链接和错误链接的表现是一样的,所以我们并不需要区别死链接和错误链接。”之后咨询过老师,这完全是不负责任的言论。死链接:所谓死就是套住的意思,没有出路的链接就叫死链接。包括两点 1.没有连接或连接错误 2.循环死链接也就是说你的连接让蜘蛛来回爬几个页面而不能安全到达全局。 错误链接:就是死链接的第一种说法。那为什么还要在这里强调介绍呢? 蜘蛛爬的顺序是从上到下从左到右,如果它刚刚爬到上面最左端至第二页而你第二页又连向第一页,这样蜘蛛就会反复在这两个页面之间爬来爬去浪费时间而别的页面却抓取不到。因此网站链接布局非常重要。
第二、预处理系统
蜘蛛把内容带回“家”以后对这些网页,搜索引擎系统还要做很多的复杂处理。第一步:预处理。首先要提取关键词,在取词的过程中实际细分为三部分 1.服务器自身根据中文,做一个词语的数据库该数据库包含了近乎所有的词语。2.根据数据库的内容将网页上的文字分成一个个词语 3.去掉诸如“的”“是”之类的没有意义的字。第二步:消灭重复页面和转载页面 网上重复的内容非常多而且会有大量的抄袭和引用,搜索引擎不希望读者看到一样的东西出现,鼓励“创新”“新颖”“原创”。因此需要删除重复的内容。第三步:链接分析 链接的文字、字体代销都体现了网站建设这对这个页面的评价和重视程度,因此相应的搜索引擎也会予以一定的重视。第四步:网页重要程度计算 就是我们所知道的的权重(是由百度定义,可以在帮助工具中查询)
第三、查询服务系统
搜索引擎将网页内容做好后需要等待用户搜索。经历了以上几个过程,一个原始网页就变成了五步:1.原始网页文档 2.url和标题(描述)3.编号 4.所含的重要关键词的集合以及在文档中的位置 5.其他的指标:重要程度、分类代码等。一旦有人搜索关键词就能迅速调用相关文档并集合输出。
这就是现阶段学习的seo的一些知识,搜索引擎无时无刻都在变化着,但是它的基本原理还是不变的,我们只要抓住最基本的原理,能够灵活的运用到实际中就会总结出一套自己的seo方法。总结来说就是:理论+实践+坚持=成功。