搜索引擎原理第二阶段之预处理

原创

海拥haiyong 2021-08-11 11:26:27 ©著作权

文章标签 SEO 搜索引擎预处理搜索 html 文章分类 运维

©著作权归作者所有：来自51CTO博客作者海拥haiyong的原创作品，请联系作者获取转载授权，否则将追究法律责任

搜索引擎原理第二阶段之预处理

搜索引擎原理第二阶段之预处理_html

文章目录

搜索引擎原理第二阶段之预处理
前言
一、提取文字
二、中文分词
三、去停止词
四、消除噪声
五、去重
六、正向索引
七、倒排索引
八、链接关系计算
九、特殊文件处理
十、质量判断

前言

搜索引擎工作过程非常复杂，接下来的我用三篇文章简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛。不过对大部分SEO人员已经够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1）爬行和抓取:搜索引擎蜘蛛通过跟踪搂发现和访问网页，读取页面HTML代码，存入数据库。

(2）预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理，以备排名程序调用。

(3）排名:用户输入查询词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

本篇文章主要介绍预处理

在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的内容。

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索词后，靠排名程序实时对这么多页面分析相关性，计算量太大，不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

和爬行抓取一样，预处理也是在后台提前完成的，用户搜索时感觉不到这个过程。

一、提取文字

现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面HTML代码，除了用户在浏览器上可以看到的可见文字外，还包含了大量的HTML中格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序，取出可以用于排名的页面文字内容。

比如下面这段HTML代码

<div id="post-1100" class="post-1100 post hentry category-seo">
<div class="posttitle">
<h2><a
href-"http:/www.seozac.com/seo/fools-day/"
rel="bookmark" title="Permanent Link to搜索引擎的工作原理">搜索引擎的工作原理</a></h2>
复制代码

除去HTML代码后，剩下的用于排名的文字只是这一行:

搜索引擎的工作原理
复制代码

除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码，如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

二、中文分词

分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面内容及用户查询都是以分词为基础的。英文等语言单词与单词之间有空格作为天然分隔，搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之问没有任何分隔符，一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词，哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。

基于词典匹配的方法是指，将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。

按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合，又可以产生正向最大匹配、逆向最大匹配等不同方法。

词典匹配方法计算简单，其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。

基于词典匹配和基于统计的分词方法各有优劣，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。

搜索引擎对页面的分词取决于词库的规模、准确性和分词好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎，某几个字应该被当做一个词处理，尤其是可能产生歧义的时候，比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于“和服”的内容，那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”，可以把“服装”两个字标为黑体。这样，搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。

三、去停止词

无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the, a, an, to, of等。

搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

四、消除噪声

搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

五、去重

搜索引擎还需要对页面进行去重处理。

同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上，搜索引擎并不喜欢这种重复性的内容。用户搜索时，如果在前两页看到的都是来自不同网站的同一篇文章，用户体验就太差了，虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。

“去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明，通常选取10个特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡
献也就不大了。

典型的指纹计算方法如MD5算法(信息摘要算法第五版)。这类指纹算法的特点是，输入(特征关键词及其顺序)有任何微小的变化，都会导致计算出的指纹有很大差距。

了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创，并不能逃过搜索引擎的去重算法，因为这样的操作无法改变文章的特征关键词，也就无法改变指纹。而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文章、交叉调换段落顺序也不能使转载和抄袭
变成原创。

六、正向索引

正向索引也可以简称为索引。

经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的字符串。接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置等信息。这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如表所示。

文件ID	内容
文件1	关键词1，关键词2，关键词7，关键词10，… ,关键词L
文件2	关键词1，关键词7，关键词30，… ,关键词M
文件3	关键词2，关键词70，关键词305，… ,关键词N
…
文件6	关键词2，关键词7，关键词10，… ,关键词X
…
文件x	关键词7，关键词50，关键词90，… ,关键词Y

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中，关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。

七、倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。

所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射，如表所示。

关键词	文件
关键词1	文件1，文件2，文件12，文件16，… ,文件l
关键词2	文件1，文件3，文件30，… ,文件m
关键词3	文件4，文件70，文件410，… ,文件n
…
关键词7	文件1，文件2，文件12，… ,文件x
…
关键词x	文件60，文件70，文件80，… ,文件y

在例排索引中关键词是主键，每个关键词都对应着一-系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

八、链接关系计算

链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后，必须事前计算出：页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的连接指向关系形成了网站和页面的链接权重。

Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算，虽然它们并不称之为PR。

由于页面和链接数量巨大,网上的链接关系又时时处在更新中，因此链接关系及PR的计算要耗费很长时间。关于PR和链接分析，后面还有专门的文章介绍。

九、特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、 WPS、XLS、 PPT、 TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片和视频，对Flash 这类非文字内容，以及脚本和程序只能进行有限的处理。

虽然搜索引擎在识别图片及从Flash 中提取文字内容方面不断进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容，详细情况可以参考后面的整合搜索部分。

十、质量判断

在预处理阶段，搜索引擎会对页面内容质量、链接质量等作出判断。前几年的百度绿萝、石榴算法，Google 的熊猫、企鹅算法等都是预先计算，然后上线，而不是查询时实时计算的。

未完待续，下节更精彩
上一节：搜索引擎原理第一阶段之爬行和抓取
下一节：搜索引擎原理第三阶段之排名

上一篇：搜索引擎原理第三阶段之排名

下一篇：搜索引擎原理第一阶段之爬行和抓取

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯