原理篇

1.1搜索引擎介绍

一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制

1.2搜索引擎分类

全文索引

全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理[1] 是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程

目录搜索引擎

目录索引也称为:分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源

元搜索

元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

1.3搜索引擎架构

搜索引擎 技术架构 搜索引擎技术原理_计算机

抓取器:在互联网上漫游,抓取数据

索引器:为抓取的数据构造索引,并将其索引和数据存储在数据库中

检索器:根据用户的输入,在数据库中检索相关的内容,并按照一定的规则进行排序

用户界面:用于展示结果和交互

1.4搜索引擎常用索引方式

正向索引

搜索引擎 技术架构 搜索引擎技术原理_搜索引擎_02

倒排索引

搜索引擎 技术架构 搜索引擎技术原理_计算机_03

1.5信息模型描述

搜索引擎 技术架构 搜索引擎技术原理_搜索引擎_04

--D表示文档的逻辑视图

--Q是用户需求的逻辑视图组成的集合。这些表示称为查询

--F是一个对文档、查询及其关系建模的框架,例如,集合与布尔关系,向量或线性代数运算、样本空间与概率分布

--R(qi,dj)是排序函数,对查询表达式qi属于Q,dj属于D赋予一个实数,排序函数定义了关于查询qi的文档次序

1.6信息模型的分类体系

搜索引擎 技术架构 搜索引擎技术原理_搜索引擎 技术架构_05

对于具体的模型讲解,请参考《现代信息检索》

参考:《现代信息检索》

http://baike.baidu.com/link?url=pw9k6Jw64uj04HFxXu1kFXzIJgf79VTONbgSfc585iVBQMS5-AiojkT4kGD4ck_8_G6ICIyM5zhYWWPvkGdWYusllhzbkZdNNbWle9ImOkttksvgfiYlpRucrNw9RCQc

备注:期待下一篇搜索引擎实践