搜索引擎由搜索器、索引器、检索器和用户接口四部分构成。
1、搜索器,是一个机器人程序自动地在互联网中搜集和发现信息,对Web进行遍历并下载到本地文档库。由于Web信息的大容量、分布性和动态性,搜索器主要有两个方面的工作重点:第一是采用较好的搜索策略;第二是设计高性能系统结构以支持每秒下载大量网页,同时确保系统具有较好的稳定性,能够应付各种服务器的突发事故等。
2、索引器,其功能是理解搜索器所搜索到的信息,从中抽取出索引项,将文档表示为一种便于检索的方式并存储在索引数据库中,生成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、更新时间、长度等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项又可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
3、检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。检索器采用的检索方法有以下几种:
基于关键词的检索,是不考虑文档的具体内容仅判断文档中是否包含被检关键词的方法。
基于概念的检索是对用户查询进行概念扩展,然后转化为关键字检索。
基于内容的检索是根据文档的内容查询的检索。
4、用户接口,用户接口的作用是为用户提供可视化的查询输入和结果输出界面,提供用户相关性反馈机制。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑运算、相近关系、域名范围、出现位置、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。