文档(document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽些,代表以文本形式存在的存储对象。相比网页来说涵盖更多的形式。例如word、html、pdf等都的hi文档,甚至包括微博、微信等也可以称作是文档。
文档集合(document collection):由若干文档构成的集合成为文件集合。比如海量的互联网网页的集合或者说是大量的电子邮件,都是文档的集合的具体例子。
文档编号(document ID):在搜索引擎内部,会为文档集合内每个文档赋予一个唯一的一个内部编号,以此编号来作为这个文档唯一标识,这样方便内部处理。每个文档的内部编号即称为文档编号。
单词编号(word ID):与文档编号类似,搜索引擎内部唯一编号来表示某个单词,单词的编号可以作为某个单词的唯一表征。
倒叙索引(inverted index):倒叙索引是实现单词-文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒叙索引主要由两个部分组成:单词词典和倒叙文件。
单词词典(lexicon):搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有电磁构成的字符串集合,单词词典内每条索引项记载单词本身一些信息及指向倒排列表指针。
倒排列表(postinglist):倒排列表记载了出现过某个单词的所有文档的列表及单词在该文档中出现的位置信息,每条记录成为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。
倒排文件(inverted file):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里。