索引在文件中的存储形式

转载

云端筑梦师 2024-10-24 07:37:55

文章标签 索引在文件中的存储形式 lucene 归一化 apache 文章分类 数据仓库大数据

本文介绍下lucene生成的索引有哪些文件组成，每个文件包含了什么信息。基于Lucene 4.10.0。

数据结构

索引(index)包含了存储的文档(document)正排、倒排信息，用于文本搜索。索引又分为多个段(segments)，每个新添加的doc都会存到一个新segment中，不同的segments又会合并成一个segment。segment存储着具体的documents，每个doc有一系列的字段(field)组成，一个field的值是多个词(term)，一个term是以一些bytes。其递进关系如下：
index -> segments -> documents -> fields -> terms

文件介绍

全局性文件

segments_N：记录索引的段数、各段名、各段中文档数、删除数和更新数。可能有多个segments_N文件，最大N的segments_N是有效文件。
segments.gen：记录当前index的代数(generation)，即segments_N的最大N
write.log：阻止多个IndexWriter同时修改索引，一次只能有一个IndexWriter

段文件

索引在文件中的存储形式_归一化

段描述
xxx.si：段的元数据，如此段的文档数及相关文件
xxx.del：删除的doc
field信息
xxx.fnm：field names，field名称、索引方式
xxx.fdx：field index，索引xxx.fdt
xxx.fdt：field data，存储stored fields
term信息
xxx.tip：term index，xxx.tim的索引，实现对xxx.tim的随机存取
xxx.tim：term dictionary，按字典顺序排列的terms，其值指向.doc/.pos
xxx.doc：倒排列表，term所在的docs、在doc中的频率
xxx.pos：倒排列表，term在doc中的位置
xxx.pay：payloads and offsets，term在doc中的offset
注意：term的位置及频率都是在某doc下term在field中的位置和偏移，位置以切词为单位，偏移以字符为单位
term vector
term vector用于打分，存储StoreTermVectors的field
xxx.tvx：term vector index，每个doc在xx.tvd、xx.tvf中的位置
xxx.tvd：term vector data file，每个doc的term vector field信息在xxx.tvf中的位置
xxx.tvf：term vector fields，field的term列表及各term的频率、位置或者偏移
归一化
lucene为doc算分时根据各doc中的term weight（term对doc的重要性），但是不同的doc重要性不同、不同的field重要性不同、不同的文档长度也不同，要想让不同文档的term weight之间有可比性（打分有可比性）需要进行归一化。用于归一化的因子(normalization factors)，如doc和field的boost factor及长度，存在如下文件中。
xxx.nvm：norms metadata
xxx.nvd：norms data
doc values
存储DocValues类型的field，通过field value可以获取对应的doc number列表, 便于进行一些概括或者打分。类型为docvalue的field在doc不能重名。
xxx.dvm：DocValues metadata
xxx.dvd：DocValues data