elasticsearch中倒排索引详解

原创

tiancityycf 2022-11-25 15:11:53 博主文章分类：elasticsearch ©著作权

©著作权归作者所有：来自51CTO博客作者tiancityycf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表，以及对于每个单词在文档中的位置组成。

我们有两个文档，每个文档 content 字段包含：

1. The quick brown fox jumped over the lazy dog

2. Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先切分每个文档的 content 字段为单独的单词（我们把它们叫做词(terms)或者表征(tokens)），把所有的唯一词放入列表并排序，结果是这个样子的：

elasticsearch中倒排索引详解_倒排索引

现在，如果我们想搜索 "quick brown" ，我们只需要找到每个词在哪个文档中出现既可：

elasticsearch中倒排索引详解_搜索_02

两个文档都匹配，但是第一个比第二个有更多的匹配项。如果我们加入简单的相似度算法(similarity algorithm)，计算匹配单词的数目，这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。

但是在我们的倒排索引中还有些问题：

1. "Quick" 和 "quick" 被认为是不同的单词，但是用户可能认为它们是相同的。

2. "fox" 和 "foxes" 很相似，就像 "dog" 和 "dogs" ——它们都是同根词。

3. "jumped" 和 "leap" 不是同根词，但意思相似——它们是同义词

上面的索引中，搜索 "+Quick +fox" 不会匹配任何文档（记住，前缀 + 表示单词必须匹配到）。只有 "Quick" 和 "fox" 都在同一文档中才可以匹配查询，但是第一个文档包含 "quick fox" 且第二个文档包含 "Quick foxes" 。

用户可以合理的希望两个文档都能匹配查询，我们也可以做的更好。

如果我们将词为统一为标准格式，这样就可以找到不是确切匹配查询，但是足以相似从而可以关联的文档。例如：

1. "Quick" 可以转为小写成为 "quick" 。

2. "foxes" 可以被转为根形式 ""fox 。同理 "dogs" 可以被转为 "dog" 。

3. "jumped" 和 "leap" 同义就可以只索引为单个词 "jump

现在的索引：

elasticsearch中倒排索引详解_倒排索引_03

但我们还未成功。我们的搜索 "+Quick +fox" 依旧失败，因为 "Quick" 的确切值已经不在索引里，不过，如果我们使用相同的标准化规则处理查询字符串的 content 字段，查询将变成 "+quick +fox" ，这样就可以匹配到两个文档。

这个表征化和标准化的过程叫做分词(analysis)，关于分词更多参考：https://www.phpmianshi.com/?id=163

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯