倒排索引是翻译错误?到底是谁在甩锅!_java

昨天,很多买了 Elasticsearch 的网友,在群里问:“Elasticsearch 中的索引为什么叫倒排索引?很难理解!

这一问,立马引起了很多人的注意,包含很多没关注过倒排索引的人。今天我们一起来看看,为什么叫倒排索引?

有倒排就有正排。其中正排索引是这样的,在一篇文章中,我们去找某些关键字,这叫正排索引。

反过来,根据关键字去找某一篇文章,就叫做倒排索引。

倒排索引,英文名叫:Inverted index。也常被称为反向索引、置入档案或反向档案,翻译成倒排索引,完全是一种翻译“错误”。只不过最初翻译的人,可能是相当正排序来翻译的,并不是根据字面意思来翻译的,随着大家都叫习惯了之后,倒排索引就流传开来了。

倒排索引是翻译错误?到底是谁在甩锅!_java_02

之所以不好理解,完全是被最开始翻译的人带坑里了。当然,作为第一个翻译者承受的压力也是巨大的。但是我们的思维完全不要局限于倒排索引的这个“倒”字。

如果说,A—Z 算是正排序的话,倒排序应该是 Z—A 吧。但其实 Elasticsearch 并不是这样的!所以,我个人更喜欢于把它翻译成反向索引。

倒排索引是翻译错误?到底是谁在甩锅!_java_03

比如,我现在有一个类似上面的文档。文档内容中的词,我们忽略。那么,现在我们来模仿着创建一个倒排索引列表。

倒排索引是翻译错误?到底是谁在甩锅!_java_04

实际代码中,可以根据不同的分词插件和实现代码分出不同的词。比如,业余草,在不同的分词组建下,可能被分为:“业余,草”两个词,公众号也可能被分为“公众,号”。所以,对于我上面具体的分词是否恰当,大家不要太过于纠结!

倒排索引是翻译错误?到底是谁在甩锅!_java_05

有了这个分词之后,就相当于建立了倒排索引(反向索引)。那么我们就可以根据关键词来搜索出对应的文档了。

比如,当我搜索“业余草”关键词的时候,1、2、3 这三篇文章就会被搜索出来。这和我们在文章中搜索关键词,通过关键词来搜索文章,完全是一种反向思维。所以说是反向索引更为合适,如果你硬要死搬硬套倒排,那就不好走出思维陷阱了。

总之,你这样理解就好了:

  • 正排:文档——>关键词

  • 倒排:关键词——>文档

以上,希望能够帮助大家在学习 Elasticsearch 时少走一些弯路。至于是否是翻译错误,那都是历史原因,一切请向前看。一起精进,请加微信号:xttblog。

倒排索引是翻译错误?到底是谁在甩锅!_java_06