很多朋友听过搜索引擎中使用的是倒排索引,但是大多不知道什么叫做倒排索引,今天给大家讲解什么是倒排索引。

前面讲过搜索引擎的内容处理,搜索引擎会将内容索引到的内容处理放置库存中等待用户检索呈现,搜索引擎库中存储的信息只剩下网页主题内容。首先讲一下什么是正向索引。




倒排索引和聚簇索引类似的区别 倒排索引原理和实现_搜索引擎


正向索引如下图所示,通过正向索引直接参与排名的网页是这样进行呈现的,搜索引擎根据库存中的文件直接参与排名,这样与不分词是没有太大区别的,如果用户提交的是长尾词则搜索引擎进行内容相关度的计算会非常消耗资源。


倒排索引和聚簇索引类似的区别 倒排索引原理和实现_倒排索引和聚簇索引类似的区别_02


为了使索引文件直接参与排名,搜索引擎会把上面的对应关系进行转换,也就是倒排索引,当用户发起关键词检索的时候,搜索引擎会检索已有库中存在的文件来匹配这个关键词,然后进行相关呈现。当用户搜索为关键词1+关键词2的组合词搜索引擎会把包含关键词1并且包含关键词2的文件调出,然后进行相关度和权重计算。这样会减少搜索引擎资源的消耗,进而加快搜索结果的呈现。


倒排索引和聚簇索引类似的区别 倒排索引原理和实现_搜索引擎_03


倒排索引中不仅仅记录了包含相应关键词文件的ID,还会记录关键词频率、每个关键词对应的文档频率,以及关键词出现在文件中的位置等信息。

因此在SEO操作中,需要注意关键词频率、核心关键词的使用位置,H标签的使用还有关键词变色的处理等方法,在倒排索引中这些都会对关键词相关度有所提升并且会提升网页排名。