es 评分排序 java es综合排序

转载

mob64ca13f7ecc9 2023-10-20 12:18:19

文章标签 es 评分排序 java es function_score 排序打分 文章分类 Java 后端开发

一序

本文属于极客时间Elasticsearch核心技术与实战学习笔记系列。

在使用Elasticsearch进行全文搜索的时候，默认是使用BM25计算的_score字段进行降序排序的。

ES 默认会以文档的相关度算分进行排序
可以通过制定一个或者多个字段进行排序
使用相关性算分（score）排序，不能满足某些特定条件

无法针对相关度，对排序实现更多的控制

二 Function Score Query

Function Score Query

可以在查询结束后，对每一个匹配的文档进行一系列的重新算分，根据新生成的分数进行排序

提供了几种默认的计算分值的函数

Weight：为每一个文档设置一个简单而不被规范化的权重
Field Value Factor：使用该数值来修改_score，例如将 “热度” 和 “点赞数” 作为算分的参考因素
Random Score：为每一个用户使用一个不同的，随机算分结果

2.1 demo按受欢迎度提升权重

希望能够将点赞多的 blog，放在搜索列表相对靠前的位置。同事搜索的评分，还是要作为排序的主要依据
新的算分 = 老的算分 * 投票数

投票数为 0
投票数很大时

es 评分排序 java es综合排序_打分

数据准备：

PUT /blogs/_doc/1
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   0
}

PUT /blogs/_doc/2
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   100
}

PUT /blogs/_doc/3
{
  "title":   "About popularity",
  "content": "In this post we will talk about...",
  "votes":   1000000
}

其中数据的title，content 都是一样的，只是投票数差别很大。下面使用：field_value_factor：考虑到vote数量。

es 评分排序 java es综合排序_es_02

可以看到，票数高的分数遥遥领先。

2.2使用 Modifier 平滑曲线

再来看看field_value_factor内的一些参数

field

相乘的字段，该字段必须是数字类型。

factor

相乘的系数，可以自己调节相乘的系数

missing

定义字段缺省值

modifier

刚才的例子，差异性巨大，可以使用modifier修正字段值.下面是官网的介绍：

This table lists how field_value_factor modifiers can be implemented through a script:

Modifier	Implementation in Script Score
`none`	-
`log`	`Math.log10(doc['f'].value)`
`log1p`	`Math.log10(doc['f'].value + 1)`
`log2p`	`Math.log10(doc['f'].value + 2)`
`ln`	`Math.log(doc['f'].value)`
`ln1p`	`Math.log(doc['f'].value + 1)`
`ln2p`	`Math.log(doc['f'].value + 2)`
`square`	`Math.pow(doc['f'].value, 2)`
`sqrt`	`Math.sqrt(doc['f'].value)`
`reciprocal`	`1.0 / doc['f'].value`