首先这个特性处于实验阶段,在之后发布的release版本中可能会被移除,Elastic官方会尽最大努力去修复可能出现的各种问题,因为不受GA保护,所以前期大家尽量不要在生产环境中使用

1、介绍

script_score 是 function score 2.0版本, 允许用户在检索中灵活修改文档score,来实现自己干预结果排名的目的,另外script score性能要高于function score
下面我们通过一个简单的例子来加深理解,通过script score将文档score值修改为“like”字段值的十分之一:

GET /_search
{
"query" : {
"script_score" : {
"query" : {
"match": { "message": "elasticsearch" }
},
"script" : {
"source" : "doc['likes'].value / 10 "
}
}
}
}

2、操作

  • 在script 中访问当前文档_score值
    用户可以在script中访问变量_score ,还是上面的例子,我们给当前score加上“like”值:
{
"query" : {
"script_score" : {
"query" : {
"match": { "message": "elasticsearch" }
},
"script" : {
"source" : "doc['likes'].value + _score "
}
}
}
}
  • Vector查询支持
    这类查询目前有cosineSimilarity 和 dotProduct两类函数支持,只能应用在​​​dense_vecotor 和 sparse_vector​​​数据类型上。
    例如,通过cosineSimilarity函数计算query文档与索引库里文档的dense_vector相似度:
{
"query": {
"script_score": {
"query": {
"match_all": {}
},
"script": {
"source": "cosineSimilarity(params.queryVector, doc['my_dense_vector'])",
"params": {
"queryVector": [4, 3.4, -0.2]
}
}
}
}
}

如果是计算sparse_vector field的cosine相似度:

{
"query": {
"script_score": {
"query": {
"match_all": {}
},
"script": {
"source": "cosineSimilaritySparse(params.queryVector, doc['my_sparse_vector'])",
"params": {
"queryVector": {"2": 0.5, "10" : 111.3, "50": -1.3, "113": 14.8, "4545": 156.0}
}
}
}
}
}

再如,在dense_vector field上计算给定文档与索引库文档点积的距离时:

{
"query": {
"script_score": {
"query": {
"match_all": {}
},
"script": {
"source": "dotProduct(params.queryVector, doc['my_dense_vector'])",
"params": {
"queryVector": [4, 3.4, -0.2]
}
}
}
}
}

同理,在sparse_vector上进行点积计算,需要使用dotProductSparse 函数:

{
"query": {
"script_score": {
"query": {
"match_all": {}
},
"script": {
"source": "dotProductSparse(params.queryVector, doc['my_sparse_vector'])",
"params": {
"queryVector": {"2": 0.5, "10" : 111.3, "50": -1.3, "113": 14.8, "4545": 156.0}
}
}
}
}
}

上述vector查询需要注意的时,如果vector field缺失数值时,或者查询语句中vector规格与索引库字段的vector规格不一致,那么该文档的计算结果会是0

  • 调用自定义Painless script
    用户可以灵活的使用Painless语法编写自己的Function ,并在script中进行调用,另外值得注意的是,本身es提供了大量的预定义Function可供调用,这些都是经过优化的,执行效率比较高。
sigmoid(value, k, a) = value^a/ (k^a + value^a)  
"script" : {
"source" : "sigmoid(doc['likes'].value, 2, 1)"
}
  • 对数字类型字段添加衰减函数
    常用到的衰减函数有decayNumericLinear(线性),decayNumericExp(指数),decayNumericGauss(高斯)
"script" : {
"source" : "decayNumericLinear(params.origin, params.scale, params.offset, params.decay, doc['dval'].value)",
"params": {
"origin": 20,
"scale": 10,
"decay" : 0.5,
"offset" : 0
}
}
  • 对geo类型字段添加衰减函数
    常用到的衰减函数有decayGeoLinear(线性),decayGeoExp(指数),decayGeoGauss(高斯)
"script" : {
"source" : "decayGeoExp(params.origin, params.scale, params.offset, params.decay, doc['location'].value)",
"params": {
"origin": "40, -70.12",
"scale": "200km",
"offset": "0km",
"decay" : 0.2
}
}
  • 对日期类型字段添加衰减函数
    常用到的衰减函数有decayDateLinear(线性),decayDateExp(指数),decayDateGauss(高斯),不支持 mow 函数。
"script" : {
"source" : "decayDateGauss(params.origin, params.scale, params.offset, params.decay, doc['date'].value)",
"params": {
"origin": "2008-01-01T01:00:00Z",
"scale": "1h",
"offset" : "0",
"decay" : 0.5
}
}

需要注意的是上述几个衰减函数中都用到了params参数,而该参数官方说明是不支持动态改变数值的,个人觉得不是很好用,后期应该还会优化

  • Function Score 转 Script Score

script_score:function score中的script_score 函数部分不需要进行修改,可以直接拷贝到script score里运行。

weight:

"script" : {
"source" : "params.weight * _score",
"params": {
"weight": 2
}
}

random_score:

"script" : {
"source" : "randomNotReproducible()"
}

field_value_factor:


"script" : {
"source" : "Math.log10((doc['field'].size() == 0 ? 1 : doc['field'].value()) * params.factor)",
params" : {
"factor" : 5
}
}

其中 Math.log10((doc['field'].size() == 0 是为了排除因field missing引起的异常,field_value_factor 里modifier(权重调控函数)可以通过下面函数实现:

名称

实现

none

-

log

Math.log10(doc['f'].value)

log1p

Math.log10(doc['f'].value + 1)

log2p

Math.log10(doc['f'].value + 2)

ln

Math.log(doc['f'].value)

ln1p

Math.log(doc['f'].value + 1)

ln2p

Math.log(doc['f'].value + 2)

square

Math.pow(doc['f'].value, 2)

sqrt

Math.sqrt(doc['f'].value)

reciprocal

1.0 / doc['f'].value