风控系统之指标回溯，历史数据重跑

原创

wnhyang 2024-09-07 16:17:11 博主文章分类：项目实战 ©著作权

文章标签 历史数据风控指标 文章分类 spring boot 后端开发 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者wnhyang的原创作品，请联系作者获取转载授权，否则将追究法律责任

个人博客：无奈何杨（wnhyang）

个人语雀：wnhyang

共享语雀：在线知识共享

Github：wnhyang - Overview

回顾

默认你已经看过之前那篇风控系统指标计算/特征提取分析与实现01，Redis、Zset、模版方法。

其中已经介绍了如何利用redis的zset结构完成指标计算，为了方便这篇文章的介绍，还是在正式开始本篇之前回顾一下。

时间窗口

zset是redis中的一种数据结构，表示有序集合，正因此我们可以利用其做时间窗口来计算指标，value为事件标识，score为事件时间戳。

如下图表示次数、关联、求和类型各两条指标在时间窗口下随着时间分布，其中的黑点也就是事件，散列且线性的分布在时间窗口中。

风控系统之指标回溯，历史数据重跑_指标

指标字段

关于指标我们需要哪些配置？

来看指标字段有哪些：

type：指标类型，有次数计算、关联次数、最大值、最小值、求和等等
calcField：计算字段，必须为数值类字段，而且仅用于计算类指标，如次数统计类指标计算的就是事件本身，不需要设置计算字段
winSize：窗口大小，与其讲是窗口大小不如说是窗口单位，取值有M/d/H/m/s，表示月/天/时/分/秒
timeSlice：时间片，与窗口大小对应，单位为秒
winCount：窗口数量，与窗口大小组合起来是整个指标计算的窗口大小
winType：窗口类型，目前取值只有last/cur，表示最近或是当前
masterField：主字段，如：计算某客户登录次数，主字段就是客户唯一标识
salveFields：从字段们，可以是多个，如：计算客户在某设备的登录次数，主字段是客户唯一标识，从字段是设备唯一标识
sceneType：场景类型
scenes：场景，与场景类型组合起来用于隔离的指标

计算流程

1、对于未知的输入，根据指标配置计算。

如下图，未知的事件经过指标计算在指标时间窗口上记录。

风控系统之指标回溯，历史数据重跑_历史数据_02

2、时间窗口记录事件，并设置过期时间。

如下图，横轴表示时间，黑色的点是已有事件记录，竖线表示当前时间，红色是当前这笔事件的记录。

因为Redis只能给整个key设置过期时间，所以要整体上要设置过期时间。如果前面配置的窗口类型winType是last，表示最近，那么设置的过期时间就是timeSlice*winCount；如果设置的是cur，标识当前，那么设置的过期时间就是timeSlice。

风控系统之指标回溯，历史数据重跑_指标_03

3、窗口移动并计算结果。

如下图，竖线表示当前时间，红框表示窗口，根据指标类型计算窗口内事件的值就好。

风控系统之指标回溯，历史数据重跑_风控_04

问题

已知指标都是随事件的发生实时计算而来的，指标的一些字段是一次创建后不可更改的，如上梳理的type：指标类型、calcField：计算字段、winSize：窗口大小、timeSlice：时间片、winCount：窗口数量、winType：窗口类型、masterField：主字段、salveFields：从字段们、sceneType：场景类型、scenes：场景，都是一次创建不可更改的，因为一旦修改了其中的字段数据相对就不准确了。

由此会产生一个严重的问题，两种场景下都会出现很大问题。

1、新创建的指标并不能及时使用

因为新创建的指标并没有任何数据，这时并不能用。什么意思？如我需要设置一个规则“最近90天没有登录的账号要进行一次短信验证”，那么我设置的一个指标是“最近90天账号登录次数统计”，设置规则为“最近90天账号登录次数统计”为空则决策结果为“短信验证”。这个新的指标并没有跑已有数据，那么这就是不准确的，直接上线指标那么全部账号都将会多一次短信验证，短信产生的费用不讲，用户带来的体验也是很差的。

2、修改已有指标会错误

对于已有的指标通常都会设置不允许更改的字段，如上，这个并不需要过多解释了。那么如果已有的指标设置错了，但又不可更改，那么这个问题又回到上面了👆

所以，总结问题的解决方案就是：对于新增和修改的指标能支持对已有数据的重跑。