为什么要做风控系统

不做的话,会有以下风险:

  • 各种小号、垃圾账号泛滥
  • 撞库攻击、盗号、毁号、拖库等
  • 拉新 10w 留存率不到 5%
  • 百万营销费用,却增加不了用户粘性
  • 投票票数差距非常悬殊
  • 各种榜单被垃圾账号占领
  • 实物奖励被机器人领走
  • 红包被秒抢
  • 下单不付款占库存
  • 虚拟占座
  • 刷单炒信
  • ……

风控场景

  • 营销活动反作弊

防御现金红包奖励、优惠劵促销、电商秒杀等营销活动场景下薅羊毛、黄牛党倒卖等各种欺诈行为

  • 内容防盗爬

防御行业竞争数据、高价值内容、隐私数据等被盗爬行为

  • 渠道流量反作弊

防御 iOS、国内外 Android 等各类渠道推广流量作弊行为

  • 刷榜刷单防护

防御直播热度排行、电商销量排行、热门内容推荐等场景下恶意刷榜刷单行为

  • 虚假用户裂变识别

防御拉新、助力砍价、电商拼团等场景下虚假用户裂变行为

  • 支付风控

防御盗卡交易、游戏代充等欺诈行为

作弊手段

打接口和虚拟机

这两种手法比较相似,都是用电脑模拟手机等移动设备,以虚假设备信息和网站、APP 的服务器端通信。

这种低成本手段是移动互联网水大鱼大时期的遗留物,铭刻着各平台未对黑产痛下杀手时的“美好记忆”,由于操作简便,不需额外资源,仍是目前主流的黑产手段之一。

识别打接口的主要方式是:引入设备标识判断逻辑,没有任何设备标识信息或信息不正确,就会被判断为打接口“假客户端”。

识别虚拟机的方法:其中一种方法是看 CPU、PC 上虚拟机使用的 CPU 指令集架构和移动设备会有明显差别,如果发现指令集属于 PC 而非移动设备,则识别成功。

设备农场

此后,黑产不得不启用更高成本的新手段——用真实手机作恶,设备农场形态应运而生。

这是与黑产对决的一个长期堡垒,攻防双方的手段交替进化,主要经历下面几个阶段:

简单刷机(通过修改单个设备信息,如 IMEI 号,用一台手机模拟出多个移动设备)、

复杂刷机(通过修改多维度设备信息模拟移动设备)、

Hook 改机(通过劫持系统函数、返还虚假信息模拟移动设备)和

多开(通过劫持系统函数,同时在单台手机上打开几十个相同应用,如几十个微信,提高作恶效率),
把黑产逼到了不得不启用“真机农场”的境地。

而真机农场,就是“老老实实”地把一台手机当做一个设备来用,相比用一台真实设计模拟数个虚假设备,其成本已十分高昂。

反欺诈工程师们也找到了应对真机农场的关键:即便不刷机、不 Hook,群控却依然是黑产无法绕过的核心,所以在对群控多维痕迹进行专门检测后,真机农场也无所遁形。

2018 年的黑产新动向:云手机、硬件插件和积分墙

云手机

2018 年 9 月下旬,云手机横空出世。就像其名称所展示的,这是云计算在黑产界的最新应用。和“云手机”的对决,

云手机和传统设备农场的最大区别是:它背后并不是一个真正的手机,而是一套搭载在云服务器上的虚拟手机。

在云手机加持的新型农场里,场景更加“科幻”——挂在墙上的不再是成百上千的手机,而是一片片装载了安卓的板卡,这些板卡可被电脑群控,模拟正常智能手机的注册、点击、分享等一系列用户行为。

硬件插件

在云计算之外,黑产也开始用起了硬件插件。

大牛是一款可插装在苹果手机上的硬件,它最牛的功能是,是插上之后,能让苹果手机在不“越狱”(开放用户操作权限)的情形下实现改机和篡改 GPS 的目的。

搞清了这个原理后,只要识别出相关特征,大牛也就不牛了。

积分墙

目前这波黑产中最难搞定的 Boss 级手段——积分墙。积分墙其实就是“人刷”,由羊头和羊群协作完成。

厉害的羊头能触及多达万级乃至十万级的职业、半职业羊毛党。一旦有大漏洞出现,羊头就会将消息层层放出,组织大家一起薅——在由各种信号、传输协议连接的“平静互联网”中,羊头引领这支大军,进行着“夺金不用刀”的无声“抢劫”。

电商平台今年初的优惠券漏洞,就可以理解成一次惊动全网的“积分墙”。积分墙的攻防难点在于,背后是真人、真设备。很难识别,这也是我们近期对抗的重点,不过现在也快识别得差不多了。”

识别的方法也自成体系,主要通过团伙特征和行为时序异常等维度来综合判断,再结合通过大数据例行运营挖掘出的积分墙应用,一起做到风险可控。

风控系统解决方案

全链路风控解决方案,包括三大部分:事前预防、事中检测处置、事后分析回馈

大数据风控python_大数据风控python

  • 事前预防:通过数据采集收集用户侧信息、通过业务规则来限定参与活动的门槛、通过身份核验来确认用户身份等手段,防止风险事件的发生。
  • 事中检测处置:通过实时在线的手段来检测风险,并做相应的风险处置,防止风险事件的发生。
  • 事后分析回馈:基于长周期的离线数据分析,计算用户侧、设备侧、IP 侧、业务侧的各种风险特征,并作用于事前风控和事中风控。

风控主要功能

从数据提供规范、支持规则和社群、黑产库、输出方式等方面提供完整的解决方案
风控引擎主要的工作是识别风险,一般的风控引擎都需要如下几个功能:

  • 名单服务:建立黑、白、灰名单;
  • 画像服务:建立基于 IP、手机号、账户等层级的画像服务;
  • 指标计算:一般包括高频类统计、求和、计数、求平均值、求最大值、求最小值等等;
  • 风控模型:基于采集到的数据,建立风控模型,比如:设备模型、行为模型、业务模型等;基于机器学习、深度学习技术来构建业务模型、设备模型、行为模型,或文本类模型(异常地址检测、异常昵称检测)等;
  • 规则引擎:最终的风控数据进入规则引擎,由规则引擎判断是否存在风险。风控运营需基于业务建立各种风控规则,以识别风险。

风控系统架构

大数据风控python_大数据风控python_02

## 数据采集

用户信息/ 设备指纹 / 操作行为 / 网络数据 / 提现数据 /第三方数据

大数据风控python_大数据风控python_03

机器学习模型

  • 社交网络

欺诈团伙识别,基于手机号、设备、IP,行为等建立时域关联网络,利用社群发现、
风险传播等无监督算法精准防御黑产团伙欺诈行为

  • 离群点分析

识别异常频率行为用户,如刷量用户

  • 复杂事件处理

基于一些规则模型,检测异常行为。比如信用卡盗刷检测,
识别用户短时间内切换不同地点登陆账户

  • 效果评估

准确率 召回率

异常团伙示例

通过机器学习模型生成的团伙行为特征如下所示:

社群成员有相同的手机型号和手机号前缀,且启动时间高度一致,还都在充电,该团伙疑似为设备农场作弊。

规则引擎

根据规则和阈值进行判断,返回用户风控等级,下面为几个规则引擎方案:

  • 借助成熟的规则引擎,比如 Drools,Drools 和 Java 环境结合的非常好,本身也非常完善,支持很多特性,不过使用比较繁琐,有较高门槛
  • 基于 Groovy 等动态语言自己完成
  • Spark SQL + 规则转化成的 SQL 语句构建规则引擎对用户风控指标进行分级

管理系统

  • 指标管理
  • 指标组合管理
  • 阈值管理
  • 名单管理
  • 提现审批

参考

https://zhuanlan.zhihu.com/p/84747637https://www.cnblogs.com/cx2016/p/11647110.htmlhttps://www.jianshu.com/p/a14f1d9a1d9dhttps://ixyzero.com/blog/archives/4270.html

更多文章

知识图谱在大数据中的应用

基于Spark Graphx+Neo4j实现用户社群发现

基于大数据聚类社群的作弊用户发现方法

基于 Apache Flink 和规则引擎的实时风控解决方案

Flink 在同程艺龙实时计算平台的研发与应用实践

MapReduce Shuffle 和 Spark Shuffle 原理概述

携程是如何把大数据用于实时风控的