本文由DataFun社区根据同盾科技反欺诈算法总监谭炽烈老师在2018AI先行者大会中分享的《混合、安全对抗下人工智能设计原则》编辑整理而成。
今天分享的内容分为以下几个方面,首先是同盾公司简介,反欺诈面临的高对抗问题,然后根据同盾的实践经验讲一下反欺诈解决方案、人工智能应用的设计原则等。
一、同盾公司简介
同盾科技成立于2013年主要做第三方智能风控和分析决策引擎,为金融、O2O等十来个行业提供风控、营销、反欺诈服务。专攻领域有区块链、大数据处理、网络欺诈分析、机器学习、深度学习、人工智能、自然语言处理等。
二、反欺诈面临的高风险问题
AI遇到的问题有薅羊毛、交易里面的反欺诈,身边有很多欺诈行为,如账号盗用(钓鱼网站、伪登录网站)、垃圾注册(薅羊毛,通过注册大量账号,规整利益到一起),盗卡盗刷主要是针对银行,ATM磁卡机侧漏获取磁条信息中的账号密码。群控机器就是有很多账号,将账号和设备进行关联,可以通过风控规则进行拦截,电信诈骗就是通过电话或者是短信的方法持续去引导和诱骗受害者,进入到紧急危险场景,骗取金钱。金融卡套现主要是卡商和机构勾结,商用风险和信用卡风险类似。
同盾对全网30亿设备进行欺诈团伙画像分析,发现每日欺诈访问比例8.55%以上,增长趋势逐渐往高科技团伙作案发展,团伙规模逐渐扩大。这里有个提示是当一个欺诈团伙由小发展到大,需要尽快将其拦截,不然后期危险会越来越大。作案手段逐渐多元化,每个行业的欺诈手段和方式都不样,场景也不一样。欺诈团伙分工也是越来越来明显,早期只是对漏洞进行攻击,现在做成一个产业的分工。控制很多虚假号码,身份证无法虚假就是搜集,手机号码等通过群控来薅羊毛,专业攻击软件实现目的,互联网时代很多营销活动初衷是好的,但是设计体系没有完善,黑产就会利用这一点,包括前段时间土耳其汇率下降。
如果要对风险进行一个防控,要做几个事情。首先要知道黑产是什么、到底是怎么做的、目的是什么,第二个要知道系统有哪些漏洞,第三个就是有哪些工具去防控这个事情。如下图所示,疑似黑产发生攻击时,有四个时刻。第一个就是攻击发生,平台受到威胁后会进行攻击情报获取、异常预警快速识别风险。平台发现风险、策略分析、拦截风险。当黑产发现被拦截,可能会想办法绕过拦截继续进行攻击。这个过程是不断循环的,不断迭代更新,技术对抗也不断加码。从攻击发生到发现风险,平台要尽早发现并预警风险,因此需要不断完善预警系统,并收集情报;从发现风险到拦截风险,即我们需要分析数据现状以及现在攻击的态势是怎么样的,通过分析产生新的策略并实施拦截。黑产拦截有几种方法,一种就是实时,通过黑白名单机制。还有就是通过无监督或者半监督的方法,找到团伙特征来做一些分析,由于数据和时效性无法实时上线,因此需要无监督方法实现,具体包括图的计算,更高维的有监督算法做一个分类。
拦截到风险到黑产发现之前,可以做一些随机策略从而延长机制。从攻击发生到拦截,上面一部分平台是受攻击的,底下是得到防御和保护的阶段。对于系统希望上面时间越短越好,下面时间越长越好,这样平台受损就少。黑产的攻击有好多种,而且同一个平台遭受不同欺诈团伙攻击,发生时间、渠道、团伙大小、手段等都可能不同。
针对薅羊毛场景,具体分工为:商家会发布一个优惠,黑产获取信息发掘有利可图进行攻击。平台可能只有有限优惠券可以领,这样黑产会让很多人做这个事情,将其归拢一起,获取利益最后做利益分配。
三、反欺诈解决方案
上面梳理了黑产是怎样的,有哪些手段,接下来讲我们有哪些工具来进行防御。人工智能并不是无所不能的,当然也不是完全依赖人工,因此协调人工运营、决策、人机协同,达到更快、更准的理念。结合业务场景、流程、风险问题设计,通过数据的驱动获得整个人工智能算法的应用。如下图所示,在这个过程中可用的工具分为无监督和有监督两种。有监督包括分类、回归等,对于反欺诈大部分是分类,回归用的较少,分类算法有LR、贝叶斯、随机森林或者GBDT。无监督方法更多用于预警、关系挖掘(图挖掘LPI、标签传播)等。
机器学习算法开发流程如下图,(1) 首先我们要定义明确业务目标,目标明确能够很好的提升算法水平。依据业务场景特征、行为做一些对抗分析,如薅羊毛在刷单和众包里面都有,也有可能群控设备,但是其反馈是不一样的 ;(2) 然后数据分析,需要明确黑白样本有没有,数据缺失率、准确率如何,能否支撑目标的运行;(3) 特征选择,这决定了算法的效果。并不是所有的算法都可以使用,不同的特征只适应特定的场景,需要依据业务目标和拿到的数据选择特征;(4) 算法训练,前期准备好,时间可控,一般可收敛,如果不收敛就需要在前期工作做些调整;(5) 验证测试,有监督中验证测试比较简单,分类就统计准确率和召回率。无监督中更多需要人去确认分类是否有意义,能不能解决问题;(6) 迭代更新。
四、人工智能应用的设计原则
为了尽早发现风险,应该如何做呢?
原则1:预警及早发现风险
(1) 实时监控与离线监控都是需要的,实时监控是线上调用量的结果、时间态势,包括统计变量,但是这种无法得到多维信息。需要离线组合弥补
(2) 可靠的情报侦察;
(3) 时序分析:事件序列的模式是否异常,危险时段,依据事件特征编码进行挖掘;
(4) 趋势分析,到底是否合理,均值预测;
(5) 统计监控变量,发现状态异常。
举例说明,时间序列指标的异常监控如下图所示,我们可以发现有几个攻击发生,大约4月10日开始尝试攻击、试探,监测到4月16日线上实时调用异常,发现监测指标峰值。我们通过日常预警调用量的方案可以找出攻击发生点,能够快速对攻击事件进行拦截、分析。
下图所示,终端设备监测指标的时间曲线。上图是用户使用某一终端系统设备参数的用户波动情况,下图是终端设备参数的占比。从监测数据可以发现这是一个群控现象。
原则2:需要多特征、多维特征补充分析准确度
(1) 事件前后关联分析:目前大都是单场景策略拦截,但是可以在注册和登录搜集特征,补充到后续交易和支付场景里面,整体做特征补充。
(2) 地理空间分析:wifi,gps等地理位置、地址文本处理等相关处理;
(3) 用户操作行为:不是针对个人,而是群控设备的人和机器的差别;
(4) 画像分析,黑产用户画像,黑产流窜于那些平台,是否有跨行业可能性,同一行业相互平台是否流窜。IP画像,这个很难做因为可变,IP可能是公共流量出口。
(5) 关联分析:团伙关联,有价资产关联,交易双方关联,事件关联,相似特征聚类形成图谱进行分析。
欺诈风险特征可能做得更细,上图是支付中可能会遇到的风险,也有更深的。如垃圾注册或者虚假注册,地区可能是高危国家或地区的,团伙作案空间上是有流窜的,相互是有关联,就是黑产地域性。还有就是交易行为异常,这是最重要的,这种很难逃避设备监控和IP监控。
同盾坚持的风控理念是跨行业联防联控,针对网络团伙欺诈流窜现状,跨行业联防联控,挖掘行业横向数据维度信息。
原则3:人机协同的立体反欺诈体系,让策略人员轻松应对
神经反应:脊椎神经反应(立即反应)针对黑白名单,反馈及时、拦截快速;脑回路神经反应,这种是智能系统,因为系统从算法到上线周期很长,数据来源获取长,训练时间长,还有决策、上线 。还有缺乏专业人员,目前周期较长。
通过业务规则,专家分析决策经验能够及时拦截事件,因此是立体的防控体系。
项目发展是规则决策到有监督再到无监督发展关系,当出现风险,该规则很快就能进行分析,有监督在有标签的时候就可以做,而无监督需要经验和业务体验的特征,这样做才有意义。
欺诈可能有已知欺诈,这种通过业务规则就可以判断,对于未知欺诈模式需要有个异常监测,团伙需要有个网络的分析,挖掘出所有信息。发生攻击时,防护是靠业务预警系统还有线上策略、黑白名单储备策略,离线时利用漏过的特征,通过失败和成功拦截构建无监督和半监督拦截来补充线上策略。
五、最后总结:
在与黑产作对抗时,推演是非常重要的。结合业务场景发现蛛丝马迹,挖掘有效特征;分析纵向事件序列、黑产画像、档案,设计多种智能算法框架;通过联防联控体系,挖掘横向信息;构建多层级、多级别的立体智能风控体系。
作者介绍:
谭炽烈,同盾科技反欺诈算法总监。
注:关注文章底部公众号,回复【先行者】,可下载马尧老师分享的PPT。
——END——
DataFun定位于最“实用”的数据科学社区,主要形式为线下的深度沙龙、线上的内容整理。希望将工业界专家在各自场景下的实践经验,通过DataFun的平台传播和扩散,对即将或已经开始相关尝试的同学有启发和借鉴。DataFun的愿景是:为大数据、人工智能从业者和爱好者打造一个分享、交流、学习、成长的平台,让数据科学领域的知识和经验更好的传播和落地产生价值。
DataFun社区成立至今,已经成功在全国范围内举办数十场线下技术沙龙,有超过一百位的业内专家参与分享,聚集了万余大数据、算法相关领域从业者。