导语:在疫情扰乱生活节奏的三年中,经常会看到企业“降本增效”的话题。如:让员工感受寒气、搬走办公室绿植、降低食堂伙食标准等等。就企业运作成本而言,降低黑灰产(羊毛党、打码平台等)盗夺的有限资源无疑是最有效的降本方式之一。
据不完全统计:我国现有黑产团伙超3万个,团伙年利润超300万,每年因黑产涉及而造成的企业损失之和可超1000亿,线上流量有61.5%来自黑灰产。在极验与黑灰产持续对抗近10年的时间里,总结出黑灰产具有“效率高、速度快,规模大”的特性。黑灰产可能在行为上作弊,利用自动化轨迹脚本,模拟真实用户的操作路径;可能在设备上作弊,使用模拟器、云控群控等程序,大批量参与企业发起的营销活动;可能在身份上作弊,圈养成千上万个账户小号,在业务链路中蹲点伪装。
面对行为、设备、身份多维度作弊的黑产技术,全方位定位一个流量的可信程度,需要从行为、设备、身份三个维度建立识别、防御和决策体系。
行为轨迹模型
从2012年业务安全服务厂商极验提出通过生物轨迹识别人机交互至今,运行迭代仅10年的轨迹模型,仍然占据主要的防御地位。从行为数据上识别和制止黑灰产的入侵,在各大 Top 类客户活动期间起到关键防御作用。随着客户群体扩大,轨迹模型也获得越来越多的数据喂养,精度和效果数据也越来越优秀。那么基于用户生物轨迹的模型到底如何建立的呢?
1. 收集样本
对 AI 或大数据有了解的同学应该都知道,样本数据在模型建立初期非常重要,同样在冷启动期间,样本数据往往也是建模遇到的最大困难之一。行为验证在推出之初,新颖的滑动交互样式,创新的轨迹识别理念,短时间吸引了很多客户。各大网站开始部署使用行为验证,网站上的真实用户、机算计脚本纷纷“滑一下”尝试通过当时体验最好的交互验证工具。极验最初的样本数据便由此慢慢积累。
2. 建立模型
有了轨迹样本数据,就需要建立轨迹识别模型,每当一个滑动行为完成,就实时输出模型判别结果。为了简单理解,我们将多维特征的轨迹简化成一个由二维特征的向量a(x,y),此时我们有一个轨迹模型辨识函数F(先忽略这个函数如何得到),在二维坐标系中绘出函数 F 的轨迹,落在轨迹左上方的为真人轨迹,落在轨迹右下方的为机器轨迹。
随着模型的应用,有一天我们发现有红点落到了绿色真人轨迹区域,相应的绿点也落到了红色机器轨迹区域,如果线上我们对模型的辨识结果有封禁和放过两个动作,此时就会出现漏判和误判。这个时候我们就得不断优化辨识函数F,直到能尽可能完全区分人机轨迹。
3. 优化模型
当轨迹点在坐标系中出现了交叉,这个时候就需要优化模型,让辨识函数能更加及时、准确的纠正错误。这时我们就要用到 CNN 了,让模型自主进化,适应并学习不同轨迹特征,以到达准确区分。可能有同学会有疑问,如果绿色和红色点足够密集,一定存在一种可能性:二维坐标中辨识函数 F 无法将人机轨迹集合清晰区分成两个独立区域,那人机轨迹不就无法区分了吗?答案是肯定的,这种可能性存在,并且将二维还原成高维特征的情况也存在,这个时候我们单靠 CNN 有点捉襟见肘。
于是聚类模型就派上用场,相较于 CNN,聚类模型最大的不同点,可以简单的理解成:如果 CNN 依赖辨识函数 F 将轨迹分成两个区域,那聚类就是将轨迹分成多个簇。因为机器轨迹分布通常比较聚集,核心思路是哪个位置密集,就建立区分单元,然后用以封禁。模型优化是一个不断探索不断尝试的过程,极验日均14亿+的数据量,为我们优化和迭代模型提供了先决条件;且多种模型配合使用会弥补单一模型的短板,能够更精准的防御每一次机器入侵。
设备画像模型
随着互联网发展,移动 App 应用几乎深入生活中每一个场景。只需一部手机便可以参加营销活动,完成游戏任务,领取奖励。企业期望的领取方式是由真实目标用户参与获得,但黑灰产批量运作手机设备去获取奖励,不仅破坏了公平性,而且无法达到企业真正的营销目的,于是从设备识别人机流量差异变得尤为重要。黑产对设备作弊方式主要分为两大类:安装风险工具和修改设备参数。
1. 设备指纹
设备指纹是为上网用户所使用的终端设备所生成的唯一标识,极验稳定不易篡改的设备指纹采用设备弱特征归因技术,不依赖 IMEI、IDFA 等高敏信息,符合隐私政策规范,从100多项数据特征中建立设多重互补算法模型,最后生成设备唯一标识。在重启、卸载、重装修改硬件参数等场景下仍然唯一不变。在拉新引流、投票助力等场景,识别一机多号、小号作案、刷量等异常行为。
2. 设备环境检测
单一依靠设备指纹,无法全面识别所有的作弊行为。如果能给每一台设备打上一个风险状态标签,便可随时感知该设备的风险程度。极验设备画像不再和传统产品一样通过单一的“比对设备黑数据库”输出固化的风险分数。我们采用“实时检测、实时对抗、实时更新”。从历史行为、实时风险、设备归因建立风险探测模型,准确给出当前设备的风险状态和风险标签。相较于风险分数,0和1这样直接的风险标识,能够更加直接提供企业处置信号,不再有层级边界带来犹豫不定的困扰。
值得一提的是,随着监管政策趋严,设备层面的风控面临着数据合规风险,依赖 IMEI、IDFA、Mac 地址等高敏数据建立的风控体系注定被淘汰。越来越多的黑灰产也开始使用定制机作弊,比如曾有某品牌的手机中,出现了不属于该品牌的字符样。我们需要建立新的方案来识别定制机类作弊方式,这需要大量的黑白样本数据以及一个足够涵盖市场上主流的设备信息库。我们在调试初版定制机识别模型时,抽取游戏、电商行业一个月的数据,最后的准确率达78%。
账号画像模型
在网络实名制政策环境下,手机号几乎成为了真实网络用户的网络身份账号,极验账号画像模型90%是围绕手机号展开,账号画像模型主要提供两个能力:账号风险等级(低、中、高)、账号风险标签。
假设在注册登录场景下,有如下情况:手机号为187xxxx1234的用户注册了某App,使用的设备对应的设备指纹为 AAA;一天后此账号又登录App,但这次使用的设备对应的设备指纹为 BBB;一周后的618活动中,我们发现此账号又进入了 App,此次登录的设备为模拟器。三次不同的场景分别使用了三个设备,并且在活动周期内,使用模拟器这种高危虚拟环境登录,说明这个账号极有可能是由黑灰产注册的小号,进入该 App 的主要目的是薅取 618 的活动资产。为了便于理解,将第一次注册、第二次登录、最后登录画成如下图所示:
类似上面这种账号和设备存在一对多的关系,我们可以制定所有可用于分析的策略和规则,然后分析所有账号的信誉程度,从而标记账号的风险等级。首先给所有账号一个初始的分值,然后制定账号相关规则特征集合,并依据触碰与否给账号进行扣分和加分,最后长时间观察此账号的信誉分值变化,依据最终的账号信誉结果,给出账号的风险等级。
当我们业务数据足够多,行业覆盖足够广时,我们将通过设备指纹、手机号、IP等建立一个跨行业、跨设备的交叉关系网络,形成特有的关系图谱。
随着规则投入使用,我们将源源不断地获取每个手机号的风险等级和触碰的规则,将规则脱敏后建立标签系统,在返回账号风险等级,同时也返回该账号的风险标签,辅助企业进一步明确决策。
各标签对应说明(点击查看大图)
结语
行为、设备、身份组成了流量治理的三要素,极验正是依靠三要素模型来防御每一次异常入侵。将三个维度的安全模型联合一起,再配合动态调度引擎,为企业保驾护航。当羊毛党被任何一个模型检测到异常后,不但会实时调出安全工具进行二次校验,还会将相关标签回传到业务服务器,由业务方进一步处置决策,大大降低羊毛党的获利效率和概率,直到入不敷出,最终放弃以致空手而归。