一、引入

这时ABTest就是一种帮助我们做决策的更科学的方法

ABTest,就是做一个测试,在产品设计场景中,假设我们有两个方案(比如两个页面一个用这个文案另一个用那个文案,一个用红色按钮、另一个用蓝色),通过均衡的流量分割,让一部分用户使用A方案,另一部分用户使用B方案,然后利用埋点可以对用户点击等行为数据进行采集,并通过统计引擎分析结构化的日志数据,计算相关指标,一般是点击率、转化率、CTR(点击次数/展示量)等,进行假设检验,从而得出那个方案更好

ABtest原理很简单。ABtest的难度主要在开发上:开发新版本、进行测试、测试数据回传保存

二、AB Test步骤

ABtest本质上是一个两总体假设检验问题,要检验A、B两个版本是否有显著区别。

两总体假设检验步骤:

第一步:确定对象和指标。明确要检验的A、B两个对象,版本。以及要检验的指标,是CTR,还是客单价,ARPU

第二步:给出原假设/备择假设。并选择检验统计量,t 还是F?(t是总体方差未知或小样本,用样本方差代替总体方差。F是总体方差或大样本)

第三步:埋点,获取数据。计算统计量,明确A,B版本是否有显著区别。p值小于显著性水平0.05则推翻原假设

确定目标 --> 确定最小样本量 --> 确认流量分割方案 --> 实验上线 --> 规则校验 --> 数据收集 --> 效果检验

三、AB Test例子

某电商平台,想提升用户客单价,运营部门做了两套A、B激励方案,想将流量分成相同的两批测试下效果。已选出两组各12名用户,测试用户客单价如下

AB test ab test步骤_Test

H0:两者不相等

H1:方案A客单价均值=方案B客单价均值

AB test ab test步骤_Test_02

解读结论

AB test ab test步骤_Test_03

既然方案A与方案B不同,A的均值又高于B,那么就认为A更好

三、AB Test的局限性,或是做AB Test要注意什么?

①AB Test要求数据量很充足的时候,才具有可信度

②且AB测试得到的结果是更优的方案,而不是最优,所以只能作为一种验证性的工具

③A/B测试只有在你要测的KPI指标可以被量化时才适用,对于声誉,公关等不适用

四、面试题

Q1:什么场景可以做AB测试?

产品迭代场景:界面优化、增加功能

策略优化场景:运营策略优化,算法策略优化(推荐算法)

检验场景:新功能推出,30天内的DAU增加了,那么要通过假设检验来测试这个结果是否显著

Q2:为什么要进行ABtest

APP想要存活及增长,精细化运营就变成了必须。往往产品的认知并不是用户的认知,所以我们需要去测试,去实验。类似于医学中的“双盲实验”

Q3:AB Test样本量如何确定?AB Test需要做多久是如何确定的?如果计划做20天,第10天时感觉结果显著,能不能停止测试?

样本量        计算公式: 

AB test ab test步骤_数据分析_04

Q4:做AB实验的时候,数据对比上涨25%,判定为效果显著,但上线后效果不好,为什么?

样本量不足,结果是随机波动导致

实验时间太短,用户由于新鲜感表现出不可持续的行为

实验人群不等于上线人群

外部环境变化,比如打车场景下,下雨和下雪会导致订单量激增

Q5:谈谈第一类错误,第二类错误

互联网产品案例中,第一类错误(拒真错误):本来是一个好的产品,它本来可以给我们带来收益,但是由于我们统计的误差,导致我们误认为它并不能给我们带来收益。

第二类错误代表的是一个功能改动,本来不能给我们带来任何收益,但是我们却误认为它能够给我们带来收益。

Q6:流量分割有哪两种方式?

AB test ab test步骤_产品运营_05

Q7:假设检验如何选取统计量?

AB test ab test步骤_数据分析_06

Q7:ABTest有哪些注意事项?

一些效应

网络效应:

主要是因为对照组和实验组在一个社交网络导致。如果微信改动了某一个功能,这个功能让实验组用户更加活跃,发更多朋友圈。但是实验组用户的好友可能在对照组,实验组发的多,对照组用户可能就刷朋友圈刷的多,所以本质上对照组用户也受到了新功能的影响,那么ABTest就不再能很好的检测出相应的效果

解决办法:从地理上隔绝用户

学习效应:

主要是用户的好奇心理导致。比如产品将某个按钮从暗色调成亮色。很多用户刚刚看到,会有个新奇心里,去点击该按钮,导致按钮点击率在一段时间内上涨,但是长时间来看,点击率可能又会恢复到原有水平

解决方法:一是把时间拉长。二是只看新用户的数据

Q7:如果样本量不足该怎么办

只能通过拉长时间周期,通过累计样本量来进行比较

Q8:是否需要上线第一天就开始看效果?

在做AB测试时,尽量设定一个测试生效期,这一般是用户的一个活跃周期。如用户活跃间隔是7天,那么生效期为7天,如果是一个机酒app,用户活跃间隔是30天,那生效期为30天

BOUNUS:

ABtest实验可以分成两种,客户端client实验和服务端server实验

客户端实验一般来说只是UI上的实验,纯粹是展示端的策略;

而服务端的实验是返回给client数据的内容做实验,比如推荐的策略,算法策略等