1、实验详情
① 实验下发
支持查看和修改实验的版本信息,以及分流的比例。
② 白名单管理
支持查看和编辑临时白名单,以及选择白名单组和设置不同白名单组生效的顺序。
③ 实验指标
支持添加或解除实验中的指标。
④ 实验结论设置
支持设置自动生成实验结论的规则。
⑤ 接口测试
支持通过接口调试实验,需要传入调用分流的用户ID。
⑥ 操作日志
当前实验被用户调整过的记录。
⑦ 基础信息
支持查看和修改实验的基本信息。
2、实验结果
一般而言,建议实验至少运行满一个自然周期(7天)再来观测数据。
① 实验监控 – 样本量进度
•实验指标只有在样本量累积足够的前提下,指标数据才能用作实验结论参考。此处样本量进度的检验方式采用MDE检验。MDE也叫最小检测变化,是实验在当前条件下能有效检测的指标diff幅度。有效检测,指检出概率大于等于统计功效(默认为80%)。只有在MDE小于等于实验设计初期设定的最小变化阈值后,实验样本量才是足够的,这时进行假设检验得出的显著性结果是最可靠的,建议以此时的显著性结果为依据进行实验效果决策。
•目前并不是所有指标都支持MDE检验,因此本监控主要提示信息是:①支持检验的指标数量有多少个;②在支持检验的指标里,MDE样本量累积已达标的指标有多少个;③样本量已累积达标的指标占所有支持检验的指标的比例是多少。
•本监控主要是提示实验指标样本量累积情况,不影响实验结论科学性判断。
② 实验结论
实验结论模块是为了降低实验分析门槛给出的平台实验结论建议,方便了解当前实验状况。实验对于业务具体的影响仍需要业务具体情况具体分析。
实验结论基于实验的结论设置产生,规则如下:
③ 累计流量
•展示按天累计的实验各组的进组人数和实验用户数这个指标的P值。当某天的P值显示异常时,说明当天实验流量显著不均;
•右上角可切换不同的实验用户数曝光表来源;
•右上角可点击全屏放大查看进组趋势图;
•表格里的“进组人数”目前是累计计算口径,若最后一个日期进组人数为0,则此处累计的进组人数也会为0
④ 基础分析
1)多组对比&详细对比
1-1)多组对比
适合多个实验组同一个对照组进行多组比较,方面查看各实验组表现情况。
•多组对比模式下,第一列展示指标名,第二列基准列展示基准版本(一般是第一个对照组)的指标值,后续列展示剩余对比版本的指标值(灰色字体)、相对差异(红绿色字体)、显著性(色块加箭头);
•图中用色块区分显著性,如图绿色色块表示正向显著,红色色块表示负向显著,无色色块绿色字表示指标值有提升但不显著,无色色块红色字表示指标值有下降但不显著;
•相对差异计算公式 = ( 对比组指标值 − 基准组指标值 ) / 基准组指标值
1-2)详细对比
适合一个实验组同一个对照组进行两两比较,方便进行两组详细分析对比。
详细对比模式下,基准组默认为第一个对照组,对比组默认为第一个实验组,可下拉切换其他组。基准和对比列显示该组指标值。
同多组对比一样,绿色色块表示正向显著,红色色块表示负向显著,无色色块绿色字表示指标值有提升但不显著,无色色块红色字表示指标值有下降但不显著。
相对差异下括号中的数字代表置信区间,如下图中的+1.0303%(±0.8508%)表示相对差异在设定置信度(默认为0.05)的条件下的置信区间为[0.1795%,1.8811%] 。
简单解读置信区间:假设策略上线,有95%的把握会看到目标用户的真实指标提升在[0.1795%,1.8811%]这个范围内。置信区间不包含0和统计显著是等价的。
2)相对差异与趋势(天)
在基础分析列表可以看到相对差趋势图的缩略柱状图,点击缩略图可查看详细的指标卡片如下图:
实验平台提供累计口径与非累计口径的统计数据,对应的统计口径如下:
非累计数据指标值 = 指标值按天累加 / 用户按天去重,可简单理解为每日的人均时长。
累计数据指标值 = 指标值多天累加 / 用户多天去重
一般情况下推荐使用累计口径,因为累计口径可以避免样本量不均衡,从而便于归因。
3)P值
当P值小于显著性水平(默认为0.05)时,认为实验组和对照组的该指标在统计上显著不同。在这种情况下,对应的指标值会在相对差异一格显示色块,绿色色块表示正向显著,红色色块表示负向显著
除了看P值大小,还可以点击P值左侧的黄色趋势线观察P值变化趋势。预期是观测的P值趋于稳定(下左图),不存在剧烈波动:
P值稳定小于置信度
P值存在波动
比较相对差异和预先设定变化阈值:
•需要结合业务上的众多因素来考量实验策略带来的收益是否值得推广。P值只说明实验组与对照组显著不同,并不能说明究竟提升了多少。在很多情况下存在P值很小,但是相对差异也很小,需要特别注意。
•只靠P值不足以得到量化的结论,通过相对差异一栏,可以看出指标的变化是否达到预期以及相对差异的置信区间。
4)最小检测变化(MDE)
最小检测变化是实验在当前条件下能有效检测的指标diff幅度。有效检测,指检出概率大于等于统计功效(默认为80%)。只有在MDE小于等于实验设计初期设定的最小变化阈值后,实验样本量才是足够的,这时进行假设检验得出的显著性结果是最可靠的,建议以此时的显著性结果为依据进行实验效果决策。
建议在业务关心的所有指标MDE右侧出现蓝底勾号时再进行分析。此时MDE小于等于实验设计初期设定的最小变化阈值或小于等于1%。
5)非累积平均(天):基准 | 对比
此处显示非累计平均天口径下的基准组平均指标值、对比组平均指标值、平均相对差异:
对应的统计口径如下:
•count和sum类:每天的非累计数据的平均
•mean、ratio、proportion类:N天的非累计数据的分子总和,除以N天的非累计数据的分母总和
⑤ 其它设置
1)假设检验参数
•显著性水平(α):显著性水平是用来判断实验是否显著的依据,若P值<显著性水平,则认为统计显著。显著性水平默认为5%。
•统计功效(1-β):统计功效是在实验策略有效的情况下,检验出来有区别的概率。统计功效默认为80%。
•多对比修正:当一次实验中要进行多次(n≥2)假设检验时,就需要做多重假设检验校正,进行修正的目的是为了降低第一类错误的概率。
•求和类指标检验:默认不使用。若启用,会将指标退化为均值类指标进行假设检验。
2)下载数据
点击后可选按照累计口径或者非累计口径分别下载数据。
3)添加指标
若需要在实验开始后补充指标,可点击“添加指标”按钮添加。添加指标后,默认在第二天产出这些新增指标的数据结果。