AB常问

> **AB实验会遇到的问题**: 1、如何确保1%的流量与99%的流量用户群特征分布是一致的? 2、如果在实验的过程中有新的方案想法C,能否直接发布到线上同时实验? 3、如何同时并行所需总流量超过100%的多组实验? 4、如何选取指标衡量AB方案,如果多个指标数据表现不一,怎么决策? 5、如何确定方案B与A的指标数值不同是随机误差造成还是统计可信的? 6、............. --- **Q:样本量大小如何?** **A**:这个问题分理论换个现实两块来讲。 理论上,我们想要样本量越多的越好,因为这样可以避免第二类错误。随着样本量增加,power=1-β也在增大,一般到80%,这里我们可以算出一个最小样本量,但理论上样本量还是越大越好。 实际上,样本量越少越好,这是因为 1.流量有限:小公司就这么点流量,还要精打细算做各种测试,开发各种产品。在保证样本分组不重叠的基础上,产品开发速度会大大降低。 2.试错成本大:如果拿50%的用户做实验,一周以后发现总收入下降了20%,这样一周时间的实验给公司造成了10%的损失,这样损失未免有点大。 --- **Q:两类错误是什么?** A:第一类错误就是在原假设成立的情况下错误地拒绝了原假设,即错杀了好人(新版本没有提高却发布了)。 犯第一类的假设检验称之为显著性检验,通过P值来判断:P值为z值的概率值(查表),p值越小说明反对原假设的证据越多。当P值<=显著性水平α, 则拒绝H0。 第二类错误就是没有成功拒绝不成立的原假设,即没有杀掉坏人。 --- **Q:那怎么避免这两类错误的发生呢?** A:第一类错误:在假设检验中,会**预先设置第一类错误的上限α**,也就是定义的显著水平,1-α被称之为置信区间。通常我们设置为5%,严格一点的也会设置为2%。 第二类错误:在显著水平固定的情况下,需要减少第二类错误β发生的概率。1-β即为规避第二类错误的概率,用power表示,也称之为检验效能。power的大小可以**通过增加样本量**来提高,通常需要power提升至80%或者更高。 对两类错误上限的选取(α是5%,β是20%)中我们可以了解到A/B实验的重要理念:宁肯砍掉多个好的产品,也不应该让1个不好的产品上线。 --- **Q:如果一个人有多个账号,分别做不同用途,abtest的时候怎么分组才最合理呢?** 这题并没有答案,但是我的朋友们集思广益想了很多方向来解答,我也给大家分享下。 **A1**:如果他有符合标准的行为,那么他现实中是不是一个人不重要。只需要按照我们统计口径中到底是uid还是什么的,当做正常用户做ab就OK了。如果考虑薅羊毛等场景,这部分用户就不应该算作正常或规则内用户,他们的行为等也可能就不具参考意义或者会有影响,所以开始前这波人就被排除了? **A2**:我们对这类人的分类是,看的不是他是谁,而是他做了什么。按照我们对行业的分类,行为不同的话就是两类人,和身份证是不是同一个无关。我们要聚合的是有相同行为特征的账户,而不是人。 **A3**:我的想法是这类人的人号不分开,因为这类人不管怎么伪装本质还是一个人,我想测的是这个个体的体验数据和业务数据,但是要确保独占域和共享域都有同比例的人群,同时确保共享域各层的随机性。 --- **影响AB测试结果准确性的因素:** a.样本数量:流量样本的数量不能过少 b.样本质量:分流出的样本是否有效 c.测试的时间长短 d.多个实验并行的相互影响 ----- **Q:[如何避免多重检验错误?](https://www.jianshu.com/p/2d30efc37b8b)** 1、尽量减少检验次数,降低犯错概率 2、多次检验校正 3、实验后分析 --- **Q:测试时长?** 1. 生命周期 参考用户行为的生命周期,参考广告素材的生命周期等,一般不低于1周。 2. 样本量数据观察 在测试周期中观察样本量数据,如果达到设定的样本量亦可以进行数据分析 3. 有效天数数据观察(最小样本量→最大要求天数) 试验的有效天数即为试验进行多少天能达到流量的最小样本量。 当流量达到最小样本量时,查看数据是否存在显著性差异,如果不存在显著性差异则继续进行试验,直到达到最大要求天数,如果试验仍然没有达到显著性,则确定两组试验不显著,即没有明显差异。 --- **转载**:[数据分析系列:如何做一次ABtest?](https://zhuanlan.zhihu.com/p/165406531)