
阅读笔记《AB实验:科学归因与增长的利器》
文章平均质量分 89
《AB实验:科学归因与增长的利器》阅读笔记
羚风雯
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【番外篇19】样本量的计算(以比率类指标为例)
:若对照组点击率 p1=5%,实验组 p2=6%(差异1%),要求α=0.05、功效80%,则。:若需估计某按钮点击率(预设 pˉ=10%),要求95%置信度下误差 ≤0.5%,则至少需 。:用13,830个用户估计整体点击率时,有95%的置信度保证误差在±0.5%范围内。(如实验组vs对照组)达到统计显著所需的最小样本量。(总计11,570)。(如点击率、转化率)原创 2025-08-05 13:49:49 · 472 阅读 · 0 评论 -
【番外篇18】EgoCluster实验
传统AB实验EgoCluster实验用户随机分组 → 被好友污染好友绑定分组 → 污染被锁定在集群内无法分离“自身效果”和“网络效果”用对照组Ego作为“净化器”剥离干扰结果可能虚高/虚低暴露真实个体效应 + 量化网络效应简言之:通过故意在对照组中“残害”你好友的功能,反衬出网络干扰有多大! 这种设计牺牲了部分用户体验(对照组好友被限制),但换来了无偏估计。原创 2025-08-05 11:17:38 · 362 阅读 · 0 评论 -
【番外篇17】统计功效(Power)
统计功效(Power)是假设检验中正确拒绝原假设的能力,反映了检测真实效应的概率。本文通过案例分析了功效计算过程:在两组各10000样本、方差16的条件下,当真实差异为0.05时,功效仅为14.69%。低功效源于小效应量、高方差和相对不足的样本量。提高功效需增加样本量、优化策略或降低方差。通用公式表明功效由效应量、样本量和方差共同决定。案例表明当前设计难以检测小效应,建议通过扩大样本或改进实验来提高检测灵敏度。原创 2025-08-01 11:02:50 · 980 阅读 · 0 评论 -
【番外篇16】假设检验
假设检验是一种统计推断方法,用于判断观测差异是否真实存在。其核心思想类似法庭审判:原假设(H₀)默认"无差异"(如新策略无效),备择假设(H₁)为存在差异。通过计算Z值(观测差异与噪声的比值)和P值(H₀成立时出现极端数据的概率)来判断:若P<0.05则拒绝H₀,认为差异显著。但需注意统计显著≠实际重要,且样本量会影响结果。例如新广告点击率5.3%在10万用户中显著,但在1000用户中可能不显著。假设检验本质是通过量化证据强度来判断差异真实性。原创 2025-07-31 15:56:21 · 1120 阅读 · 0 评论 -
【番外篇15】中心极限定理:从数学原理到生活案例
中心极限定理(Central Limit Theorem, CLT)是概率论与统计学中最重要的定理之一,它揭示了为什么正态分布在自然界和统计学中如此普遍。定理表述:设是一组独立同分布的随机变量序列,它们具有相同的期望值μ和有限的方差σ²。令样本均值:则随着样本量n趋向于无穷大,样本均值的标准化形式(啥意思?后面有解释)依分布收敛于标准正态分布N(0,1),即:关键要点无论原始分布如何(可以是均匀分布、指数分布、二项分布等),样本均值的分布都会趋近正态分布。原创 2025-07-31 11:55:58 · 901 阅读 · 0 评论 -
【番外篇14】Rubin因果模型
Rubin因果模型(RCM)是因果推断的核心框架,通过潜在结果(Y_i(1)和Y_i(0))定义因果效应,即个体处理效应(ITE_i=Y_i(1)-Y_i(0))。由于反事实结果不可观测,RCM聚焦平均处理效应(ATE/ATT),依赖三个关键假设:1)SUTVA(无干扰与处理唯一性);2)可忽略性(协变量控制后处理分配与潜在结果独立);3)正值性(所有协变量组合均有处理/对照可能)。在观察性研究中,需通过匹配、逆概率加权(IPW)或回归调整等方法模拟随机化实验。原创 2025-07-28 14:48:07 · 1129 阅读 · 0 评论 -
【番外篇13】逆概率加权(IPW)
IPW的核心是通过倾向得分加权,平衡处理组和对照组的协变量分布,从而消除混杂偏差。估计倾向得分(通常用逻辑回归)。计算每个个体的逆概率权重。计算加权平均结果并比较。在高血压政策的例子中,IPW估计政策平均降低医疗支出约0.76万元,比直接比较更可靠。原创 2025-07-28 13:20:03 · 1039 阅读 · 0 评论 -
【番外篇12】特威曼定理(Twyman‘s Law)
摘要:"特威曼定理"是数据可视化与统计分析领域的重要经验法则,指出图表或数据中异常有趣的特征往往源于错误(如录入错误、单位混淆、坐标设置不当等),而非真实发现。该法则由统计学家安东尼·特威曼提出,强调优先排除技术性错误,再探究实质性原因,以此提高分析严谨性、防止误导性结论。其核心价值在于培养数据工作者的怀疑精神与验证习惯,适用于图表异常点、统计离群值等场景,是确保数据可靠性的基础原则。原创 2025-07-20 22:28:01 · 266 阅读 · 0 评论 -
【番外篇11】辛普森悖论(Simpson‘s paradox)
的例子,某资讯内容产品在列表包括AB两类内容,某实验做了A类内容的提权,也就是提升了A类内容的曝光占比,实验关心的核心指标是。就像比较两种药物的疗效时,必须考虑试验阶段的重症/轻症患者比例变化,否则会得出"救人更多的药反而总死亡率更高"的荒谬结论。就像调整菜市场摊位不能只看总销售额,还要考虑顾客复购率、摊位多样性、菜品质量等。,需要警惕"提升一个指标,毁掉整个生态"的陷阱。为什么会出现A、B的点击率都下降的现象。:曝光量从900→2700(3倍!:曝光量从2600→800(被挤压)原创 2025-07-19 23:44:06 · 662 阅读 · 0 评论 -
【番外篇10】参数检验?非参数检验?
参数检验是“精准狙击枪”(需瞄准),非参数检验是“霰弹枪”(啥都能打,但威力稍弱)。根据数据特性选对工具即可!原创 2025-07-16 22:30:41 · 971 阅读 · 0 评论 -
【番外篇09】统计功效是什么?
监考松散(功效低),作弊者可能蒙混过关。假设你是一个侦探(统计检验),任务是判断某人有罪(效应存在)还是无罪(无效应)。如果功效低,即使罪犯在眼前,你也可能漏掉(漏检真实效应);:你有多严格才能认定TA有罪(比如α=0.05是“95%确定才定罪”)。:功效低可能导致研究失败(即使真理存在也没发现)。:通常希望功效 ≥80%(即80%概率抓准真相)。:调查的人越多(样本量越大),越容易找到线索。:犯罪痕迹越明显(效应越大),越容易发现。(β是“放过坏人”的概率,即第二类错误)。(检测出效应)的概率。原创 2025-07-16 22:22:34 · 218 阅读 · 0 评论 -
【番外篇08】产品指标体系 VS. AB实验指标体系
产品指标体系与AB实验体系是数据驱动的两大工具,前者监控产品全局健康(如DAU、留存率),后者验证局部假设(如按钮改版效果)。区别在于:产品指标侧重长期趋势,覆盖全生命周期;AB实验聚焦短期因果,强调随机对照。二者存在递进关系——产品指标发现问题,AB实验验证方案,实验结果反哺产品优化。设计时需注意:产品指标需OSM模型+平衡指标,AB实验需三级指标(核心/护栏/探索性)+统计验证。典型误区包括混用指标、忽视长期影响等。二者如同体检报告与靶向治疗,共同构成「监控-假设-验证」闭环。原创 2025-07-14 08:00:00 · 368 阅读 · 0 评论 -
【番外篇07】Delta、Jackknife、Bootstrap
摘要:通过4名学生身高数据(160,170,175,185cm,均值172.5cm)对比三种统计方法:1)Delta法用公式计算均值方差为27.08;2)Jackknife法通过剔除单点计算伪值方差得20.31,适用于无公式统计量;3)Bootstrap法通过5次有放回抽样(演示用)得近似结果。结论:Delta最快但需公式,Jackknife通用性强,Bootstrap最稳健但需大量计算(通常1000+次抽样)。伪值反映数据点对统计量的贡献,类比员工绩效评估。原创 2025-07-05 23:23:36 · 762 阅读 · 0 评论 -
【番外篇06】t检验、z检验、χ²检验中的P值
P值是假设检验的核心概念,表示在原假设H₀成立时,出现当前或更极端数据的概率。通过Z检验(已知总体标准差)、t检验(小样本)和χ²检验(分类变量)三个实例展示:Z检验中P=0.0228表明新工艺可能有效;t检验中P=0.074无法确认减肥药效果;χ²检验中P=0.0027证实广告点击率差异显著。P值不是H₀为真的概率,而是衡量数据与H₀矛盾的证据强度(P<0.05通常拒绝H₀),需结合效应量和置信区间综合判断。本质上,P值量化了观察结果在H₀下的偶然性概率。原创 2025-07-01 15:22:57 · 1078 阅读 · 0 评论 -
【番外篇05】Z检验 (Z-Test)
样本均值总体均值显著差异 它通过计算一个Z统计量,并将其与标准正态分布的临界值(Z值)进行比较,来判断差异是否具有统计学意义。原创 2025-06-30 11:40:59 · 1277 阅读 · 0 评论 -
【番外篇04】P值在双侧检验中的计算方法
在H0成立时,当前数据(或更极端)出现的概率。双侧P值 = 单侧概率 × 2,因为要覆盖正负两个方向的极端情况。P值 ≤ α → 拒绝H0(有显著差异)P值 > α → 无法拒绝H0。抛硬币10次,假设公平(H0),出现8次正面。单侧P值(H1: 偏向正面)= P(≥8正) ≈ 5.5%。双侧P值 = P(≥8正 或 ≤2正) ≈ 5.5% × 2 = 11%。若α=5%,双侧P值(11%)> α → 无法拒绝H0(不能认定硬币不公平)。原创 2025-06-11 11:32:58 · 919 阅读 · 0 评论 -
【番外篇03】假设检验:为什么H0通常设为‘新系统不准’/‘无差异’/‘无效’?
如果我们设 H0: “新系统准”,那么即使数据支持新系统准,我们也只是“未能拒绝H0”,永远无法强有力地、正面地证实“新系统准”。如果约会一次感觉平平(达不到“非常惊艳”),无法拒绝H0(“对方适合”),结论变成“未能证明对方不适合结婚”,但这不意味着你觉得对方就适合结婚了!相反,如果我们设 H0: “新系统不准”,当数据足够强(P < α),我们就能坚定地拒绝H0,从而接受H1: “新系统准”。: 有效避免了因“未能拒绝”一个“新系统准”的H0而可能产生的错误印象(似乎新系统被“证明”准了,其实没有)。原创 2025-06-11 10:36:04 · 707 阅读 · 0 评论 -
【番外篇02】置信水平、置信区间
的概率值,通常表示为百分比(如90%、95%、99%)。它表示在重复抽样的情况下,(Confidence Interval, CI)是基于样本数据计算出的一个。✅ 正确理解:“用此方法构建的区间,95%会覆盖真实均值。(Confidence Level)是统计学中用于描述。❌ 错误理解:“总体均值有95%概率在区间内。原创 2025-06-10 22:24:48 · 634 阅读 · 0 评论 -
【番外篇01】卡方检验(χ²检验)
卡方分布(Chi-square distribution)是概率论和统计学中的一种连续概率分布,记作χ2k\chi^2(k)χ2k,其中kkk是自由度。卡方分布本质上是"标准正态变量平方和"的分布。它在统计检验中极其重要,特别是用于检验数据的拟合程度和变量间的独立性。记住:平方让一切变正,求和让分布右偏,自由度决定分布形状!原创 2025-06-10 20:56:51 · 1046 阅读 · 0 评论 -
第21章 常用的用户调查分析方法
人们会无意识地保持回答的前后一致:若先声明“关注环保”,后续不愿为环保付费会显得虚伪 → 被迫选择“愿意”。某工具类APP实验“智能排版”功能,日志显示使用率仅5%,但问卷中实验组满意度显著更高。评测员将“嘻嘻”统一标注为“表情包需求”,但实际用户可能是搜索“嘻嘻村”(地名)。:日志发现“支付失败率上升” → 结合客服工单数据发现“某银行接口故障”。:隐藏运费至支付前最后一步,并增加“全网比价”功能,支付转化率提升22%。某游戏问卷显示90%玩家“每日在线>2小时”,但日志数据实际仅30%。原创 2025-07-24 15:06:18 · 1093 阅读 · 0 评论 -
第20章 AB实验之外的因果分析方法
核心目标:在X存在内生性 () 时,估计X对Y的因果效应α。工具要求:找到一个变量Z,它必须相关于X),且必须外生于模型 (),即Z只能通过X影响Y。实施方法 (2SLS):用Z回归X,分离出X的外生部分X'。用X'代替X回归Y,得到一致的因果效应估计α。本质:利用工具变量Z提供的“准随机”变动(因为Z与ε无关),将其对X的影响 (X') 作为“代理”去估计X对Y的因果效应,从而绕过了内生性的干扰。理解关键在于把握工具变量必须同时满足的两个硬性条件(相关性和外生性)原创 2025-07-23 15:40:03 · 750 阅读 · 0 评论 -
第19章 AB实验的局限性
第六部分重点讨论AB实验的适用场景和局限性,以及用户理解的补充手段,包括观察性因果分析方法和常见的用户研究手段。虽然AB实验很强大,但也不是万能的。AB实验、观察性因果分析、用户调查是3种典型的用户研究分析方法。在选择分析方法时,有一个简单的判断原则,对于需要进行因果判断,特别是需要量化的场景,能进行AB实验的尽量通过AB实验来判断产品是否符合预期;对于不适合AB实验的场景,可以采用其他的观察性因果分析方法;用户调查方法可以辅助判断行为和指标之间的移动是否符合逻辑;原创 2025-07-21 17:22:17 · 883 阅读 · 0 评论 -
第18章 基于AB实验的增长实践解决方案
指标本身是长期累积型(如留存率、GMV),而非瞬时指标(如点击率)。”4个核心问题,运用多种统计方法和评估策略(OEC、维度拆解、保护指标、长期坚持组),进行严谨、全面、面向业务价值的实验效果评估。图18-3 应展示了减少AA波动的具体方法(核心是优化实验设计和数据质量,如确保用户随机分流均匀、排除异常值、增加样本量等)。解决前17章(技术、原理)之外的组织、流程、实践难题,提供通用性方案。多角色(产品、研发、数据、分析、运营等)在实验流程中如何高效协作?,观察效果是否衰减、逆转或持续?原创 2025-07-21 17:01:04 · 816 阅读 · 0 评论 -
第17章 基于AB实验的增长实践——沉淀想法:实验记忆
实验沉淀不仅是经验存档,更是未来决策的参考依据,需覆盖实验全流程信息(设计、数据、结论等),并通过组织化的管理实现价值最大化。:包括实验基础信息(时间、发起人)、设计方案(假设、流量分配)、数据结果(指标、对照组)、分析结论(成功/失败原因、后续优化方向)。广告实验中发现的用户对广告形式(动态视频)、行业类型(金融/游戏)的敏感度差异。量化实验文化:统计实验成功率(如谷歌仅10%-20%)、实验上线比例、故障与未实验改动的关联性。:建立实验墙、看板、素材库,便于团队查阅历史案例。(如UI设计、广告策略)。原创 2025-07-21 11:58:29 · 370 阅读 · 0 评论 -
第16章 基于AB实验的增长实践——验证想法:AB实验实践
AB实验分为五大环节:假设→设计→运行→分析→决策。实验假设需明确目标性(如"提升次日留存5%")、可归因(单一变量)和可复用性;设计环节需关注样本选择(静态/动态抽样)、指标分层(结果/过程/保护指标)和流量计算(最小样本量);运行阶段要进行功能验证与数据监控;分析时需明确影响范围、确保组间可比性;最终决策需综合核心指标、成本收益和负面影响。关键要避免幸存者偏差、辛普森悖论,平衡统计显著性与业务价值。原创 2025-07-19 00:11:28 · 1090 阅读 · 0 评论 -
第15章 基于AB实验的增长实践——构建想法:形成产品假设
。原创 2025-07-18 10:48:23 · 969 阅读 · 0 评论 -
第14章 AB实验组织和文化建设
当企业步入实验成熟阶段,建立成为必然。这不仅需要全员掌握,更需将数据驱动的决策思维深植组织DNA,形成“”的良性闭环。原创 2025-07-14 12:51:07 · 745 阅读 · 0 评论 -
第13章 AB实验平台的建设
AB实验平台的交互过程:实验平台三阶段闭环:核心功能集:平台性能评估标准:●稳:架构稳定、服务稳定、实验质量稳定。●准:分流、指标、数据、分析准确。●易:便于进行各种实验管理、工具交互,实验容易创建、观测、评估和得出结论。●快:实验接入快,实验数据计算快,实验结果评估快。●多:能快速支持多种场景、多种类型的多个实验。附加要素:需支持实验沉淀(历史策略可回溯)、灰度放量(5%→100%渐进发布)、敏感数据脱敏(如GDPR合规审计)。AB实验流程:从实验创建开始,经过流量分配确保用户原创 2025-07-16 18:35:36 · 1098 阅读 · 0 评论 -
第12章 开展AB实验的基础条件
无法提供可信、量化的评估结果。即使是简单的界面设计决策(如颜色、字体)也难以达成共识。三方面的协同推进,缺一不可。企业应根据自身发展阶段和资源状况,选择适合的实施路径。:实验周期从2周缩短至3天,日均实验数从5个提升至50+。核心业务(如搜索、推荐、营销)必须通过AB实验验证后再全量。“无显著效果”或“负向效果”不再被视为团队失误,决策层必须愿意投入资源建设这些基础设施。AB实验在企业中的成功实施首先取决于。避免将"完成计划百分比"等。:AB实验需要可靠的。AB实验的成功实施需要。原创 2025-07-14 10:15:11 · 812 阅读 · 0 评论 -
第11章 AB实验评估指标体系
典型案例:电商转化率指标误用实验A:优化商品详情页加载速度(影响分母)实验B:改进加购按钮设计(影响分子)错误结论:实验组加购转化率↑15%,直接全量上线实际原因:详情页UV下降20%(页面加载失败导致),真实加购量其实下降8%正确做法:拆解监控# 正确指标设计def 评估实验():加购量 = 获取加购行为数()详情页UV = 获取曝光UV()if 实验组 == 'A组': # 页面加载实验核心指标 = 详情页UVelse: # 按钮设计实验核心指标 = 加购量。原创 2025-07-13 22:18:29 · 910 阅读 · 0 评论 -
第10章 产品指标体系
摘要:本文系统阐述了产品指标体系的构建方法与演进逻辑。首先解析了指标体系的核心构成(指标、维度、业务逻辑)与类型划分(过程型/结果型指标)。重点介绍了OKR分级法(北极星指标、业务驱动指标、守护指标)和OSM模型(目标-策略-度量)两大设计方法论,并辅以滴滴、Facebook等案例说明指标体系的动态调整过程。同时强调了指标评估的三大原则:信息增益、因果关系验证和长期有效性监控。最后指出指标体系需要随着业务阶段、环境变化和认知升级持续进化,才能成为驱动业务增长的"动态数据罗盘"。原创 2025-07-11 11:38:04 · 809 阅读 · 0 评论 -
第09章 AB实验的长期影响
本文系统探讨了AB实验中短期效果与长期影响不一致的现象及评估方法。重点介绍了六类评估方法:1)长周期实验直接观察时间效应;2)保留/反转实验通过控制组对比;3)后期分析法观测策略撤除后的持续影响;4)时间交错实验分离适应效应与真实效果;5)固定群组分析解决样本偏差问题;6)代理指标法建立短期长期关联模型。文章强调需根据业务特性选择方法组合,既要避免"指标游戏",又要平衡决策效率与评估精度。最后提出"因果链验证+历史模式沉淀"的评估框架,为数据驱动决策提供系统性方法论。原创 2025-07-08 23:06:56 · 581 阅读 · 0 评论 -
第08章 AB实验的灵敏度
摘要:本文探讨AB实验灵敏度提升的核心技术,揭示大厂如何检测微小业务增长。通过指标优化(数据转换、用户过滤)、实验对象聚焦(触发分析)和分组优化(CUPED、分层抽样)三大维度降低方差,提升系统检测能力。验证显示,优化后一类错误率降至3.8%,0.5%增益的召回率提升67%,实验周期缩短50%。文章特别强调触发分析的潜在陷阱,并指出在业务"微雕"阶段,灵敏度直接决定产品迭代速度。最后提出实验收益公式,说明方差缩减技术可帮助企业在更少用户、更短周期内验证微增益策略。原创 2025-07-07 23:11:16 · 835 阅读 · 0 评论 -
第07章 AA 实验
AA实验是验证AB实验系统可靠性的关键工具,通过实验组与对照组采用完全相同策略,检测系统是否存在偏差。其核心价值包括:1)控制假阳性,验证P值分布合理性;2)确保用户分组同质性;3)对齐实验与业务监控数据;4)估计指标自然波动,为AB实验设计提供基线。执行方法分系统级(模拟千次AA实验)和实验级(前置校准),推荐结合日志回溯法(快速验证)与流量寻优法(实时检测)。常见失败根源包括分流不均、方差计算错误、样本不足及数据污染。AA实验是数据驱动决策的“守门人”,忽视它可能导致不不可靠的实验结论。原创 2025-07-06 16:37:21 · 1296 阅读 · 0 评论 -
第04章 AB实验参与单元
能隔离则隔离 → 地理/网络隔离最干净(如测试城市打车政策)不能隔离则监控 → 资源类干扰用隔离+报警(如预算分割)互动必测量平台分角色 → 生产/消费端必须双边测试(如抖音/B站)原创 2025-08-05 12:09:58 · 610 阅读 · 0 评论 -
第03章 AB实验的统计学知识
AB实验的统计学原理是科学决策的基石。精度与成本平衡:样本容量、边际误差需业务权衡。假设检验严谨性:P 值、功效缺一不可,避免早期偷窥。实战贴士:清洗异常值、控制多重测试、优先非参数方法。——刘玉凤《AB实验:科学归因于增长的利器》原创 2025-08-01 11:57:15 · 728 阅读 · 0 评论 -
第02章 AB实验的关键问题
AB实验的理论陷阱与实践挑战本文揭示了AB实验从理论到实践中的系统性风险。通过电商、社交App等案例,剖析了四大关键问题:伪随机分组、SUTVA假设违反、样本不足等实验参与对象陷阱;颗粒度错配、流量复用失控等随机分流错误;指标体系缺失和OEC失效等指标设计雷区;以及统计误读、分析流程漏洞等评估问题。文章指出,虽然AB实验原理简单,但落地时存在诸多隐蔽风险,需要建立标准化的全流程防控机制。最后提出"反脆弱"设计原则,强调实验失败率超过15%往往反映系统性偏差,需要从统计方法、组织协作到数据基建进行全面优化。原创 2025-07-29 22:42:09 · 1033 阅读 · 0 评论 -
第01章 AB实验的基本原理和应用
AB实验是数据驱动产品迭代的核心工具,通过随机分流用户、并行对比策略效果实现科学决策。文章系统阐述了AB实验的定义、类型和3个核心要素(实验单元、控制参数、指标),并重点分析了其两大价值:建立因果推论(破解相关≠因果)和量化增长收益(微小改进带来复利效应)。文章还介绍了AB实验的先验性(小流量验证)和并行性(多实验层同时运行)特点,列举了Google、亚马逊等企业的经典应用案例,指出AB实验已成为将经验猜测转化为数据实证的关键工具。原创 2025-07-27 22:41:53 · 815 阅读 · 0 评论