自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 第2章 AB实验的关键问题

某头部电商通过标准化以下流程,将实验失败率从35%降至12%:1️⃣ ​分流阶段​:强制SRM检测 + 用户属性平衡算法2️⃣ ​执行阶段​:自动AA测试看板 + 偷窥防护锁3️⃣ ​决策阶段​:OEC决策矩阵 + 长期效果追踪器​关键认知​:当实验全量后效果消失的概率超过15%(而非理论上的5%),往往意味着系统性偏差已渗透实验全链路。这不仅是统计问题,更是组织协作与数据基建的试金石。​延伸思考​:你们团队是否遇到过“实验成功但业务受损”的案例?

2025-07-29 22:42:09 631

原创 SQL158 每类视频近一个月的转发量/率

这个查询适用于视频平台分析不同内容标签的传播效果,帮助运营团队了解哪些类型的内容更容易被用户转发,从而优化内容策略。这个SQL查询的目的是分析最近30天内不同标签(tag)下视频的转发情况,主要关注转发率和转发次数。

2025-07-29 21:43:09 93

原创 SQL159 每个创作者每月的涨粉率及截止当前的总粉丝量

摘要:本文对比了两个SQL查询版本,用于计算创作者每月粉丝增长率和累计粉丝数。版本1采用分步CTE方法,通过多个临时表计算播放量、新增/流失粉丝数,最终JOIN结果;版本2则更简洁高效,直接使用窗口函数在单次查询中完成计算。两者的主要差异在于:1)版本2利用SUM窗口函数直接累计算累计粉丝;2)粉丝增长率计算逻辑不同(总记录数vs播放量);3)版本2避免了临时表连接的开销。分析指出版本1的复杂性源于分步思维和过度设计,而版本2通过合理使用窗口函数实现了更优的性能和可读性。

2025-07-29 21:29:59 322

原创 Power Query M函数

本文系统介绍了PowerQuery中M函数的使用方法。M函数作为PowerQuery专用的数据处理编程语言,能实现80%的数据处理功能。主要内容包括:M函数的编辑入口、高级编辑器核心功能、身份证信息提取实战案例(性别判断、生日提取)、函数查询方法(#shared命令)、分类体系(List/Table/Text等)及数据类型转换。重点讲解了文本处理函数Text.Range的应用和let-in结构编写批处理程序的方法。

2025-07-29 16:53:23 851

原创 Power Query基本功能

功能定位:位于转换选项卡任意列功能组中的填充下拉菜单核心用途:处理字段缺失值的有效方法,特别适用于连续空值的情况应用场景:当字段出现空值(null)时,为避免后续处理出现问题,通常需要进行填充处理功能定位:用于编写M函数实现特殊计算需求的功能模块与转换功能的区别:转换功能:在当前字段直接修改新建字段后再处理典型应用场景:单位转换(如将百万单位转换为个位单位)操作步骤:在"添加列"选项卡选择"自定义列"命名新列(如"金额")

2025-07-29 12:59:58 811

原创 Power Query合并数据

结果验证:新表包含主表原有字段和从副表合并来的客户名称、城市、企业规模等补充信息。内部连接只保留8行两表都匹配的记录(原主表26行,副表24行)这里和MySQL的join查询一样,不再赘述。点击"关闭并上载"生成最终合并表。这里显示是Table类型。跟数据库数据结构一样。

2025-07-28 18:02:50 312

原创 Power Query概述及导入多源数据方法

PowerQuery是Excel中强大的数据处理工具,支持从多种数据源获取并转换数据。核心功能包括:多源数据整合、突破Excel行数限制、丰富的数据处理选项、M函数自定义规则以及可复用流程。在Excel2016及更高版本中可直接使用,2010/2013需安装插件。提供两种数据导入方式:仅创建连接(节省资源)和表导入(同步显示)。操作界面包含四大功能选项卡,支持从文本/CSV/数据库等多种文件格式导入数据,并能在处理后灵活调整加载方式。该工具特别适合处理大批量数据和重复性报表工作。

2025-07-28 16:44:02 856

原创 【番外篇14】Rubin因果模型

Rubin因果模型(RCM)是因果推断的核心框架,通过潜在结果(Y_i(1)和Y_i(0))定义因果效应,即个体处理效应(ITE_i=Y_i(1)-Y_i(0))。由于反事实结果不可观测,RCM聚焦平均处理效应(ATE/ATT),依赖三个关键假设:1)SUTVA(无干扰与处理唯一性);2)可忽略性(协变量控制后处理分配与潜在结果独立);3)正值性(所有协变量组合均有处理/对照可能)。在观察性研究中,需通过匹配、逆概率加权(IPW)或回归调整等方法模拟随机化实验。

2025-07-28 14:48:07 1003

原创 ​​【番外篇13】逆概率加权(IPW)

IPW的核心是通过倾向得分加权,平衡处理组和对照组的协变量分布,从而消除混杂偏差。估计倾向得分(通常用逻辑回归)。计算每个个体的逆概率权重。计算加权平均结果并比较。在高血压政策的例子中,IPW估计政策平均降低医疗支出约0.76万元,比直接比较更可靠。

2025-07-28 13:20:03 809

原创 SQL166 每天的日活数及新用户占比

由于一个用户在同一天可能有多次活跃记录,我们需要对数据进行去重处理。​:计算每个用户的首次活跃日期。​:关联活跃记录与首次活跃日期。​:合并所有活跃记录。

2025-07-28 09:40:56 253

原创 SQL165 统计活跃间隔对用户分级结果

摘要:该SQL查询通过用户活跃时间间隔对用户进行分类并计算占比。首先获取用户活跃日期并确定7天、30天边界日期,然后标记各日期段为A(近7天)、B(7-30天)、C(30天前)。根据标记组合判断用户类型:仅A为新晋用户,仅C为流失用户,包含B为沉睡用户,其他组合为忠实用户。最后计算各类用户比例并按占比降序排序。关键点包括处理in/out_time、DATE_SUB计算边界日期以及基于标记组合的分类逻辑。

2025-07-28 09:13:10 327

原创 MySQL GROUP_CONCAT 函数详解

是 MySQL 中一个非常有用的聚合函数,它可以将多行数据合并为一个字符串,并用指定的分隔符连接起来。

2025-07-28 08:40:40 346

原创 第1章 AB实验的基本原理和应用

AB实验是数据驱动产品迭代的核心工具,通过随机分流用户、并行对比策略效果实现科学决策。文章系统阐述了AB实验的定义、类型和3个核心要素(实验单元、控制参数、指标),并重点分析了其两大价值:建立因果推论(破解相关≠因果)和量化增长收益(微小改进带来复利效应)。文章还介绍了AB实验的先验性(小流量验证)和并行性(多实验层同时运行)特点,列举了Google、亚马逊等企业的经典应用案例,指出AB实验已成为将经验猜测转化为数据实证的关键工具。

2025-07-27 22:41:53 637

原创 Min-Max标准化​ 和 ​Z-score标准化

先用IQR剔除异常值后再Min-Max标准化。​:对异常值较多的数据,可。

2025-07-27 21:05:53 243

原创 传统机器学习算法类别

机器学习算法可按多种方式分类:1)按学习方式分为监督学习(分类/回归算法)、无监督学习(聚类/降维)、半监督学习和强化学习;2)按功能分为分类、回归、聚类和异常检测算法;3)按结构分为线性/非线性模型、概率模型等;4)按训练策略分为批量学习、在线学习和迁移学习。不同算法适用于不同任务场景,如分类常用逻辑回归、随机森林,聚类多用K-Means,高维数据需先进行PCA降维。实际应用中需根据问题需求、数据特点和模型特性选择合适的算法。

2025-07-27 10:11:51 884

原创 计算结果怎么全为0?Excel 计算模式被设为“手动”

公式未自动更新,导致显示旧值(如 0)。(确保不是“手动”)。强制重新计算工作表。

2025-07-25 17:19:56 76

原创 Excel——重复值处理

如果按钮是灰色,检查数据是否为“Excel 表”(按。Power Query 会保留每组重复值中的。,后续重复行被删除。

2025-07-25 15:01:36 368

原创 SQL164 2021年11月每天新用户的次日留存率

​:考虑用户可能跨天活跃的情况(in_time和out_time不在同一天)最终输出2021年11月每天新用户的次日留存率,按日期排序。​:确定每个用户首次活跃的日期(即新用户)2021年11月每天新用户的次日留存率。

2025-07-25 11:37:52 1013

原创 ​Excel——SUMPRODUCT 函数

SUMPRODUCT是Excel中功能强大的函数,主要用于数组运算和多条件计算。其核心功能是将多个数组对应元素相乘后求和,支持多条件求和、加权计算、条件计数等复杂场景。该函数要求所有数组大小必须一致,非数值元素在不同写法下会被视为0或报错。文章详细介绍了6种经典用法:1)两列相乘求和;2)多条件求和;3)加权平均计算;4)多列混合运算;5)条件计数;6)OR逻辑处理。同时提供了常见错误解决方案和性能优化技巧,建议避免整列引用并使用辅助列预计算。该函数特别适用于加权平均、多条件求和等复杂数组运算场景。

2025-07-24 22:51:10 354

原创 Excel——INDEX和MATCH傻傻分不清?

摘要:MATCH和INDEX函数组合实现Excel数据查询。MATCH函数定位目标姓名在表格中的行号(如"陈佳丽"在第6行),INDEX函数根据行号提取对应信息。两种用法:1)INDEX(单列区域,行号);2)INDEX(整表区域,行号,列号)。该组合如同查字典:MATCH确定位置,INDEX获取具体内容,适用于部门、电话等多字段查询场景。

2025-07-24 17:50:50 329

原创 第21章 常用的用户调查分析方法

人们会无意识地保持回答的前后一致:若先声明“关注环保”,后续不愿为环保付费会显得虚伪 → 被迫选择“愿意”。某工具类APP实验“智能排版”功能,日志显示使用率仅5%,但问卷中实验组满意度显著更高。评测员将“嘻嘻”统一标注为“表情包需求”,但实际用户可能是搜索“嘻嘻村”(地名)。​:日志发现“支付失败率上升” → 结合客服工单数据发现“某银行接口故障”。​:隐藏运费至支付前最后一步,并增加“全网比价”功能,支付转化率提升22%。某游戏问卷显示90%玩家“每日在线>2小时”,但日志数据实际仅30%。

2025-07-24 15:06:18 1067

原创 SQL173 店铺901国庆期间的7日动销率和滞销率

​动销率​:一段时间内有销量的商品占当前已上架总商品数的比例​滞销率​:一段时间内没有销量的商品占当前已上架总商品数的比例。

2025-07-24 12:26:21 515

原创 第20章 AB实验之外的因果分析方法

​核心目标​:在X存在内生性 () 时,估计X对Y的因果效应α。​工具要求​:找到一个变量Z,它必须相关于X),且必须外生于模型 (),即Z只能通过X影响Y。​实施方法 (2SLS)​​:用Z回归X,分离出X的外生部分X'。用X'代替X回归Y,得到一致的因果效应估计α。​本质​:利用工具变量Z提供的“准随机”变动(因为Z与ε无关),将其对X的影响 (X') 作为“代理”去估计X对Y的因果效应,从而绕过了内生性的干扰。理解关键在于把握工具变量必须同时满足的两个硬性条件(相关性和外生性)

2025-07-23 15:40:03 742

原创 SQL171 零食类商品中复购率top3高的商品

(所有购买记录数),但实际应为 ​。包含边界值,90天区间应为。),会包含待付款/退款订单。

2025-07-23 11:52:10 271

原创 SQL179 各城市最大同时等车人数

摘要:文章分析了SQL179题目中计算各城市最大同时等车人数的解决方案。关键点包括:1) 准确定义乘客等待时间范围,考虑订单取消和完成的不同场景;2) 指出直接使用窗口函数可能导致同一时间点加减顺序错误的问题;3) 提出通过在ORDER BY子句中增加event_type DESC来确保正确计算实时人数;4) 提供完整SQL实现方案,包括基础数据处理、事件时间合并和最终峰值计算。该方法通过细化排序条件解决了同时发生事件的顺序问题,适用于类似时间序列分析场景。

2025-07-22 11:21:20 272

原创 第19章 AB实验的局限性

第六部分重点讨论AB实验的适用场景和局限性,以及用户理解的补充手段,包括观察性因果分析方法和常见的用户研究手段。虽然AB实验很强大,但也不是万能的。AB实验、观察性因果分析、用户调查是3种典型的用户研究分析方法。在选择分析方法时,有一个简单的判断原则,对于需要进行因果判断,特别是需要量化的场景,能进行AB实验的尽量通过AB实验来判断产品是否符合预期;对于不适合AB实验的场景,可以采用其他的观察性因果分析方法;用户调查方法可以辅助判断行为和指标之间的移动是否符合逻辑;

2025-07-21 17:22:17 877

原创 第18章 基于AB实验的增长实践解决方案

指标本身是长期累积型(如留存率、GMV),而非瞬时指标(如点击率)。”4个核心问题,运用多种统计方法和评估策略(OEC、维度拆解、保护指标、长期坚持组),进行严谨、全面、面向业务价值的实验效果评估。图18-3 应展示了减少AA波动的具体方法(核心是优化实验设计和数据质量,如确保用户随机分流均匀、排除异常值、增加样本量等)。解决前17章(技术、原理)之外的组织、流程、实践难题,提供通用性方案。多角色(产品、研发、数据、分析、运营等)在实验流程中如何高效协作?,观察效果是否衰减、逆转或持续?

2025-07-21 17:01:04 810

原创 第17章 基于AB实验的增长实践——沉淀想法:实验记忆

实验沉淀不仅是经验存档,更是未来决策的参考依据,需覆盖实验全流程信息(设计、数据、结论等),并通过组织化的管理实现价值最大化。:包括实验基础信息(时间、发起人)、设计方案(假设、流量分配)、数据结果(指标、对照组)、分析结论(成功/失败原因、后续优化方向)。广告实验中发现的用户对广告形式(动态视频)、行业类型(金融/游戏)的敏感度差异。量化实验文化:统计实验成功率(如谷歌仅10%-20%)、实验上线比例、故障与未实验改动的关联性。:建立实验墙、看板、素材库,便于团队查阅历史案例。(如UI设计、广告策略)。

2025-07-21 11:58:29 366

原创 【番外篇12】特威曼定理(Twyman‘s Law)

摘要:"特威曼定理"是数据可视化与统计分析领域的重要经验法则,指出图表或数据中异常有趣的特征往往源于错误(如录入错误、单位混淆、坐标设置不当等),而非真实发现。该法则由统计学家安东尼·特威曼提出,强调优先排除技术性错误,再探究实质性原因,以此提高分析严谨性、防止误导性结论。其核心价值在于培养数据工作者的怀疑精神与验证习惯,适用于图表异常点、统计离群值等场景,是确保数据可靠性的基础原则。

2025-07-20 22:28:01 261

原创 SQL189 牛客直播各科目同时在线人数

【代码】SQL189 牛客直播各科目同时在线人数。

2025-07-20 14:09:34 209

原创 【番外篇11】辛普森悖论(Simpson‘s paradox)

的例子,某资讯内容产品在列表包括AB两类内容,某实验做了A类内容的提权,也就是提升了A类内容的曝光占比,实验关心的核心指标是。就像比较两种药物的疗效时,必须考虑试验阶段的重症/轻症患者比例变化,否则会得出"救人更多的药反而总死亡率更高"的荒谬结论。就像调整菜市场摊位不能只看总销售额,还要考虑顾客复购率、摊位多样性、菜品质量等。,需要警惕"提升一个指标,毁掉整个生态"的陷阱。为什么会出现A、B的点击率都下降的现象。​:曝光量从900→2700(3倍!​:曝光量从2600→800(被挤压)

2025-07-19 23:44:06 646

原创 第16章 基于AB实验的增长实践——验证想法:AB实验实践

AB实验分为五大环节:假设→设计→运行→分析→决策。实验假设需明确目标性(如"提升次日留存5%")、可归因(单一变量)和可复用性;设计环节需关注样本选择(静态/动态抽样)、指标分层(结果/过程/保护指标)和流量计算(最小样本量);运行阶段要进行功能验证与数据监控;分析时需明确影响范围、确保组间可比性;最终决策需综合核心指标、成本收益和负面影响。关键要避免幸存者偏差、辛普森悖论,平衡统计显著性与业务价值。

2025-07-19 00:11:28 1049

原创 第15章 基于AB实验的增长实践——构建想法:形成产品假设

​。

2025-07-18 10:48:23 960

原创 【番外篇10】参数检验?非参数检验?

参数检验是“精准狙击枪”(需瞄准),非参数检验是“霰弹枪”(啥都能打,但威力稍弱)。根据数据特性选对工具即可!

2025-07-16 22:30:41 955

原创 【番外篇09】统计功效是什么?

监考松散(功效低),作弊者可能蒙混过关。假设你是一个侦探(统计检验),任务是判断某人有罪(效应存在)还是无罪(无效应)。如果功效低,即使罪犯在眼前,你也可能漏掉(漏检真实效应);:你有多严格才能认定TA有罪(比如α=0.05是“95%确定才定罪”)。:功效低可能导致研究失败(即使真理存在也没发现)。:通常希望功效 ≥80%(即80%概率抓准真相)。:调查的人越多(样本量越大),越容易找到线索。:犯罪痕迹越明显(效应越大),越容易发现。(β是“放过坏人”的概率,即第二类错误)。(检测出效应)的概率。

2025-07-16 22:22:34 214

原创 第13章 AB实验平台的建设

AB实验平台的交互过程:​实验平台三阶段闭环:​核心功能集​:​平台性能评估标准​:●稳:架构稳定、服务稳定、实验质量稳定。●准:分流、指标、数据、分析准确。●易:便于进行各种实验管理、工具交互,实验容易创建、观测、评估和得出结论。●快:实验接入快,实验数据计算快,实验结果评估快。●多:能快速支持多种场景、多种类型的多个实验。附加要素​:需支持实验沉淀(历史策略可回溯)、灰度放量(5%→100%渐进发布)、敏感数据脱敏(如GDPR合规审计)。AB实验流程:从​​实验创建​​开始,经过​​流量分配​​确保用户

2025-07-16 18:35:36 1069

原创 第14章 AB实验组织和文化建设

​当企业步入实验成熟阶段,建立成为必然。这不仅需要全员掌握,更需将数据驱动的决策思维深植组织DNA,形成“”的良性闭环。

2025-07-14 12:51:07 737

原创 第12章 开展AB实验的基础条件

无法提供可信、量化的评估结果。即使是简单的界面设计决策(如颜色、字体)也难以达成共识。三方面的协同推进,缺一不可。企业应根据自身发展阶段和资源状况,选择适合的实施路径。​:实验周期从2周缩短至3天,日均实验数从5个提升至50+。核心业务(如搜索、推荐、营销)必须通过AB实验验证后再全量。“无显著效果”或“负向效果”不再被视为团队失误,决策层必须愿意投入资源建设这些基础设施。AB实验在企业中的成功实施首先取决于。避免将"完成计划百分比"等。​:AB实验需要可靠的。AB实验的成功实施需要。

2025-07-14 10:15:11 808

原创 【番外篇08】产品指标体系 VS. AB实验指标体系

产品指标体系与AB实验体系是数据驱动的两大工具,前者监控产品全局健康(如DAU、留存率),后者验证局部假设(如按钮改版效果)。区别在于:产品指标侧重长期趋势,覆盖全生命周期;AB实验聚焦短期因果,强调随机对照。二者存在递进关系——产品指标发现问题,AB实验验证方案,实验结果反哺产品优化。设计时需注意:产品指标需OSM模型+平衡指标,AB实验需三级指标(核心/护栏/探索性)+统计验证。典型误区包括混用指标、忽视长期影响等。二者如同体检报告与靶向治疗,共同构成「监控-假设-验证」闭环。

2025-07-14 08:00:00 359

原创 第11章 AB实验评估指标体系

典型案例:电商转化率指标误用实验A:优化商品详情页加载速度(影响分母)实验B:改进加购按钮设计(影响分子)​错误结论​:实验组加购转化率↑15%,直接全量上线​实际原因​:详情页UV下降20%(页面加载失败导致),真实加购量其实下降8%​正确做法​:拆解监控# 正确指标设计def 评估实验():加购量 = 获取加购行为数()详情页UV = 获取曝光UV()if 实验组 == 'A组': # 页面加载实验核心指标 = 详情页UVelse: # 按钮设计实验核心指标 = 加购量。

2025-07-13 22:18:29 880

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除