假设检验：其实就是“用数据打假“-编程阁

从一场"口水战"说起

你肯定遇到过这种场景：

小王说："我们新产品转化率明显提高了！"

老板问："有多明显？"

小王："从5%涨到6%了！"

老板："这能算提高吗？会不会就是碰巧？"

这就是典型的没有数据打假能力的对话。

小王拿不出证据证明这个提升不是瞎猫碰上死耗子，老板也只能凭感觉质疑。

今天聊的"假设检验"，就是专门解决这个问题的——用数据来判断一件事是真的有变化，还是纯属巧合。

假设检验的底层逻辑：反证法

还记得初中数学老师怎么教反证法的吗？

"要证明√2是无理数，我们先假设它是有理数，然后推导出矛盾，证明假设不成立。"

假设检验用的就是这个思路，只不过换成了数据版本：

先假设"没变化"（叫"原假设"或"零假设"）。

收集数据去推翻它。

如果推翻成功，就说明"有变化"；推翻不了，就还是"没变化"。

回到开头的例子：

原假设：新产品转化率没有提高（还是5%）

收集数据：实际测了1000个用户，60个转化了（6%）

判断：这个6%，是真的提高了，还是运气好碰上的？

怎么判断"是真的还是巧合"？

这是假设检验的灵魂问题。我们用一个更生活化的例子来理解。

场景：你怀疑朋友出老千

你和朋友掷硬币赌输赢，他连续扔出5次正面。你开始怀疑：这硬币是不是被动了手脚？

按常识想：

如果硬币是公平的（正反面概率各50%），连续5次正面的概率是多少？

算一下：0.5 × 0.5 × 0.5 × 0.5 × 0.5 =3.125%

也就是说，如果硬币真的公平，出现这种情况的概率只有3%左右。

现在问题来了：你会怀疑朋友作弊吗？

大部分人会说："3%太低了，我觉得有问题！"

恭喜你，你刚刚完成了一次假设检验：

原假设：硬币是公平的

数据：连续5次正面

计算：如果原假设成立，这种情况概率只有3%

结论：概率太小，我不信原假设了，硬币有问题！

P值：那个"打假的关键数字"

上面那个3.125%，在统计学里有个专门的名字，叫P值（P-value）。

P值的大白话定义：如果原假设是对的，出现当前数据（或更极端数据）的概率有多大。

记住这句话：P值越小，原假设越可疑。

怎么用P值做判断？

统计学界约定了一个"怀疑门槛"，叫显著性水平α，通常设为：

5%（0.05）——最常用的标准

有时用1%（0.01）——要求更严格

规则很简单：

P值 < 0.05：推翻原假设，认为"有显著差异"

P值 ≥ 0.05：保留原假设，认为"没有显著差异"

回到转化率的例子：如果统计软件算出P值 = 0.03（小于0.05），就可以说："新产品转化率显著提高了，不是巧合"。

两种错误：冤枉好人 vs 放过坏人

假设检验不是万能的，它会犯两种错误：

第Ⅰ类错误（假阳性）：冤枉好人

硬币其实是公平的，但你误判为作弊。

转化率其实没变，但你误判为提高了。

概率就是那个α（通常5%）。

第Ⅱ类错误（假阴性）：放过坏人

硬币真的被动手脚了，但你没发现。

转化率真的提高了，但你没检测出来。

概率叫β，通常比α大。

现实中怎么办？我们通常更怕"冤枉好人"（第Ⅰ类错误），所以把α设得比较小（5%）。

但这也意味着，我们可能会放过一些真实但不够明显的变化。

这就是为什么：

药物测试要求极其严格（α可能设到1%甚至更低）

市场测试可以宽松一点（α = 5%或10%都行）

实战步骤：五步搞定假设检验

好，现在把整套流程串起来：

Step 1：明确问题，提出假设

原假设（H0）：没有变化/没有差异

备择假设（H1）：有变化/有差异

例子：新广告是否提高了点击率？

H0：新广告点击率 = 旧广告点击率

H1：新广告点击率 ≠ 旧广告点击率

Step 2：收集数据

旧广告：1000次展示，50次点击（5%）

新广告：1000次展示，65次点击（6.5%）

Step 3：选择合适的检验方法

这里需要用两样本比例检验（Excel和SPSS都能直接算）

Step 4：计算P值

用软件算出：P = 0.08

Step 5：下结论

P = 0.08 > 0.05

结论：不能推翻原假设，新广告点击率的提升不显著，可能是巧合。

三个常见误区

误区1："显著"不等于"重要"

P值小只能说明"不太可能是巧合"，但不代表实际意义大。

例子：你测试了100万个用户，发现新版本转化率从5.00%提高到5.01%，P值可能小于0.001，非常显著！

但是：这0.01%的提升，实际价值几乎为零。

记住：统计显著≠实际重要，永远要结合业务场景判断。

误区2："不显著"不等于"没差异"

P值大于0.05，只能说现有数据不足以证明有差异，不代表真的没差异。

可能的原因：

样本太小（只测了50个人，当然看不出来）。

差异确实存在但很微弱。

建议：扩大样本量再测，别轻易下"没用"的结论。

误区3：不要"P值黑客"

有些人会反复测试，直到P值小于0.05为止，然后宣称"成功了"。

这是作弊！多次测试会增加犯第Ⅰ类错误的概率。

正确做法：提前设计好测试方案，只测一次（或用专门的多重比较校正方法）。

小只总结：假设检验就是三句话

先假设没变化（原假设）

用数据算概率（P值）

概率太小就推翻（P < 0.05）

说到底，假设检验不是什么高深的数学魔法，就是用概率思维给常识判断加个保险。

下次问你"这个增长是不是真的"，你就可以底气十足地说：

"我做了假设检验，P值0.02，在5%显著性水平下可以拒绝原假设，增长是真实的，不是随机波动。"

转自：https://mp.weixin.qq.com/s/zIOPMoQwtV3FoFn5793deA

假设检验：其实就是“用数据打假“