第13章 - Beta分布和贝叶斯推断

# 连做9台手术都没感染，这就证明这家医院绝对安全吗？想象你正在考察一家医院的手术水平。摆在你面前的数据很极端： > [!EXAMPLE] 案例背景 > * **眼前的数据**：这家医院最近连续做了 **9台** 这种手术，**全部成功，0例感染**。 > * **行业的常识**：这种手术并不简单，全国平均感染率约为 **10%**（通常在 2% 到 23% 之间波动）。这时候，你的大脑里会有两种声音吵架。 1. **“所见即所得” (频率主义)**：既然 9 次里有 0 次感染，那感染率就是 $0/9 = 0\%$。数据不会撒谎，这医院完美无缺。 2. **“常识判断” (先验直觉)**：别逗了，样本太少了。全国平均都 10%，怎么可能有人完全零风险？这一连串的成功很可能只是运气好。 **[[贝叶斯推断]] (Bayesian Inference)** 就是用来调和这两者的。它不强迫你二选一，而是提供了一套逻辑，把“冷冰冰的外部常识”和“热乎乎的现场数据”融合在一起。 --- ## 1. 贝叶斯的直觉：把经验变成“虚拟数据” 我们要解决的第一个难题是：怎么把“行业平均 10%”这种模糊的概念，放进数学公式里去和“9次手术”做加法？贝叶斯的方法非常聪明：**它把经验转化为了“虚拟的过去”**。既然行业平均感染率是 10%（也就是 $1/10$），那我们就假设在走进这家医院之前，我们心里已经有了一本“旧账”。这本账上记录着符合行业平均水平的 **10个虚拟病例**： * **1** 个感染（虚拟的） * **9** 个没感染（虚拟的）这就是我们的 **[[先验概率|先验]] (Prior)**。接下来，我们把这家医院真实的 **9个病例**（0感染，9没感染）加进去。这个过程叫更新： * **感染总数** = $1$ (虚拟) + $0$ (真实) = **1** * **安全总数** = $9$ (虚拟) + $9$ (真实) = **18** 把这两部分合起来，我们的总样本变成了 19 个，其中 1 个感染。 > [!SUCCESS] 更新后的结论 (后验) > 感染率期望值 $\approx 1 / 19 \approx 5.3\%$。看，原本蓝色的虚线（先验）在 10% 左右，那是我们的刻板印象。红色的实线（后验）被真实数据“拽”到了 5.3%。这就得出了一个非常符合人类理性的结论：这家医院看起来确实比平均水平好（从 10% 降到了 5.3%），但由于样本太少，我们绝不敢说它是 0% 风险。 --- ## 2. 数学引擎：[[Beta分布]] 刚才我们用来描述“虚拟账本”的工具，就是 **Beta 分布**。你可以把 Beta 分布看作是一个 **概率的概率显示器**。它不告诉你“下一次是正面还是反面”，它告诉你的是“这枚硬币本身正面朝上的概率 ($\theta$) 最有可能是多少”。它通过两个参数来控制形状，通常写作 $\alpha$ 和 $\beta$。为了好记，我们直接叫它们： * $\alpha$：看到这种事发生的次数（感染数）。 * $\beta$：看到这种事**没**发生的次数（安全数）。 ### 不同参数下的形状直觉 * **$Beta(1, 1)$**：$\alpha=1, \beta=1$。就像一张平整的桌子。意味着我们什么都没看见，感染率是 0% 还是 100% 都有可能。 * **$Beta(1, 9)$**：$\alpha=1, \beta=9$。这是我们的先验。我们在 0.1 (10%) 的位置堆了一个小土包，表示我们觉得感染率大概率在这里。 * **$Beta(100, 900)$**：如果我们要描述一个极其确定的 10% 感染率，土包就会变成一根针，死死钉在 $0.1$ 上。 --- ## 3. 为什么可以直接做加法？聊聊“共轭” 你可能会问：*“凭什么把虚拟的 1 加在真实的 0 上？这是数学上的巧合吗？”* 这不是巧合，这在数学上叫 **[[共轭先验]] (Conjugate Prior)**。这里的逻辑链条是这样的： 1. **先验** ([[Beta分布]])：是关于 $\theta$ 的幂函数，长得像 $\theta^a (1-\theta)^b$。 2. **似然** ([[二项分布]])：是关于数据的分布，但也长得像 $\theta^x (1-\theta)^y$。 3. **贝叶斯公式**：$Posterior \propto Prior \times Likelihood$。当你把两个长得很像的幂函数乘在一起时，根据初中数学 $x^a \cdot x^b = x^{a+b}$，指数自然就加在一起了： $ \theta^a (1-\theta)^b \times \theta^x (1-\theta)^y = \theta^{a+x} (1-\theta)^{b+y} $ 看，乘完之后，结构完全没变，依然是一个 Beta 分布，只是参数变大了。 > [!NOTE] 核心结论 > 这就是为什么 Beta 分布被称为二项分布的“共轭先验”。因为它们两个“血型匹配”，生出来的孩子（后验）依然是 Beta 家族的。这让我们在计算时可以跳过复杂的微积分，直接做小学加法。 --- ## 4. 为什么教科书里的公式长得不一样？如果你现在去翻维基百科，你会发现 Beta 分布的概率密度公式 (PDF) 长得很吓人，带有一堆 $\Gamma$ (伽马) 函数： $ f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1} (1-x)^{\beta-1} $ 而我们刚才讨论的直觉公式却是： $ f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} $ ### 区别在哪里？其实，后面那部分 $x^{\alpha-1} (1-x)^{\beta-1}$ 才是 **核心形状 (Kernel)**。它决定了分布的山峰在哪里，哪里陡峭，哪里平缓。对于做决策来说，这就够了。前面那一坨复杂的 $\Gamma$ 分数，其实只是一个 **缩放系数 (Normalizing Constant)**。想象你在捏橡皮泥。你根据核心公式捏出了一个“山峰”的形状。但是，统计学有一条铁律：**所有可能性的概率加起来必须等于 1**（也就是曲线下面积必须是 1）。如果你只用核心公式算，在这个山峰下的面积可能是 0.5，也可能是 500。前面那个系数 $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$ 的唯一作用，就是把你的橡皮泥按照比例压缩或者拉伸，强制让它的底面积变成 1。 **所以在建立直觉时，我们完全可以忽略那个系数。** 它不影响我们对“谁大谁小”的判断，也不影响那个漂亮的“直接相加”的更新逻辑。 --- ## 总结贝叶斯并不是什么魔法，它本质上就是一种 **有纪律的记账方式**。 1. **先验** 是我们入场时带的旧账本（行业经验）。 2. **似然** 是刚刚发生的新交易（新数据）。 3. **后验** 就是把新旧账目合在一起，算出新的余额。在这个医院的案例中，它避免了我们被“0感染”的表象冲昏头脑，提醒我们样本太小，不确定性依然存在。这就是数字思维的魅力：它不只看结果，更看结果背后的信服度。