第五章 - 得克萨斯神枪手 - 从置信区间谈起

# 统计学笔记：置信区间与边界点逻辑的本质探讨 ## 1. 为什么置信区间不能谈“95%的概率”？这是频率学派（Frequentist）最反直觉的地方。核心冲突在于我们和统计学家对“世界”的设定不同。当我们看着一个算出来的区间，比如 $[3, 7]$，直觉告诉我们要么 $\theta$ 在里面，要么不在，概率应该是某种程度。但在频率学派眼中： 1. **上帝视角**：总体参数 $\theta$ 是**定值**（虽然未知，但它就像埋在地下的石头，位置是死的）。 2. **人类视角**：我们的置信区间 $[L, U]$ 才是**随机变量**（它像我们扔出去的圈，位置是活的）。 ### 薛定谔的区间在数据采集之前，$L$ 和 $U$ 是变量，我们可以说： $P(L < \theta < U) = 0.95$ 这实际上是在衡量**捕捉过程（Process）**的可靠性。一旦数据采集完毕，代入数值得到具体的 $l=3, u=7$，随机性就坍缩了。此时，$\theta$ 要么在里面，要么不在。这种状态可以用指示函数描述，概率非 0 即 1： $P(3 < \theta < 7) \in \{0, 1\}$ > [!NOTE] 核心隐喻：套圈游戏 > > 想象地上的木桩是 $\theta$，我们手中的圈是置信区间。 > > - **“95%置信度”**：是指我是个“命中率95%的高手”。 > > - **“具体的区间”**：是指已经扔在地上的那个圈。 > > > 看着地上那个圈，你问它“有95%的概率套中吗”是没意义的。它只有“套中”和“没套中”两种既定事实。我们只能说：这个圈是出自一个高手之手。 --- ## 2. 假设检验中的“边界点”防守策略我们在 Paper 里经常看到这种单侧检验的写法： $H_0: \theta = \theta_0 \quad \text{vs} \quad H_1: \theta < \theta_0$ 这就很奇怪，逻辑上 $H_0$ 不应该包含 $\theta > \theta_0$ 吗？为什么写成等号？这其实是一种**“最不利配置”（Least Favorable Configuration, LFC）**的简写逻辑。 ### 为什么只盯着边界看？做假设检验，底线是要控制 Type I Error（冤枉好人，即 $H_0$ 为真却拒绝了它）的概率不超过 $\alpha$。 $\sup_{\theta \in H_0} P(\text{Reject } H_0 | \theta) \le \alpha$ 想象 $H_0: \theta \ge 0$ 是我们要防守的阵地。 - **深处 ($\theta = 100$)**：离 $H_1$ 很远，数据很难跑偏到拒绝域去，非常安全。 - **边界 ($\theta = 0$)**：这是最前线，离 $H_1$ 最近，最容易因为数据波动而被误判。由于统计功效的**单调性（Monotonicity）**，只要我们守住了最危险的边界点（让 $\theta=0$ 时的犯错率 $\le 0.05$），那么阵地后方（$\theta > 0$）的所有点犯错率自然更低。 ### 数值直觉以 $H_0: \mu \ge 0$ 为例，观测值 $\bar{x} = -2$ ($SE=1$)。 - 如果假设真值是边界 $\mu=0$：算出 $Z=-2$，犯错概率 $p \approx 0.02$。 - 如果假设真值是内部 $\mu=3$：算出 $Z=-5$，犯错概率 $p \approx 0$。 **结论**：只要在边界点拒绝了 $H_0$，在内部点就更拒绝了。所以计算时直接把 $H_0$ 当作 $\theta = \theta_0$ 处理是严谨且高效的。 --- ## 3. 单侧 vs 双侧：一场关于 $\alpha$ 的赌博为什么大家喜欢做单侧检验？因为容易显著。但这背后的代价是什么？我们可以把 $\alpha = 0.05$ 看作是你的**犯错预算**。 1. 双侧检验 ($H_1: \theta \ne \theta_0$)：你不知道参数会变大还是变小。为了严谨，你把 5% 的预算劈开：左边 2.5%，右边 2.5%。 - _代价_：你需要更极端的数据才能触达那 2.5% 的红线（$|Z| > 1.96$）。 2. 单侧检验 ($H_1: \theta < \theta_0$)：你确信参数只可能变小，于是把 5% 的预算全押在左边。 - _收益_：门槛降低了（$Z < -1.645$ 就能显著）。 - _风险_：**右侧盲区**。如果真实结果是 $\theta$ 变大了，单侧检验完全看不见，甚至会得出“无差异”的误导性结论。 > [!WARNING] 科研避坑 > > 除非有物理定律级别的理由（比如“质量不可能为负”），否则默认双侧。为了凑 P 值显著而强行改单侧，是典型的 P-hacking 行为。 --- ## 4. 边界逻辑的普适性之前疑惑：“基于边界点的计算似乎只对单侧检验有效？” 其实不然。双侧检验依然遵循这个逻辑，只是形式不同。 ### 情况 A：普通双侧检验 ($H_0: \theta = 0$) 这里 $H_0$ 退化成了一个点。这个点既是核心也是边界。所以我们直接用 $\theta=0$ 计算。这属于边界逻辑的特例。 ### 情况 B：区间型双侧检验 (TOST / 生物等效性) 这是边界逻辑的高光时刻。如果我们想证明两个药效一致（$\mu$ 在 $[-\Delta, \Delta]$ 之间），那么我们要拒绝的 $H_0$ 是两头： $H_0: \mu \le -\Delta \text{ or } \mu \ge \Delta$ 这还是双侧问题，但 $H_0$ 变成了两个区间。怎么算？双单侧检验（TOST）： 1. 假设真值在左边界 $-\Delta$，算一次单侧，看能不能拒绝左边。 2. 假设真值在右边界 $\Delta$，再算一次单侧，看能不能拒绝右边。 **只有两个边界都守住了，才能宣布 $H_0$ 被攻破。**