第03讲 Gamma分布、χ²/t/F分布与指数族

讲义信息

**课程：**数理统计
**章节：**第 2 章中段，对应课件 lec2.2(2026)169
**讲次：**第 03 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec2.2(2026)169.pdf
**研究对象：**统计推断中最常用的连续分布族及其相互关系
**统计任务：**建立 $\Gamma$ 、 $\chi^2$ 、 $t$ 、 $F$ 等分布的统一视角，并明确它们在推断中的用途
**本讲结论用途：**为方差推断、均值推断、方差比推断、分位数查表和充分统计量理论准备工具

[!summary]+ 本讲导读

本讲研究的问题：统计推断里最常见的几类分布是如何定义、构造和联系起来的。

已知什么：标准正态、正态样本的三大核心结论（第二讲）、独立性和线性变换等基本工具。

未知什么： $\chi^2$ 、 $t$ 、 $F$ 分布到底是什么、这些分布之间如何转化、如何从概率分布的结构中识别出”充分统计量”的线索。

核心统计对象： $\Gamma$ 分布、 $\chi^2$ 分布、Student $t$ 分布、 $F$ 分布、Beta 分布、指数族。

本讲结论最终服务什么推断任务：后续区间估计、假设检验、充分统计量和 UMVUE 都会反复调用这些分布。

先看全局

上一讲结束时，我们得出了正态样本下样本方差标准化后服从卡方分布——但有一个问题悬在空中：卡方分布到底是什么？

第二讲中，我们用了 $\chi^2(n-1)$ 这个符号，但并没有给出它的密度、没有说明它和 Gamma 分布的关系、更没有展示它如何与 $t$ 分布和 $F$ 分布关联起来。这就好比你被别人递了一把钥匙，却不知道这把钥匙能开哪些门。

这一讲的任务就是：把 $\chi^2$ 、 $t$ 、 $F$ 这三把”统计推断的钥匙”的构造、性质和关系彻底讲清楚。本讲最核心的洞察是：这些分布在表面上看起来各不相同，但它们的底层其实只有几条简单的干线：

\Gamma \longrightarrow \chi^2 \longrightarrow t,\ F, \qquad \text{Beta} \longleftrightarrow F.

后面很多题，其实都只是在问你：

这个统计量能不能拆成正态和 $\chi^2$ 的组合？
这个平方和是不是 Gamma 或 $\chi^2$ ？
这个比值是不是 $F$ ？

本讲的叙事线

Gamma 分布：母体中的母体。 —— 从”正量之和”的分布需求出发，引入 Gamma 分布这一统驭性的分布族。 $\chi^2$ 只是它的特例，指数分布也是它的特例。
$\chi^2$ 分布：平方和的天然语言。 —— 从标准正态平方和的定义出发，详细给出 $\chi^2$ 的密度、期望、方差和与 Gamma 的关系。
$t$ 分布：当 $\sigma$ 未知时怎么办？ —— 从上一讲的三大结论出发，自然构造 $t$ 统计量。解释为什么 $t$ 分布比标准正态尾部更厚。
$F$ 分布：方差的比较。 —— 从两个独立 $\chi^2$ 的比值出发，解释 $F$ 分布如何成为”方差比推断”的工具。
Beta 分布与附加联系。 —— 展示 Beta 分布与顺序统计量、 $F$ 分布之间的相互转化。
指数族：统一视角。 —— 把那些”看起来完全不同”的分布族纳入同一个代数框架，为下一讲的充分统计量铺路。

一、本讲定位

在课程中的位置：这是”抽样分布工具箱”的系统整理。
和前一讲的连接：第二讲得出了正态样本下 $\overline{X}\sim N(\mu,\sigma^2/n)$ 和 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 且二者独立。现在我们要追问： $\chi^2$ 分布到底是什么？在此基础上，把 $\overline{X}$ 和 $S^2$ 拼在一起，又会得到什么新的分布？这就自然引出了 $t$ 分布和 $F$ 分布。
和后一讲的连接：本讲最后引入的指数族，将在下一讲的充分统计量判别中发挥核心作用——因为只要你能把一个分布族写成指数族的标准形式，就能立刻写出它的充分统计量。
本讲重点内容：
- Gamma 分布及其封闭性
- $\chi^2$ 分布的定义、密度与性质
- $t$ 分布的定义、构造与尾部特征
- $F$ 分布的定义、构造与分位数关系
- Beta 分布与顺序统计量、 $F$ 分布的关系
- 指数族定义、标准形式与典型例子
- 非中心分布的概念（简介）

二、模型与前提

1. 研究模型

**总体：**本讲讨论的分布族多数本身就是”后续统计量分布”的模型，而不是原始总体模型。例如 $\chi^2$ 是 $S^2$ （标准化后）的分布，不是原始样本的分布。
**参数空间：**Gamma 的 $(\alpha,\lambda)$ 、 $\chi^2$ 的 $n$ （自由度）、 $t$ 的 $n$ （自由度）、 $F$ 的 $(m,n)$ （双自由度）。
**样本：**本讲很多结论来自独立样本构造——尤其是独立的标准正态变量。
抽样方式：默认独立同分布。
**参数含义：**本讲的”参数”有两类：一类是分布本身的参数（如 Gamma 的 $\alpha,\lambda$ ）；另一类是作为”统计量分布”的自由度（如 $\chi^2(n)$ 中的 $n$ ，它是构造时标准正态的个数）。

2. 对象区分

在本讲中，请特别留心区分：

**原始总体：**例如 $X\sim N(\mu,\sigma^2)$ ——这是我们观测对象的分布。
**统计量分布：**例如 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ ——这是统计量的抽样分布。
**中心分布：**参数只在自由度上出现（如 $\chi^2(n),\,t(n),\,F(m,n)$ ），对应”原假设成立”下的分布。
**非中心分布：**额外出现非中心参数（如 $\lambda,\delta$ ），对应”备择假设成立”或”均值偏移”下的分布。本讲以中心分布为主，非中心分布只做概念了解。

3. 模型前提检查

[!warning]+ 条件先检查

$\chi^2$ 、 $t$ 、 $F$ 的标准定义大多从独立标准正态构造。如果不是独立正态，分布就不是精确的 $\chi^2/t/F$ 。

非中心版本通常对应”原假设不成立”或”均值偏移”的情形——在功效分析（power analysis）中很重要。

查分位数时要特别注意自由度、上下分位数和左右尾定义。 $F$ 分位数中 $F_\alpha(m,n) \neq 1/F_\alpha(n,m)$ 。

指数族的表达必须写成”参数部分”和”样本部分”分离的形式。仅仅”有指数函数”不代表是指数族——支持集（sample space）不能依赖参数。

三、核心概念

3.1 Gamma 分布：统计推断中的”母分布”

3.1.1 动机：为什么需要 Gamma 分布？

在进入定义之前，先问一个很自然的问题。我们知道标准正态的平方 $Z^2$ 服从什么分布？答案是：它服从 $\chi^2(1)$ 。但 $\chi^2(1)$ 长什么样？它的密度怎么写？

更一般地说，如果有一组独立的正随机变量 $X_1,X_2$ 都服从指数分布，那么它们的和 $X_1+X_2$ 服从什么分布？

这些问题的共同特征是：研究对象定义在正半轴上，且涉及”和”的运算。而正态分布不够用（它定义在全实数轴上），指数分布又太窄（只有一个参数）。我们需要一个更灵活的正半轴分布族——这就是 Gamma 分布。

3.1.2 定义与直觉

[!definition]+ Gamma 分布若随机变量 $X$ 的密度为
$p(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}, \qquad x>0,$
其中 $\alpha>0$ （形状参数）， $\lambda>0$ （速率参数），则称 $X\sim\Gamma(\alpha,\lambda)$ 。

用途：Gamma 分布是构造 $\chi^2$ 、指数分布和许多正量和式分布的统一母体。

对符号的逐一解释——不要让任何一个符号成为阅读障碍：

$\alpha$ ：形状参数（shape parameter）。它控制密度曲线在零点附近的”抬升”方式。 $\alpha<1$ 时密度在零点发散（倒钩形）； $\alpha=1$ 时退化为指数分布（原点处最大）； $\alpha>1$ 时从零开始上升再下降（单峰形）。
$\lambda$ ：速率参数（rate parameter）。它控制指数衰减的速度。 $\lambda$ 越大，尾部收得越快。有时也用尺度参数 $\beta=1/\lambda$ 来写，注意区分。
$\Gamma(\alpha)$ ：Gamma 函数，定义为 $\Gamma(\alpha)=\int_0^\infty t^{\alpha-1}e^{-t}dt$ 。它负责把 $x^{\alpha-1}e^{-\lambda x}$ 的积分归一化。对正整数 $\alpha$ ， $\Gamma(\alpha)=(\alpha-1)!$ 。
$\lambda^\alpha$ ：同样是归一化常数的一部分，保证密度在全正半轴积分为 1。

直觉理解：Gamma 分布可以视为对”指数分布”的推广。指数分布刻画的是”等待一次事件发生的时间”，而 Gamma 分布刻画的是”等待 $\alpha$ 次独立事件发生的时间”——如果把 $\alpha$ 取为整数， $\Gamma(\alpha,\lambda)$ 就是 $\alpha$ 个独立指数分布 $E(\lambda)$ 的和的分布。

Gamma 分布的两个极端特例建立了它与已有知识的联系：

当 $\alpha=1$ 时，退化为指数分布 $E(\lambda)$ ：密度简化为 $\lambda e^{-\lambda x}$ 。
当 $\alpha=n/2$ 且 $\lambda=1/2$ 时，恰好是 $\chi^2(n)$ ——这是本讲后面要反复使用的联系。

3.1.3 Gamma 分布的封闭性：它为什么不惧怕”加法”

为什么要关注”加法封闭性”？ 在统计推断中，我们经常遇到独立随机变量求和的问题。例如，如果每个平方项 $Z_i^2\sim\chi^2(1)$ ，那么 $\sum Z_i^2$ 的分布是什么？如果 Gamma 分布对”同速率参数下的加法”封闭，那 $\chi^2$ 的求和就自然封闭——这为后续讨论平方和的分布铺平了道路。

[!theorem]+ Gamma 分布的封闭性若
$X_1\sim\Gamma(\alpha_1,\lambda),\qquad X_2\sim\Gamma(\alpha_2,\lambda),$
且 $X_1,X_2$ 独立，则
$X_1+X_2\sim\Gamma(\alpha_1+\alpha_2,\lambda).$
用途：这是后续构造 $\chi^2$ 分布和样本和分布的核心工具。推广到 $m$ 个独立 Gamma 变量（同 $\lambda$ ），和仍服从 Gamma，形状参数相加。

含义解析：

封闭性对加法意味着：独立 Gamma 变量（同速率）的和仍然是 Gamma，只是形状参数从 $\alpha_1+\alpha_2+\cdots$ 简单累加。速率参数 $\lambda$ 完全不变。
这恰好匹配了”独立指数等时间之和”的直觉：等 $\alpha_1$ 次事件 + 等 $\alpha_2$ 次事件 = 等 $\alpha_1+\alpha_2$ 次事件。
最关键的条件是”同 $\lambda$ “：如果两个 Gamma 变量的 $\lambda$ 不同，则它们的和不再是 Gamma 分布——这是做题目时最容易忽略的前提检查。

[!warning]+ 坑点： $\lambda$ 必须相同若 $X_1\sim\Gamma(\alpha_1,\lambda_1)$ ， $X_2\sim\Gamma(\alpha_2,\lambda_2)$ 且 $\lambda_1\neq\lambda_2$ ，则 $X_1+X_2$ 的分布不是 Gamma 分布。它的密度需要用卷积来计算，没有简单的封闭形式。

3.1.4 基本数字特征

对于 $X\sim\Gamma(\alpha,\lambda)$ ：

E(X)=\frac{\alpha}{\lambda},\qquad \operatorname{Var}(X)=\frac{\alpha}{\lambda^2}.

含义：期望 $\alpha/\lambda$ 表明 Gamma 分布的中心由”事件次数 $\alpha$ “和”事件速率 $\lambda$ “共同决定。速率越快（ $\lambda$ 大），等待时间越短；事件越多（ $\alpha$ 大），等待时间越长。方差 $\alpha/\lambda^2$ 说明同速率下，事件越多，方差越大（因为等待时间的累积不确定性在增加）。

3.2 $\chi^2$ 分布：平方和的天然语言

3.2.1 动机与定义

上一讲中，我们在正态样本下遇到了 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 。但我们没有回答： $\chi^2$ 分布到底是什么？它的密度、期望、方差怎么写？

更根本地说： $\chi^2$ 分布为什么会出现？ 答案就藏在它的定义里。

[!definition]+ $\chi^2$ 分布若 $Z_1,\dots,Z_n$ 独立且 $Z_i\sim N(0,1)$ ，则
$\xi=\sum_{i=1}^n Z_i^2\sim \chi^2(n).$
称 $\xi$ 服从自由度为 $n$ 的卡方分布（Chi-squared distribution）。

用途：用于方差推断、残差平方和分析、 $F$ 分布构造和拟合优度检验。

直觉理解：从标准正态”出发”，每取一次样本就平方一下，然后累加。 $n$ 就是累加的次数，也是这个分布的唯一参数——自由度。直观上，自由度越大，你累加的平方项越多，分布的中心就越往右移，且分布的形状越来越接近正态。

含义解析：

$\chi^2$ 分布定义在 $(0,\infty)$ 上——它是平方和，自然非负。
自由度 $n$ 不一定是正整数，可以推广到任意正实数（此时仍可通过 Gamma 分布来定义）。
$\chi^2$ 分布是右偏的（skewed to the right），但在自由度很大时趋近正态。

3.2.2 密度与数字特征

$\chi^2(n)$ 的密度为：

f(x;n)=\frac{1}{2^{n/2}\,\Gamma(n/2)}\,x^{n/2-1}e^{-x/2},\qquad x>0.

式子拆解：

$x^{n/2-1}$ ：形状取决于自由度 $n$ 。 $n=1$ 时退化为 $x^{-1/2}$ （在原点发散）， $n=2$ 时退化为 $e^{-x/2}$ （指数分布）， $n>2$ 时在 $x=n-2$ 处取到峰值。
$e^{-x/2}$ ：指数衰减，速率固定为 $1/2$ 。
$\frac{1}{2^{n/2}\Gamma(n/2)}$ ：归一化常数，等价于 Gamma 分布中的 $\frac{\lambda^\alpha}{\Gamma(\alpha)}$ 但 $\lambda=1/2$ 。

比较这个密度与 Gamma 分布密度的形式：

\Gamma\!\left(\frac{n}{2},\frac{1}{2}\right)

的密度是 $\frac{(1/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-x/2}=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}$ ，完全一致。

因此：

[!theorem]+ $\chi^2$ 分布与 Gamma 分布的关系
$\chi^2(n)=\Gamma\!\left(\frac{n}{2},\frac{1}{2}\right).$
用途：这说明 $\chi^2$ 不是孤立分布，而是 Gamma 分布的一个特例——形状参数为 $n/2$ 、速率参数为 $1/2$ 。利用 Gamma 的封闭性，立刻得到 $\chi^2$ 的加法性质。

由此立即得到基本数字特征（用 Gamma 的公式代入 $\alpha=n/2,\lambda=1/2$ ）：

E(\chi^2(n))=\frac{n/2}{1/2}=n,\qquad \operatorname{Var}(\chi^2(n))=\frac{n/2}{(1/2)^2}=2n.

含义解析：

$E(\chi^2(n))=n$ ：卡方变量的期望等于其自由度。这是非常简洁的性质——你每加一个独立标准正态的平方，期望就贡献 1。
$\operatorname{Var}(\chi^2(n))=2n$ ：方差是期望的两倍。这意味着卡方分布的相对分散程度（方差/期望 = 2）是常数，但随着自由度增大，绝对波动在增加。

3.2.3 $\chi^2$ 的加法性质

由 Gamma 的封闭性立刻得到：

\chi^2(m)+\chi^2(n)=\chi^2(m+n),

其中两个 $\chi^2$ 变量必须独立。

为什么这个性质重要？ 因为在统计推断中，我们经常需要把不同的平方和合并起来——例如，把组内平方和与组间平方和加在一起。 $\chi^2$ 的加法性质保证了合并后的分布仍然是 $\chi^2$ ，自由度简单相加即可。

3.3 $t$ 分布：当 $\sigma$ 未知时

3.3.1 动机：一个”卡住”的问题

回顾第二讲的内容：在正态样本下，

\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1).

这个公式非常漂亮。但有一个致命的问题：在实际中，我们几乎永远不知道 $\sigma$ 的真实值。

那么，如果把未知的 $\sigma$ 替换成样本标准差 $S$ ，得到

\frac{\overline{X}-\mu}{S/\sqrt{n}},

这个新的统计量服从什么分布？

这就是 $t$ 分布出现的根本动机：当总体标准差未知时，用样本标准差 $S$ 替代 $\sigma$ 会带来额外的随机性—— $S$ 本身就是一个随机变量，它在分母上波动。这会使得最终统计量的分布不再是标准正态，而是尾部更厚的 $t$ 分布。

[!note]+ 思维实验：为什么 $t$ 分布尾部更厚？

想象你反复抽样。在大多数情况下， $S$ 离 $\sigma$ 不远，所以 $\frac{\overline{X}-\mu}{S/\sqrt{n}}$ 和 $\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$ 差不太多。但偶尔地，你会抽到一组样本使得 $S$ 异常小——此时分母变小，整个统计量就会”蹦”得很大（正或负），产生极端的 $t$ 值。

标准正态分布不能容忍这种极端值（它的尾部是指数级衰减的），但 $t$ 分布的尾部是多项式衰减的——更厚、更能容纳由 $S$ 的不确定性带来的极端值。这就是 $t$ 分布比标准正态”更保守”的根本原因。

3.3.2 定义与构造

[!definition]+ Student $t$ 分布若
$X\sim N(0,1),\qquad K\sim \chi^2(n),$
且 $X$ 与 $K$ 独立，则
$T=\frac{X}{\sqrt{K/n}}\sim t(n).$
称 $T$ 服从自由度为 $n$ 的 $t$ 分布（也叫 Student’s $t$ ）。

用途：用于总体均值未知方差情形下的推断。

式子拆解：

分子 $X$ ：一个标准正态随机变量——它来自”数据的中心化与标准化”。
分母 $\sqrt{K/n}$ ： $\chi^2$ 除以其自由度再开方——本质上是”标准误的随机版本”。其中的 $\chi^2$ 来自样本方差（第二讲告诉我们 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ ）。
整个 $T$ ：一个”标准化正态”被一个”随机标准误”除，得到尾部更厚的分布。

在正态样本下的具体形式：回顾第二讲的三大核心结论。若 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ ，则

U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),\qquad K=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1),\qquad U\perp K.

将 $U$ 和 $K$ 代入 $t$ 分布的定义：

\frac{U}{\sqrt{K/(n-1)}} =\frac{\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}} =\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1).

这就是单样本 $t$ 检验的核心公式。

注意：自由度是 $n-1$ 而不是 $n$ ——因为 $K$ 服从 $\chi^2(n-1)$ 。用 $\overline{X}$ 替代 $\mu$ 消耗了一个自由度。

3.3.3 $t$ 分布的性质

对称性： $t(n)$ 分布关于 0 对称，密度函数是偶函数。
尾部厚度： $t(n)$ 的尾部比 $N(0,1)$ 更厚。当 $n\to\infty$ 时， $t(n)$ 趋近于 $N(0,1)$ 。实际中， $n\ge 30$ 时两者已经非常接近。
矩的存在性： $t(n)$ $t (n)$ 只有前 $n-1$ $n - 1$ 阶矩存在。特别地，
- $n>1$ 时 $E(T)=0$ ；
- $n>2$ 时 $\operatorname{Var}(T)=\frac{n}{n-2}$ （方差不随 $n$ 增大收敛到 1，而是从大于 1 的方向趋近）；
- $n=1$ 时（即 Cauchy 分布），期望不存在——这是一个极端案例。
抽样分布中的角色： $t$ 分布是”未知 $\sigma$ 下的均值推断”的标准分布。它比标准正态更保守（置信区间更宽），反映了用 $S$ 替代 $\sigma$ 带来的额外不确定性。

[!note]+ 对比辨析： $N(0,1)$ vs $t(n)$

维度 $N(0,1)$ $t(n)$
适用场景 $\sigma$ 已知时的均值推断 $\sigma$ 未知时的均值推断
尾部衰减指数级 $e^{-x^2/2}$ 多项式级 $\sim \|x\|^{-(n+1)}$
$n=1$ 时 — Cauchy 分布（无期望）
$n\to\infty$ 时 — 收敛于 $N(0,1)$
置信区间较窄较宽（更保守）
方差（ $n>2$ ） $1$ $n/(n-2) > 1$

使用决策：如果你知道 $\sigma$ ，用正态；如果你不知道 $\sigma$ 但样本来自正态总体，用 $t$ ；如果样本量很大（ $n\ge 30$ ），两者的差异在实践中常常可以忽略。

维度	$N(0,1)$	$t(n)$
适用场景	$\sigma$ 已知时的均值推断	$\sigma$ 未知时的均值推断
尾部衰减	指数级 $e^{-x^2/2}$	多项式级 $\sim \\|x\\|^{-(n+1)}$
$n=1$ 时	—	Cauchy 分布（无期望）
$n\to\infty$ 时	—	收敛于 $N(0,1)$
置信区间	较窄	较宽（更保守）
方差（ $n>2$ ）	$1$	$n/(n-2) > 1$

3.4 $F$ 分布：方差的比较

3.4.1 动机：为什么需要比较两个方差？

到目前为止，我们有了推断一个均值的工具（ $t$ ）和推断一个方差的工具（ $\chi^2$ ）。但实际中还有一种常见需求：比较两个总体的方差。

例如：

两种生产工艺，哪种更稳定（方差更小）？
两种测量仪器的精度是否相同？
方差分析（ANOVA）中，组间方差是否显著大于组内方差？

这些问题的共同结构是：你有两个独立估计的方差，想要比较它们的大小。 这就需要一个分布来描述”两个独立 $\chi^2$ 变量（分别除以其自由度）的比值”——这就是 $F$ 分布。

为什么是比值，而不是差值？ 因为方差本身带量纲，用差值比较不方便（差多少算”大”？）。用比值则可以消除量纲——两个方差都除以各自的总体方差后再相除，得到一个无量纲的量。而且，比值能把”方差相等”这个假设简洁地表述为”比值等于 1”。

3.4.2 定义与构造

[!definition]+ $F$ 分布若
$K_1\sim \chi^2(m),\qquad K_2\sim \chi^2(n),$
且 $K_1,K_2$ 独立，则
$F=\frac{K_1/m}{K_2/n}\sim F(m,n).$
称 $F$ 服从自由度为 $(m,n)$ 的 $F$ 分布（也叫 Snedecor’s $F$ ）。

用途：用于方差比推断、方差分析和回归分析。

式子拆解：

$K_1/m$ ：第一个 $\chi^2$ 除以其自由度——标准化为”平均每个自由度的平方和”。由 $\chi^2$ 的性质，它的期望是 1。
$K_2/n$ ：第二个 $\chi^2$ 同样标准化。
整个 $F$ ：两个”单位自由度的平方和”的比值。如果两个总体的方差相等，这个比值应该在 1 附近波动。如果显著大于 1 或小于 1，就提示方差可能有差异。

在正态样本下的具体形式：若两组独立样本分别来自正态总体：

\frac{S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2}\sim F(m-1,\,n-1).

特别地，当 $\sigma_X^2=\sigma_Y^2$ （两总体方差相等）时，

\frac{S_X^2}{S_Y^2}\sim F(m-1,\,n-1).

3.4.3 $F$ 分布的性质

定义域： $(0,\infty)$ 。 $F$ 是两个正量的比值，自然为正。
不对称性： $F$ 分布是右偏的。当 $m,n$ 都很大时趋近对称。
自由度的顺序很重要： $F(m,n)$ 和 $F(n,m)$ 是完全不同的分布。特别地， $F_{\alpha}(m,n)=\frac{1}{F_{1-\alpha}(n,m)}.$ 这个关系在查表时非常有用——如果表中没有 $F_{0.95}(5,10)$ ，可以查 $1/F_{0.05}(10,5)$ 。
与 $t$ 分布的关系： $T\sim t(n)\quad\Longrightarrow\quad T^2\sim F(1,n).$ 也就是说， $t$ 检验的平方等价于 $F$ 检验——这解释了为什么在方差分析中 $F$ 检验能替代双样本 $t$ 检验。
数字特征： $E(F)=\frac{n}{n-2}\;(n>2),\qquad \operatorname{Var}(F)=\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}\;(n>4).$ 当 $n$ 很大时， $E(F)\approx 1$ ——和直觉一致，两个”单位自由度的平方和”的比值期望趋于 1。

[!warning]+ 查表注意事项

$F$ 分布有两个自由度：第一个是分子的自由度 $m$ ，第二个是分母的自由度 $n$ 。不要写反。

$F_\alpha(m,n)$ 表示上 $\alpha$ 分位数，即 $P(F>F_\alpha(m,n))=\alpha$ 。

由于 $F$ 分布不对称， $F_{0.95}(m,n)\neq 1/F_{0.05}(m,n)$ 。正确的关系是 $F_{1-\alpha}(m,n)=1/F_\alpha(n,m)$ 。

[!note]+ 对比辨析： $t$ 分布 vs $F$ 分布

维度 $t(n)$ $F(m,n)$
定义域 $(-\infty,\infty)$ $(0,\infty)$
对称性关于 0 对称右偏（不对称）
自由度数 1 个 2 个（分子 + 分母）
推断对象单个均值（ $\sigma$ 未知）两个方差的比值
与 $\chi^2$ 的关系分子是 $N(0,1)$ ，分母是独立 $\sqrt{\chi^2/n}$ 分子和分母分别是独立的 $\chi^2/m$ 和 $\chi^2/n$
平方关系 $T^2\sim F(1,n)$ —
典型应用单样本/双样本均值检验方差齐性检验、ANOVA、回归整体显著性

维度	$t(n)$	$F(m,n)$
定义域	$(-\infty,\infty)$	$(0,\infty)$
对称性	关于 0 对称	右偏（不对称）
自由度数	1 个	2 个（分子 + 分母）
推断对象	单个均值（ $\sigma$ 未知）	两个方差的比值
与 $\chi^2$ 的关系	分子是 $N(0,1)$ ，分母是独立 $\sqrt{\chi^2/n}$	分子和分母分别是独立的 $\chi^2/m$ 和 $\chi^2/n$
平方关系	$T^2\sim F(1,n)$	—
典型应用	单样本/双样本均值检验	方差齐性检验、ANOVA、回归整体显著性

3.5 Beta 分布：比例与排序的语言

3.5.1 动机：Beta 分布何时出现？

Beta 分布的定义域是 $(0,1)$ ——这意味着它天然适合描述比例、概率、排序位置。在统计推断中，Beta 分布主要通过以下两条路径出现：

$U(0,1)$ 样本的顺序统计量。 在第二讲末尾，我们发现 $X_{(k)}\sim\text{Beta}(k,n-k+1)$ 当总体为 $U(0,1)$ 时。
$F$ 分布的单调变换。 $F$ 分布和 Beta 分布之间可以互相转化。

3.5.2 定义与基本性质

[!definition]+ Beta 分布若随机变量 $X$ 的密度为
$p(x;a,b)=\frac{1}{B(a,b)}\,x^{a-1}(1-x)^{b-1},\qquad 0<x<1,$
其中 $a>0,b>0$ ， $B(a,b)=\Gamma(a)\Gamma(b)/\Gamma(a+b)$ 为 Beta 函数，则称 $X\sim\text{Beta}(a,b)$ 。

用途：描述 $(0,1)$ 上的比例和概率，以及 $U(0,1)$ 样本的顺序统计量分布。

含义解析：

$x^{a-1}$ 控制密度在 0 附近的行为： $a<1$ 时在 0 处发散， $a>1$ 时在 0 处为 0。
$(1-x)^{b-1}$ 控制密度在 1 附近的行为： $b<1$ 时在 1 处发散， $b>1$ 时在 1 处为 0。
$a=b=1$ 时退化为 $U(0,1)$ 。
期望 $E(X)=\frac{a}{a+b}$ ——这是 Beta 分布的”重心”，由两个形状参数的比值决定。

与 $F$ 分布的关系：若 $F\sim F(m,n)$ ，则

\frac{mF/n}{1+mF/n}\sim\text{Beta}\!\left(\frac{m}{2},\frac{n}{2}\right).

这个变换将 $(0,\infty)$ 上的 $F$ 分布”压缩”到 $(0,1)$ 上。反过来，若 $X\sim\text{Beta}(a,b)$ ，也可以变回 $F$ 分布。

3.6 非中心分布（概念了解）

在讨论 $t$ 和 $\chi^2$ 时，我们默认了”中心”条件——即分子来自 $N(0,1)$ （均值为零）。但在备择假设下，统计量的均值会偏移，不再是零。这就引出了非中心分布。

[!definition]+ 非中心分布（概念）

非中心 $\chi^2$ ：若 $Z_i\sim N(\mu_i,1)$ 且独立，则 $\sum Z_i^2\sim\chi^2(n,\lambda)$ ，其中非中心参数 $\lambda=\sum\mu_i^2$ 。

非中心 $t$ ：若 $X\sim N(\delta,1)$ 且 $K\sim\chi^2(n)$ 独立，则 $X/\sqrt{K/n}\sim t(n,\delta)$ 。

非中心 $F$ ：若 $K_1\sim\chi^2(m,\lambda)$ 且 $K_2\sim\chi^2(n)$ 独立，则 $(K_1/m)/(K_2/n)\sim F(m,n,\lambda)$ 。

用途：这些分布在功效分析（power analysis）和样本量计算中至关重要——它们描述了”当原假设不成立时，检验统计量的分布会如何偏移”。

在本课程中，非中心分布主要用于理解”为什么样本量越大，检验越容易拒绝错误原假设”。我们会在假设检验的章节中再次遇到它们。

3.7 指数族：统一视角

3.7.1 动机：这么多分布，有什么共同点？

到目前为止，我们讨论了 Gamma、 $\chi^2$ 、 $t$ 、 $F$ 、Beta 以及前两讲的正态、Bernoulli、Poisson、指数分布。这些分布看起来各不相同，但它们在统计推断中有一些共同的需求：

如何从样本中提取出关于参数的全部信息？
有没有一种统一的方式来判断某个分布族”好不好处理”？

指数族正是为回答这些问题而生的。它的核心思想是：如果一个分布族可以写成特定的”参数与样本分离”的代数形式，那么光看这个形式，就能直接读出它的充分统计量——而这正是下一讲的主题。

3.7.2 标准形式

[!definition]+ 指数族若分布族可写成
$p(x;\theta)=c(\theta)\exp\!\left\{\sum_{j=1}^k Q_j(\theta)\,T_j(x)\right\}h(x),$
其中：

$h(x)\ge 0$ 只依赖 $x$ （不依赖 $\theta$ ）；

$c(\theta)>0$ 只依赖 $\theta$ （不依赖 $x$ ）；

求和号内 $Q_j(\theta)$ 只依赖 $\theta$ ， $T_j(x)$ 只依赖 $x$ ；

支持集（ $x$ 的取值范围）不依赖 $\theta$ ；

则称该分布族为指数族（exponential family）。 $k$ 为指数族的阶。

用途：这是后续判别充分统计量最直接的结构工具—— $T(x)=(T_1(x),\dots,T_k(x))$ 就是充分统计量的天然候选。

每次读这个公式时，按以下步骤拆解：

找到 $h(x)$ ——把所有不含 $\theta$ 的因子塞进 $h(x)$ 。
找到 $T_j(x)$ ——所有和 $\theta$ 乘在一起的 $x$ 的函数。
找到 $Q_j(\theta)$ ——所有和 $x$ 乘在一起的 $\theta$ 的函数。
剩下的纯 $\theta$ 函数归入 $c(\theta)$ 。
检查支持集是否依赖 $\theta$ ——这是最容易被忽略的一步！如果支持集依赖 $\theta$ （例如 $U(0,\theta)$ ），则它不是指数族（除非做特殊处理）。

3.7.3 典型例子：把常见分布族写成指数族形式

例 1：Bernoulli 分布族 $X\sim B(1,p)$ ， $0<p<1$ 。

概率函数：

P(X=x)=p^x(1-p)^{1-x},\qquad x=0,1.

重写为指数形式：

P(X=x)=(1-p)\cdot\exp\!\left\{x\cdot\log\frac{p}{1-p}\right\}\cdot 1.

因此：

$h(x)=1$ （注意 $x=0$ 或 $1$ ，都是常数函数的取值）
$T(x)=x$
$Q(p)=\log\frac{p}{1-p}$ （这就是 log-odds / logit 变换）
$c(p)=1-p$
支持集 $\{0,1\}$ 不依赖 $p$ ✓

例 2：正态分布族（ $\sigma^2$ 已知， $\mu$ 未知）。

密度：

p(x;\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}.

展开指数内的平方：

-\frac{(x-\mu)^2}{2\sigma^2} =-\frac{x^2}{2\sigma^2}+\frac{\mu}{\sigma^2}x-\frac{\mu^2}{2\sigma^2}.

将含 $\mu$ 和 $x$ 的交叉项 $\frac{\mu}{\sigma^2}x$ 分离出来（这是关键一步——它是参数和样本的乘积形式）：

p(x;\mu)= \underbrace{\frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left\{-\frac{\mu^2}{2\sigma^2}\right\}}_{c(\mu)} \cdot\exp\!\left\{\underbrace{\frac{\mu}{\sigma^2}}_{Q(\mu)}\!\cdot\!\underbrace{x}_{T(x)}\right\} \cdot\underbrace{\exp\!\left\{-\frac{x^2}{2\sigma^2}\right\}}_{h(x)}.

因此：

$h(x)=\exp\{-x^2/(2\sigma^2)\}$
$T(x)=x$
$Q(\mu)=\mu/\sigma^2$
$c(\mu)$ 如上
支持集 $\mathbb{R}$ 不依赖 $\mu$ ✓

$k=1$ （一阶指数族），充分统计量为 $T(x)=x$ （即样本和 $\sum X_i$ ）。

例 3：正态分布族（ $\mu$ 和 $\sigma^2$ 均未知）。

此时参数为 $\theta=(\mu,\sigma^2)$ 。展开密度：

p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{-\frac{x^2}{2\sigma^2}+\frac{\mu}{\sigma^2}x-\frac{\mu^2}{2\sigma^2}\right\}.

将含参数的项整理为 $\sum Q_j(\theta)T_j(x)$ 的形式：

p(x;\theta)= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left\{-\frac{\mu^2}{2\sigma^2}\right\} \cdot\exp\!\left\{\frac{\mu}{\sigma^2}\cdot x+\left(-\frac{1}{2\sigma^2}\right)\cdot x^2\right\}.

因此：

$T_1(x)=x$ ， $Q_1(\theta)=\mu/\sigma^2$
$T_2(x)=x^2$ ， $Q_2(\theta)=-1/(2\sigma^2)$
$h(x)=1$
$c(\theta)$ 为前面的常数因子
支持集 $\mathbb{R}$ 不依赖 $\theta$ ✓

$k=2$ （二阶指数族），充分统计量为 $T(x)=(\sum X_i,\sum X_i^2)$ 。

3.7.4 常见分布族的指数族归属

分布族	是指数族？	阶数 $k$	充分统计量 $T(x)$
Bernoulli $B(1,p)$	是	1	$\sum X_i$
Binomial $B(m,p)$ （ $m$ 已知）	是	1	$\sum X_i$
Poisson $P(\lambda)$	是	1	$\sum X_i$
指数分布 $E(\lambda)$	是	1	$\sum X_i$
正态 $N(\mu,\sigma_0^2)$ （ $\sigma_0$ 已知）	是	1	$\sum X_i$
正态 $N(\mu,\sigma^2)$ （均未知）	是	2	$(\sum X_i,\sum X_i^2)$
Gamma $\Gamma(\alpha,\lambda)$ （ $\alpha$ 已知）	是	1	$\sum X_i$
Gamma $\Gamma(\alpha,\lambda)$ （均未知）	是	2	$(\sum X_i,\sum \log X_i)$
Uniform $U(0,\theta)$	否	—	—（支持集依赖 $\theta$ ）
Cauchy 平移族	否	—	—

[!warning]+ 判断指数族的常见陷阱

看到 $e$ 的指数就说是”指数族”——这是最常见的错误。关键不是有没有指数函数，而是能否写成 $c(\theta)\exp\{\sum Q_j(\theta)T_j(x)\}h(x)$ 的标准分离形式。

忘记检查支持集—— $U(0,\theta)$ 的密度本身可以写成 $1/\theta$ （当 $0<x<\theta$ ），但支持集 $(0,\theta)$ 依赖参数 $\theta$ ，所以不是指数族！

支持集依赖参数的分布族（如 Uniform、Pareto）通常不是指数族——这一事实对充分统计量的讨论有重要影响，因为非指数族可能需要比 $(T_1,\dots,T_k)$ 更多的信息才能达到充分性。

四、推导与证明

1. 证明依赖

用到的定义：Gamma 分布、 $\chi^2$ 分布、 $t$ 分布、 $F$ 分布、指数族。
用到的前序定理：正态样本均值与方差的分布（第二讲）、独立性、正交变换。
用到的分布性质：Gamma 封闭性、变量变换（Jacobian 方法）、幂级数展开。
用到的关键技巧：把复杂统计量分拆为”正态 / $\chi^2$ / 独立性”的组合。

2. 证明思路概览

**对 $\chi^2=\Gamma(n/2,1/2)$ ：**先证单个标准正态平方 $Z^2\sim\Gamma(1/2,1/2)$ ，然后利用 Gamma 封闭性累加。
**对 $t$ 分布：**构造分子 $X\sim N(0,1)$ 和分母 $\sqrt{K/n}$ 的独立比值，用变量变换法求其密度。
**对 $F$ 分布：**构造两个独立 $\chi^2$ 的比值，用变量变换法。
**对指数族：**把常见分布的密度做代数重排，将 $\theta$ 和 $x$ 分离。

[!proof]- 📐 深度推导： $Z^2\sim\Gamma(1/2,1/2)$ 的证明

设 $Z\sim N(0,1)$ 。考虑 $Y=Z^2$ 。

第一步：用分布函数法求 $Y$ 的密度。

对 $y>0$ ：
$P(Y\le y)=P(-\sqrt{y}\le Z\le\sqrt{y})=2\Phi(\sqrt{y})-1.$
求导：
$f_Y(y)=2\phi(\sqrt{y})\cdot\frac{1}{2\sqrt{y}} =\frac{1}{\sqrt{2\pi}}\,y^{-1/2}e^{-y/2},\qquad y>0.$
第二步：与 Gamma 密度对比。

$\Gamma(1/2,1/2)$ 的密度为：
$\frac{(1/2)^{1/2}}{\Gamma(1/2)}\,y^{-1/2}e^{-y/2}.$
而 $\Gamma(1/2)=\sqrt{\pi}$ （这是 Gamma 函数的一个基本性质）。代入：
$\frac{1/\sqrt{2}}{\sqrt{\pi}}\,y^{-1/2}e^{-y/2} =\frac{1}{\sqrt{2\pi}}\,y^{-1/2}e^{-y/2}.$
与 $f_Y(y)$ 完全相同。因此 $Z^2\sim\Gamma(1/2,1/2)=\chi^2(1)$ 。

为什么这一步很重要？ 它建立了”正态平方 → Gamma 分布”的桥梁。有了这一步，再结合 Gamma 的封闭性，就立刻得到： $n$ 个独立标准正态的平方和 $\sim\Gamma(n/2,1/2)=\chi^2(n)$ 。

[!proof]- 📐 深度推导： $t$ 分布密度的推导思路

设 $X\sim N(0,1)$ ， $K\sim\chi^2(n)$ 独立。令 $T=X/\sqrt{K/n}$ 。

**推导策略：**因为分母涉及 $\chi^2$ ，直接用变量变换法比较复杂。常用的路径是：

先写出 $(X,K)$ 的联合密度：
$f_{X,K}(x,k)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\cdot\frac{1}{2^{n/2}\Gamma(n/2)}k^{n/2-1}e^{-k/2}.$

做变量变换：令 $T=X/\sqrt{K/n}$ ， $U=K$ 。解出 $X=T\sqrt{U/n}$ 。Jacobian 为 $\sqrt{U/n}$ 。

写出 $(T,U)$ 的联合密度，然后对 $U$ 积分出 $T$ 的边际密度。

最终结果为：
$f_T(t)=\frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\,\Gamma(n/2)}\left(1+\frac{t^2}{n}\right)^{-(n+1)/2},\qquad t\in\mathbb{R}.$
关键观察：密度的衰减速度是 $|t|^{-(n+1)}$ ——多项式衰减，而标准正态是指数衰减 $e^{-t^2/2}$ 。这解释了 $t$ 分布的”厚尾”特性。

用途：这个推导是理解”为什么需要 $t$ 分布”的关键——它从数学上确认了”用 $S$ 替代 $\sigma$ 会使尾部变厚”这一直觉。

[!proof]- 📐 深度推导：指数族判别的标准步骤

给定一个密度或概率函数 $p(x;\theta)$ ，判断它是否属于指数族的标准流程：

第 1 步：检查支持集 $\{x:p(x;\theta)>0\}$ 是否依赖 $\theta$ 。如果依赖，通常不是指数族。

第 2 步：将密度中所有含 $\theta$ 的因子提取出来，尝试写成
$p(x;\theta)=c(\theta)\cdot\exp\!\left\{\sum_{j=1}^k Q_j(\theta)T_j(x)\right\}\cdot h(x).$
第 3 步：验证 $Q_j(\theta)$ 和 $T_j(x)$ 是彼此分离的—— $Q_j$ 不能含 $x$ ， $T_j$ 不能含 $\theta$ 。

第 4 步：如果成功， $k$ 就是阶数， $(T_1,\dots,T_k)$ 就是(最小)充分统计量的天然候选。

以 $U(0,\theta)$ 为例走一遍这个流程：

密度 $p(x;\theta)=1/\theta$ ，当 $0<x<\theta$ 。

第 1 步失败：支持集 $(0,\theta)$ 依赖 $\theta$ 。

结论： $U(0,\theta)$ 不是指数族（所以不要尝试去找指数形式的标准分离式）。

这个结论有实用的推论：对于 $U(0,\theta)$ ，充分统计量是 $X_{(n)}$ （样本最大值），而不是 $\sum X_i$ 这种求和形式的统计量——这和你对指数族的理解是一致的：指数族的充分统计量总是求和（或某种加法型）的形式。

五、关键公式释义

1. Gamma 分布密度

p(x;\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}, \qquad x>0

**来源：**这是对指数分布的推广——把单次等待时间（ $\alpha=1$ ）推广为 $\alpha$ 次独立事件的总等待时间，并通过 $\Gamma(\alpha)$ 做归一化。
**式子拆解：**左边的 $p(x;\alpha,\lambda)$ 是以 $\alpha,\lambda$ 为参数的密度函数。右边三部分各司其职： $\lambda^\alpha/\Gamma(\alpha)$ 是归一化常数； $x^{\alpha-1}$ 控制形状（在 0 和 $\infty$ 之间的行为）； $e^{-\lambda x}$ 控制指数衰减的速度。
**含义：**Gamma 分布刻画了一类定义在正半轴上的分布。 $\alpha$ 控制从原点起是”发散""指数”还是”单峰”； $\lambda$ 控制”多快衰减到零”。统计中大量”平方和""样本和”的分布最终都落在这个族里。
**使用提醒：**很多”正量之和”的分布最终都会回到这里。但必须检查 Gamma 变量的速率参数 $\lambda$ 是否相同——不同的 $\lambda$ 不能直接用封闭性。

2. $\chi^2$ 分布与 Gamma 的关系

\chi^2(n)=\Gamma\!\left(\frac{n}{2},\frac{1}{2}\right)

**来源：**标准正态平方 $Z^2\sim\Gamma(1/2,1/2)$ ，独立求和后由 Gamma 封闭性得到 $\sum Z_i^2\sim\Gamma(n/2,1/2)$ 。
**式子拆解：**左边 $\chi^2(n)$ 是自由度为 $n$ 的卡方分布；右边 $\Gamma(n/2,1/2)$ 是形状参数 $n/2$ 、速率参数 $1/2$ 的 Gamma 分布。 $\frac{n}{2}$ 说明每个标准正态的平方贡献半个形状参数； $\frac{1}{2}$ 说明衰减速率是由正态密度的 $e^{-z^2/2}$ 中的 $1/2$ 决定的。
含义： $\chi^2$ 不是孤立分布，而是 Gamma 分布的一个特例。这意味着：Gamma 分布的所有性质（封闭性、矩公式、变量变换关系）都可以直接应用到 $\chi^2$ 上。
使用提醒：后面看到平方和时，可以先想能否转成 $\chi^2$ ，再利用 Gamma 的性质。但注意：必须是独立的标准正态平方和才是精确 $\chi^2$ 。

3. $t$ 分布构造式

T=\frac{X}{\sqrt{K/n}}\sim t(n)

**来源：**从”未知 $\sigma$ 时如何推断 $\mu$ “的困境出发，自然构造出”标准正态量除以标准误”的比值。用变量变换法求密度，得到多项式衰减的 $t$ 分布。
**式子拆解：**左边 $T$ 是一个”正态量除以标准误”的比值。分子 $X\sim N(0,1)$ 代表”均值偏离的标准化版本”；分母 $\sqrt{K/n}$ 是独立 $\chi^2$ 除以自由度再开方——本质上是”标准误的随机化版本”。
含义： $T$ 描述”均值偏离量除以样本标准误”后的波动。由于样本标准误 $S/\sqrt{n}$ 本身是随机的，这个比值比标准正态分布更加弥散——落在两端的概率比正态大。
**使用提醒：**只有当分子是 $N(0,1)$ 、分母是对应自由度的独立 $\chi^2$ 的标准化根时，才能精确落到 $t$ 分布。如果分子不是正态（中心极限定理下只有渐近正态），或分母不是独立 $\chi^2$ ，就不能用 $t$ 分布。

4. $F$ 分布构造式

F=\frac{K_1/m}{K_2/n}\sim F(m,n)

**来源：**从”比较两个方差”的需求出发，用两个独立的 $\chi^2$ 变量各自标准化后相除。分母用自由度标准化确保了”同方差”假设下比值中心在 1。
式子拆解： $K_1/m$ 是第一个 $\chi^2$ （ $m$ 个自由度）的单位自由度平方和； $K_2/n$ 同理。整个 $F$ 是两个”单位自由度平方和”的比值。
含义： $F$ 分布回答了”两个独立方差估计比值的波动范围”这一核心问题。如果实际数据中 $F$ 值离 1 很远，就提示两个总体方差可能不同。
使用提醒： $F(m,n)\neq F(n,m)$ ，两个自由度的顺序不能写反。查表时注意 $F_\alpha(m,n)$ 与 $F_\alpha(n,m)$ 是上不同分布的分位数。

5. 指数族标准形式

p(x;\theta)=c(\theta)\exp\!\left\{\sum_{j=1}^k Q_j(\theta)T_j(x)\right\}h(x)

**来源：**把密度中与参数有关的部分和与样本有关的部分分离整理。这不是某个数学定理，而是一种”代数重排”——目的是让充分统计量的结构暴露出来。
式子拆解： $c(\theta)$ 只依赖参数，负责归一化； $Q_j(\theta)$ 只依赖参数， $T_j(x)$ 只依赖样本，二者乘积后被 $\exp$ 作用； $h(x)$ 只依赖样本，不含参数。关键在于：参数的作用只能通过 $T_1(x),\dots,T_k(x)$ 这几个通道进入分布。
含义：这条公式下一讲会直接用于判别充分统计量。指数族形式中， $(T_1,\dots,T_k)$ 就是(最小)充分统计量的天然候选——因为它们抓住了参数与样本之间全部的互动。
使用提醒：这条公式看起来简单，但实际判断时需要非常仔细。除了检查是否可写成上述形式，还必须检查支持集是否依赖参数——这是最常见的遗漏点。

六、例题与变式

1. 标准题

**题型：**分布题 / 构造题

题目：

设 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ ，写出

\frac{\sqrt{n}(\overline{X}-\mu)}{S}

的分布，并说明理由。

解题思路（先理顺每一步的”为什么”）：

**识别统计任务：**这是”已知正态样本，求统计量分布”的题目。
拆解分子： $\overline{X}-\mu$ 是样本均值偏离总体均值的量。乘以 $\sqrt{n}$ 并除以 $\sigma$ 后得到标准正态——这是第二讲的 $\overline{X}$ 分布结论。
拆解分母： $S$ 是样本标准差。由第二讲的 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ ，可知 $S^2$ 与 $\chi^2$ 的关系。
关键一步： $\overline{X}$ 与 $S^2$ 独立（第二讲三大结论之三）。这意味着分子和分母分别由独立的随机源驱动。
**拼合：**分子经过适当缩放变成 $N(0,1)$ ，分母经过适当缩放变成 $\sqrt{\chi^2(n-1)/(n-1)}$ ，且二者独立。这恰好是 $t$ 分布的定义。

解答：

令

U=\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\sim N(0,1),\qquad K=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1),

且 $U\perp K$ 。

于是

\frac{\sqrt{n}(\overline{X}-\mu)}{S} =\frac{U}{\sqrt{K/(n-1)}}\sim t(n-1).

答案解读：注意最终分母中的 $S$ 是样本标准差，而 $t$ 定义式中的分母是 $\sqrt{K/n}$ 。这里的 $n-1$ （而不是 $n$ ）来自 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 的自由度。

常见坑点提醒：

不要把 $n-1$ 写成 $n$ ： $t$ 的自由度是 $\chi^2$ 的自由度，即 $n-1$ 。
如果题目给了 $\sigma$ 已知，则分母直接用 $\sigma$ ，统计量回到 $N(0,1)$ ，不要还用 $t$ 分布。
单样本和双样本的 $t$ 统计量自由度不同（双样本 pooled $t$ 的自由度是 $m+n-2$ ），不要混。

**用途：**这是单样本均值推断中最常见的分布识别题。

2. 变式题

变式一：若 $\sigma$ 已知，则统计量回到标准正态：

\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\sim N(0,1).

此时不需要 $t$ 分布， $S$ 也不再出现在统计量中。

变式二：比较两组正态总体均值（双样本问题）。

设 $X_1,\dots,X_m\sim N(\mu_X,\sigma^2)$ ， $Y_1,\dots,Y_n\sim N(\mu_Y,\sigma^2)$ ，两样本独立，且方差相等（但未知）。

此时构造的 pooled $t$ 统计量为：

\frac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{S_p\sqrt{1/m+1/n}}\sim t(m+n-2),

其中 $S_p^2$ 是 pooled variance。

变式三：比较两个方差（进入 $F$ 分布）。

若比较 $\sigma_X^2/\sigma_Y^2$ ，则：

\frac{S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2}\sim F(m-1,n-1).

3. 标准题：指数族判定

题目：

判断 $X\sim\text{Poisson}(\lambda)$ （ $\lambda>0$ ）是否属于指数族，若是，写出其充分统计量。

解题思路：

Poisson 的概率函数： $P(X=x)=\frac{\lambda^x e^{-\lambda}}{x!}$ ， $x=0,1,2,\dots$
支持集 $\{0,1,2,\dots\}$ 不依赖 $\lambda$ ✓
尝试分离参数和样本： $P(X=x)=e^{-\lambda}\cdot\frac{1}{x!}\cdot e^{x\log\lambda} =e^{-\lambda}\cdot\exp\{x\cdot\log\lambda\}\cdot\frac{1}{x!}.$

解答：

因此，

$h(x)=1/x!$
$T(x)=x$
$Q(\lambda)=\log\lambda$
$c(\lambda)=e^{-\lambda}$

是指数族， $k=1$ ，充分统计量为 $T(x)=X$ （单一样本下）或 $\sum_{i=1}^n X_i$ （样本量为 $n$ 时）。

常见坑点提醒：

$\lambda^x=e^{x\log\lambda}$ 这个变换是指数族判别的关键技巧——任何形如 $a^x$ 的项都可以写成 $e^{x\log a}$ 。
$e^{-\lambda}$ 只含 $\lambda$ ，归入 $c(\lambda)$ 。不要写成 $\exp\{-\lambda\}$ 然后强行把 $-\lambda$ 当成 $Q(\lambda)$ ——因为指数里没有 $x$ 和它的乘积。

4. 题型提醒

[!tip]+ 做题顺序：分布识别题

先问自己：它能否拆成”正态 / $\chi^2$ / 比值”。 看到平方和 → $\chi^2$ ；看到正态/ $\chi^2$ 比值 → 可能的 $t$ ；看到两个独立 $\chi^2$ 比值 → $F$ 。

遇到 Gamma 分布先看是否存在”同率参数下求和”。 不同 $\lambda$ 的 Gamma 相加，分布不是 Gamma。

遇到顺序统计量在 $U(0,1)$ 下的问题，优先想 Beta 分布。

遇到”判断是否指数族”，先检查支持集，再尝试代数重排。

七、章节连接

**这一讲建立在哪些知识之上：**正态分布、第二讲的三大核心结论（ $\overline{X}$ 、 $S^2$ 分布及独立性）、独立性、变量变换、Gamma 函数。
这一讲为后面哪些内容做准备：充分统计量（下一讲将直接调用指数族的结构）、UMVUE、区间估计（ $t$ 区间、 $\chi^2$ 区间、 $F$ 区间）、假设检验（ $t$ 检验、 $F$ 检验、 $\chi^2$ 检验）。
这一讲在整门课中的功能：提供整门课最常用的分布工具和查表语言。从这一讲开始，你应该能够看到一组正态样本，就能说出它的均值检验用什么分布、方差检验用什么分布、方差比检验用什么分布。

八、复习整理

[!summary]+ 本讲小结

研究的问题：统计推断里最常见的分布如何定义、构造和联系。

使用的模型：标准正态、正态样本、Gamma 封闭性、独立性。

核心分布链： $\Gamma(\alpha,\lambda)\longrightarrow\chi^2(n)=\Gamma\!\left(\frac{n}{2},\frac{1}{2}\right) \longrightarrow \begin{cases} t(n)=\dfrac{N(0,1)}{\sqrt{\chi^2(n)/n}}\\[10pt] F(m,n)=\dfrac{\chi^2(m)/m}{\chi^2(n)/n} \end{cases}$

关键结论：

$\chi^2$ 分布是 Gamma 的特例，继承 Gamma 的封闭性。

$t$ 分布是”未知 $\sigma$ 下均值推断”的工具，尾部比正态厚。

$F$ 分布是”方差比推断”的工具， $T^2\sim F(1,n)$ 。

Beta 分布描述 $(0,1)$ 上的比例，与 $F$ 和顺序统计量紧密关联。

大多数经典分布族属于指数族，可以用 $c(\theta)\exp\{\sum Q_j(\theta)T_j(x)\}h(x)$ 统一表达——其中的 $T_j$ 就是充分统计量的天然候选。

最重要的条件：独立性、正态性（ $t$ 和 $F$ 构造的基础）、指数族要求支持集不依赖参数。

本讲最终服务什么推断任务：为后续构造检验统计量、分析功效和判别充分统计量做准备。

高频误套

[!warning]+ 常见错误

把 $t$ 分布和标准正态分布混用，忽略自由度。 $n$ 小的时候（如 $n=5$ ）， $t$ 的尾部差异很大（95% 分位数 $t_{0.025}(4)\approx 2.776$ ，而 $z_{0.025}=1.96$ ）。忽略这个差异会严重低估置信区间的宽度。

把 $F(m,n)$ 写成 $F(n,m)$ 。 自由度的顺序影响整个分布的形状和分位数。

看到”和”就机械写成 Gamma 分布，忘记检查参数是否同 $\lambda$ 。 $\Gamma(2,3)+\Gamma(3,5)$ 不是 Gamma 分布。

看到指数函数就误判为指数族。 必须能写成标准的 $c(\theta)\exp\{\sum Q_j(\theta)T_j(x)\}h(x)$ 分离形式，且支持集不依赖参数。

判断指数族时忽略支持集检查。 $U(0,\theta)$ 是最常见的”看起来像但实际不是”的例子。

条件卡

结论： $\chi^2(n)=\Gamma(n/2,1/2)$ 。 **成立条件：**由独立标准正态平方和构造。 **不能用在：**非标准化、相关正态的平方和不经处理直接套用。 **常见误套场景：**直接把 $(X_i-\mu)^2/\sigma^2$ 求和——这没问题（ $X_i$ 是独立正态 হলে就行）。但不要把非正态的平方和也当成 $\chi^2$ 。
结论： $T=\frac{X}{\sqrt{K/n}}\sim t(n)$ 。 成立条件： $X\sim N(0,1)$ ， $K\sim\chi^2(n)$ ，且独立。 **不能用在：**分子分母不独立或分母不是对应自由度的独立 $\chi^2$ 。常见陷阱： $\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ ，不是 $t(n)$ 。 **常见误套场景：**分母用了 $\chi^2(n)$ 但自由度写成 $n$ 而不是样本对应的 $n-1$ （在单样本情形下）。
**结论：**指数族可写成 $c(\theta)\exp\{\sum Q_j(\theta)T_j(x)\}h(x)$ 。 **成立条件：**参数部分和样本部分能完全分离，且支持集不依赖参数。 **不能用在：**参数和样本混杂、支持集依赖参数的情形。 **常见误套场景：**只看到 $\exp$ 就说”这是指数族”。一定要逐条核对： $h(x)$ 不含参数？ $Q_j(\theta)$ 不含 $x$ ？支持集不依赖 $\theta$ ？
结论： $T^2\sim F(1,n)$ 当 $T\sim t(n)$ 。 成立条件： $T\sim t(n)$ 。 **不能用在：**非 $t$ 分布的平方不能随意套用 $F$ 分布。 **常见误套场景：**把任何标准化统计量的平方都当成 $F(1,n)$ 。

九、习题区

1. 概念题

为什么说 Gamma 分布是统计推断中的”母分布”之一？ 它和 $\chi^2$ 、指数分布、 $t$ 分布分别有什么关系？
$t$ 分布为什么比标准正态尾部更厚？ 这一现象背后的直觉是什么？当自由度 $n\to\infty$ 时， $t$ 分布为什么会趋近于标准正态？
指数族为什么和充分统计量关系密切？ 如果某分布族不是指数族（如 $U(0,\theta)$ ），它的充分统计量通常具有什么不同的特征？

2. 标准题

写出 $\chi^2(n)$ 、 $t(n)$ 、 $F(m,n)$ 的定义（用标准正态和 $\chi^2$ 构造）。
证明：若 $X_1\sim\Gamma(\alpha_1,\lambda)$ ， $X_2\sim\Gamma(\alpha_2,\lambda)$ 且独立，则 $X_1+X_2\sim\Gamma(\alpha_1+\alpha_2,\lambda)$ 。提示：用卷积或矩母函数。
判断下列分布族是否属于指数族，若是则写出其标准形式和充分统计量：
- (a) $\text{Binomial}(m,p)$ ， $m$ 已知， $0<p<1$
- (b) $\text{Exponential}(\lambda)$ ， $\lambda>0$
- (c) $U(0,\theta)$ ， $\theta>0$

3. 综合题

分布关系链的梳理。 从 $Z\sim N(0,1)$ 出发：
- (a) 说明 $Z^2\sim\chi^2(1)$ 。
- (b) 推广到 $n$ 个独立 $Z_i$ ： $\sum Z_i^2\sim\chi^2(n)$ 。
- (c) 利用第二讲的正态样本三大结论，证明 $\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ 。
- (d) 利用 (b) 和独立性，证明 $\frac{S_X^2}{S_Y^2}$ （在 $\sigma_X^2=\sigma_Y^2$ 时）服从 $F(m-1,n-1)$ 。
指数族与充分统计量的预期。 对下列模型族，在不使用因子分解定理的情况下，仅根据指数族的形式预测其充分统计量：
- (a) $X_1,\dots,X_n\sim\text{Poisson}(\lambda)$
- (b) $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ ， $\mu$ 未知， $\sigma^2$ 已知
- (c) $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ ，两个参数均未知下一讲我们将用因子分解定理来验证这些预测。
思考题：为什么要学这么多分布？ 用自己的话总结 $\chi^2$ 、 $t$ 、 $F$ 三种分布分别在统计推断中解决什么问题。如果统计推断只需要正态分布就够，为什么还需要这些”古怪”的分布？

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句”用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

第03讲 Gamma分布、χ²/t/F分布与指数族

讲义信息

先看全局

本讲的叙事线

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查

三、核心概念

3.1 Gamma 分布：统计推断中的”母分布”

3.1.1 动机：为什么需要 Gamma 分布？

3.1.2 定义与直觉

3.1.3 Gamma 分布的封闭性：它为什么不惧怕”加法”

3.1.4 基本数字特征

3.2 χ2\chi^2χ2 分布：平方和的天然语言

3.2.1 动机与定义

3.2.2 密度与数字特征

3.2.3 χ2\chi^2χ2 的加法性质

3.3 ttt 分布：当 σ\sigmaσ 未知时

3.3.1 动机：一个”卡住”的问题

3.3.2 定义与构造

3.3.3 ttt 分布的性质

3.4 FFF 分布：方差的比较

3.4.1 动机：为什么需要比较两个方差？

3.4.2 定义与构造

3.4.3 FFF 分布的性质

3.5 Beta 分布：比例与排序的语言

3.5.1 动机：Beta 分布何时出现？

3.5.2 定义与基本性质

3.6 非中心分布（概念了解）

3.7 指数族：统一视角

3.7.1 动机：这么多分布，有什么共同点？

3.7.2 标准形式

3.7.3 典型例子：把常见分布族写成指数族形式

3.7.4 常见分布族的指数族归属

四、推导与证明

1. 证明依赖

2. 证明思路概览

五、关键公式释义

1. Gamma 分布密度

2. χ2\chi^2χ2 分布与 Gamma 的关系

3. ttt 分布构造式

4. FFF 分布构造式

5. 指数族标准形式

六、例题与变式

1. 标准题

2. 变式题

3. 标准题：指数族判定

4. 题型提醒

七、章节连接

八、复习整理

高频误套

条件卡

九、习题区

1. 概念题

2. 标准题

3. 综合题

附：排版约定

3.2 $\chi^2$ 分布：平方和的天然语言

3.2.3 $\chi^2$ 的加法性质

3.3 $t$ 分布：当 $\sigma$ 未知时

3.3.3 $t$ 分布的性质

3.4 $F$ 分布：方差的比较

3.4.3 $F$ 分布的性质

2. $\chi^2$ 分布与 Gamma 的关系

3. $t$ 分布构造式

4. $F$ 分布构造式