Skip to content
Lokkue's Notes
Go back

第04讲 充分统计量与最小充分统计量

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:样本中哪些信息和参数有关,哪些信息是”多余”的。
  • 已知什么:参数模型 FθF_\theta 和样本 X1,,XnX_1,\dots,X_n
  • 未知什么:是否存在某个统计量能完整保留关于 θ\theta 的信息。
  • 核心统计对象:充分统计量、因子分解定理、最小充分统计量。
  • 本讲结论最终服务什么推断任务:后续最优无偏估计都依赖”先压缩信息,再在压缩后统计量上优化”。

先看全局

上一讲结束时,我们进入了一个非常重要的概念——指数族。我们花了大量篇幅把 Bernoulli、正态、Poisson、指数等常见分布族写成同一个代数形式:

p(x;θ)=c(θ)exp ⁣{j=1kQj(θ)Tj(x)}h(x).p(x;\theta)=c(\theta)\exp\!\left\{\sum_{j=1}^k Q_j(\theta)T_j(x)\right\}h(x).

当时我们反复提醒一件事:只要分布能写成这种形式,那么 (T1,,Tk)(T_1,\dots,T_k) 就天然是充分统计量的候选。 但有一个问题被悬在了空中——“充分统计量”到底是什么意思?为什么指数族形式能自动给出它?

这一讲就来回答这些问题。

从”信息”的视角看统计推断

前面三讲我们一直在研究统计量及其分布。但有一个更深刻的问题始终藏在背后:

你辛辛苦苦收集了一堆样本 X1,,XnX_1,\dots,X_n,但样本中关于参数 θ\theta 的信息,真的需要全部保留吗?

举个具体的例子。假设你抛了 100 次硬币,记录了每次的正反结果:

1,0,0,1,1,1,0,0,1,0,1,0,0,1,1,1,0,0,1,0,\dots

现在你想知道硬币正面概率 pp。请你思考一个问题:你真的需要知道”第 3 次是反面、第 5 次是正面”这些顺序细节吗? 还是说,只要知道”100 次里正面出现了 47 次”就足够了?

答案是:对于推断 pp 来说,知道总成功次数就已经足够了。 样本中 1100 出现的顺序、哪个位置上是 11 这些”细节”,与参数 pp 无关。换句话说,T=XiT=\sum X_i 已经提取了样本中关于 pp 的全部信息,剩下的都是”噪音”。

这就是”充分统计量”的直觉画像:它是样本中关于参数 θ\theta 的”信息浓缩包”。 一旦知道了这个浓缩包,原始样本中那些额外的细节对推断 θ\theta 就再也没有额外的贡献了。

本讲的叙事线

  1. 充分统计量的直觉与定义。 —— 用”信息浓缩包”建立直觉,然后给出严格的数学定义。
  2. 因子分解定理:判别的利器。 —— 不需要每次都算条件分布,用因子分解就能判断充分性。
  3. 典型模型中的充分统计量。 —— Bernoulli、指数、正态、均匀分布——看不同模型下充分统计量长什么样。
  4. 最小充分统计量。 —— 充分统计量不唯一,哪个是最”精简”的?密度比值法登场。
  5. 指数族与充分统计量的天然联系。 —— 把上一讲的指数族和本讲的充分统计量串起来。

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

在本讲中,下面几个概念容易被混淆,请特别留意:

3. 模型前提检查

[!warning]+ 条件先检查

  • 充分性的定义依赖的是”给定统计量后的条件分布不含参数”。
  • 因子分解定理需要样本的联合密度或联合概率函数存在并可写出。
  • 最小充分统计量的比值判别法依赖联合密度比值与参数无关这一结构。
  • 支持集若依赖参数(如 U(0,θ)U(0,\theta)),做因子分解时要格外小心——此时指数族形式不再适用,充分统计量的形式也会发生变化。

三、核心概念

3.1 充分统计量的直觉:信息浓缩包

在给出严格的数学定义之前,我们先来做两个思维实验。这比直接背诵公式要重要得多。

思维实验一:Bernoulli 样本。

你抛一枚硬币 nn 次,结果为 X1,,XnX_1,\dots,X_n11 表示正面,00 表示反面),你想要推断正面概率 pp

现在问你两个问题:

  1. 知道 Xi=47\sum X_i=47(正面总次数)后,你还关心”第 3 次和第 5 次的结果记录分别是 X3=0,X5=1X_3=0,X_5=1“这个额外信息吗?
  2. 如果不知道 Xi\sum X_i,只告诉你”第 1 次是正面,第 2 次是反面,第 3 次是正面……”这些顺序细节,你对 pp 能有多精确的认知?

对第一个问题,答案是否定的——给定总成功次数后,具体哪些位置是 11、哪些位置是 00,对 pp 的推断已经没有额外帮助了。这背后有深刻的理由:给定 T=XiT=\sum X_i 后,XX 的条件分布是均匀地分布在所有 (nT)\binom{n}{T} 种组合上,与 pp 无关。

对第二个问题,答案是”效率很低”——因为顺序细节本身没有告诉你 pp 有多大;你需要自己从顺序中”数出”成功次数,而这个次数才是真正承载参数信息的量。

这个思维实验揭示了充分统计量的本质:

T(X)T(X) 是充分统计量,当且仅当:一旦知道了 TT 的值,XX 的剩余部分对参数 θ\theta 不再提供额外信息。

换句话说,T(X)T(X) 已经”榨干了”样本中关于 θ\theta 的全部信号。

思维实验二:正态样本。

假设 X1,,XnN(μ,1)X_1,\dots,X_n\sim N(\mu,1)μ\mu 未知。样本包含了两类信息:均值位置的信息(μ\mu 是多少)和样本内部的随机波动细节。但是——哪个统计量承载了均值位置的全部信息?

直觉告诉我们:样本均值 X\overline{X}。因为正态分布是一个”位置参数”的分布族,而 X\overline{X} 天然包含了样本的”重心”信息。

你可能会问:Xi\sum X_i 呢?它不也承载了同样的信息吗? 是的,Xi\sum X_iX\overline{X} 只差一个常数倍 nn,它们包含的信息完全相同。这就引出了一个重要的观察:充分统计量不是唯一的——做一一对应的可逆变换后,新的统计量仍然充分。

3.2 充分统计量的正式定义

[!definition]+ 充分统计量 设样本来自参数模型 {Fθ:θΘ}\{F_\theta:\theta\in\Theta\}。若对任意固定的 tt,样本在条件 T(X)=tT(X)=t 下的条件分布不依赖于参数 θ\theta,则称 T(X)T(X) 为参数 θ\theta 的充分统计量。

用途:充分统计量是”信息压缩不丢参数信息”的统计量,是后续最优推断的基础。

正文说明:

这条定义在说什么?

关键就在”条件分布不含参数”这半句话。让我们把它翻译成人话:

因此,全部与 θ\theta 有关的信息已经被 TT 捕获了。

[!tip]+ 初学者的第一个困惑 很多人在刚接触定义时会问:“条件分布不含参数”怎么就算”信息压缩”了?

这个逻辑链条是这样的:如果条件分布还含参数,那就说明知道了 TT 之后,XX 还能提供关于 θ\theta 的额外信息——TT 没有”榨干”信号。反过来,如果条件分布已经不含参数,那就说明 TT 已经把 θ\theta 的信息提取完了,不需要再看 XX 的另外部分了。

所以,“条件分布不含参数”等价于”TT 已包含全部参数信息”。

3.3 最小充分统计量的直觉与定义

现在我们已经知道,充分统计量不唯一。在 Bernoulli 样本中,Xi\sum X_i 是充分统计量,(Xi,X1)(\sum X_i, X_1) 也是充分统计量,(X1,,Xn)(X_1,\dots,X_n) 本身也是充分统计量(因为原始样本显然包含了全部信息)。

但一个自然的问题是:这些充分统计量中,哪一个是最”精简”的? 我们当然希望用于推断的统计量尽可能小——因为统计量越小,信息的”信噪比”就越高。

这就引出了最小充分统计量的概念:在所有充分统计量中,它是最”不冗余”的那一个。任何一个其他充分统计量都至少包含它的信息——换句话说,最小充分统计量对样本的分类是最”粗糙”的,但它仍然保留了全部参数信息。

[!definition]+ 最小充分统计量 若 T(X)T(X) 是充分统计量,且任何其他充分统计量 S(X)S(X) 都能”推出” T(X)T(X)——即存在函数 φ\varphi 使得

T(X)=φ(S(X)),T(X)=\varphi(S(X)),

则称 T(X)T(X) 为最小充分统计量。

用途:它代表”最不冗余”的充分信息表达。后续 Rao-Blackwell 改进时,应尽量对最小充分统计量条件化。

正文说明:

[!note]+ 对比辨析:充分统计量 vs 最小充分统计量

维度充分统计量最小充分统计量
定义给定 TT 后样本条件分布不含参数任何其他充分统计量都能推出它
是否唯一不唯一(一一变换后仍充分)不唯一(一一变换后仍最小充分)
冗余程度可能有冗余无冗余(最精炼)
判别方法因子分解定理密度比值法或函数关系
实用价值做 Rao-Blackwell 改进的基础做最优 Rao-Blackwell 改进的目标
典型例子Xi\sum X_i(Xi,X1)(\sum X_i,X_1) 都充分Xi\sum X_i 最小充分,(Xi,X1)(\sum X_i,X_1) 不是最小

四、统计量与分布

4.1 因子分解定理:判别充分性的主力工具

现在我们已经知道充分统计量的定义了。但是如果每次都从条件分布出发去验证充分性,那将是一场灾难——因为计算条件分布通常需要复杂的求和或积分。

幸运的是,Neyman 和 Fisher 给出了一个极其好用的判别工具。

为什么要研究因子分解? 因为”条件分布不含参数”这个定义虽然优雅,但实操性差。我们需要一个更”代数”化的工具——只要看看联合密度能不能拆成”含参数部分 ×\times 不含参数部分”就够了。

[!theorem]+ Neyman-Fisher 因子分解定理 设样本联合密度或联合概率函数为 p(x;θ)p(x;\theta)。统计量 T(X)T(X) 对参数 θ\theta 充分,当且仅当存在函数 gghh 使得

p(x;θ)=g(T(x);θ)h(x),p(x;\theta)=g(T(x);\theta)\,h(x),

其中 gg 依赖于样本只通过 T(x)T(x),而 hh 与参数 θ\theta 无关。

用途:这是判别充分统计量的主力工具,在实际做题中几乎完全替代了”硬算条件分布”的方法。

正文说明:

做题三步法

因子分解定理在应用时可以机械化成三个步骤。这三步会让你在几乎所有充分性判别题中立于不败之地:

  1. **写联合密度:**写出 nn 个样本的联合密度或联合概率函数 p(x1,,xn;θ)p(x_1,\dots,x_n;\theta)
  2. **分离参数部分:**把所有与 θ\theta 有关的因子整理到一起,看看它们能不能表达成只依赖某个 T(x)T(x) 的函数 g(T(x);θ)g(T(x);\theta)
  3. **合并无关部分:**剩下所有不含 θ\theta 的因子(包括指示函数中与 θ\theta 无关的部分)并到 h(x)h(x) 里。

只要这三步做出来,T(x)T(x) 通常是充分统计量。

[!warning]+ 因子分解定理使用中的一个重要陷阱 因子分解定理要求我们在整个样本空间上考虑分解。如果样本空间(支持集)本身依赖 θ\theta,那么 h(x)h(x) 中的指示函数 I{xsuppθ}I\{x\in \text{supp}_\theta\} 不能简单地归入 h(x)h(x)——因为指示函数中含 θ\theta

典型例子是 U(0,θ)U(0,\theta):它的联合密度写成 1θnI{x(n)θ}I{x(1)0}\frac{1}{\theta^n}I\{x_{(n)}\le \theta\}I\{x_{(1)}\ge 0\}。这里 I{x(n)θ}I\{x_{(n)}\le \theta\}θ\theta,所以必须放进 gg 中。这迫使 TT 必须包含 x(n)x_{(n)}——这与指数族模型的充分统计量形式截然不同。

4.2 典型例子

让我们通过一系列例子来巩固因子分解定理的使用。

例 1:Bernoulli 样本

模型: X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)0<p<10<p<1

联合概率函数:

p(x;p)=pi=1nxi(1p)ni=1nxiI{xi=0,1}.p(x;p)=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}\,I\{x_i=0,1\}.

现在做因子分解:

等式右边有两部分:

因此可以令:

T=i=1nXi,g(T;p)=pT(1p)nT,h(x)=I{xi{0,1}, i}.T=\sum_{i=1}^n X_i,\quad g(T;p)=p^{T}(1-p)^{n-T},\quad h(x)=I\{x_i\in\{0,1\},\ \forall i\}.

由因子分解定理,T=XiT=\sum X_ipp 的充分统计量。

含义解析:这个结果完全符合直觉。在 Bernoulli 样本中,成功次数 Xi\sum X_i 确实包含了关于 pp 的全部信息——样本中哪些位置是成功、哪些是失败,与 pp 无关。这就是为什么在估计 pp 时,我们通常只关心成功比例 X\overline{X},而不会去问”第 3 次是不是成功了”。

例 2:指数分布样本

模型: X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)λ>0\lambda>0

联合密度:

p(x;λ)=λnexp ⁣{λi=1nxi}I{xi>0, i}.p(x;\lambda)=\lambda^n\exp\!\left\{-\lambda\sum_{i=1}^n x_i\right\}I\{x_i>0,\ \forall i\}.

因子分解:

因此 T=i=1nXiT=\sum_{i=1}^n X_iλ\lambda 的充分统计量。

含义解析:指数分布是 Gamma 分布的特例(α=1\alpha=1),而 Gamma 分布属于指数族。指数族的结果再次印证:求和型统计量在指数族中天然充分

例 3:正态样本(单参数,σ\sigma 已知)

模型: X1,,XnNi.i.d.(μ,σ02)X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} N(\mu,\sigma_0^2)μ\mu 未知,σ02\sigma_0^2 已知。

联合密度:

p(x;μ)=1(2πσ02)n/2exp ⁣{12σ02i=1n(xiμ)2}.p(x;\mu)=\frac{1}{(2\pi\sigma_0^2)^{n/2}}\exp\!\left\{-\frac{1}{2\sigma_0^2}\sum_{i=1}^n (x_i-\mu)^2\right\}.

展开平方项:

(xiμ)2=(xi22μxi+μ2)=xi22μxi+nμ2.\sum(x_i-\mu)^2=\sum(x_i^2-2\mu x_i+\mu^2)=\sum x_i^2-2\mu\sum x_i+n\mu^2.

代入联合密度:

p(x;μ)=1(2πσ02)n/2exp ⁣{nμ22σ02}只含 μexp ⁣{μσ02Q(μ)xiT(x)}exp ⁣{xi22σ02}不含 μ.p(x;\mu)=\underbrace{\frac{1}{(2\pi\sigma_0^2)^{n/2}}\exp\!\left\{-\frac{n\mu^2}{2\sigma_0^2}\right\}}_{\text{只含}\ \mu} \cdot\exp\!\left\{\underbrace{\frac{\mu}{\sigma_0^2}}_{Q(\mu)}\underbrace{\sum x_i}_{T(x)}\right\} \cdot\underbrace{\exp\!\left\{-\frac{\sum x_i^2}{2\sigma_0^2}\right\}}_{\text{不含}\ \mu}.

因此 T=i=1nXiT=\sum_{i=1}^n X_iμ\mu 的充分统计量(等价地,X\overline{X} 也是充分的)。

例 4:正态样本(双参数,μ,σ2\mu,\sigma^2 均未知)

模型: X1,,XnNi.i.d.(μ,σ2)X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} N(\mu,\sigma^2)μ,σ2\mu,\sigma^2 均未知。

联合密度:

p(x;μ,σ2)=1(2πσ2)n/2exp ⁣{12σ2i=1n(xiμ)2}.p(x;\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\!\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right\}.

展开并整理:

p(x;μ,σ2)=1(2πσ2)n/2exp ⁣{nμ22σ2}exp ⁣{μσ2xi12σ2xi2}1.p(x;\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\!\left\{-\frac{n\mu^2}{2\sigma^2}\right\} \cdot\exp\!\left\{\frac{\mu}{\sigma^2}\sum x_i-\frac{1}{2\sigma^2}\sum x_i^2\right\}\cdot 1.

此时参数部分通过两个通道依赖样本:xi\sum x_ixi2\sum x_i^2。因此充分统计量是二维的:

T(X)=(i=1nXi, i=1nXi2).T(X)=\left(\sum_{i=1}^n X_i,\ \sum_{i=1}^n X_i^2\right).

含义解析:当 μ\muσ2\sigma^2 都未知时,一个单一的统计量无法同时承载位置信息和尺度信息。需要两个统计量分别捕获这两种信息。这也对应了上一讲指出的:双参数正态分布是二阶指数族,其充分统计量的维度就是 2。

同样地,(X,S2)(\overline{X},S^2) 也是充分统计量——因为 (X,S2)(\overline{X},S^2)(Xi,Xi2)(\sum X_i,\sum X_i^2) 之间存在一一对应的可逆变换:

Xi=nX,Xi2=(n1)S2+nX2.\sum X_i = n\overline{X},\qquad \sum X_i^2 = (n-1)S^2 + n\overline{X}^2.

例 5:均匀分布 U(0,θ)U(0,\theta)

模型: X1,,Xni.i.d.U(0,θ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} U(0,\theta)θ>0\theta>0

联合密度:

p(x;θ)=1θnI{0<xi<θ, i}=1θnI{x(n)<θ}I{x(1)>0}.p(x;\theta)=\frac{1}{\theta^n}I\{0<x_i<\theta,\ \forall i\} =\frac{1}{\theta^n}I\{x_{(n)}<\theta\}I\{x_{(1)}>0\}.

这里出现了关键问题:支持集依赖 θ\theta。指示函数 I{x(n)<θ}I\{x_{(n)}<\theta\} 既含 θ\theta 又含样本,而且它不能写成单纯的”与参数有关”的形式——它表达了 θ\theta 对样本空间的限制。

进行因子分解:将 I{x(n)<θ}I\{x_{(n)}<\theta\}θn\theta^{-n} 一起放入 gg

g(x(n);θ)=1θnI{x(n)<θ},h(x)=I{x(1)>0}.g(x_{(n)};\theta)=\frac{1}{\theta^n}I\{x_{(n)}<\theta\},\qquad h(x)=I\{x_{(1)}>0\}.

因此 T=X(n)T=X_{(n)}(样本最大值)是 θ\theta 的充分统计量。

含义解析U(0,θ)U(0,\theta) 是一个”参数决定样本范围”的模型。最大值 X(n)X_{(n)} 包含了关于 θ\theta 的全部信息——因为如果你知道了最大值,你就知道 θ\theta 至少有多大,而样本中其他点的具体位置并不提供关于 θ\theta 上界的额外信息。这与指数族模型形成鲜明对比:指数族的充分统计量通常是求和形式,而基于支持集的模型(如均匀分布)的充分统计量通常是极值统计量。

例 6:均匀分布 U(θ,θ+1)U(\theta,\theta+1)

模型: X1,,Xni.i.d.U(θ,θ+1)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} U(\theta,\theta+1)θR\theta\in\mathbb{R}

联合密度:

p(x;θ)=I{θ<xi<θ+1, i}=I{x(1)>θ}I{x(n)<θ+1}.p(x;\theta)=I\{\theta<x_i<\theta+1,\ \forall i\} =I\{x_{(1)}>\theta\}I\{x_{(n)}<\theta+1\}.

注意:这里没有 θn\theta^{-n} 因子(区间长度固定为 1,不依赖 θ\theta)。但支持集仍然依赖 θ\theta

因子分解:

g(x(1),x(n);θ)=I{x(1)>θ}I{x(n)<θ+1},h(x)=1.g(x_{(1)},x_{(n)};\theta)=I\{x_{(1)}>\theta\}I\{x_{(n)}<\theta+1\},\qquad h(x)=1.

因此 T=(X(1),X(n))T=(X_{(1)},X_{(n)})θ\theta 的充分统计量。

[!note]+ 对比辨析:U(0,θ)U(0,\theta)U(θ,θ+1)U(\theta,\theta+1) 的充分统计量

维度U(0,θ)U(0,\theta)U(θ,θ+1)U(\theta,\theta+1)
参数含义θ\theta 是上界θ\theta 是位置参数(区间起点)
区间长度θ\theta(依赖参数)11(固定,不依赖参数)
充分统计量X(n)X_{(n)}(X(1),X(n))(X_{(1)},X_{(n)})
为什么是一个/两个?下界固定为 00,只需最大值估计 θ\theta上下界都依赖 θ\theta,需要两个极值同时定位区间位置
是否属于指数族

关键洞察:两个模型的支持集都依赖参数,所以都不属于指数族。但 U(θ,θ+1)U(\theta,\theta+1) 的区间长度固定,参数只控制区间位置(不控制区间长度),因此需要最小值和最大值两个统计量共同确定 θ\theta

4.3 最小充分统计量的判别:密度比值法

因子分解定理告诉我们一个统计量是否充分。但如何进一步判断它是不是”最小”充分?也就是说,如何证明已经无法再进一步压缩了?

为什么要关心最小充分? 因为在实际推断中,我们不仅希望信息不丢失,还希望信息载体尽可能精简——冗余的信息会干扰推断的效率。密度比值法给了我们一个判断标准。

[!theorem]+ 最小充分统计量的密度比值判别法 设样本联合密度或联合概率函数为 p(x;θ)p(x;\theta)。若对任意两个样本点 x,yx,y

p(x;θ)p(y;θ) 与 θ 无关T(x)=T(y),\frac{p(x;\theta)}{p(y;\theta)}\ \text{与}\ \theta\ \text{无关} \quad\Longleftrightarrow\quad T(x)=T(y),

T(X)T(X) 是最小充分统计量。

用途:这是证明”某个充分统计量已经不能再压缩”的标准方法。

正文说明:

一个例子:Bernoulli 样本的最小充分统计量

我们已经知道 T=XiT=\sum X_ipp 的充分统计量。现在证明它是最小的。

取任意两个样本点 x=(x1,,xn)x=(x_1,\dots,x_n)y=(y1,,yn)y=(y_1,\dots,y_n)。比值为:

p(x;p)p(y;p)=pxi(1p)nxipyi(1p)nyi=pxiyi(1p)(yixi)=(p1p)xiyi.\frac{p(x;p)}{p(y;p)}=\frac{p^{\sum x_i}(1-p)^{n-\sum x_i}}{p^{\sum y_i}(1-p)^{n-\sum y_i}} =p^{\sum x_i-\sum y_i}(1-p)^{(\sum y_i-\sum x_i)} =\left(\frac{p}{1-p}\right)^{\sum x_i-\sum y_i}.

这个比值与 pp 无关,当且仅当 xiyi=0\sum x_i-\sum y_i=0,即 xi=yi\sum x_i=\sum y_i。因此比值与参数无关     T(x)=T(y)\iff T(x)=T(y)。由密度比值法,T=XiT=\sum X_ipp 的最小充分统计量。

正态样本下的最小充分统计量(Xi,Xi2)(\sum X_i,\sum X_i^2) 也是最小充分的。证明思路类似:比值化简后,要求与 (μ,σ2)(\mu,\sigma^2) 无关,可推出 xi=yi\sum x_i=\sum y_ixi2=yi2\sum x_i^2=\sum y_i^2

[!warning]+ 密度比值法使用注意事项

  • 密度比值法不用于证明充分性,而是用于在已知充分性之后进一步证明最小性
  • 如果样本空间中有某些点的密度为 00(即落在支持集外),需要仔细处理——比值可能未定义。
  • 对于支持集依赖参数的情形(如 U(0,θ)U(0,\theta)),也要谨慎使用比值法,因为比值中可能涉及指示函数的比值。

五、主要结论

1. 指数族天然给出充分统计量

上一讲我们花了大量篇幅介绍指数族。现在,曾经埋下的伏笔终于可以收回了。

[!theorem]+ 指数族天然给出充分统计量 若联合密度可写成指数族标准形式

p(x;θ)=c(θ)exp ⁣{j=1kQj(θ)Tj(x)}h(x),p(x;\theta)=c(\theta)\exp\!\left\{\sum_{j=1}^k Q_j(\theta)T_j(x)\right\}h(x),

且支持集不依赖 θ\theta,则

T(X)=(T1(X),,Tk(X))T(X)=(T_1(X),\dots,T_k(X))

是参数 θ\theta 的充分统计量。进一步地,如果参数空间 Θ\Theta 包含一个开矩形,则 TT 还是最小充分统计量

用途:指数族中的充分统计量”看公式就能直接读出”——这是指数族在统计推断中如此重要的原因之一。

正文说明:

2. 最小充分统计量的”信息最精简”结论

[!theorem]+ 最小充分统计量是最精简的信息表达 若 T(X)T(X) 是最小充分统计量,则:

  • TT 保留了样本中关于 θ\theta 的全部信息;
  • 任何其他充分统计量 S(X)S(X) 都能通过某个函数 φ\varphi “还原”出 TT,即 T=φ(S)T=\varphi(S)
  • 最小充分统计量对样本空间的划分是最粗糙的(即等价类最大),但仍然保留全部参数信息。

用途:后续做 Rao-Blackwell 改进时,应尽量对最小充分统计量条件化——这样得到的估计量在无偏的前提下,方差最小化潜力最大。

[!warning]+ 使用边界

  • 充分统计量不是唯一的,一一变换后仍然充分。
  • “充分”不等于”最小充分”,还需要进一步判别——先证充分,再证最小。
  • 支持集依赖参数时,因子分解定理和密度比值法的使用要更细致。
  • 指数族模型中的自然充分统计量通常就是最小充分的,但仍需验证参数空间条件。

关键公式释义

1. 充分统计量的定义式

P(XAT(X)=t) 与 θ 无关P(X\in A\mid T(X)=t)\ \text{与}\ \theta\ \text{无关}

2. 因子分解定理

p(x;θ)=g(T(x);θ)h(x)p(x;\theta)=g(T(x);\theta)\,h(x)

3. 最小充分统计量的比值判别

p(x;θ)p(y;θ) 与 θ 无关  T(x)=T(y)\frac{p(x;\theta)}{p(y;\theta)}\ \text{与}\ \theta\ \text{无关}\ \Longleftrightarrow\ T(x)=T(y)

六、推导与证明

1. 证明依赖

2. 证明思路

[!proof]- 📐 深度推导:因子分解定理的证明思路(充分性方向)

我们需要证明:如果 p(x;θ)=g(T(x);θ)h(x)p(x;\theta)=g(T(x);\theta)h(x),那么 TT 是充分的。

这里只给出证明思路的”旁白”,完整证明需要涉及测度论细节,在实际课中通常只要求掌握充分性方向(即因子分解 \Rightarrow 充分)。

证明策略(离散情形):

第一步:写出条件概率的定义式。

Pθ(X=xT(X)=t)=Pθ(X=x, T(X)=t)Pθ(T(X)=t).P_\theta(X=x\mid T(X)=t)= \frac{P_\theta(X=x,\ T(X)=t)}{P_\theta(T(X)=t)}.

第二步:分子的处理。X=xX=xT(X)=tT(X)=t 这一事件,当 T(x)tT(x)\neq t 时概率为 00;当 T(x)=tT(x)=t 时,分子就是 p(x;θ)p(x;\theta)

第三步:分母是 TT 的边际分布。需要将 Pθ(T(X)=t)P_\theta(T(X)=t) 写成对所有满足 T(x)=tT(x)=txx 求和:

Pθ(T=t)={x:T(x)=t}p(x;θ).P_\theta(T=t)=\sum_{\{x: T(x)=t\}} p(x;\theta).

第四步:将因子分解 p(x;θ)=g(T(x);θ)h(x)p(x;\theta)=g(T(x);\theta)h(x) 代入:

  • 分子:当 T(x)=tT(x)=t 时,p(x;θ)=g(t;θ)h(x)p(x;\theta)=g(t;\theta)h(x)
  • 分母:{x:T(x)=t}g(t;θ)h(x)=g(t;θ){x:T(x)=t}h(x)\sum_{\{x:T(x)=t\}} g(t;\theta)h(x)=g(t;\theta)\sum_{\{x:T(x)=t\}} h(x)

第五步:约去 g(t;θ)g(t;\theta)

Pθ(X=xT=t)=h(x){x:T(x)=t}h(x).P_\theta(X=x\mid T=t)=\frac{h(x)}{\sum_{\{x':T(x')=t\}} h(x')}.

这个结果中 θ\theta 已经消失了!

为什么 g(t;θ)g(t;\theta) 能被约掉? 因为分子和分母都含有同一个 g(t;θ)g(t;\theta) 因子。g(t;θ)g(t;\theta) 在分子中来自 p(x;θ)p(x;\theta) 的分解,在分母中来自求和时从每一项中提取出来。正是这个”同时出现在分子和分母中”的事实,使得 θ\theta 被消掉——条件是 g(t;θ)g(t;\theta) 不能为 00,这对密度为正的区域通常成立。

这个推导的核心洞察:因子分解之所以有效,是因为它把参数从条件分布中”消去”了。g(t;θ)g(t;\theta) 在分子和分母中成对出现,互相抵消——留下的 h(x)h(x) 就是与 θ\theta 无关的”噪音”部分。

用途:这是理解”为什么因子分解能判定充分性”的关键。不必背推导过程,但要理解这个”消去”的逻辑。

[!proof]- 📐 深度推导:密度比值法的合理性

为什么”比值与 θ\theta 无关     T(x)=T(y)\iff T(x)=T(y)“能判定最小充分性?

第一步:充分统计量诱导的等价关系。

任何一个统计量 TT 都会在样本空间上诱导一个等价关系:xTyx\sim_T y 当且仅当 T(x)=T(y)T(x)=T(y)。这个等价关系越”粗糙”(等价类越大),TT 对样本的压缩程度就越高。

第二步:两个充分统计量之间的比较。

假设 TTSS 都是充分统计量。由因子分解定理,存在分解:

p(x;θ)=gT(T(x);θ)hT(x),p(x;θ)=gS(S(x);θ)hS(x).p(x;\theta)=g_T(T(x);\theta)h_T(x),\qquad p(x;\theta)=g_S(S(x);\theta)h_S(x).

如果 TT 能被 SS “推出”(即 T=φ(S)T=\varphi(S)),那么 SS 的等价类比 TT 更粗糙——因为只要 S(x)=S(y)S(x)=S(y),就一定有 T(x)=T(y)T(x)=T(y)

第三步:比值条件的含义。

比值条件 p(x;θ)p(y;θ)\frac{p(x;\theta)}{p(y;\theta)}θ\theta 无关     T(x)=T(y)\iff T(x)=T(y) 的意思是:TT 恰好将那些”对参数而言不可区分”的点归到同一个等价类里

让我们用一个具体的流程来理解:

  1. 如果 T(x)=T(y)T(x)=T(y),那么比值等于 h(x)h(y)\frac{h(x)}{h(y)}(由因子分解),与 θ\theta 无关。
  2. 如果比值与 θ\theta 无关,那么 T(x)=T(y)T(x)=T(y)——这是关键方向。它意味着任何比 TT 更粗糙的分类(即把某些 T(x)T(y)T(x)\neq T(y) 的点也归入同一等价类)都会让比值依赖 θ\theta,因此不够充分。

第四步:为什么这叫”最小”。

假设存在另一个充分统计量 SS。由充分性,SS 的等价类划分不能比 TT 的更粗糙(否则比值条件会破坏充分性)。因此 TT 是”最粗糙”的充分划分——这就是”最小”的含义。

用途:这个证明理解即可,考试中一般不会要求默写。关键是要记住比值法操作步骤和它的逻辑基础。

[!proof]- Bernoulli 样本中 Xi\sum X_i 充分的因子分解证明

X1,,XnB(1,p)X_1,\dots,X_n\sim B(1,p),则联合概率函数为

p(x;p)=pxi(1p)nxiI{xi=0,1}.p(x;p)=p^{\sum x_i}(1-p)^{n-\sum x_i}I\{x_i=0,1\}.

写成因子分解形式:

p(x;p)=g(xi;p)h(x),p(x;p)=g\left(\sum x_i;p\right)\,h(x),

其中

g(xi;p)=pxi(1p)nxi,h(x)=I{xi=0,1}.g\left(\sum x_i;p\right)=p^{\sum x_i}(1-p)^{n-\sum x_i},\qquad h(x)=I\{x_i=0,1\}.

由因子分解定理,T=i=1nXiT=\sum_{i=1}^n X_ipp 的充分统计量。

用途:这是最经典的充分统计量判别模板,适用于各类离散分布。

七、例题与变式

1. 标准题:指数分布

**题型:**证明题

题目:

X1,,XnE(λ)X_1,\dots,X_n\sim E(\lambda),证明 T=i=1nXiT=\sum_{i=1}^n X_i 是参数 λ\lambda 的充分统计量。

解题思路(先理顺再动笔):

解答:

指数样本的联合密度为

p(x;λ)=λnexp ⁣(λi=1nxi)I{xi>0}.p(x;\lambda)=\lambda^n\exp\!\left(-\lambda\sum_{i=1}^n x_i\right)I\{x_i>0\}.

写成因子分解形式:

p(x;λ)=g(T(x);λ)h(x),p(x;\lambda)=g(T(x);\lambda)h(x),

其中

g(T(x);λ)=λneλT(x),h(x)=I{xi>0, i},T(x)=i=1nxi.g(T(x);\lambda)=\lambda^n e^{-\lambda T(x)},\qquad h(x)=I\{x_i>0,\ \forall i\},\qquad T(x)=\sum_{i=1}^n x_i.

因此由因子分解定理,T=XiT=\sum X_iλ\lambda 的充分统计量。

常见坑点提醒:

2. 标准题:正态分布(双参数)

**题型:**证明题

题目:

X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2)μ,σ2\mu,\sigma^2 均未知。用因子分解定理证明

T=(i=1nXi, i=1nXi2)T=\left(\sum_{i=1}^n X_i,\ \sum_{i=1}^n X_i^2\right)

(μ,σ2)(\mu,\sigma^2) 的充分统计量。

解题思路:

解答:

p(x;μ,σ2)=1(2πσ2)n/2exp ⁣{12σ2i=1n(xiμ)2}p(x;\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{n/2}} \exp\!\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right\}

展开平方项:

(xiμ)2=xi22μxi+nμ2.\sum(x_i-\mu)^2=\sum x_i^2-2\mu\sum x_i+n\mu^2.

代入:

p(x;μ,σ2)=1(2πσ2)n/2exp ⁣{nμ22σ2}只含 μ,σ2exp ⁣{μσ2Q1(θ)xiT1(x)+(12σ2)Q2(θ)xi2T2(x)}1.p(x;\mu,\sigma^2)=\underbrace{\frac{1}{(2\pi\sigma^2)^{n/2}} \exp\!\left\{-\frac{n\mu^2}{2\sigma^2}\right\}}_{\text{只含}\ \mu,\sigma^2} \cdot\exp\!\left\{\underbrace{\frac{\mu}{\sigma^2}}_{Q_1(\theta)}\underbrace{\sum x_i}_{T_1(x)} +\underbrace{\left(-\frac{1}{2\sigma^2}\right)}_{Q_2(\theta)}\underbrace{\sum x_i^2}_{T_2(x)}\right\} \cdot 1.

由因子分解定理,T=(Xi,Xi2)T=(\sum X_i,\sum X_i^2)(μ,σ2)(\mu,\sigma^2) 的充分统计量。

等价地(X,S2)(\overline{X},S^2) 也是充分统计量,因为一一变换不改变充分性:

X=1nXi,S2=1n1(Xi2nX2).\overline{X}=\frac{1}{n}\sum X_i,\qquad S^2=\frac{1}{n-1}\left(\sum X_i^2-n\overline{X}^2\right).

3. 综合题:最小充分统计量判别

**题型:**判别题

题目:

X1,,XnB(1,p)X_1,\dots,X_n\sim B(1,p),证明 Xi\sum X_ipp 的最小充分统计量。

解题思路:

解答:

第一步(充分性): 前面已经证明,T=XiT=\sum X_i 是充分的。

第二步(最小性): 对任意两个样本点 x,yx,y

p(x;p)p(y;p)=pxi(1p)nxipyi(1p)nyi=pxiyi(1p)yixi=(p1p)xiyi.\frac{p(x;p)}{p(y;p)}=\frac{p^{\sum x_i}(1-p)^{n-\sum x_i}}{p^{\sum y_i}(1-p)^{n-\sum y_i}} =p^{\sum x_i-\sum y_i}(1-p)^{\sum y_i-\sum x_i} =\left(\frac{p}{1-p}\right)^{\sum x_i-\sum y_i}.

这个比值与 pp 无关,当且仅当 xiyi=0\sum x_i-\sum y_i=0,即 xi=yi\sum x_i=\sum y_i

由密度比值法,T=XiT=\sum X_ipp 的最小充分统计量。

答案解读: 这说明在 Bernoulli 样本中,除了总成功次数 Xi\sum X_i 之外,没有任何其他充分统计量能提供更”粗糙”的等价类划分——比如 (Xi,X1)(\sum X_i,X_1) 虽然也充分,但它比 Xi\sum X_i 多保留了 X1X_1 的信息,因此不是最小充分。

4. 变式题汇总

5. 题型提醒

[!tip]+ 做题顺序:充分统计量判别类题目的通用流程

  1. 先判断模型是否属于指数族。 如果是,直接读出 Tj(x)T_j(x),然后用因子分解验证。
  2. 如果不是指数族(或者支持集依赖参数),先写联合密度,然后尝试因子分解——特别注意指示函数。
  3. 要看清楚参数个数:单参数模型通常对应一维充分统计量,但 U(θ,θ+1)U(\theta,\theta+1) 虽是单参数却需要二维统计量。
  4. 如果需要证明最小充分,先做因子分解证明充分,再做密度比值证明最小。
  5. 记住关键结论:一一变换不改变充分性,也不改变最小充分性。

八、章节连接

向后一讲的伏笔

本讲探讨了”如何压缩信息而不丢失参数信息”。下一讲将在此基础上做一件更具体的事:

假设你已经有⼀个无偏估计量 θ^\hat\theta(但它可能不是最优的)。如果把它在充分统计量 TT 的条件下取条件期望,得到的新估计量 θ~=E(θ^T)\tilde\theta=E(\hat\theta\mid T) 仍然是 θ\theta 的无偏估计,而且方差更小(或至少不增大)。

这就是 Rao-Blackwell 定理的核心思想。它告诉我们:充分统计量不仅是”信息压缩”的工具,更是”改进估计”的工具。

九、复习整理

[!summary]+ 本讲小结

  • **研究的问题:**如何用尽可能小的统计量保留全部参数信息。
  • **使用的模型:**参数模型 {Fθ}\{F_\theta\} 和 i.i.d. 样本。
  • 核心统计量:Xi\sum X_i(Xi,Xi2)(\sum X_i,\sum X_i^2)X(n)X_{(n)}(X(1),X(n))(X_{(1)},X_{(n)})
  • 关键结论:
    1. 充分统计量的定义:给定 TT 后样本条件分布不含参数。
    2. 因子分解定理:p(x;θ)=g(T(x);θ)h(x)p(x;\theta)=g(T(x);\theta)h(x)——判别充分性的主力工具。
    3. 最小充分统计量的密度比值法:比值与 θ\theta 无关     T(x)=T(y)\iff T(x)=T(y)
    4. 指数族天然给出(最小)充分统计量——衔接第三讲。
  • **最重要的条件:**联合密度可分解(因子分解定理);支持集不依赖参数(指数族)。
  • **本讲最终服务什么推断任务:**为后续在充分统计量上做 Rao-Blackwell 改进、获得 UMVUE 铺路。

高频误套

[!warning]+ 常见错误

  • 只因为某统计量”看起来重要”就说它充分。 看到 X\overline{X} 就说充分——这是图样图森破。必须用因子分解定理或定义严格验证。
  • 证明了充分性就以为已经证明了最小充分性。 这是最常犯的错误之一。“充分”和”最小充分”是两个不同的概念,后者需要额外的比值判别。
  • 忘记一一变换后的统计量仍然充分。 如果 TT 充分,那么 φ(T)\varphi(T)φ\varphi 是一一变换)也充分。同理,TT 最小充分则 φ(T)\varphi(T) 也最小充分。
  • 支持集依赖参数时,仍机械套用因子分解而不考虑指示函数。 例如 U(0,θ)U(0,\theta) 中的 I{x(n)<θ}I\{x_{(n)}<\theta\},必须放入 gg 而不是 hh
  • 混淆”充分统计量”和”完全统计量”。 完全性(completeness)是另一个更强的概念,下一讲会涉及。充分不一定完全,但完全最小充分统计量是 UMVUE 的关键。

条件卡

  1. 结论: T(X)T(X) 是充分统计量。 成立条件: 给定 T(X)T(X) 后样本条件分布不含参数,或满足因子分解定理。 不能用在: 只凭直觉判断”它应该保留了很多信息”——必须用数学工具验证。 常见误套场景: 把重要统计量误当成充分统计量(例如把 U(0,θ)U(0,\theta) 中的 X\overline{X} 当成充分统计量)。

  2. 结论: 指数族中的自然统计量 Tj(x)T_j(x) 是充分统计量。 成立条件: 联合密度能写成标准指数族形式,且支持集不依赖参数。 不能用在: 样本联合密度并未真正分离参数部分和样本部分,或支持集依赖参数。 常见误套场景: 只看单个样本密度,不看联合密度就下结论。

  3. 结论: T(X)T(X) 是最小充分统计量。 成立条件: TT 充分,且联合密度比值与 θ\theta 无关当且仅当 T(x)=T(y)T(x)=T(y)不能用在: 只证明了充分性但没有最小性判别。 常见误套场景: 把”充分”与”最小充分”混写。

  4. 结论: 一一变换后的充分统计量仍然充分。 成立条件: φ\varphi 是可逆函数(一一映射)。 不能用在: φ\varphi 不是一对一,或者 φ\varphi 的定义域不是 TT 的值域。 常见误套场景: 忘记检查可逆性,把非一一变换后的结果也当作充分统计量。

十、习题区

1. 概念题

  1. **用自己的话解释:**为什么说充分统计量是”信息压缩”而不是”信息丢失”?给定 TT 后样本条件分布不含参数这件事,与”信息压缩”有什么关系?

  2. **一一变换与充分性:**如果 TTθ\theta 的充分统计量,那么 X=1nT\overline{X}=\frac{1}{n}T 也是充分统计量吗?X2\overline{X}^2 呢?说明理由。

  3. 最小充分统计量的”最小”体现在哪里? 它是”维度最低”还是”函数最精简”?为什么说”最小”指的是等价类划分的粗糙程度?

2. 标准题

  1. 用因子分解定理证明 Bernoulli 样本中 Xi\sum X_ipp 的充分统计量。进一步,用密度比值法证明它是最小充分的。

  2. X1,,XnNi.i.d.(μ,σ02)X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} N(\mu,\sigma_0^2)σ02\sigma_0^2 已知。用因子分解定理求出 μ\mu 的充分统计量。

  3. X1,,XnUi.i.d.(0,θ)X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} U(0,\theta)θ>0\theta>0。求 θ\theta 的充分统计量。(提示:注意支持集依赖参数。)

  4. X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} \text{Poisson}(\lambda)

    • (a) 写出联合概率函数。
    • (b) 写出指数族标准形式,直接读出充分统计量。
    • (c) 用因子分解定理验证。

3. 综合题

  1. 充分统计量的差异比较。 比较 U(0,θ)U(0,\theta)U(θ,θ+1)U(\theta,\theta+1) 两个模型中充分统计量的差异,并解释原因。为什么前者只需要一个统计量而后者需要两个?

  2. 指数族与充分统计量的关系。 说明为什么指数族在统计推断中如此重要。如果某分布族是 kk 阶指数族,我们能立刻知道关于充分统计量的什么信息?反过来,如果某分布族不是指数族(如 U(0,θ)U(0,\theta)),其充分统计量的形式和指数族有什么不同?

  3. 思考题:充分统计量与后续推断。 假设你已经找到了一个充分统计量 TT。在估计参数 θ\theta 时,为什么应该”只看 TT 而不看原始样本”?如果直接用原始样本 (X1,,Xn)(X_1,\dots,X_n) 做估计(它本身也是”充分”的),会有什么问题?提示:考虑估计量的方差——统计量维度越高,方差控制的难度越大。

4. 做题思路与常见坑点

[!tip]+ 充分统计量判别题通用思路

  • 第一步:辨别模型类型。 是指数族还是非指数族?支持集是否依赖参数?
  • 第二步:写出联合密度。 注意不要漏掉指示函数!
  • 第三步:尝试因子分解。 将所有与 θ\theta 有关的项整理到一起,观察它们通过哪个 T(x)T(x) 与样本互动。
  • 第四步:验证最小性(如果需要)。 使用密度比值法,检查”比值与 θ\theta 无关     T(x)=T(y)\iff T(x)=T(y)”。

常见坑点:

  • 忽略联合密度中的指示函数(特别是在支持集依赖参数时)。
  • gghh 的位置搞反——gg 必须含 θ\theta 且依赖 TThh 不能含 θ\theta
  • 证完充分就默认已经证了最小充分——这是两个不同的概念!
  • X\overline{X}Xi\sum X_i 当成两个不同的充分统计量——它们本质上含相同的信息(只差常数倍)。

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句”用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

Edit page

Previous Post
第03讲 Gamma分布、χ²/t/F分布与指数族
Next Post
第05讲 点估计的评价与矩估计