讲义信息
- **课程:**数理统计
- **章节:**第 2 章后段,对应课件
lec2.3(2026)169(2)
- **讲次:**第 04 讲
- 日期:
- **对应大纲:**数理统计大纲
- **对应课件:**slides/lec2.3(2026)169(2).pdf
- **研究对象:**充分统计量、最小充分统计量以及它们的判别方法
- **统计任务:**把样本中与参数有关的信息压缩到尽可能小的统计量里
- **本讲结论用途:**为 Rao-Blackwell、Lehmann-Scheffe、UMVUE 和最优推断准备信息压缩框架
[!summary]+ 本讲导读
- 本讲研究的问题:样本中哪些信息和参数有关,哪些信息是”多余”的。
- 已知什么:参数模型 Fθ 和样本 X1,…,Xn。
- 未知什么:是否存在某个统计量能完整保留关于 θ 的信息。
- 核心统计对象:充分统计量、因子分解定理、最小充分统计量。
- 本讲结论最终服务什么推断任务:后续最优无偏估计都依赖”先压缩信息,再在压缩后统计量上优化”。
先看全局
上一讲结束时,我们进入了一个非常重要的概念——指数族。我们花了大量篇幅把 Bernoulli、正态、Poisson、指数等常见分布族写成同一个代数形式:
p(x;θ)=c(θ)exp{j=1∑kQj(θ)Tj(x)}h(x).
当时我们反复提醒一件事:只要分布能写成这种形式,那么 (T1,…,Tk) 就天然是充分统计量的候选。 但有一个问题被悬在了空中——“充分统计量”到底是什么意思?为什么指数族形式能自动给出它?
这一讲就来回答这些问题。
从”信息”的视角看统计推断
前面三讲我们一直在研究统计量及其分布。但有一个更深刻的问题始终藏在背后:
你辛辛苦苦收集了一堆样本 X1,…,Xn,但样本中关于参数 θ 的信息,真的需要全部保留吗?
举个具体的例子。假设你抛了 100 次硬币,记录了每次的正反结果:
1,0,0,1,1,1,0,0,1,0,…
现在你想知道硬币正面概率 p。请你思考一个问题:你真的需要知道”第 3 次是反面、第 5 次是正面”这些顺序细节吗? 还是说,只要知道”100 次里正面出现了 47 次”就足够了?
答案是:对于推断 p 来说,知道总成功次数就已经足够了。 样本中 1 和 0 出现的顺序、哪个位置上是 1 这些”细节”,与参数 p 无关。换句话说,T=∑Xi 已经提取了样本中关于 p 的全部信息,剩下的都是”噪音”。
这就是”充分统计量”的直觉画像:它是样本中关于参数 θ 的”信息浓缩包”。 一旦知道了这个浓缩包,原始样本中那些额外的细节对推断 θ 就再也没有额外的贡献了。
本讲的叙事线
- 充分统计量的直觉与定义。 —— 用”信息浓缩包”建立直觉,然后给出严格的数学定义。
- 因子分解定理:判别的利器。 —— 不需要每次都算条件分布,用因子分解就能判断充分性。
- 典型模型中的充分统计量。 —— Bernoulli、指数、正态、均匀分布——看不同模型下充分统计量长什么样。
- 最小充分统计量。 —— 充分统计量不唯一,哪个是最”精简”的?密度比值法登场。
- 指数族与充分统计量的天然联系。 —— 把上一讲的指数族和本讲的充分统计量串起来。
一、本讲定位
- 在课程中的位置:这是”抽样分布工具”之后,第一次把视角转向”信息压缩”。
- 和前一讲的连接:上一讲整理了指数族和若干核心分布,本讲会看到指数族天然带来充分统计量。上一讲的每个指数族例子,在本讲都变成”它的充分统计量是什么”的即时练习。
- 和后一讲的连接:下一讲将进入点估计与 UMVUE。充分统计量会成为核心技术——因为 Rao-Blackwell 定理告诉我们:在充分统计量的条件下做无偏估计,可以改进估计的方差。
- 本讲重点内容:
- 充分统计量的定义与直觉
- Neyman-Fisher 因子分解定理
- 典型模型中的充分统计量判别
- 最小充分统计量的密度比值判别法
- 指数族与充分统计量的联系
二、模型与前提
1. 研究模型
- **总体:**参数模型 {Fθ:θ∈Θ}。
- **参数空间:**由具体模型决定。
- 样本:X1,…,Xn。
- 抽样方式:默认简单随机样本(i.i.d.)。
- **参数含义:**研究重点是样本中”关于 θ 的信息”——即哪些样本特征是 θ 的”信号”,哪些是”噪音”。
2. 对象区分
在本讲中,下面几个概念容易被混淆,请特别留意:
- **样本本身 (X1,…,Xn):**包含所有观测信息——既有”信号”(与参数有关的部分),也有”噪音”(与参数无关的随机细节)。
- **统计量 T(X):**样本的函数。它可以很简单(如 ∑Xi),也可以很复杂(如样本中位数)。
- **充分统计量:**保留全部参数信息的统计量。给定 T(X) 后,样本的条件分布不再依赖参数——这意味着一旦你知道 T,原始样本的额外信息对参数推断已无价值。
- **最小充分统计量:**在所有充分统计量中最”精简”的那个——任何其他充分统计量都至少包含它的信息。
3. 模型前提检查
[!warning]+ 条件先检查
- 充分性的定义依赖的是”给定统计量后的条件分布不含参数”。
- 因子分解定理需要样本的联合密度或联合概率函数存在并可写出。
- 最小充分统计量的比值判别法依赖联合密度比值与参数无关这一结构。
- 支持集若依赖参数(如 U(0,θ)),做因子分解时要格外小心——此时指数族形式不再适用,充分统计量的形式也会发生变化。
三、核心概念
3.1 充分统计量的直觉:信息浓缩包
在给出严格的数学定义之前,我们先来做两个思维实验。这比直接背诵公式要重要得多。
思维实验一:Bernoulli 样本。
你抛一枚硬币 n 次,结果为 X1,…,Xn(1 表示正面,0 表示反面),你想要推断正面概率 p。
现在问你两个问题:
- 知道 ∑Xi=47(正面总次数)后,你还关心”第 3 次和第 5 次的结果记录分别是 X3=0,X5=1“这个额外信息吗?
- 如果不知道 ∑Xi,只告诉你”第 1 次是正面,第 2 次是反面,第 3 次是正面……”这些顺序细节,你对 p 能有多精确的认知?
对第一个问题,答案是否定的——给定总成功次数后,具体哪些位置是 1、哪些位置是 0,对 p 的推断已经没有额外帮助了。这背后有深刻的理由:给定 T=∑Xi 后,X 的条件分布是均匀地分布在所有 (Tn) 种组合上,与 p 无关。
对第二个问题,答案是”效率很低”——因为顺序细节本身没有告诉你 p 有多大;你需要自己从顺序中”数出”成功次数,而这个次数才是真正承载参数信息的量。
这个思维实验揭示了充分统计量的本质:
T(X) 是充分统计量,当且仅当:一旦知道了 T 的值,X 的剩余部分对参数 θ 不再提供额外信息。
换句话说,T(X) 已经”榨干了”样本中关于 θ 的全部信号。
思维实验二:正态样本。
假设 X1,…,Xn∼N(μ,1),μ 未知。样本包含了两类信息:均值位置的信息(μ 是多少)和样本内部的随机波动细节。但是——哪个统计量承载了均值位置的全部信息?
直觉告诉我们:样本均值 X。因为正态分布是一个”位置参数”的分布族,而 X 天然包含了样本的”重心”信息。
你可能会问:那 ∑Xi 呢?它不也承载了同样的信息吗? 是的,∑Xi 和 X 只差一个常数倍 n,它们包含的信息完全相同。这就引出了一个重要的观察:充分统计量不是唯一的——做一一对应的可逆变换后,新的统计量仍然充分。
3.2 充分统计量的正式定义
[!definition]+ 充分统计量
设样本来自参数模型 {Fθ:θ∈Θ}。若对任意固定的 t,样本在条件 T(X)=t 下的条件分布不依赖于参数 θ,则称 T(X) 为参数 θ 的充分统计量。
用途:充分统计量是”信息压缩不丢参数信息”的统计量,是后续最优推断的基础。
正文说明:
- **直觉理解:**充分统计量就像”信息浓缩包”。原样本是”一大包原材料”,充分统计量把它压成了一个浓缩包。压缩以后虽然丢掉了很多外观细节(样本的顺序、排列等),但没有丢掉和参数有关的部分。
- **和相邻概念的区别:**一般统计量只是样本的函数(如样本中位数、样本极差);充分统计量在”样本的函数”之上还要求”保留全部参数信息”。
- **题目里看到哪些信号会想到它:**出现”关于参数的全部信息""压缩样本""条件分布不含参数”等表述时,就要想到充分统计量。
这条定义在说什么?
关键就在”条件分布不含参数”这半句话。让我们把它翻译成人话:
- 联合分布 p(x1,…,xn;θ) 中包含关于 θ 的信息。
- 条件分布 p(x1,…,xn∣T=t) 中不再含 θ。
- 这意味着:一旦 T 的值被确定,原始样本 X 中剩余的信息已经和 θ 无关了。
因此,全部与 θ 有关的信息已经被 T 捕获了。
[!tip]+ 初学者的第一个困惑
很多人在刚接触定义时会问:“条件分布不含参数”怎么就算”信息压缩”了?
这个逻辑链条是这样的:如果条件分布还含参数,那就说明知道了 T 之后,X 还能提供关于 θ 的额外信息——T 没有”榨干”信号。反过来,如果条件分布已经不含参数,那就说明 T 已经把 θ 的信息提取完了,不需要再看 X 的另外部分了。
所以,“条件分布不含参数”等价于”T 已包含全部参数信息”。
3.3 最小充分统计量的直觉与定义
现在我们已经知道,充分统计量不唯一。在 Bernoulli 样本中,∑Xi 是充分统计量,(∑Xi,X1) 也是充分统计量,(X1,…,Xn) 本身也是充分统计量(因为原始样本显然包含了全部信息)。
但一个自然的问题是:这些充分统计量中,哪一个是最”精简”的? 我们当然希望用于推断的统计量尽可能小——因为统计量越小,信息的”信噪比”就越高。
这就引出了最小充分统计量的概念:在所有充分统计量中,它是最”不冗余”的那一个。任何一个其他充分统计量都至少包含它的信息——换句话说,最小充分统计量对样本的分类是最”粗糙”的,但它仍然保留了全部参数信息。
[!definition]+ 最小充分统计量
若 T(X) 是充分统计量,且任何其他充分统计量 S(X) 都能”推出” T(X)——即存在函数 φ 使得
T(X)=φ(S(X)),
则称 T(X) 为最小充分统计量。
用途:它代表”最不冗余”的充分信息表达。后续 Rao-Blackwell 改进时,应尽量对最小充分统计量条件化。
正文说明:
- 这里”最小”不是指数值最小,也不是说维度一定最低,而是指在函数意义下最精简——任何其他充分统计量都至少要有它那么多信息。
- 换个角度理解:最小充分统计量对样本空间做了”最粗糙的等价类划分”——两个样本点 x,y 被分到同一类,当且仅当它们对参数 θ 提供完全相同的信息。
- 后续讨论完备充分统计量和 UMVUE 时,最小充分统计量往往是首选对象。
[!note]+ 对比辨析:充分统计量 vs 最小充分统计量
| 维度 | 充分统计量 | 最小充分统计量 |
|---|
| 定义 | 给定 T 后样本条件分布不含参数 | 任何其他充分统计量都能推出它 |
| 是否唯一 | 不唯一(一一变换后仍充分) | 不唯一(一一变换后仍最小充分) |
| 冗余程度 | 可能有冗余 | 无冗余(最精炼) |
| 判别方法 | 因子分解定理 | 密度比值法或函数关系 |
| 实用价值 | 做 Rao-Blackwell 改进的基础 | 做最优 Rao-Blackwell 改进的目标 |
| 典型例子 | ∑Xi 和 (∑Xi,X1) 都充分 | ∑Xi 最小充分,(∑Xi,X1) 不是最小 |
四、统计量与分布
4.1 因子分解定理:判别充分性的主力工具
现在我们已经知道充分统计量的定义了。但是如果每次都从条件分布出发去验证充分性,那将是一场灾难——因为计算条件分布通常需要复杂的求和或积分。
幸运的是,Neyman 和 Fisher 给出了一个极其好用的判别工具。
为什么要研究因子分解? 因为”条件分布不含参数”这个定义虽然优雅,但实操性差。我们需要一个更”代数”化的工具——只要看看联合密度能不能拆成”含参数部分 × 不含参数部分”就够了。
[!theorem]+ Neyman-Fisher 因子分解定理
设样本联合密度或联合概率函数为 p(x;θ)。统计量 T(X) 对参数 θ 充分,当且仅当存在函数 g 和 h 使得
p(x;θ)=g(T(x);θ)h(x),
其中 g 依赖于样本只通过 T(x),而 h 与参数 θ 无关。
用途:这是判别充分统计量的主力工具,在实际做题中几乎完全替代了”硬算条件分布”的方法。
正文说明:
- 这个定理的精髓在于:参数必须被”锁”在 g(T(x);θ) 这一项里。如果 p(x;θ) 中任何一个与 θ 有关的因子不能写成”仅依赖 T(x)“的形式,那么 T 就不是充分统计量。
- h(x) 可以包含任何样本的函数,只要它不含 θ。也就是说,h(x) 承载的是与参数无关的”噪音”部分。
- 反过来看,一旦能实现这样的因子分解,T 的充分性就几乎是直接结论——因为联合密度已经被拆成”信息部分”和”噪音部分”了。
做题三步法
因子分解定理在应用时可以机械化成三个步骤。这三步会让你在几乎所有充分性判别题中立于不败之地:
- **写联合密度:**写出 n 个样本的联合密度或联合概率函数 p(x1,…,xn;θ)。
- **分离参数部分:**把所有与 θ 有关的因子整理到一起,看看它们能不能表达成只依赖某个 T(x) 的函数 g(T(x);θ)。
- **合并无关部分:**剩下所有不含 θ 的因子(包括指示函数中与 θ 无关的部分)并到 h(x) 里。
只要这三步做出来,T(x) 通常是充分统计量。
[!warning]+ 因子分解定理使用中的一个重要陷阱
因子分解定理要求我们在整个样本空间上考虑分解。如果样本空间(支持集)本身依赖 θ,那么 h(x) 中的指示函数 I{x∈suppθ} 不能简单地归入 h(x)——因为指示函数中含 θ。
典型例子是 U(0,θ):它的联合密度写成 θn1I{x(n)≤θ}I{x(1)≥0}。这里 I{x(n)≤θ} 含 θ,所以必须放进 g 中。这迫使 T 必须包含 x(n)——这与指数族模型的充分统计量形式截然不同。
4.2 典型例子
让我们通过一系列例子来巩固因子分解定理的使用。
例 1:Bernoulli 样本
模型: X1,…,Xn∼i.i.d.B(1,p),0<p<1。
联合概率函数:
p(x;p)=p∑i=1nxi(1−p)n−∑i=1nxiI{xi=0,1}.
现在做因子分解:
等式右边有两部分:
- p∑xi(1−p)n−∑xi:这个因子既含 p 又含 ∑xi。它只通过 ∑xi 依赖样本——这正是 g(T(x);p) 的候选。
- I{xi=0,1}:这个因子只限制每个 xi 取 0 或 1,不含 p——归入 h(x)。
因此可以令:
T=i=1∑nXi,g(T;p)=pT(1−p)n−T,h(x)=I{xi∈{0,1}, ∀i}.
由因子分解定理,T=∑Xi 是 p 的充分统计量。
含义解析:这个结果完全符合直觉。在 Bernoulli 样本中,成功次数 ∑Xi 确实包含了关于 p 的全部信息——样本中哪些位置是成功、哪些是失败,与 p 无关。这就是为什么在估计 p 时,我们通常只关心成功比例 X,而不会去问”第 3 次是不是成功了”。
例 2:指数分布样本
模型: X1,…,Xn∼i.i.d.E(λ),λ>0。
联合密度:
p(x;λ)=λnexp{−λi=1∑nxi}I{xi>0, ∀i}.
因子分解:
- λnexp{−λ∑xi}:含 λ,且只通过 ∑xi 依赖样本 → g(∑xi;λ)。
- I{xi>0}:不含 λ → h(x)。
因此 T=∑i=1nXi 是 λ 的充分统计量。
含义解析:指数分布是 Gamma 分布的特例(α=1),而 Gamma 分布属于指数族。指数族的结果再次印证:求和型统计量在指数族中天然充分。
例 3:正态样本(单参数,σ 已知)
模型: X1,…,XnNi.i.d.∼(μ,σ02),μ 未知,σ02 已知。
联合密度:
p(x;μ)=(2πσ02)n/21exp{−2σ021i=1∑n(xi−μ)2}.
展开平方项:
∑(xi−μ)2=∑(xi2−2μxi+μ2)=∑xi2−2μ∑xi+nμ2.
代入联合密度:
p(x;μ)=只含 μ(2πσ02)n/21exp{−2σ02nμ2}⋅exp⎩⎨⎧Q(μ)σ02μT(x)∑xi⎭⎬⎫⋅不含 μexp{−2σ02∑xi2}.
因此 T=∑i=1nXi 是 μ 的充分统计量(等价地,X 也是充分的)。
例 4:正态样本(双参数,μ,σ2 均未知)
模型: X1,…,XnNi.i.d.∼(μ,σ2),μ,σ2 均未知。
联合密度:
p(x;μ,σ2)=(2πσ2)n/21exp{−2σ21i=1∑n(xi−μ)2}.
展开并整理:
p(x;μ,σ2)=(2πσ2)n/21exp{−2σ2nμ2}⋅exp{σ2μ∑xi−2σ21∑xi2}⋅1.
此时参数部分通过两个通道依赖样本:∑xi 和 ∑xi2。因此充分统计量是二维的:
T(X)=(i=1∑nXi, i=1∑nXi2).
含义解析:当 μ 和 σ2 都未知时,一个单一的统计量无法同时承载位置信息和尺度信息。需要两个统计量分别捕获这两种信息。这也对应了上一讲指出的:双参数正态分布是二阶指数族,其充分统计量的维度就是 2。
同样地,(X,S2) 也是充分统计量——因为 (X,S2) 和 (∑Xi,∑Xi2) 之间存在一一对应的可逆变换:
∑Xi=nX,∑Xi2=(n−1)S2+nX2.
例 5:均匀分布 U(0,θ)
模型: X1,…,Xn∼i.i.d.U(0,θ),θ>0。
联合密度:
p(x;θ)=θn1I{0<xi<θ, ∀i}=θn1I{x(n)<θ}I{x(1)>0}.
这里出现了关键问题:支持集依赖 θ。指示函数 I{x(n)<θ} 既含 θ 又含样本,而且它不能写成单纯的”与参数有关”的形式——它表达了 θ 对样本空间的限制。
进行因子分解:将 I{x(n)<θ} 和 θ−n 一起放入 g:
g(x(n);θ)=θn1I{x(n)<θ},h(x)=I{x(1)>0}.
因此 T=X(n)(样本最大值)是 θ 的充分统计量。
含义解析:U(0,θ) 是一个”参数决定样本范围”的模型。最大值 X(n) 包含了关于 θ 的全部信息——因为如果你知道了最大值,你就知道 θ 至少有多大,而样本中其他点的具体位置并不提供关于 θ 上界的额外信息。这与指数族模型形成鲜明对比:指数族的充分统计量通常是求和形式,而基于支持集的模型(如均匀分布)的充分统计量通常是极值统计量。
例 6:均匀分布 U(θ,θ+1)
模型: X1,…,Xn∼i.i.d.U(θ,θ+1),θ∈R。
联合密度:
p(x;θ)=I{θ<xi<θ+1, ∀i}=I{x(1)>θ}I{x(n)<θ+1}.
注意:这里没有 θ−n 因子(区间长度固定为 1,不依赖 θ)。但支持集仍然依赖 θ。
因子分解:
g(x(1),x(n);θ)=I{x(1)>θ}I{x(n)<θ+1},h(x)=1.
因此 T=(X(1),X(n)) 是 θ 的充分统计量。
[!note]+ 对比辨析:U(0,θ) 与 U(θ,θ+1) 的充分统计量
| 维度 | U(0,θ) | U(θ,θ+1) |
|---|
| 参数含义 | θ 是上界 | θ 是位置参数(区间起点) |
| 区间长度 | θ(依赖参数) | 1(固定,不依赖参数) |
| 充分统计量 | X(n) | (X(1),X(n)) |
| 为什么是一个/两个? | 下界固定为 0,只需最大值估计 θ | 上下界都依赖 θ,需要两个极值同时定位区间位置 |
| 是否属于指数族 | 否 | 否 |
关键洞察:两个模型的支持集都依赖参数,所以都不属于指数族。但 U(θ,θ+1) 的区间长度固定,参数只控制区间位置(不控制区间长度),因此需要最小值和最大值两个统计量共同确定 θ。
4.3 最小充分统计量的判别:密度比值法
因子分解定理告诉我们一个统计量是否充分。但如何进一步判断它是不是”最小”充分?也就是说,如何证明已经无法再进一步压缩了?
为什么要关心最小充分? 因为在实际推断中,我们不仅希望信息不丢失,还希望信息载体尽可能精简——冗余的信息会干扰推断的效率。密度比值法给了我们一个判断标准。
[!theorem]+ 最小充分统计量的密度比值判别法
设样本联合密度或联合概率函数为 p(x;θ)。若对任意两个样本点 x,y,
p(y;θ)p(x;θ) 与 θ 无关⟺T(x)=T(y),
则 T(X) 是最小充分统计量。
用途:这是证明”某个充分统计量已经不能再压缩”的标准方法。
正文说明:
- 直觉理解:比值 p(x;θ)/p(y;θ) 告诉我们:在给定参数 θ 下,观测到 x 的可能性是观测到 y 的多少倍。如果这个比值与 θ 无关,那就说明 x 和 y 对参数 θ 的”区分能力”完全相同——它们是”可交换”的样本点。
- 最小充分统计量做的事情,就是把那些互相”不可区分”的样本点归到同一类。T(x)=T(y) 正是这种分类的规则——它把所有”等价”的样本点贴上同一个标签。
- 使用方法:要证明 T 是最小充分,需要做两件事:(1) 证明 T 充分(通常用因子分解定理);(2) 证明比值与 θ 无关 ⟺T(x)=T(y)。第 (2) 步又可以拆成两个方向:
- ⟸ 方向:如果 T(x)=T(y),那么比值与 θ 无关。这一步通常很简单——因为 p(x;θ) 中与 θ 有关的部分只通过 T 进入。
- ⟹ 方向:如果比值与 θ 无关,则 T(x)=T(y)。这一步是关键——它证明了没有比 T 更粗糙的充分统计量。
一个例子:Bernoulli 样本的最小充分统计量
我们已经知道 T=∑Xi 是 p 的充分统计量。现在证明它是最小的。
取任意两个样本点 x=(x1,…,xn),y=(y1,…,yn)。比值为:
p(y;p)p(x;p)=p∑yi(1−p)n−∑yip∑xi(1−p)n−∑xi=p∑xi−∑yi(1−p)(∑yi−∑xi)=(1−pp)∑xi−∑yi.
这个比值与 p 无关,当且仅当 ∑xi−∑yi=0,即 ∑xi=∑yi。因此比值与参数无关 ⟺T(x)=T(y)。由密度比值法,T=∑Xi 是 p 的最小充分统计量。
正态样本下的最小充分统计量:(∑Xi,∑Xi2) 也是最小充分的。证明思路类似:比值化简后,要求与 (μ,σ2) 无关,可推出 ∑xi=∑yi 且 ∑xi2=∑yi2。
[!warning]+ 密度比值法使用注意事项
- 密度比值法不用于证明充分性,而是用于在已知充分性之后进一步证明最小性。
- 如果样本空间中有某些点的密度为 0(即落在支持集外),需要仔细处理——比值可能未定义。
- 对于支持集依赖参数的情形(如 U(0,θ)),也要谨慎使用比值法,因为比值中可能涉及指示函数的比值。
五、主要结论
1. 指数族天然给出充分统计量
上一讲我们花了大量篇幅介绍指数族。现在,曾经埋下的伏笔终于可以收回了。
[!theorem]+ 指数族天然给出充分统计量
若联合密度可写成指数族标准形式
p(x;θ)=c(θ)exp{j=1∑kQj(θ)Tj(x)}h(x),
且支持集不依赖 θ,则
T(X)=(T1(X),…,Tk(X))
是参数 θ 的充分统计量。进一步地,如果参数空间 Θ 包含一个开矩形,则 T 还是最小充分统计量。
用途:指数族中的充分统计量”看公式就能直接读出”——这是指数族在统计推断中如此重要的原因之一。
正文说明:
- 这个定理直接来自因子分解定理:令 g(T(x);θ)=c(θ)exp{∑Qj(θ)Tj(x)},h(x) 保持不变,则因子分解立刻成立。
- “最小充分”的额外条件(参数空间包含开矩形)是为了确保统计量不会因为参数空间的约束而出现冗余。在大多数常见模型中,这个条件自动满足。
- 这解释了为什么我们在上一讲反复强调”指数族形式”:它直接揭示了充分统计量的结构。
2. 最小充分统计量的”信息最精简”结论
[!theorem]+ 最小充分统计量是最精简的信息表达
若 T(X) 是最小充分统计量,则:
- T 保留了样本中关于 θ 的全部信息;
- 任何其他充分统计量 S(X) 都能通过某个函数 φ “还原”出 T,即 T=φ(S);
- 最小充分统计量对样本空间的划分是最粗糙的(即等价类最大),但仍然保留全部参数信息。
用途:后续做 Rao-Blackwell 改进时,应尽量对最小充分统计量条件化——这样得到的估计量在无偏的前提下,方差最小化潜力最大。
[!warning]+ 使用边界
- 充分统计量不是唯一的,一一变换后仍然充分。
- “充分”不等于”最小充分”,还需要进一步判别——先证充分,再证最小。
- 支持集依赖参数时,因子分解定理和密度比值法的使用要更细致。
- 指数族模型中的自然充分统计量通常就是最小充分的,但仍需验证参数空间条件。
关键公式释义
1. 充分统计量的定义式
P(X∈A∣T(X)=t) 与 θ 无关
- **来源:**这是从”保留全部参数信息”的想法直接抽象出来的定义。条件分布不依赖参数,意味着知道 T 之后,样本的剩余细节已无参数信息。
- **式子拆解:**这里真正的核心不是”条件分布”这个数学对象有多复杂,而是”一旦我知道了 T,样本中还剩什么?还剩的信息是否与 θ 有关?“这个思维过程。
- **含义:**一旦知道了 T(X),原样本里关于 θ 的信息就已经取完了。T 是 θ 的”信息代言人”。
- **使用提醒:**定义本身最本质,但实际做题通常不用硬算条件分布,而是转去用因子分解定理——把定义的理解保留在思维层面即可。
2. 因子分解定理
p(x;θ)=g(T(x);θ)h(x)
- **来源:**把联合密度拆成”含参数部分”和”不含参数部分”。
- **式子拆解:**右边的 g(T(x);θ) 负责装载参数信息(通过 T(x) 与样本互动),h(x) 负责装载和参数无关的样本细节。参数只能通过 T 作用于密度。
- 含义:参数 θ 必须完全通过 T(x) 来影响联合密度。这意味着样本中所有与 θ 有关的信息都已浓缩到 T 上。
- **使用提醒:**这是判别充分性的主工具。看到指数族时尤其要先想到它。但要记住:因子分解定理不能直接处理支持集依赖参数的情形——此时指示函数中的 θ 要小心处理。
3. 最小充分统计量的比值判别
p(y;θ)p(x;θ) 与 θ 无关 ⟺ T(x)=T(y)
- **来源:**不同样本点对参数的”区分能力”是否相同。如果比值与 θ 无关,那么 x 和 y 对 θ 来说就是”不可区分”的。
- **式子拆解:**比值若与 θ 无关,说明 x 和 y 在给定参数下的相对似然是常数——它们属于同一个”等价类”。T 把具有相同似然比的样本点归为一类。
- 含义:T 是最小充分统计量,意味着 T 对样本空间的划分正好对应那些”对参数而言不可区分的等价类”——不能再细分了,否则信息就会丢失。
- **使用提醒:**这条判别法不是用来证明”充分”的,而是用来进一步证明”最小充分”的。先做因子分解证明充分,再做比值判别证明最小。
六、推导与证明
1. 证明依赖
- 用到的定义:充分统计量、最小充分统计量。
- 用到的前序定理:联合密度乘积形式、指数族表达。
- 用到的分布性质:条件分布、联合密度比值。
- 用到的关键技巧:因子分解、比值与参数无关判别。
2. 证明思路
- **证明充分性:**优先尝试因子分解。三步走:写联合密度、分离参数部分、合并无关部分。
- **证明最小充分:**先证明充分性,然后用密度比值法证明”比值与参数无关 ⟺T(x)=T(y)”。
- **指数族模型:**直接读出 Tj(x),往往最省力。
- **支持集依赖参数模型:**小心处理指示函数中的 θ,把含 θ 的指示函数并入 g。
[!proof]- 📐 深度推导:因子分解定理的证明思路(充分性方向)
我们需要证明:如果 p(x;θ)=g(T(x);θ)h(x),那么 T 是充分的。
这里只给出证明思路的”旁白”,完整证明需要涉及测度论细节,在实际课中通常只要求掌握充分性方向(即因子分解 ⇒ 充分)。
证明策略(离散情形):
第一步:写出条件概率的定义式。
Pθ(X=x∣T(X)=t)=Pθ(T(X)=t)Pθ(X=x, T(X)=t).
第二步:分子的处理。X=x 且 T(X)=t 这一事件,当 T(x)=t 时概率为 0;当 T(x)=t 时,分子就是 p(x;θ)。
第三步:分母是 T 的边际分布。需要将 Pθ(T(X)=t) 写成对所有满足 T(x)=t 的 x 求和:
Pθ(T=t)={x:T(x)=t}∑p(x;θ).
第四步:将因子分解 p(x;θ)=g(T(x);θ)h(x) 代入:
- 分子:当 T(x)=t 时,p(x;θ)=g(t;θ)h(x)。
- 分母:∑{x:T(x)=t}g(t;θ)h(x)=g(t;θ)∑{x:T(x)=t}h(x)。
第五步:约去 g(t;θ):
Pθ(X=x∣T=t)=∑{x′:T(x′)=t}h(x′)h(x).
这个结果中 θ 已经消失了!
为什么 g(t;θ) 能被约掉? 因为分子和分母都含有同一个 g(t;θ) 因子。g(t;θ) 在分子中来自 p(x;θ) 的分解,在分母中来自求和时从每一项中提取出来。正是这个”同时出现在分子和分母中”的事实,使得 θ 被消掉——条件是 g(t;θ) 不能为 0,这对密度为正的区域通常成立。
这个推导的核心洞察:因子分解之所以有效,是因为它把参数从条件分布中”消去”了。g(t;θ) 在分子和分母中成对出现,互相抵消——留下的 h(x) 就是与 θ 无关的”噪音”部分。
用途:这是理解”为什么因子分解能判定充分性”的关键。不必背推导过程,但要理解这个”消去”的逻辑。
[!proof]- 📐 深度推导:密度比值法的合理性
为什么”比值与 θ 无关 ⟺T(x)=T(y)“能判定最小充分性?
第一步:充分统计量诱导的等价关系。
任何一个统计量 T 都会在样本空间上诱导一个等价关系:x∼Ty 当且仅当 T(x)=T(y)。这个等价关系越”粗糙”(等价类越大),T 对样本的压缩程度就越高。
第二步:两个充分统计量之间的比较。
假设 T 和 S 都是充分统计量。由因子分解定理,存在分解:
p(x;θ)=gT(T(x);θ)hT(x),p(x;θ)=gS(S(x);θ)hS(x).
如果 T 能被 S “推出”(即 T=φ(S)),那么 S 的等价类比 T 更粗糙——因为只要 S(x)=S(y),就一定有 T(x)=T(y)。
第三步:比值条件的含义。
比值条件 p(y;θ)p(x;θ) 与 θ 无关 ⟺T(x)=T(y) 的意思是:T 恰好将那些”对参数而言不可区分”的点归到同一个等价类里。
让我们用一个具体的流程来理解:
- 如果 T(x)=T(y),那么比值等于 h(y)h(x)(由因子分解),与 θ 无关。
- 如果比值与 θ 无关,那么 T(x)=T(y)——这是关键方向。它意味着任何比 T 更粗糙的分类(即把某些 T(x)=T(y) 的点也归入同一等价类)都会让比值依赖 θ,因此不够充分。
第四步:为什么这叫”最小”。
假设存在另一个充分统计量 S。由充分性,S 的等价类划分不能比 T 的更粗糙(否则比值条件会破坏充分性)。因此 T 是”最粗糙”的充分划分——这就是”最小”的含义。
用途:这个证明理解即可,考试中一般不会要求默写。关键是要记住比值法操作步骤和它的逻辑基础。
[!proof]- Bernoulli 样本中 ∑Xi 充分的因子分解证明
若 X1,…,Xn∼B(1,p),则联合概率函数为
p(x;p)=p∑xi(1−p)n−∑xiI{xi=0,1}.
写成因子分解形式:
p(x;p)=g(∑xi;p)h(x),
其中
g(∑xi;p)=p∑xi(1−p)n−∑xi,h(x)=I{xi=0,1}.
由因子分解定理,T=∑i=1nXi 是 p 的充分统计量。
用途:这是最经典的充分统计量判别模板,适用于各类离散分布。
七、例题与变式
1. 标准题:指数分布
**题型:**证明题
题目:
设 X1,…,Xn∼E(λ),证明 T=∑i=1nXi 是参数 λ 的充分统计量。
解题思路(先理顺再动笔):
- **先判断统计任务:**这是充分性判别题。目标是证明 T 充分。
- **再判断工具:**看到联合密度有明确的乘积结构,优先选择因子分解定理。
- **关键操作:**把 λ 相关的所有项整理成只依赖 T(x) 的形式。
解答:
指数样本的联合密度为
p(x;λ)=λnexp(−λi=1∑nxi)I{xi>0}.
写成因子分解形式:
p(x;λ)=g(T(x);λ)h(x),
其中
g(T(x);λ)=λne−λT(x),h(x)=I{xi>0, ∀i},T(x)=i=1∑nxi.
因此由因子分解定理,T=∑Xi 为 λ 的充分统计量。
常见坑点提醒:
- 不要忘记指示函数 I{xi>0}。虽然它不含 λ,但它是联合密度中不可缺少的部分。
- g 函数中的 T(x) 是”统计量在样本点 x 上的取值”——它与随机变量 T(X) 的区别在于:T(x) 是确定性的数,T(X) 是随机变量。但在因子分解的写法中,这两者通常混用符号,需要注意区分。
2. 标准题:正态分布(双参数)
**题型:**证明题
题目:
设 X1,…,Xn∼N(μ,σ2),μ,σ2 均未知。用因子分解定理证明
T=(i=1∑nXi, i=1∑nXi2)
是 (μ,σ2) 的充分统计量。
解题思路:
- 联合密度是 n 个正态密度的乘积。
- 展开 (xi−μ)2=xi2−2μxi+μ2。
- 将 μ,σ2 相关的项尽量整理到 exp 的指数中,分离出 ∑xi 和 ∑xi2。
解答:
p(x;μ,σ2)=(2πσ2)n/21exp{−2σ21i=1∑n(xi−μ)2}
展开平方项:
∑(xi−μ)2=∑xi2−2μ∑xi+nμ2.
代入:
p(x;μ,σ2)=只含 μ,σ2(2πσ2)n/21exp{−2σ2nμ2}⋅exp⎩⎨⎧Q1(θ)σ2μT1(x)∑xi+Q2(θ)(−2σ21)T2(x)∑xi2⎭⎬⎫⋅1.
由因子分解定理,T=(∑Xi,∑Xi2) 是 (μ,σ2) 的充分统计量。
等价地,(X,S2) 也是充分统计量,因为一一变换不改变充分性:
X=n1∑Xi,S2=n−11(∑Xi2−nX2).
3. 综合题:最小充分统计量判别
**题型:**判别题
题目:
设 X1,…,Xn∼B(1,p),证明 ∑Xi 是 p 的最小充分统计量。
解题思路:
- 第一步:用因子分解证明 ∑Xi 充分(前面已经做过)。
- 第二步:用密度比值法证明它是最小充分——考察任意两个样本点 x,y 的比值何时与 p 无关。
解答:
第一步(充分性): 前面已经证明,T=∑Xi 是充分的。
第二步(最小性): 对任意两个样本点 x,y,
p(y;p)p(x;p)=p∑yi(1−p)n−∑yip∑xi(1−p)n−∑xi=p∑xi−∑yi(1−p)∑yi−∑xi=(1−pp)∑xi−∑yi.
这个比值与 p 无关,当且仅当 ∑xi−∑yi=0,即 ∑xi=∑yi。
由密度比值法,T=∑Xi 是 p 的最小充分统计量。
答案解读: 这说明在 Bernoulli 样本中,除了总成功次数 ∑Xi 之外,没有任何其他充分统计量能提供更”粗糙”的等价类划分——比如 (∑Xi,X1) 虽然也充分,但它比 ∑Xi 多保留了 X1 的信息,因此不是最小充分。
4. 变式题汇总
- 变式 1(Bernoulli): 充分统计量 ∑Xi,最小充分 ∑Xi。
- 变式 2(指数分布): 充分统计量 ∑Xi,最小充分 ∑Xi。
- 变式 3(Poisson): 充分统计量 ∑Xi,最小充分 ∑Xi。
- 变式 4(正态,μ 未知,σ 已知): 充分统计量 ∑Xi(或 X),最小充分 X。
- 变式 5(正态,μ,σ 均未知): 充分统计量 (∑Xi,∑Xi2)(或 (X,S2)),最小充分 (X,S2)。
- 变式 6(U(0,θ)): 充分统计量 X(n),最小充分 X(n)。
- 变式 7(U(θ,θ+1)): 充分统计量 (X(1),X(n)),最小充分 (X(1),X(n))。
5. 题型提醒
[!tip]+ 做题顺序:充分统计量判别类题目的通用流程
- 先判断模型是否属于指数族。 如果是,直接读出 Tj(x),然后用因子分解验证。
- 如果不是指数族(或者支持集依赖参数),先写联合密度,然后尝试因子分解——特别注意指示函数。
- 要看清楚参数个数:单参数模型通常对应一维充分统计量,但 U(θ,θ+1) 虽是单参数却需要二维统计量。
- 如果需要证明最小充分,先做因子分解证明充分,再做密度比值证明最小。
- 记住关键结论:一一变换不改变充分性,也不改变最小充分性。
八、章节连接
- **这一讲建立在哪些知识之上:**联合密度、指数族(第三讲)、顺序统计量(第二讲)、Gamma/正态样本分布。
- 这一讲为后面哪些内容做准备:Rao-Blackwell 定理、完备性、UMVUE(第五讲将看到:充分统计量是改进估计方差的关键工具)。
- 这一讲在整门课中的功能:把”统计量”推进为”信息载体”,正式进入统计推断的结构层面。从现在开始,我们不再仅仅问”统计量服从什么分布”,还要问”这个统计量保留了参数多少信息”。
向后一讲的伏笔
本讲探讨了”如何压缩信息而不丢失参数信息”。下一讲将在此基础上做一件更具体的事:
假设你已经有⼀个无偏估计量 θ^(但它可能不是最优的)。如果把它在充分统计量 T 的条件下取条件期望,得到的新估计量 θ~=E(θ^∣T) 仍然是 θ 的无偏估计,而且方差更小(或至少不增大)。
这就是 Rao-Blackwell 定理的核心思想。它告诉我们:充分统计量不仅是”信息压缩”的工具,更是”改进估计”的工具。
九、复习整理
[!summary]+ 本讲小结
- **研究的问题:**如何用尽可能小的统计量保留全部参数信息。
- **使用的模型:**参数模型 {Fθ} 和 i.i.d. 样本。
- 核心统计量:∑Xi、(∑Xi,∑Xi2)、X(n)、(X(1),X(n))。
- 关键结论:
- 充分统计量的定义:给定 T 后样本条件分布不含参数。
- 因子分解定理:p(x;θ)=g(T(x);θ)h(x)——判别充分性的主力工具。
- 最小充分统计量的密度比值法:比值与 θ 无关 ⟺T(x)=T(y)。
- 指数族天然给出(最小)充分统计量——衔接第三讲。
- **最重要的条件:**联合密度可分解(因子分解定理);支持集不依赖参数(指数族)。
- **本讲最终服务什么推断任务:**为后续在充分统计量上做 Rao-Blackwell 改进、获得 UMVUE 铺路。
高频误套
[!warning]+ 常见错误
- 只因为某统计量”看起来重要”就说它充分。 看到 X 就说充分——这是图样图森破。必须用因子分解定理或定义严格验证。
- 证明了充分性就以为已经证明了最小充分性。 这是最常犯的错误之一。“充分”和”最小充分”是两个不同的概念,后者需要额外的比值判别。
- 忘记一一变换后的统计量仍然充分。 如果 T 充分,那么 φ(T)(φ 是一一变换)也充分。同理,T 最小充分则 φ(T) 也最小充分。
- 支持集依赖参数时,仍机械套用因子分解而不考虑指示函数。 例如 U(0,θ) 中的 I{x(n)<θ},必须放入 g 而不是 h。
- 混淆”充分统计量”和”完全统计量”。 完全性(completeness)是另一个更强的概念,下一讲会涉及。充分不一定完全,但完全最小充分统计量是 UMVUE 的关键。
条件卡
-
结论: T(X) 是充分统计量。
成立条件: 给定 T(X) 后样本条件分布不含参数,或满足因子分解定理。
不能用在: 只凭直觉判断”它应该保留了很多信息”——必须用数学工具验证。
常见误套场景: 把重要统计量误当成充分统计量(例如把 U(0,θ) 中的 X 当成充分统计量)。
-
结论: 指数族中的自然统计量 Tj(x) 是充分统计量。
成立条件: 联合密度能写成标准指数族形式,且支持集不依赖参数。
不能用在: 样本联合密度并未真正分离参数部分和样本部分,或支持集依赖参数。
常见误套场景: 只看单个样本密度,不看联合密度就下结论。
-
结论: T(X) 是最小充分统计量。
成立条件: T 充分,且联合密度比值与 θ 无关当且仅当 T(x)=T(y)。
不能用在: 只证明了充分性但没有最小性判别。
常见误套场景: 把”充分”与”最小充分”混写。
-
结论: 一一变换后的充分统计量仍然充分。
成立条件: φ 是可逆函数(一一映射)。
不能用在: φ 不是一对一,或者 φ 的定义域不是 T 的值域。
常见误套场景: 忘记检查可逆性,把非一一变换后的结果也当作充分统计量。
十、习题区
1. 概念题
-
**用自己的话解释:**为什么说充分统计量是”信息压缩”而不是”信息丢失”?给定 T 后样本条件分布不含参数这件事,与”信息压缩”有什么关系?
-
**一一变换与充分性:**如果 T 是 θ 的充分统计量,那么 X=n1T 也是充分统计量吗?X2 呢?说明理由。
-
最小充分统计量的”最小”体现在哪里? 它是”维度最低”还是”函数最精简”?为什么说”最小”指的是等价类划分的粗糙程度?
2. 标准题
-
用因子分解定理证明 Bernoulli 样本中 ∑Xi 是 p 的充分统计量。进一步,用密度比值法证明它是最小充分的。
-
设 X1,…,XnNi.i.d.∼(μ,σ02),σ02 已知。用因子分解定理求出 μ 的充分统计量。
-
设 X1,…,XnUi.i.d.∼(0,θ),θ>0。求 θ 的充分统计量。(提示:注意支持集依赖参数。)
-
设 X_1,\dots,X_n\stackrel{\text{i.i.d.}{\sim}} \text{Poisson}(\lambda)。
- (a) 写出联合概率函数。
- (b) 写出指数族标准形式,直接读出充分统计量。
- (c) 用因子分解定理验证。
3. 综合题
-
充分统计量的差异比较。 比较 U(0,θ) 与 U(θ,θ+1) 两个模型中充分统计量的差异,并解释原因。为什么前者只需要一个统计量而后者需要两个?
-
指数族与充分统计量的关系。 说明为什么指数族在统计推断中如此重要。如果某分布族是 k 阶指数族,我们能立刻知道关于充分统计量的什么信息?反过来,如果某分布族不是指数族(如 U(0,θ)),其充分统计量的形式和指数族有什么不同?
-
思考题:充分统计量与后续推断。 假设你已经找到了一个充分统计量 T。在估计参数 θ 时,为什么应该”只看 T 而不看原始样本”?如果直接用原始样本 (X1,…,Xn) 做估计(它本身也是”充分”的),会有什么问题?提示:考虑估计量的方差——统计量维度越高,方差控制的难度越大。
4. 做题思路与常见坑点
[!tip]+ 充分统计量判别题通用思路
- 第一步:辨别模型类型。 是指数族还是非指数族?支持集是否依赖参数?
- 第二步:写出联合密度。 注意不要漏掉指示函数!
- 第三步:尝试因子分解。 将所有与 θ 有关的项整理到一起,观察它们通过哪个 T(x) 与样本互动。
- 第四步:验证最小性(如果需要)。 使用密度比值法,检查”比值与 θ 无关 ⟺T(x)=T(y)”。
常见坑点:
- 忽略联合密度中的指示函数(特别是在支持集依赖参数时)。
- 将 g 和 h 的位置搞反——g 必须含 θ 且依赖 T,h 不能含 θ。
- 证完充分就默认已经证了最小充分——这是两个不同的概念!
- 把 X 和 ∑Xi 当成两个不同的充分统计量——它们本质上含相同的信息(只差常数倍)。
附:排版约定
[!tip]+ 写作规则
- 行内公式统一用
$...$。
- 行间公式统一用
$$...$$。
- 重要公式后面补一句”用途说明”。
- 先写条件,再写结论,再写用途。
- 少用缩进,多用小标题、短段落和留白。
- 保留老师强调过的原表达,但其余内容改写为讲义语言。
- 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。