第06讲 UMVUE、Rao-Blackwell与Lehmann-Scheffe

讲义信息

**课程：**数理统计
**章节：**第 3 章中段，对应课件 lec3.2(2026)169
**讲次：**第 06 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec3.2(2026)169.pdf
**研究对象：**无偏估计量类中的最优估计
**统计任务：**在无偏估计量中找出方差最小、从而最值得保留的估计量
**本讲结论用途：**构成整门课”最优无偏估计”模块的核心理论

[!summary]+ 本讲导读

本讲研究的问题：如果已经限定在无偏估计量类中，谁才是最好的那个。

已知什么：参数模型、无偏估计量、充分统计量、指数族（第三讲）、完全统计量。

未知什么：如何系统地把一个普通无偏估计量改造成最优无偏估计量。

核心统计对象：UMVUE、Rao-Blackwell 改进、完全统计量、Lehmann-Scheffe 定理。

本讲结论最终服务什么推断任务：为构造”唯一的最好无偏估计量”提供可执行方法。

先看全局

上一讲我们建立了充分统计量的理论框架，学会了”如何从样本中提取关于参数的全部信息”。现在我们要追问一个更深刻的问题：

在已经限定为无偏估计量的前提下，谁是最好的？

这一问题驱动的逻辑链条如下：

你手上的无偏估计量可能不是最优的 —— 它的方差可能很大，因为它包含了一些和参数无关的随机噪声。
Rao-Blackwell 定理告诉你：把任意无偏估计量对充分统计量取条件期望，方差不增。也就是说，你可以在”不丢失信息”的前提下，把估计量变得更稳定。
完全性告诉你：在完全充分统计量上，无偏函数的表示是唯一的。这堵死了”多个无偏估计量都有同样小的方差”的可能性。
Lehmann-Scheffe 定理把上面两步合并成一条”生产线”：完全充分统计量 + 无偏函数 = 唯一 UMVUE。

这个链条可以用一句话概括：

充分性压缩有用的信息，完全性保证唯一的答案，二者合起来就得到了最优无偏估计量。

本讲的叙事线

为了让读者不被三个定理的名称搞晕，本讲沿着一条清晰的叙事线展开：

动机：为什么要研究 UMVUE？ —— 从”估计量好坏”的两维矛盾出发，引出”在无偏类中找最小方差”的思路。
Rao-Blackwell 定理：“去噪”工具 —— 对充分统计量取条件期望，像”平均掉噪声”一样减少方差。
完全统计量：“唯一性”的保证 —— 为什么只有充分性还不够。
Lehmann-Scheffe 定理：终极工具 —— 把完全充分统计量 + 无偏函数升级为 UMVUE。
典型例子 —— 指数分布、Bernoulli、正态模型的 UMVUE 构造。
从 UMVUE 走向理论极限 —— 为下一讲 Cramér-Rao 下界埋下伏笔。

一、本讲定位

在课程中的位置：这是”点估计”章节的理论高点。
和前一讲的连接：上一讲（第五讲）给出了无偏性和 MSE 的基本评价标准，也给出了充分统计量的理论框架。现在我们要用充分统计量这个工具，在无偏类中做最优性分析。
和后一讲的连接：本讲找到了 UMVUE，但有一个问题没有回答：UMVUE 的方差能不能达到理论上的最小值？ 下一讲的 Cramér-Rao 下界将给出”任何无偏估计量方差的下界”，从而让我们评估 UMVUE 离理论极限还有多远。
本讲重点内容：
- 最小方差无偏估计量 UMVUE 的定义与直觉
- Rao-Blackwell 定理：通过充分统计量改进估计量
- 完全统计量的概念与直觉
- Lehmann-Scheffe 定理：终极构造工具
- 典型模型中的 UMVUE 构造（指数分布、Bernoulli、正态）

二、模型与前提

1. 研究模型

**总体：**参数模型 $\{F_\theta:\theta\in\Theta\}$ ，分布可以是离散的也可以是连续的。
**参数空间：**随具体模型而定，通常 $\Theta\subseteq\mathbb{R}^k$ 。
样本： $X_1,\dots,X_n$ ，默认简单随机样本。
**抽样方式：**独立同分布。
**参数含义：**本讲聚焦估计 $g(\theta)$ （可以是原始参数 $\theta$ 的某个函数），而不局限于估计原始参数本身。这一点很重要：很多时候我们想要估计的是参数的某个函数（例如指数分布的 $1/\lambda$ 、Bernoulli 的 $p(1-p)$ 等），而非参数 $\theta$ 本身。

2. 对象区分

在本讲的讨论中，下面几个概念会反复出现，请务必在进入正文之前把它们在思维中区分清楚：

无偏估计量： $E_\theta(\hat g)=g(\theta)$ ——平均意义上对准目标。
UMVUE：在所有无偏估计量中一致地（对每个 $\theta$ ）方差最小。
充分统计量：保留了关于参数的全部信息的统计量（因子分解定理）。
完全统计量：统计量的分布足够”丰富”，使得零期望函数只能是零函数。
完全充分统计量：既是充分的又是完全的——这是构造 UMVUE 的理想平台。

这几个概念层层递进，彼此依赖。如果你能把它们之间的关系理成一张思维导图，比孤立地背每条定义要有效得多。

3. 模型前提检查

[!warning]+ 条件先检查

Rao-Blackwell 定理要求条件化对象是充分统计量。如果没有充分性，条件期望不一定能保证方差缩减。

Lehmann-Scheffe 定理要求统计量既充分又完全。只有充分性时，你只能保证”找到了一个无偏估计量”，不能保证它是唯一的 UMVUE。

UMVUE 只是在无偏类中最优，不代表在所有估计量中最优。一个有偏的估计量可能具有比 UMVUE 更小的 MSE——后面讲”偏倚-方差权衡”时我们会回到这一点。

要证明 UMVUE 的”唯一性”，通常离不开完全性。

三、核心概念

3.1 UMVUE：无偏类中的最优者

动机：为什么需要 UMVUE？

上一讲我们学习了评价估计量的两个维度：无偏性（平均意义上对）和方差（精确程度）。在理想情况下，我们希望一个估计量既无偏又方差小。但问题是：在无偏估计量这个集合中，谁的方差最小？

你可能会想：“那我就把所有的无偏估计量列出来，比较它们的方差，选最小的不就行了？” 但问题是，无偏估计量有无穷多个——例如，对于正态均值 $\mu$ ， $\overline{X}$ 是无偏的， $X_1$ 也是无偏的， $X_1 + X_2 - \overline{X}$ 也是无偏的……我们不可能逐个比较。

所以我们需要一个系统的理论来回答：给定一个参数模型，如何在无偏类中系统性地找到方差最小的那个估计量？ 这就是 UMVUE 理论要解决的问题。

[!definition]+ UMVUE（最小方差无偏估计量）若 $\hat g$ 是 $g(\theta)$ 的无偏估计量，且对任意无偏估计量 $\tilde g$ 都有
$\operatorname{Var}_\theta(\hat g)\le \operatorname{Var}_\theta(\tilde g),\qquad \forall\theta\in\Theta,$
则称 $\hat g$ 为 $g(\theta)$ 的 UMVUE（uniformly minimum variance unbiased estimator）。

用途：这是无偏估计量中的”最优解”。一旦找到了 UMVUE，就不需要再去寻找更好的无偏估计量了。

对定义中三个关键词的逐一理解：

“uniformly”（一致地）：这个副词的分量极重。它意味着 $\hat g$ 的方差必须在每一个 $\theta$ 取值下都不大于任何其他无偏估计量的方差。换句话说，你不能说”在 $\theta=2$ 时这个估计量好，在 $\theta=3$ 时另一个好”——UMVUE 必须在所有参数值上都是一致的优胜者。
“minimum variance”（最小方差）：既然我们已经要求无偏了，那剩下的优化方向就是方差。方差越小，估计量在重复抽样下越稳定，离真实值的平均偏离（在无偏的条件下就是方差本身）就越小。
“unbiased”（无偏）：限定在无偏类中。这意味着 UMVUE 不一定是所有估计量中 MSE 最小的——一个有偏但方差极小的估计量可能有更小的 MSE。UMVUE 的承诺是：“在所有不偏向任何一方的估计量中，我最稳定。“

关于 UMVUE 是否存在的说明

UMVUE 不一定存在。如果一个参数模型的无偏估计量类为空（即根本不存在无偏估计量），那么 UMVUE 当然不存在。但在大多数标准模型中（正态、指数、Bernoulli、Poisson 等），无偏估计量是存在的，而且通过 Lehmann-Scheffe 定理我们通常能找到 UMVUE。

3.2 完全统计量：为什么”充分”还不够？

动机：充分统计量留下了什么隐患？

你可能会想：“有了充分统计量，不是已经掌握了参数的全部信息吗？为什么还需要另外一种性质？”

答案是：充分性只保证了”信息不丢失”，但没有保证”表达方式的唯一性”。

来看一个思维实验。假设 $T$ 是充分统计量，那么任何无偏估计量 $\hat g$ 都可以被 Rao-Blackwell 改进为 $E(\hat g\mid T)$ ——后者是 $T$ 的函数，且不比 $\hat g$ 差。但问题来了：同一个参数 $g(\theta)$ 可能有两个不同的 $T$ 的函数都无偏估计它。 比如 $\phi_1(T)$ 和 $\phi_2(T)$ 可能同时是 $g(\theta)$ 的无偏估计量。那么，谁才是 UMVUE？它们可能方差不同——我们没法判断。

我们需要一种性质来保证：一旦你留在充分统计量上，无偏函数的表达式就只有一个。 这种性质就是”完全性”。

[!definition]+ 完全统计量若统计量 $T$ 满足：对任意可测函数 $h$ ，
$E_\theta[h(T)]=0,\quad \forall\theta\in\Theta$
蕴含
$h(T)=0\quad \text{a.s.},$
则称 $T$ 为完全统计量。

用途：完全性保证了”无偏函数表示”的唯一性。

直觉理解：为什么叫”完全”？

“完全”这个名字来自一个非常直观的想法：如果统计量 $T$ 的分布足够”丰富”，那么它就不能有任何”多余的、不依赖于参数的自由摆动”。

具体来说，如果存在一个非零的函数 $h$ （不是几乎处处为零的），使得 $E_\theta[h(T)]$ 对所有 $\theta$ 都等于 0，那说明 $h(T)$ 虽然在取值上会随机摆动，但这种摆动的期望在每一个参数下都恰好为零。也就是说， $h(T)$ 的”平均效果”完全没有携带关于参数的信息——它是一个”静默的噪声”。

完全性要求：不存在这样的非零噪声。 如果 $E_\theta[h(T)]\equiv 0$ 强制 $\theta$ ，那么 $h(T)$ 必须几乎处处为 0。这意味着 $T$ 的分布足够”大”，以至于它的矩（或更一般的函数期望）能够唯一确定 $T$ 的分布。

一个类比：如果把充分统计量想象成一个”信息压缩包”，完全性就是保证这个压缩包没有”冗余文件”——每个函数 $h(T)$ 都有自己独特的”期望曲线” $E_\theta[h(T)]$ 作为标识，不会出现两个不同的函数有着完全相同（处处相等）的期望曲线。

完全性与指数族的关系

对于指数族分布，有一个非常实用的结论：在指数族的自然参数形式下，充分统计量 $T=(T_1,\dots,T_k)$ 通常（在参数空间包含开集的条件下）是完全的。 这意味着在第三讲中列出的那些指数族模型（Bernoulli、Poisson、正态、指数分布等），其充分统计量 $\sum X_i$ 或 $(\sum X_i,\sum X_i^2)$ 通常既是充分的又是完全的。

这个结论的实用价值在于：我们不需要每次为判断完全性做复杂的数学推导——对于指数族，充分统计量自动是完全的（在正则条件下）。

[!note]+ 对比辨析：充分统计量 vs 完全统计量

维度充分统计量完全统计量
核心思想 ”保留关于参数的全部信息" "不存在多余的摆动”
怎么理解条件分布 $P(X\mid T)$ 不依赖 $\theta$ 如果 $E_\theta[h(T)]\equiv0$ ，则 $h(T)\equiv0$ a.s.
单一能否撑起 UMVUE 不行——无偏函数可能不唯一也不行——需要充分性来保证你”没有丢失信息”
在 Lehmann-Scheffe 中的角色告诉你”不该离开 $T$ “ 告诉你”留在 $T$ 上以后答案是唯一的”
指数族中的判断因子分解定理直接读出指数族（正则条件下）自动完全
典型例子 $U(0,\theta)$ 的 $X_{(n)}$ 充分但不完全一般较少单独出现，通常和充分性一起讨论

最常见的坑：以为”充分统计量函数上的无偏估计量自动是 UMVUE”。实际上，没有完全性，你无法保证唯一性——有可能存在两个不同的 $T$ 的函数都无偏估计同一个参数，它们的方差可能不同，你不知道哪个最优。

考虑一个反例（仅供参考，不要求掌握细节）：在 $U(0,\theta)$ 分布中， $X_{(n)}$ 是充分的但不是完全的。此时存在多个不同的 $X_{(n)}$ 的函数都无偏估计 $\theta$ ，且它们的方差不同——这说明仅有充分性是不够的。

维度	充分统计量	完全统计量
核心思想	”保留关于参数的全部信息"	"不存在多余的摆动”
怎么理解	条件分布 $P(X\mid T)$ 不依赖 $\theta$	如果 $E_\theta[h(T)]\equiv0$ ，则 $h(T)\equiv0$ a.s.
单一能否撑起 UMVUE	不行——无偏函数可能不唯一	也不行——需要充分性来保证你”没有丢失信息”
在 Lehmann-Scheffe 中的角色	告诉你”不该离开 $T$ “	告诉你”留在 $T$ 上以后答案是唯一的”
指数族中的判断	因子分解定理直接读出	指数族（正则条件下）自动完全
典型例子	$U(0,\theta)$ 的 $X_{(n)}$ 充分但不完全	一般较少单独出现，通常和充分性一起讨论

四、统计量与分布

4.1 Rao-Blackwell 定理：“去噪”的数学工具

动机：为什么对充分统计量取条件期望能改进估计量？

我们先来建立一个直观的思维实验。

想象你有一个无偏估计量 $\hat g$ ，它就像一个”信号 + 噪声”的混合体：

信号部分：和参数 $g(\theta)$ 有关的信息
噪声部分：和参数无关的随机摆动（例如由样本波动引入的额外随机性）

现在，如果你有一个充分统计量 $T$ ，它已经抓住了样本中所有关于参数的信息。那么，当你”知道 $T$ 的值”时， $\hat g$ 中与参数有关的部分已经完全被 $T$ 决定了，剩下的不确定性纯粹是噪声。所以：

E(\hat g\mid T) = \text{信号部分（因为 $T$ 已经包含了全部信号）}

这个条件期望把噪声平均掉了，只剩下了”给定全部信息后的平均预测”——而由于 $\hat g$ 是无偏的，这个条件期望正好是 $g(\theta)$ 。

这就是 Rao-Blackwell 定理的核心思想：对充分统计量取条件期望，相当于在保留所有信号的前提下，把噪声滤掉。

[!theorem]+ Rao-Blackwell 定理设 $\hat g$ 是 $g(\theta)$ 的无偏估计量， $T$ 是参数 $\theta$ 的充分统计量。令
$\hat g^*(T)=E_\theta(\hat g\mid T),$
则：

$\hat g^*(T)$ 仍是 $g(\theta)$ 的无偏估计量；

并且

$\operatorname{Var}_\theta(\hat g^*)\le \operatorname{Var}_\theta(\hat g),$
其中等号成立当且仅当 $\hat g=\hat g^*$ a.s.

用途：把”任意无偏估计量”系统地改造成”不差于原估计量的充分统计量函数”。

定理含义解析：

“无偏性不变”是条件期望的塔式性质的直接推论： $E_\theta[\hat g^*(T)] = E_\theta[E_\theta(\hat g\mid T)] = E_\theta(\hat g) = g(\theta)$ 。也就是说，取条件期望不会影响无偏性——你在平均掉噪声的同时，信号部分被完整保留了。
“方差不增”是全方差公式的直接推论：全方差定理（law of total variance）告诉我们：
$\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(E(\hat g\mid T)).$
第一项 $E[\operatorname{Var}(\hat g\mid T)]$ 是”给定 $T$ 后 $\hat g$ 的剩余方差”，代表噪声；第二项 $\operatorname{Var}(\hat g^*)$ 是”条件期望的方差”，代表信号。

因为第一项是非负的，所以 $\operatorname{Var}(\hat g) \ge \operatorname{Var}(\hat g^*)$ 。等号成立当且仅当 $\operatorname{Var}(\hat g\mid T)=0$ a.s.，即 $\hat g$ 本身就已经是 $T$ 的函数。
充分性的关键作用：这里 $T$ 必须是充分统计量。如果 $T$ 不充分，那么 $E(\hat g\mid T)$ 可能会丢失关于参数的信息，无偏性可能不再保持。充分性保证了这个条件期望有意义——因为条件分布 $X\mid T$ 不依赖 $\theta$ ，所以 $E(\hat g\mid T)$ 作为 $T$ 的函数也不依赖 $\theta$ ，是一个合法的统计量。

Rao-Blackwell 的实用推论：

在寻找 UMVUE 时，我们不需要在所有无偏估计量中漫无目的地搜索。只需要把注意力限制在充分统计量 $T$ 的函数类中——因为任何不是 $T$ 的函数的无偏估计量，都可以通过 Rao-Blackwell 改进为 $T$ 的函数且方差不增。

这极大地缩小了搜索范围。

4.2 Lehmann-Scheffe 定理：终极构造工具

动机：Rao-Blackwell 还不够，我们还需要什么？

Rao-Blackwell 告诉我们”应该把估计量改进到充分统计量上”，但它没有保证这个改进后的估计量是全局最优的——它只是”不差于原估计量”。

如果我们在一个完全充分统计量上找到了一个无偏估计量，那么它就自动成为 UMVUE——而且唯一的。这就是 Lehmann-Scheffe 定理的内容。

[!theorem]+ Lehmann-Scheffe 定理若 $T$ 是参数 $\theta$ 的完全充分统计量，且 $\phi(T)$ 是 $g(\theta)$ 的无偏估计量，则 $\phi(T)$ 是 $g(\theta)$ 的唯一 UMVUE。

用途：这是构造 UMVUE 的终极工具——找到完全充分统计量后，在其函数类中找一个无偏估计量，直接宣布它是唯一 UMVUE。

定理含义解析：

为什么充分性是必要的？ 因为如果 $T$ 不充分，Rao-Blackwell 定理不适用——可能存在不是 $T$ 的函数的无偏估计量，它的方差可能比 $\phi(T)$ 更小。
为什么完全性是必要的？ 因为如果 $T$ 不完全是充分的，可能存在两个不同的 $T$ 的函数 $\phi_1(T)$ 和 $\phi_2(T)$ 都无偏估计 $g(\theta)$ ，且 $\phi_1(T)\neq\phi_2(T)$ a.s.。此时它们的方差可能不同，我们无法断定哪个是 UMVUE。完全性保证了这种”多解”情况不会发生——如果 $\phi_1(T)$ 和 $\phi_2(T)$ 都是 $g(\theta)$ 的无偏估计量，那么 $E_\theta[\phi_1(T)-\phi_2(T)]=0$ 对所有 $\theta$ 成立，由完全性得 $\phi_1(T)=\phi_2(T)$ a.s.。所以无偏函数是唯一的。
“唯一”是在几乎处处意义下的：两个 UMVUE 在概率为 1 的集合上相等。在统计学实践中，这通常意味着它们本质上是同一个估计量。

Lehmann-Scheffe 的做题模板

实际做题时，通常遵循以下三步：

找完全充分统计量 $T$ ：对于指数族模型，直接用因子分解定理得到充分统计量，然后验证完全性（指数族正则条件下自动完全）。
在 $T$ 的函数中找一个无偏估计量 $\phi(T)$ ：通常通过求解 $E_\theta[\phi(T)]=g(\theta)$ 来得到 $\phi$ 。
宣布 $\phi(T)$ 是 $g(\theta)$ 的唯一 UMVUE：根据 Lehmann-Scheffe 定理。

这个模板在大部分考试题中都能直接套用。

[!note]+ 对比辨析：Rao-Blackwell 定理 vs Lehmann-Scheffe 定理

维度 Rao-Blackwell Lehmann-Scheffe
输入一个无偏估计量 $\hat g$ + 充分统计量 $T$ 完全充分统计量 $T$ + 无偏函数 $\phi(T)$
输出一个”不差于原估计量”的新估计量唯一的 UMVUE
能否自动得到全局最优不能——只保证”不比原来差” 能——自动是唯一的 UMVUE
需要完全性？不需要必须需要
主要用途 ”改进”一个已有估计量 ”构造”最优估计量
逻辑关系先改进到 $T$ 上再保证改进后全局唯一最优

这两个定理不是平行的两个选择，而是同一任务的两个步骤：

如果你手上有一个无偏估计量，先用 Rao-Blackwell 把它改进到充分统计量上

如果这个充分统计量又是完全的，那改进后的估计量就是唯一的 UMVUE

如果 $T$ 是完全充分的，那么任何无偏估计量的 Rao-Blackwell 改进都会收敛到同一个答案——即 Lehmann-Scheffe 保证的唯一 UMVUE。

维度	Rao-Blackwell	Lehmann-Scheffe
输入	一个无偏估计量 $\hat g$ + 充分统计量 $T$	完全充分统计量 $T$ + 无偏函数 $\phi(T)$
输出	一个”不差于原估计量”的新估计量	唯一的 UMVUE
能否自动得到全局最优	不能——只保证”不比原来差”	能——自动是唯一的 UMVUE
需要完全性？	不需要	必须需要
主要用途	”改进”一个已有估计量	”构造”最优估计量
逻辑关系	先改进到 $T$ 上	再保证改进后全局唯一最优

4.3 典型模型中的 UMVUE

例 1：Bernoulli 模型

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ ， $0<p<1$ 。求 $p$ 的 UMVUE。

解题思路（三步法）：

找完全充分统计量：由第三讲的指数族判别可知，Bernoulli 分布族是指数族， $T=\sum_{i=1}^n X_i$ 是完全充分统计量。
在 $T$ 的函数中找无偏估计量：尝试 $\phi(T)=T/n=\overline{X}$ 。计算期望： $E(\overline{X})=p$ ，所以无偏。
宣布 UMVUE：由 Lehmann-Scheffe 定理， $\overline{X}$ 是 $p$ 的唯一 UMVUE。

含义解析：这个结果看起来平凡——样本均值当然是 $p$ 的自然估计。但 Lehmann-Scheffe 保证了它不仅是”自然的”，而且是在所有无偏估计量中方差最小的。任何其他无偏估计量（比如 $X_1$ ，虽然也是无偏的但方差为 $p(1-p)$ ）的方差都比 $\overline{X}$ 的方差 $p(1-p)/n$ 大。

例 2：指数分布模型

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ ， $\lambda>0$ 是速率参数。求 $\lambda$ 的 UMVUE。

先判断统计任务：这是 UMVUE 构造题。目标参数是 $\lambda$ ，即指数分布的速率参数。

解题思路（三步法）：

找完全充分统计量：指数分布属于指数族， $T=\sum_{i=1}^n X_i$ 是完全充分统计量。
在 $T$ 的函数中找无偏估计量：已知 $T\sim\Gamma(n,\lambda)$ ，密度为
$f_T(t) = \frac{\lambda^n}{\Gamma(n)} t^{n-1}e^{-\lambda t},\qquad t>0.$
我们需要找到一个函数 $\phi(T)$ 使得 $E[\phi(T)]=\lambda$ 。这是这类题的难点——需要猜测合适的函数形式。

回忆 Gamma 分布的性质：对任意 $r>-n$ ，
$E(T^r) = \frac{\Gamma(n+r)}{\Gamma(n)}\lambda^{-r}.$
我们希望 $E[\phi(T)]=\lambda$ ，所以尝试 $\phi(T)=c/T$ ：
$E\left(\frac{c}{T}\right) = c\cdot\frac{\Gamma(n-1)}{\Gamma(n)}\lambda = \frac{c}{n-1}\lambda.$
令其等于 $\lambda$ ，得 $c=n-1$ 。因此 $\phi(T)=\frac{n-1}{T}$ 是无偏的。
宣布 UMVUE：由 Lehmann-Scheffe 定理，
$\hat\lambda_{\text{UMVUE}} = \frac{n-1}{\sum_{i=1}^n X_i}$
是 $\lambda$ 的唯一 UMVUE。

常见坑点提醒：

不要写成 $\frac{n}{\sum X_i}$ ——这个估计量是有偏的（它的期望是 $\frac{n}{n-1}\lambda > \lambda$ ）。
计算 $E(1/T)$ 时要小心 Gamma 函数中的参数： $T\sim\Gamma(n,\lambda)$ 意味着 $1/T$ 的期望是 $\lambda/(n-1)$ ，而不是 $\lambda/n$ 。
如果题目要求估计的是 $1/\lambda$ （即指数分布的均值），则 $\overline{X}$ 就是无偏的，而且也是 UMVUE——因为 $E(\overline{X})=1/\lambda$ 且 $\overline{X}=T/n$ 是完全充分统计量 $T$ 的函数。

例 3：正态模型（方差已知）

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma_0^2)$ ，其中 $\sigma_0^2$ 已知。求 $\mu$ 的 UMVUE。

解题思路：

找完全充分统计量：正态分布（ $\sigma^2$ 已知）属于一阶指数族， $T=\sum_{i=1}^n X_i$ 是完全充分统计量。
在 $T$ 的函数中找无偏估计量： $\phi(T)=\overline{X}=T/n$ 满足 $E(\overline{X})=\mu$ ，无偏。
宣布 UMVUE： $\overline{X}$ 是 $\mu$ 的唯一 UMVUE。

例 4：正态模型（方差未知）

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2)$ ，两个参数均未知。求 $\mu$ 的 UMVUE。

先判断：这是双参数问题，我们需要找到 $T$ 为二维统计量。

解题思路：

找完全充分统计量：正态分布（双参数未知）属于二阶指数族， $T=(\sum X_i,\sum X_i^2)$ 是完全充分统计量。
在 $T$ 的函数中找无偏估计量： $\phi(T)=\overline{X}=(\sum X_i)/n$ 是 $T$ 的函数，且 $E(\overline{X})=\mu$ ，无偏。
宣布 UMVUE： $\overline{X}$ 是 $\mu$ 的唯一 UMVUE。注意这里 $\overline{X}$ 是无偏的，而 $S^2$ 是 $\sigma^2$ 的无偏估计——但 Lehmann-Scheffe 定理告诉我们， $\overline{X}$ 不仅是无偏的，而且在所有无偏估计量中方差最小。

含义解析：这个结果可能让你觉得”理所当然”，但它有一个微妙的含义：即使我们不知道 $\sigma^2$ ， $\overline{X}$ 仍然是 $\mu$ 的最优无偏估计量。你可能会想：“那能不能先用样本数据估计 $\sigma^2$ ，然后结合这个信息得到一个更好的 $\mu$ 的估计？” Lehmann-Scheffe 说：不能——至少在”无偏”约束下不能。

例 5：Rao-Blackwell 改进的具体操作

前面几个例子都是直接套用 Lehmann-Scheffe。现在我们来看一个必须用 Rao-Blackwell 做”改进”的例子。

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ 。考虑一个”很粗糙”的无偏估计量： $\hat p_1 = X_1$ （只用第一个样本点）。显然 $E(X_1)=p$ ，所以它是无偏的。但它没有用到其他 $n-1$ 个样本点的信息，方差是 $\operatorname{Var}(X_1)=p(1-p)$ ，相对于 $\overline{X}$ 的方差 $p(1-p)/n$ 来说大了很多。

Rao-Blackwell 改进：充分统计量 $T=\sum_{i=1}^n X_i$ 。计算

\hat p_{\text{RB}} = E(X_1\mid T).

由于样本是独立同分布的，给定 $T=\sum X_i$ 后， $X_1$ 的条件分布是超几何的（或者说， $X_1$ 在给定 $T$ 后，取值 1 的概率就是 $T/n$ ）。事实上：

E(X_1\mid T) = P(X_1=1\mid T) = \frac{T}{n} = \overline{X}.

所以改进后的估计量正是 $\overline{X}$ ！它的方差是 $p(1-p)/n$ ，比 $X_1$ 的方差小得多。

这个例子的意义：它生动地展示了 Rao-Blackwell 的”去噪”本质—— $X_1$ 包含了很多和参数无关的随机摆动（因为只看一个样本，信息太窄），但对充分统计量 $\sum X_i$ 条件化后，我们实际上是用全部 $n$ 个样本来估计 $p$ ，方差自然大幅减小。

五、主要结论

1. 判别结论

[!theorem]+ 全方差公式（方差分解）对任意随机变量 $Y$ 和统计量 $S$ ，
$\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).$
用途：这是证明 Rao-Blackwell 方差缩减的理论基础。第一项是”条件化后剩余的噪声”，第二项是”条件化后信号的方差”。

[!theorem]+ Rao-Blackwell 构造法条件：

已有一个无偏估计量 $\hat g$ ；

已找到充分统计量 $T$ 。

结论：
$E(\hat g\mid T)$
是更优（或不差）的无偏估计量。

用途：这是把”可用”无偏估计量升级成”更好”无偏估计量的标准方法。

[!theorem]+ 完全充分统计量上的无偏函数自动最优条件：

$T$ 完全充分；

$\phi(T)$ 无偏估计 $g(\theta)$ 。

结论： $\phi(T)$ 是唯一 UMVUE。

用途：这让 UMVUE 的构造从”比较所有无偏估计量”降维成”在完全充分统计量上找一个无偏函数”。

2. 最优性或比较结论

方法	保证什么	还需要什么
Rao-Blackwell	改进后不差于原估计量	充分统计量 $T$
Lehmann-Scheffe	自动是唯一 UMVUE	完全充分统计量 $T$ + 无偏函数
直接构造法	在 $T$ 上找无偏函数	猜测正确的函数形式

[!warning]+ 使用边界

Rao-Blackwell 只能保证”在无偏类里不差于原估计量”，不是说自动得到全局最优。

Lehmann-Scheffe 需要完全性；只有充分性还不够。

UMVUE 的唯一性通常是在几乎处处意义下成立。

UMVUE 在无偏类中最优，但不一定在所有估计量中最优（有偏估计量可能有更小的 MSE）。

如果无偏估计量不存在，UMVUE 也不存在。

关键公式释义

1. Rao-Blackwell 改进式

\hat g^*(T)=E(\hat g\mid T)

**来源：**对已有无偏估计量按充分统计量做条件期望。
**式子拆解：**左边的 $\hat g^*(T)$ 是改进后的新估计量（注意它是 $T$ 的函数，不再依赖于原始样本的其它方面）。右边 $E(\hat g\mid T)$ 表示”在充分统计量 $T$ 已知时，对原估计量取平均”，消去了与参数无关的随机噪声。
**含义：**把原估计量中与参数无关的随机摆动平均掉，只保留和充分信息包相关的部分。这个公式背后的哲学是：“如果你已经知道了全部信息（ $T$ ），那么所有剩下的随机性都是噪声——把它们平均掉。”
**使用提醒：**这里的 $T$ 必须是充分统计量。如果 $T$ 不充分， $E(\hat g\mid T)$ 可能会丢失关于参数的信息，无偏性可能不再保持。

2. 方差分解公式（全方差公式）

\operatorname{Var}(\hat g)=E[\operatorname{Var}(\hat g\mid T)]+\operatorname{Var}(E(\hat g\mid T)).

**来源：**条件方差的基本性质，是概率论中的标准公式。
**式子拆解：**第一项 $E[\operatorname{Var}(\hat g\mid T)]$ 衡量”给定 $T$ 后 $\hat g$ 仍然存在的波动”——这是无法被 $T$ 解释的残留噪声。第二项 $\operatorname{Var}(E(\hat g\mid T))$ 衡量”条件期望（也就是改进后的估计量 $\hat g^*$ ）本身的波动”——这是信号部分。
**含义：**原始方差 = 残留噪声 + 信号方差。因为残留噪声是非负的，所以 $\operatorname{Var}(\hat g) \ge \operatorname{Var}(\hat g^*)$ 。换句话说，条件化不可能让情况变差——最坏情况下，原估计量已经是 $T$ 的函数（此时残留噪声为 0），改进没有效果。
**使用提醒：**这个公式不需要任何分布假设，它对任意随机变量和任意（不一定是充分的）统计量都成立。Rao-Blackwell 的创新在于利用充分性保证了 $E(\hat g\mid T)$ 仍然是一个合法的无偏估计量。

3. Lehmann-Scheffe 定理的核心逻辑

“完全充分统计量的任一无偏函数都是唯一 UMVUE。”

**来源：**把 Rao-Blackwell 的改进思想和完全性的唯一性结合起来。
**式子拆解：**这里的关键词不是单个公式，而是”完全充分统计量 + 无偏函数”这个结构。
- 充分性 $\rightarrow$ 任何无偏估计量都可以改进到 $T$ 上（Rao-Blackwell）
- 完全性 $\rightarrow$ 改进到 $T$ 上的结果是唯一的
- 二者结合 $\rightarrow$ 这个唯一的结果就是 UMVUE
**含义：**一旦找到完全充分统计量，再找到它的一个无偏函数，UMVUE 问题基本就结束了。这个定理把”找 UMVUE”变成了”找完全充分统计量 + 找无偏函数”两个子问题。
**使用提醒：**真正做题时一定要把”无偏""完全""充分”三个条件分别写出来再下结论。漏掉任何一个条件都可能出错。

六、推导与证明

1. 证明依赖

用到的定义：无偏估计量、充分统计量、完全统计量、UMVUE、条件期望。
用到的前序定理：因子分解定理（第四讲）、条件期望性质、全方差公式。
用到的分布性质：Gamma 分布的矩公式、指数族的完全性。
用到的关键技巧：对充分统计量条件化消除噪声、用 Gamma 分布的矩求解 $E(1/T)$ 。

2. 证明思路概览

Rao-Blackwell 的方差缩减：利用全方差公式 $\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(\hat g^*)$ ，由于第一项非负，所以 $\operatorname{Var}(\hat g^*) \le \operatorname{Var}(\hat g)$ 。
Lehmann-Scheffe 的唯一性：如果 $\phi_1(T)$ 和 $\phi_2(T)$ 都是无偏估计量，则 $h(T)=\phi_1(T)-\phi_2(T)$ 满足 $E_\theta[h(T)]=0$ ，由完全性得 $h(T)=0$ a.s.，所以 $\phi_1(T)=\phi_2(T)$ a.s.。结合 Rao-Blackwell 可证 $\phi(T)$ 就是 UMVUE。
指数分布的 UMVUE：用 Gamma 分布的矩公式求出 $E(1/T)$ ，反解出合适的常数 $c$ 使得 $c/T$ 无偏。

[!proof]- 📐 深度推导：全方差公式与 Rao-Blackwell 方差缩减的严格证明

第一部分：全方差公式的推导

对任意随机变量 $Y$ 和 $S$ ，定义条件方差：
$\operatorname{Var}(Y\mid S) = E(Y^2\mid S) - [E(Y\mid S)]^2.$
我们需要证明：
$\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).$
第一步：从 $\operatorname{Var}(Y)$ 的定义出发，利用条件期望的塔式性质。
$\operatorname{Var}(Y) = E(Y^2) - [E(Y)]^2.$
由塔式性质， $E(Y)=E[E(Y\mid S)]$ 和 $E(Y^2)=E[E(Y^2\mid S)]$ 。代入得：
$\operatorname{Var}(Y) = E[E(Y^2\mid S)] - \{E[E(Y\mid S)]\}^2.$
第二步：把 $E(Y^2\mid S)$ 写成条件方差的形式。

由条件方差的定义， $E(Y^2\mid S) = \operatorname{Var}(Y\mid S) + [E(Y\mid S)]^2$ 。代入：
$\operatorname{Var}(Y) = E\{\operatorname{Var}(Y\mid S) + [E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2.$
第三步：拆开期望，再合并成方差项。
$\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + E\{[E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2.$
注意 $E\{[E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2$ 恰好就是 $\operatorname{Var}(E(Y\mid S))$ ——这是 $E(Y\mid S)$ 这个随机变量的方差。所以：
$\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).$
这个推导中每一步都是等式的恒等变形——没有任何近似或条件。全方差公式对任意 $Y$ 和 $S$ 都成立。

第二部分：将全方差公式应用于 Rao-Blackwell 定理

令 $Y=\hat g$ （原无偏估计量）， $S=T$ （充分统计量）。则：
$\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(E(\hat g\mid T)).$
而 $E(\hat g\mid T) = \hat g^*(T)$ ，所以：
$\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(\hat g^*).$
为什么交叉项为 0？ 这里不需要担心交叉项——全方差公式的推导已经自动处理了这一点。交叉项不出现在最终表达式中，因为 $E(Y^2)$ 的分解是严格的。更直观地说，“条件期望” $E(\hat g\mid T)$ 和”条件方差” $E[\operatorname{Var}(\hat g\mid T)]$ 是正交的（在 $L^2$ 内积意义下），所以它们之间没有交叉贡献。

现在， $E[\operatorname{Var}(\hat g\mid T)]$ 是非负的（方差总是非负的），所以：
$\operatorname{Var}(\hat g) \ge \operatorname{Var}(\hat g^*).$
等号成立的条件： $E[\operatorname{Var}(\hat g\mid T)] = 0$ ，这意味着 $\operatorname{Var}(\hat g\mid T)=0$ a.s.，即 $\hat g$ 以概率 1 是 $T$ 的函数——也就是 $\hat g = \hat g^*$ a.s.

用途：这个推导清晰地展示了 Rao-Blackwell 的方差缩减来自”去掉全方差公式中的正项”。条件期望把原估计量的总方差分解为”可被 $T$ 解释的部分”和”残留的随机噪声”，而改进后的估计量正好是”可被 $T$ 解释的部分”。

[!proof]- 📐 深度推导：Lehmann-Scheffe 定理的证明思路

设置：设 $T$ 是完全充分统计量， $\phi(T)$ 是 $g(\theta)$ 的无偏估计量。需要证明 $\phi(T)$ 是唯一 UMVUE。

第一步：证明 $\phi(T)$ 是 UMVUE。

设 $\tilde g$ 是任意无偏估计量。由 Rao-Blackwell 定理， $\tilde g^* = E(\tilde g\mid T)$ 也是无偏的，且 $\operatorname{Var}(\tilde g^*) \le \operatorname{Var}(\tilde g)$ 。

注意 $\tilde g^*$ 是 $T$ 的函数。又因为 $\phi(T)$ 也是 $T$ 的无偏函数，所以考虑差值：
$d(T) = \tilde g^* - \phi(T).$
由于两者都是无偏的， $E_\theta[d(T)] = 0$ 对所有 $\theta\in\Theta$ 成立。

第二步：利用完全性。

由 $T$ 的完全性， $E_\theta[d(T)] = 0$ 对所有 $\theta$ 成立蕴含 $d(T)=0$ a.s.。因此 $\tilde g^* = \phi(T)$ a.s.

这意味着：任意无偏估计量的 Rao-Blackwell 改进都（几乎必然）等于 $\phi(T)$ 。

因此对任意无偏估计量 $\tilde g$ ， $\operatorname{Var}(\tilde g) \ge \operatorname{Var}(\tilde g^*) = \operatorname{Var}(\phi(T))$ 。所以 $\phi(T)$ 确实是 UMVUE。

第三步：证明唯一性。

假设存在另一个 UMVUE $\phi_2(T_2)$ （不一定能写成 $T$ 的函数）。由 Rao-Blackwell 定理改进到 $T$ 上，得 $E(\phi_2\mid T)$ 是 $T$ 的无偏函数。由完全性， $E(\phi_2\mid T)=\phi(T)$ a.s.

又因为 $\phi_2$ 是 UMVUE，它的方差不能大于 $\phi(T)$ 的方差（否则 $\phi(T)$ 就不是 UMVUE），而 Rao-Blackwell 保证了 $\operatorname{Var}(\phi_2) \ge \operatorname{Var}(E(\phi_2\mid T)) = \operatorname{Var}(\phi(T))$ 。所以 $\operatorname{Var}(\phi_2) = \operatorname{Var}(\phi(T))$ ，结合无偏性，这要求 $\phi_2 = \phi(T)$ a.s.（因为方差相等且期望相等时， $L^2$ 距离为 0）。

所以 UMVUE 在几乎处处意义下唯一。

用途：这个证明展示了完全性的核心作用——它就像一个”钳子”，把 $T$ 上的所有无偏函数”钳”到同一个值上，由此同时得到”最优性”和”唯一性”。

[!proof]- 📐 深度推导：指数分布 UMVUE 中 $E(1/T)$ 的计算

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ ， $T=\sum_{i=1}^n X_i \sim \Gamma(n,\lambda)$ 。

具体来说， $T$ 的密度为：
$f_T(t) = \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t},\qquad t>0.$
计算 $E(1/T)$ ：
$E\left(\frac{1}{T}\right) = \int_0^\infty \frac{1}{t} \cdot \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t}\, dt = \frac{\lambda^n}{\Gamma(n)} \int_0^\infty t^{n-2} e^{-\lambda t}\, dt.$
注意 $\int_0^\infty t^{n-2} e^{-\lambda t}\, dt$ 就是 $\Gamma(n-1)/\lambda^{n-1}$ （因为 $\Gamma(\alpha)=\int_0^\infty t^{\alpha-1}e^{-\lambda t}\cdot \lambda^\alpha/\lambda^\alpha dt$ ，需小心处理系数）。更直接地：
$\int_0^\infty t^{n-2} e^{-\lambda t}\, dt = \frac{\Gamma(n-1)}{\lambda^{n-1}}.$
代入得：
$E\left(\frac{1}{T}\right) = \frac{\lambda^n}{\Gamma(n)} \cdot \frac{\Gamma(n-1)}{\lambda^{n-1}} = \frac{\lambda}{\Gamma(n)} \cdot \Gamma(n-1).$
由 Gamma 函数的性质 $\Gamma(n) = (n-1)\Gamma(n-1)$ ：
$E\left(\frac{1}{T}\right) = \frac{\lambda}{(n-1)\Gamma(n-1)} \cdot \Gamma(n-1) = \frac{\lambda}{n-1}.$
因此 $E\left(\frac{n-1}{T}\right) = \lambda$ ，即 $(n-1)/T$ 是 $\lambda$ 的无偏估计量。

为什么这个计算中要小心 Gamma 函数的参数？ 因为 $T\sim\Gamma(n,\lambda)$ 意味着 $E(T)=\alpha/\lambda = n/\lambda$ ，但 $E(1/T)$ 不是 $1/E(T)$ ！这是一个容易犯的初级错误。实际通过积分计算得到 $E(1/T)=\lambda/(n-1)$ ，需要通过 Gamma 函数的递推公式 $\Gamma(n)=(n-1)\Gamma(n-1)$ 来化简。

用途：这是”在完全充分统计量上找无偏函数”的标准计算模板。类似的技巧可以用于 Poisson 模型、Gamma 模型等。

七、例题与变式

1. 标准题：指数分布的 UMVUE

**题型：**UMVUE 构造题

题目：

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ ，求 $\lambda$ 的 UMVUE。

解题思路（先理顺这三步）：

**先判断统计任务：**这是 UMVUE 构造题。目标参数是 $\lambda$ ，指数分布的速率参数。
**再判断工具：**指数样本中 $T=\sum X_i$ 是完全充分统计量（指数族）。
**最后在 $T$ 上找无偏函数：**猜测形式为 $c/T$ ，通过 Gamma 分布的矩计算出 $c=n-1$ 。

解答：

$T=\sum_{i=1}^n X_i\sim \Gamma(n,\lambda)$ ，且 $T$ 是 $\lambda$ 的完全充分统计量。

由 Gamma 分布的性质：

E\left(\frac{1}{T}\right) = \frac{\lambda}{n-1},

所以

E\left(\frac{n-1}{T}\right) = \lambda.

因此 $\hat\lambda = \frac{n-1}{\sum_{i=1}^n X_i}$ 是 $\lambda$ 的无偏估计量，且它是完全充分统计量的函数。

由 Lehmann-Scheffe 定理， $\hat\lambda$ 是 $\lambda$ 的唯一 UMVUE。

答案解读：注意 UMVUE 是 $(n-1)/\sum X_i$ ，而不是 $n/\sum X_i$ 。后者是 MLE（最大似然估计），但它是有偏的——它的期望是 $\frac{n}{n-1}\lambda > \lambda$ 。这也告诉我们：MLE 不一定无偏，UMVUE 不一定就是 MLE。

常见坑点提醒：

把 $E(1/T)$ 算成 $1/E(T)$ ： $E(1/T) \neq 1/E(T)$ ，不能”交换期望和倒数”。
弄错 Gamma 函数的递推： $\Gamma(n)=(n-1)!$ 对整数成立，但 $\Gamma(n)=(n-1)\Gamma(n-1)$ 对所有 $n>1$ 成立。
忘记检查完全性： $T=\sum X_i$ 是充分的（因子分解定理），也是完全的（指数族正则条件），两个条件缺一不可。

2. 标准题：Rao-Blackwell 改进的具体操作

**题型：**Rao-Blackwell 改进题

题目：

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ 。用 Rao-Blackwell 定理改进无偏估计量 $\hat p = X_1$ ，并说明改进后的估计量的方差。

解题思路：

识别原估计量和充分统计量： $\hat p = X_1$ 是无偏的， $T=\sum X_i$ 是充分统计量。
计算条件期望： $E(X_1\mid T)$ 。由于样本独立同分布，给定总和 $T$ ， $X_1$ 的取值有对称性。
说明方差改进：比较改进前后的方差。

解答：

给定 $T=\sum_{i=1}^n X_i$ ，由于 $X_1,\dots,X_n$ 独立同分布，由对称性：

E(X_1\mid T) = E(X_2\mid T) = \cdots = E(X_n\mid T).

又因为 $\sum_{i=1}^n E(X_i\mid T) = E(T\mid T) = T$ ，所以 $n\cdot E(X_1\mid T) = T$ ，从而：

E(X_1\mid T) = \frac{T}{n} = \overline{X}.

改进后的估计量 $\hat p_{\text{RB}} = \overline{X}$ 。

改进前后的方差比较：

改进前： $\operatorname{Var}(X_1) = p(1-p)$
改进后： $\operatorname{Var}(\overline{X}) = \frac{p(1-p)}{n}$
方差缩减比例： $n$ 倍！

答案解读：这个例子形象地说明了 Rao-Blackwell 的威力。 $X_1$ 只用了 1 个样本的信息，方差是 $p(1-p)$ ；改进到充分统计量 $T=\sum X_i$ 上后，相当于间接使用了全部 $n$ 个样本的信息，方差缩小到原来的 $1/n$ 。这就是”把噪声平均掉”的直观体现。

常见坑点提醒：

不要直接猜 $E(X_1\mid T)=T/n$ 而不加推理。虽然答案正确，但推理过程需要用到对称性——这保证了 $E(X_i\mid T)$ 不依赖于具体的 $i$ 。
条件期望的变量符号不要搞混： $E(X_1\mid T)$ 的结果是 $T$ 的函数，不是 $X_1$ 的函数。

3. 变式题

变式一：把估计对象从 $\lambda$ 换成 $e^{-\lambda}$ 。

在指数分布 $E(\lambda)$ 中， $P_\lambda(X>1)=e^{-\lambda}$ 。求 $e^{-\lambda}$ 的 UMVUE。

思路：完全充分统计量仍然是 $T=\sum X_i$ 。需要在 $T$ 上找一个函数 $\phi(T)$ 使得 $E[\phi(T)]=e^{-\lambda}$ 。

求解：

E[\phi(T)] = \int_0^\infty \phi(t) \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t}\, dt = e^{-\lambda}.

可以发现 $\phi(t) = (1 - 1/n)^t$ （取整数部分）并不合适，因为 $t$ 是连续变量。实际上，通过计算可得 $\phi(T) = \left(1 - \frac{1}{n}\right)^{\sum X_i}$ 时的期望恰好是 $e^{-\lambda}$ 。验证这一结果需要做一些代数变换，这里不展开。

变式二：在 Bernoulli 模型中求 $p(1-p)$ 的 UMVUE。

完全充分统计量仍然是 $T=\sum X_i$ ，但需要找 $\phi(T)$ 使得 $E[\phi(T)]=p(1-p)$ 。一个常见陷阱是直接使用”样本方差” $S_n^2 = \frac{1}{n}\sum (X_i-\overline{X})^2$ ，但对 Bernoulli 分布， $S_n^2 = \overline{X}(1-\overline{X})$ ，而 $E[\overline{X}(1-\overline{X})] = \frac{n-1}{n}p(1-p)$ 。所以 $\frac{n}{n-1}\overline{X}(1-\overline{X})$ 才是 $p(1-p)$ 的无偏估计，也是 UMVUE。

变式三：Poisson 分布的 UMVUE。

设 $X_1,\dots,X_n\sim P(\lambda)$ 。求 $\lambda$ 的 UMVUE。

完全充分统计量是 $T=\sum X_i\sim P(n\lambda)$ 。 $\overline{X}=T/n$ 是无偏的，由 Lehmann-Scheffe 定理， $\overline{X}$ 是 $\lambda$ 的唯一 UMVUE。

4. 题型提醒

[!tip]+ 做题顺序：UMVUE 构造题的三步法模板

找完全充分统计量 $T$ ：

对指数族模型（Bernoulli、Poisson、正态、指数、Gamma 等），直接用因子分解定理得充分统计量，然后验证完全性。

指数族（正则条件）下，充分统计量通常是完全的。

在 $T$ 的函数中找无偏估计量 $\phi(T)$ ：

如果 $\overline{X}$ 本身无偏，优先尝试 $\overline{X}=T/n$ 。

如果需要找 $\phi(T)$ 使得 $E[\phi(T)]=g(\theta)$ ，考虑用分布族的矩公式求解。

对于 $g(\theta)=E_\theta[h(X)]$ 形式的参数函数，有时可以用”U-统计量”方法构造无偏估计。

由 Lehmann-Scheffe 定理宣布 $\phi(T)$ 是唯一 UMVUE：

记得在答题中明确写出：“因为 $T$ 是完全充分的， $\phi(T)$ 是无偏的，所以由 Lehmann-Scheffe 定理， $\phi(T)$ 是 $g(\theta)$ 的唯一 UMVUE。“

八、章节连接

**这一讲建立在哪些知识之上：**充分统计量（第四讲）、指数族（第三讲）、无偏性和点估计（第五讲）、条件期望、Gamma 分布。
**这一讲为后面哪些内容做准备：**Cramér-Rao 下界与效率分析（第七讲）。下一讲中，我们不再满足于”在无偏类中找到最优”，而是要问：这个最优的方差有没有一个理论下界？如果 UMVUE 的方差达不到这个下界，说明什么？
**这一讲在整门课中的功能：**构建”在无偏类中找到最优估计量”的完整理论体系。掌握了这一讲，你就能系统化地在大多数经典参数模型中构造最优无偏估计量。

九、复习整理

[!summary]+ 本讲小结

研究的问题：无偏估计量中谁最好（方差最小）。

使用的模型：参数模型、充分统计量、完全统计量。

核心统计量：完全充分统计量 $T$ 及其无偏函数。

关键结论：

Rao-Blackwell 定理：对充分统计量条件化 $\rightarrow$ 方差不增。

完全性： $E_\theta[h(T)]=0$ 对所有 $\theta$ 成立 $\Rightarrow$ $h(T)=0$ a.s.——保证了唯一性。

Lehmann-Scheffe 定理：完全充分统计量的无偏函数自动是唯一 UMVUE。

最重要的条件：无偏、充分、完全——三个条件缺一不可。

本讲最终服务什么推断任务：系统构造最优无偏估计量，为评价估计量的”效率”做准备。

高频误套

[!warning]+ 常见错误

证明了无偏就直接说是 UMVUE。 无偏只是 UMVUE 的必要条件，不是充分条件。还需要证明在所有无偏估计量中方差最小（通常通过 Lehmann-Scheffe 定理）。

证明了充分就直接调用 Lehmann-Scheffe，忘了检查完全性。 如果统计量充分但不完全，可能存在多个不同的无偏函数，不能保证是 UMVUE。

写 Rao-Blackwell 时没有明确条件化对象是充分统计量。 对任意统计量条件化，虽然全方差公式仍然成立，但不能保证改进后的统计量仍然是合法的无偏估计量。

认为 UMVUE 在所有估计量中都最优。 UMVUE 只在”无偏”这个约束下最优。一个有偏但方差极小的估计量可能有更小的 MSE。

把 $E(1/T)$ 直接写成 $1/E(T)$ 。 期望算子不通过倒数函数， $\frac{1}{E(T)} \neq E\left(\frac{1}{T}\right)$ 。

指数分布 UMVUE 写成 $n/\sum X_i$ 。 这是 MLE，但不是 UMVUE（它是有偏的）。

条件卡

结论： $E(\hat g\mid T)$ 不差于 $\hat g$ 。 成立条件： $\hat g$ 无偏， $T$ 充分。 不能用在： $T$ 不是充分统计量时。 **常见误套场景：**对任意统计量条件化就说”方差更小”——虽然全方差公式对任何 $T$ 都成立，但 $E(\hat g\mid T)$ 可能不再是合法的统计量（因为它可能依赖未知参数）。
结论： $\phi(T)$ 是 UMVUE。 成立条件： $T$ 完全充分， $\phi(T)$ 无偏。 **不能用在：**只有充分性没有完全性时。 **常见误套场景：**找到充分统计量 $T$ 和无偏函数 $\phi(T)$ 后直接说”这是 UMVUE”，但忘了检查 $T$ 的完全性。
**结论：**UMVUE 唯一。 **成立条件：**在完全充分统计量框架下，几乎处处意义下唯一。 **不能用在：**没有完全性时强行声称唯一。 **常见误套场景：**只因为”看起来最自然”就说是唯一 UMVUE——如果统计量不完全，可能存在多个无偏函数，需要进一步论证。
结论： $\frac{n-1}{\sum X_i}$ 是指数分布 $\lambda$ 的 UMVUE。 成立条件： $X_1,\dots,X_n$ 来自 $E(\lambda)$ ，样本独立同分布。 **不能用在：**总体不是指数分布时（此时 $T$ 的分布不是 Gamma， $E(1/T)$ 也不一定是 $\lambda/(n-1)$ ）。 **常见误套场景：**在非指数分布模型中套用指数分布的计算公式。

十、习题区

1. 概念题

**用自己的话解释：**为什么 Rao-Blackwell 定理体现的是”信息压缩后的优化”？这里的”信息压缩”指什么？“优化”体现在哪里？
完全性在 UMVUE 理论中到底起什么作用？ 如果统计量 $T$ 充分但不完全，你还能用 Lehmann-Scheffe 定理吗？如果不能，你会面临什么问题？
为什么 UMVUE 只是在无偏类中最优，而不是所有估计量中最优？ 能举出一个直观的例子说明”有偏但 MSE 更小”的情况吗？（提示：考虑 $\theta$ 的估计量 $\hat\theta = 0$ ——这是一个极其”稳定”但通常有偏的估计量。）
Rao-Blackwell 定理和 Lehmann-Scheffe 定理的逻辑关系是什么？ 它们是可以相互替代的平行定理，还是同一条”生产线”上的两个步骤？

2. 标准题

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ 。说明 $X_1$ 是 $p$ 的无偏估计量，然后用 Rao-Blackwell 定理将其改进，并比较改进前后的方差。
设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ 。
- (a) 说明 $\sum_{i=1}^n X_i$ 是 $\lambda$ 的完全充分统计量。
- (b) 利用 Gamma 分布的性质求 $\lambda$ 的 UMVUE。
- (c) MLE 是 $\hat\lambda_{\text{MLE}} = 1/\overline{X} = n/\sum X_i$ ，比较 MLE 和 UMVUE 的期望差异（哪个有偏？偏大还是偏小？）。
设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma_0^2)$ ，其中 $\sigma_0^2$ 已知。用 Lehmann-Scheffe 定理证明 $\overline{X}$ 是 $\mu$ 的 UMVUE。写出完整的推导过程（包括验证充分性、完全性和无偏性）。

3. 综合题

UMVUE 三步法的完整练习。 设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} \text{Poisson}(\lambda)$ 。
- (a) 写出该模型的指数族形式，找出完全充分统计量 $T$ 。
- (b) 求 $\lambda$ 的 UMVUE。
- (c) 求 $e^{-\lambda}$ 的 UMVUE。（提示： $P_\lambda(X_1=0)=e^{-\lambda}$ ，以此为出发点构造无偏估计量并用 Rao-Blackwell 改进，或者直接在 $T$ 上求解 $E[\phi(T)]=e^{-\lambda}$ 。）
Rao-Blackwell 与 Lehmann-Scheffe 的对比分析。 就你所学的内容，画一张思维导图或写一段话，说明：
- 两个定理分别需要什么条件
- 两个定理分别给出什么结论
- 两个定理如何配合使用
- 什么情况下只需要 Rao-Blackwell（而不需要 Lehmann-Scheffe）
思考题：MLE 与 UMVUE 的关系。 在指数分布 $E(\lambda)$ 中，MLE 是 $1/\overline{X}$ ，UMVUE 是 $(n-1)/(n\overline{X})$ 。在正态模型 $N(\mu,\sigma^2)$ 中（ $\sigma^2$ 未知）， $\mu$ 的 MLE 和 UMVUE 都是 $\overline{X}$ ，但 $\sigma^2$ 的 MLE 是 $(n-1)S^2/n$ （有偏），UMVUE 是 $S^2$ （无偏）。思考：MLE 和 UMVUE 在什么情况下一致，什么情况下不一致？

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句”用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。