Skip to content
Lokkue's Notes
Go back

第06讲 UMVUE、Rao-Blackwell与Lehmann-Scheffe

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:如果已经限定在无偏估计量类中,谁才是最好的那个。
  • 已知什么:参数模型、无偏估计量、充分统计量、指数族(第三讲)、完全统计量。
  • 未知什么:如何系统地把一个普通无偏估计量改造成最优无偏估计量。
  • 核心统计对象:UMVUE、Rao-Blackwell 改进、完全统计量、Lehmann-Scheffe 定理。
  • 本讲结论最终服务什么推断任务:为构造”唯一的最好无偏估计量”提供可执行方法。

先看全局

上一讲我们建立了充分统计量的理论框架,学会了”如何从样本中提取关于参数的全部信息”。现在我们要追问一个更深刻的问题:

在已经限定为无偏估计量的前提下,谁是最好的?

这一问题驱动的逻辑链条如下:

  1. 你手上的无偏估计量可能不是最优的 —— 它的方差可能很大,因为它包含了一些和参数无关的随机噪声。
  2. Rao-Blackwell 定理告诉你:把任意无偏估计量对充分统计量取条件期望,方差不增。也就是说,你可以在”不丢失信息”的前提下,把估计量变得更稳定。
  3. 完全性告诉你:在完全充分统计量上,无偏函数的表示是唯一的。这堵死了”多个无偏估计量都有同样小的方差”的可能性。
  4. Lehmann-Scheffe 定理把上面两步合并成一条”生产线”:完全充分统计量 + 无偏函数 = 唯一 UMVUE。

这个链条可以用一句话概括:

充分性压缩有用的信息,完全性保证唯一的答案,二者合起来就得到了最优无偏估计量。

本讲的叙事线

为了让读者不被三个定理的名称搞晕,本讲沿着一条清晰的叙事线展开:

  1. 动机:为什么要研究 UMVUE? —— 从”估计量好坏”的两维矛盾出发,引出”在无偏类中找最小方差”的思路。
  2. Rao-Blackwell 定理:“去噪”工具 —— 对充分统计量取条件期望,像”平均掉噪声”一样减少方差。
  3. 完全统计量:“唯一性”的保证 —— 为什么只有充分性还不够。
  4. Lehmann-Scheffe 定理:终极工具 —— 把完全充分统计量 + 无偏函数升级为 UMVUE。
  5. 典型例子 —— 指数分布、Bernoulli、正态模型的 UMVUE 构造。
  6. 从 UMVUE 走向理论极限 —— 为下一讲 Cramér-Rao 下界埋下伏笔。

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

在本讲的讨论中,下面几个概念会反复出现,请务必在进入正文之前把它们在思维中区分清楚:

这几个概念层层递进,彼此依赖。如果你能把它们之间的关系理成一张思维导图,比孤立地背每条定义要有效得多。

3. 模型前提检查

[!warning]+ 条件先检查

  • Rao-Blackwell 定理要求条件化对象是充分统计量。如果没有充分性,条件期望不一定能保证方差缩减。
  • Lehmann-Scheffe 定理要求统计量既充分又完全。只有充分性时,你只能保证”找到了一个无偏估计量”,不能保证它是唯一的 UMVUE。
  • UMVUE 只是在无偏类中最优,不代表在所有估计量中最优。一个有偏的估计量可能具有比 UMVUE 更小的 MSE——后面讲”偏倚-方差权衡”时我们会回到这一点。
  • 要证明 UMVUE 的”唯一性”,通常离不开完全性。

三、核心概念

3.1 UMVUE:无偏类中的最优者

动机:为什么需要 UMVUE?

上一讲我们学习了评价估计量的两个维度:无偏性(平均意义上对)和方差(精确程度)。在理想情况下,我们希望一个估计量既无偏又方差小。但问题是:在无偏估计量这个集合中,谁的方差最小?

你可能会想:“那我就把所有的无偏估计量列出来,比较它们的方差,选最小的不就行了?” 但问题是,无偏估计量有无穷多个——例如,对于正态均值 μ\muX\overline{X} 是无偏的,X1X_1 也是无偏的,X1+X2XX_1 + X_2 - \overline{X} 也是无偏的……我们不可能逐个比较。

所以我们需要一个系统的理论来回答:给定一个参数模型,如何在无偏类中系统性地找到方差最小的那个估计量? 这就是 UMVUE 理论要解决的问题。

[!definition]+ UMVUE(最小方差无偏估计量) 若 g^\hat gg(θ)g(\theta) 的无偏估计量,且对任意无偏估计量 g~\tilde g 都有

Varθ(g^)Varθ(g~),θΘ,\operatorname{Var}_\theta(\hat g)\le \operatorname{Var}_\theta(\tilde g),\qquad \forall\theta\in\Theta,

则称 g^\hat gg(θ)g(\theta) 的 UMVUE(uniformly minimum variance unbiased estimator)。

用途:这是无偏估计量中的”最优解”。一旦找到了 UMVUE,就不需要再去寻找更好的无偏估计量了。

对定义中三个关键词的逐一理解

  1. “uniformly”(一致地):这个副词的分量极重。它意味着 g^\hat g 的方差必须在每一个 θ\theta 取值下都不大于任何其他无偏估计量的方差。换句话说,你不能说”在 θ=2\theta=2 时这个估计量好,在 θ=3\theta=3 时另一个好”——UMVUE 必须在所有参数值上都是一致的优胜者。

  2. “minimum variance”(最小方差):既然我们已经要求无偏了,那剩下的优化方向就是方差。方差越小,估计量在重复抽样下越稳定,离真实值的平均偏离(在无偏的条件下就是方差本身)就越小。

  3. “unbiased”(无偏):限定在无偏类中。这意味着 UMVUE 不一定是所有估计量中 MSE 最小的——一个有偏但方差极小的估计量可能有更小的 MSE。UMVUE 的承诺是:“在所有不偏向任何一方的估计量中,我最稳定。“

关于 UMVUE 是否存在的说明

UMVUE 不一定存在。如果一个参数模型的无偏估计量类为空(即根本不存在无偏估计量),那么 UMVUE 当然不存在。但在大多数标准模型中(正态、指数、Bernoulli、Poisson 等),无偏估计量是存在的,而且通过 Lehmann-Scheffe 定理我们通常能找到 UMVUE。

3.2 完全统计量:为什么”充分”还不够?

动机:充分统计量留下了什么隐患?

你可能会想:“有了充分统计量,不是已经掌握了参数的全部信息吗?为什么还需要另外一种性质?”

答案是:充分性只保证了”信息不丢失”,但没有保证”表达方式的唯一性”。

来看一个思维实验。假设 TT 是充分统计量,那么任何无偏估计量 g^\hat g 都可以被 Rao-Blackwell 改进为 E(g^T)E(\hat g\mid T)——后者是 TT 的函数,且不比 g^\hat g 差。但问题来了:同一个参数 g(θ)g(\theta) 可能有两个不同的 TT 的函数都无偏估计它。 比如 ϕ1(T)\phi_1(T)ϕ2(T)\phi_2(T) 可能同时是 g(θ)g(\theta) 的无偏估计量。那么,谁才是 UMVUE?它们可能方差不同——我们没法判断。

我们需要一种性质来保证:一旦你留在充分统计量上,无偏函数的表达式就只有一个。 这种性质就是”完全性”。

[!definition]+ 完全统计量 若统计量 TT 满足:对任意可测函数 hh

Eθ[h(T)]=0,θΘE_\theta[h(T)]=0,\quad \forall\theta\in\Theta

蕴含

h(T)=0a.s.,h(T)=0\quad \text{a.s.},

则称 TT 为完全统计量。

用途:完全性保证了”无偏函数表示”的唯一性。

直觉理解:为什么叫”完全”?

“完全”这个名字来自一个非常直观的想法:如果统计量 TT 的分布足够”丰富”,那么它就不能有任何”多余的、不依赖于参数的自由摆动”。

具体来说,如果存在一个非零的函数 hh(不是几乎处处为零的),使得 Eθ[h(T)]E_\theta[h(T)] 对所有 θ\theta 都等于 0,那说明 h(T)h(T) 虽然在取值上会随机摆动,但这种摆动的期望在每一个参数下都恰好为零。也就是说,h(T)h(T) 的”平均效果”完全没有携带关于参数的信息——它是一个”静默的噪声”。

完全性要求:不存在这样的非零噪声。 如果 Eθ[h(T)]0E_\theta[h(T)]\equiv 0 强制 θ\theta,那么 h(T)h(T) 必须几乎处处为 0。这意味着 TT 的分布足够”大”,以至于它的矩(或更一般的函数期望)能够唯一确定 TT 的分布。

一个类比:如果把充分统计量想象成一个”信息压缩包”,完全性就是保证这个压缩包没有”冗余文件”——每个函数 h(T)h(T) 都有自己独特的”期望曲线” Eθ[h(T)]E_\theta[h(T)] 作为标识,不会出现两个不同的函数有着完全相同(处处相等)的期望曲线。

完全性与指数族的关系

对于指数族分布,有一个非常实用的结论:在指数族的自然参数形式下,充分统计量 T=(T1,,Tk)T=(T_1,\dots,T_k) 通常(在参数空间包含开集的条件下)是完全的。 这意味着在第三讲中列出的那些指数族模型(Bernoulli、Poisson、正态、指数分布等),其充分统计量 Xi\sum X_i(Xi,Xi2)(\sum X_i,\sum X_i^2) 通常既是充分的又是完全的。

这个结论的实用价值在于:我们不需要每次为判断完全性做复杂的数学推导——对于指数族,充分统计量自动是完全的(在正则条件下)。

[!note]+ 对比辨析:充分统计量 vs 完全统计量

维度充分统计量完全统计量
核心思想”保留关于参数的全部信息""不存在多余的摆动”
怎么理解条件分布 P(XT)P(X\mid T) 不依赖 θ\theta如果 Eθ[h(T)]0E_\theta[h(T)]\equiv0,则 h(T)0h(T)\equiv0 a.s.
单一能否撑起 UMVUE不行——无偏函数可能不唯一也不行——需要充分性来保证你”没有丢失信息”
在 Lehmann-Scheffe 中的角色告诉你”不该离开 TT告诉你”留在 TT 上以后答案是唯一的”
指数族中的判断因子分解定理直接读出指数族(正则条件下)自动完全
典型例子U(0,θ)U(0,\theta)X(n)X_{(n)} 充分但不完全一般较少单独出现,通常和充分性一起讨论

最常见的坑:以为”充分统计量函数上的无偏估计量自动是 UMVUE”。实际上,没有完全性,你无法保证唯一性——有可能存在两个不同的 TT 的函数都无偏估计同一个参数,它们的方差可能不同,你不知道哪个最优。

考虑一个反例(仅供参考,不要求掌握细节):在 U(0,θ)U(0,\theta) 分布中,X(n)X_{(n)} 是充分的但不是完全的。此时存在多个不同的 X(n)X_{(n)} 的函数都无偏估计 θ\theta,且它们的方差不同——这说明仅有充分性是不够的。

四、统计量与分布

4.1 Rao-Blackwell 定理:“去噪”的数学工具

动机:为什么对充分统计量取条件期望能改进估计量?

我们先来建立一个直观的思维实验。

想象你有一个无偏估计量 g^\hat g,它就像一个”信号 + 噪声”的混合体:

现在,如果你有一个充分统计量 TT,它已经抓住了样本中所有关于参数的信息。那么,当你”知道 TT 的值”时,g^\hat g 中与参数有关的部分已经完全被 TT 决定了,剩下的不确定性纯粹是噪声。所以:

E(g^T)=信号部分(因为 T 已经包含了全部信号)E(\hat g\mid T) = \text{信号部分(因为 $T$ 已经包含了全部信号)}

这个条件期望把噪声平均掉了,只剩下了”给定全部信息后的平均预测”——而由于 g^\hat g 是无偏的,这个条件期望正好是 g(θ)g(\theta)

这就是 Rao-Blackwell 定理的核心思想:对充分统计量取条件期望,相当于在保留所有信号的前提下,把噪声滤掉。

[!theorem]+ Rao-Blackwell 定理 设 g^\hat gg(θ)g(\theta) 的无偏估计量,TT 是参数 θ\theta 的充分统计量。令

g^(T)=Eθ(g^T),\hat g^*(T)=E_\theta(\hat g\mid T),

则:

  1. g^(T)\hat g^*(T) 仍是 g(θ)g(\theta) 的无偏估计量;
  2. 并且
Varθ(g^)Varθ(g^),\operatorname{Var}_\theta(\hat g^*)\le \operatorname{Var}_\theta(\hat g),

其中等号成立当且仅当 g^=g^\hat g=\hat g^* a.s.

用途:把”任意无偏估计量”系统地改造成”不差于原估计量的充分统计量函数”。

定理含义解析

  1. “无偏性不变”是条件期望的塔式性质的直接推论Eθ[g^(T)]=Eθ[Eθ(g^T)]=Eθ(g^)=g(θ)E_\theta[\hat g^*(T)] = E_\theta[E_\theta(\hat g\mid T)] = E_\theta(\hat g) = g(\theta)。也就是说,取条件期望不会影响无偏性——你在平均掉噪声的同时,信号部分被完整保留了。

  2. “方差不增”是全方差公式的直接推论:全方差定理(law of total variance)告诉我们:

    Var(g^)=E[Var(g^T)]+Var(E(g^T)).\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(E(\hat g\mid T)).

    第一项 E[Var(g^T)]E[\operatorname{Var}(\hat g\mid T)] 是”给定 TTg^\hat g 的剩余方差”,代表噪声;第二项 Var(g^)\operatorname{Var}(\hat g^*) 是”条件期望的方差”,代表信号

    因为第一项是非负的,所以 Var(g^)Var(g^)\operatorname{Var}(\hat g) \ge \operatorname{Var}(\hat g^*)。等号成立当且仅当 Var(g^T)=0\operatorname{Var}(\hat g\mid T)=0 a.s.,即 g^\hat g 本身就已经是 TT 的函数。

  3. 充分性的关键作用:这里 TT 必须是充分统计量。如果 TT 不充分,那么 E(g^T)E(\hat g\mid T) 可能会丢失关于参数的信息,无偏性可能不再保持。充分性保证了这个条件期望有意义——因为条件分布 XTX\mid T 不依赖 θ\theta,所以 E(g^T)E(\hat g\mid T) 作为 TT 的函数也不依赖 θ\theta,是一个合法的统计量。

Rao-Blackwell 的实用推论

在寻找 UMVUE 时,我们不需要在所有无偏估计量中漫无目的地搜索。只需要把注意力限制在充分统计量 TT 的函数类中——因为任何不是 TT 的函数的无偏估计量,都可以通过 Rao-Blackwell 改进为 TT 的函数且方差不增。

这极大地缩小了搜索范围。

4.2 Lehmann-Scheffe 定理:终极构造工具

动机:Rao-Blackwell 还不够,我们还需要什么?

Rao-Blackwell 告诉我们”应该把估计量改进到充分统计量上”,但它没有保证这个改进后的估计量是全局最优的——它只是”不差于原估计量”。

如果我们在一个完全充分统计量上找到了一个无偏估计量,那么它就自动成为 UMVUE——而且唯一的。这就是 Lehmann-Scheffe 定理的内容。

[!theorem]+ Lehmann-Scheffe 定理 若 TT 是参数 θ\theta 的完全充分统计量,且 ϕ(T)\phi(T)g(θ)g(\theta) 的无偏估计量,则 ϕ(T)\phi(T)g(θ)g(\theta) 的唯一 UMVUE。

用途:这是构造 UMVUE 的终极工具——找到完全充分统计量后,在其函数类中找一个无偏估计量,直接宣布它是唯一 UMVUE。

定理含义解析

  1. 为什么充分性是必要的? 因为如果 TT 不充分,Rao-Blackwell 定理不适用——可能存在不是 TT 的函数的无偏估计量,它的方差可能比 ϕ(T)\phi(T) 更小。

  2. 为什么完全性是必要的? 因为如果 TT 不完全是充分的,可能存在两个不同的 TT 的函数 ϕ1(T)\phi_1(T)ϕ2(T)\phi_2(T) 都无偏估计 g(θ)g(\theta),且 ϕ1(T)ϕ2(T)\phi_1(T)\neq\phi_2(T) a.s.。此时它们的方差可能不同,我们无法断定哪个是 UMVUE。完全性保证了这种”多解”情况不会发生——如果 ϕ1(T)\phi_1(T)ϕ2(T)\phi_2(T) 都是 g(θ)g(\theta) 的无偏估计量,那么 Eθ[ϕ1(T)ϕ2(T)]=0E_\theta[\phi_1(T)-\phi_2(T)]=0 对所有 θ\theta 成立,由完全性得 ϕ1(T)=ϕ2(T)\phi_1(T)=\phi_2(T) a.s.。所以无偏函数是唯一的。

  3. “唯一”是在几乎处处意义下的:两个 UMVUE 在概率为 1 的集合上相等。在统计学实践中,这通常意味着它们本质上是同一个估计量。

Lehmann-Scheffe 的做题模板

实际做题时,通常遵循以下三步:

  1. 找完全充分统计量 TT:对于指数族模型,直接用因子分解定理得到充分统计量,然后验证完全性(指数族正则条件下自动完全)。
  2. TT 的函数中找一个无偏估计量 ϕ(T)\phi(T):通常通过求解 Eθ[ϕ(T)]=g(θ)E_\theta[\phi(T)]=g(\theta) 来得到 ϕ\phi
  3. 宣布 ϕ(T)\phi(T)g(θ)g(\theta) 的唯一 UMVUE:根据 Lehmann-Scheffe 定理。

这个模板在大部分考试题中都能直接套用。

[!note]+ 对比辨析:Rao-Blackwell 定理 vs Lehmann-Scheffe 定理

维度Rao-BlackwellLehmann-Scheffe
输入一个无偏估计量 g^\hat g + 充分统计量 TT完全充分统计量 TT + 无偏函数 ϕ(T)\phi(T)
输出一个”不差于原估计量”的新估计量唯一的 UMVUE
能否自动得到全局最优不能——只保证”不比原来差”能——自动是唯一的 UMVUE
需要完全性?不需要必须需要
主要用途”改进”一个已有估计量”构造”最优估计量
逻辑关系先改进到 TT再保证改进后全局唯一最优

这两个定理不是平行的两个选择,而是同一任务的两个步骤

  • 如果你手上有一个无偏估计量,先用 Rao-Blackwell 把它改进到充分统计量上
  • 如果这个充分统计量又是完全的,那改进后的估计量就是唯一的 UMVUE

如果 TT 是完全充分的,那么任何无偏估计量的 Rao-Blackwell 改进都会收敛到同一个答案——即 Lehmann-Scheffe 保证的唯一 UMVUE。

4.3 典型模型中的 UMVUE

例 1:Bernoulli 模型

X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)0<p<10<p<1。求 pp 的 UMVUE。

解题思路(三步法)

  1. 找完全充分统计量:由第三讲的指数族判别可知,Bernoulli 分布族是指数族,T=i=1nXiT=\sum_{i=1}^n X_i 是完全充分统计量。
  2. TT 的函数中找无偏估计量:尝试 ϕ(T)=T/n=X\phi(T)=T/n=\overline{X}。计算期望:E(X)=pE(\overline{X})=p,所以无偏。
  3. 宣布 UMVUE:由 Lehmann-Scheffe 定理,X\overline{X}pp 的唯一 UMVUE。

含义解析:这个结果看起来平凡——样本均值当然是 pp 的自然估计。但 Lehmann-Scheffe 保证了它不仅是”自然的”,而且是在所有无偏估计量中方差最小的。任何其他无偏估计量(比如 X1X_1,虽然也是无偏的但方差为 p(1p)p(1-p))的方差都比 X\overline{X} 的方差 p(1p)/np(1-p)/n 大。

例 2:指数分布模型

X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)λ>0\lambda>0 是速率参数。求 λ\lambda 的 UMVUE。

先判断统计任务:这是 UMVUE 构造题。目标参数是 λ\lambda,即指数分布的速率参数。

解题思路(三步法)

  1. 找完全充分统计量:指数分布属于指数族,T=i=1nXiT=\sum_{i=1}^n X_i 是完全充分统计量。

  2. TT 的函数中找无偏估计量: 已知 TΓ(n,λ)T\sim\Gamma(n,\lambda),密度为

    fT(t)=λnΓ(n)tn1eλt,t>0.f_T(t) = \frac{\lambda^n}{\Gamma(n)} t^{n-1}e^{-\lambda t},\qquad t>0.

    我们需要找到一个函数 ϕ(T)\phi(T) 使得 E[ϕ(T)]=λE[\phi(T)]=\lambda。这是这类题的难点——需要猜测合适的函数形式。

    回忆 Gamma 分布的性质:对任意 r>nr>-n

    E(Tr)=Γ(n+r)Γ(n)λr.E(T^r) = \frac{\Gamma(n+r)}{\Gamma(n)}\lambda^{-r}.

    我们希望 E[ϕ(T)]=λE[\phi(T)]=\lambda,所以尝试 ϕ(T)=c/T\phi(T)=c/T

    E(cT)=cΓ(n1)Γ(n)λ=cn1λ.E\left(\frac{c}{T}\right) = c\cdot\frac{\Gamma(n-1)}{\Gamma(n)}\lambda = \frac{c}{n-1}\lambda.

    令其等于 λ\lambda,得 c=n1c=n-1。因此 ϕ(T)=n1T\phi(T)=\frac{n-1}{T} 是无偏的。

  3. 宣布 UMVUE:由 Lehmann-Scheffe 定理,

    λ^UMVUE=n1i=1nXi\hat\lambda_{\text{UMVUE}} = \frac{n-1}{\sum_{i=1}^n X_i}

    λ\lambda 的唯一 UMVUE。

常见坑点提醒

例 3:正态模型(方差已知)

X1,,Xni.i.d.N(μ,σ02)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma_0^2),其中 σ02\sigma_0^2 已知。求 μ\mu 的 UMVUE。

解题思路

  1. 找完全充分统计量:正态分布(σ2\sigma^2 已知)属于一阶指数族,T=i=1nXiT=\sum_{i=1}^n X_i 是完全充分统计量。
  2. TT 的函数中找无偏估计量ϕ(T)=X=T/n\phi(T)=\overline{X}=T/n 满足 E(X)=μE(\overline{X})=\mu,无偏。
  3. 宣布 UMVUEX\overline{X}μ\mu 的唯一 UMVUE。

例 4:正态模型(方差未知)

X1,,Xni.i.d.N(μ,σ2)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2),两个参数均未知。求 μ\mu 的 UMVUE。

先判断:这是双参数问题,我们需要找到 TT 为二维统计量。

解题思路

  1. 找完全充分统计量:正态分布(双参数未知)属于二阶指数族,T=(Xi,Xi2)T=(\sum X_i,\sum X_i^2) 是完全充分统计量。
  2. TT 的函数中找无偏估计量ϕ(T)=X=(Xi)/n\phi(T)=\overline{X}=(\sum X_i)/nTT 的函数,且 E(X)=μE(\overline{X})=\mu,无偏。
  3. 宣布 UMVUEX\overline{X}μ\mu 的唯一 UMVUE。注意这里 X\overline{X} 是无偏的,而 S2S^2σ2\sigma^2 的无偏估计——但 Lehmann-Scheffe 定理告诉我们,X\overline{X} 不仅是无偏的,而且在所有无偏估计量中方差最小。

含义解析:这个结果可能让你觉得”理所当然”,但它有一个微妙的含义:即使我们不知道 σ2\sigma^2X\overline{X} 仍然是 μ\mu 的最优无偏估计量。你可能会想:“那能不能先用样本数据估计 σ2\sigma^2,然后结合这个信息得到一个更好的 μ\mu 的估计?” Lehmann-Scheffe 说:不能——至少在”无偏”约束下不能。

例 5:Rao-Blackwell 改进的具体操作

前面几个例子都是直接套用 Lehmann-Scheffe。现在我们来看一个必须用 Rao-Blackwell 做”改进”的例子。

X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)。考虑一个”很粗糙”的无偏估计量:p^1=X1\hat p_1 = X_1(只用第一个样本点)。显然 E(X1)=pE(X_1)=p,所以它是无偏的。但它没有用到其他 n1n-1 个样本点的信息,方差是 Var(X1)=p(1p)\operatorname{Var}(X_1)=p(1-p),相对于 X\overline{X} 的方差 p(1p)/np(1-p)/n 来说大了很多。

Rao-Blackwell 改进:充分统计量 T=i=1nXiT=\sum_{i=1}^n X_i。计算

p^RB=E(X1T).\hat p_{\text{RB}} = E(X_1\mid T).

由于样本是独立同分布的,给定 T=XiT=\sum X_i 后,X1X_1 的条件分布是超几何的(或者说,X1X_1 在给定 TT 后,取值 1 的概率就是 T/nT/n)。事实上:

E(X1T)=P(X1=1T)=Tn=X.E(X_1\mid T) = P(X_1=1\mid T) = \frac{T}{n} = \overline{X}.

所以改进后的估计量正是 X\overline{X}!它的方差是 p(1p)/np(1-p)/n,比 X1X_1 的方差小得多。

这个例子的意义:它生动地展示了 Rao-Blackwell 的”去噪”本质——X1X_1 包含了很多和参数无关的随机摆动(因为只看一个样本,信息太窄),但对充分统计量 Xi\sum X_i 条件化后,我们实际上是用全部 nn 个样本来估计 pp,方差自然大幅减小。

五、主要结论

1. 判别结论

[!theorem]+ 全方差公式(方差分解) 对任意随机变量 YY 和统计量 SS

Var(Y)=E[Var(YS)]+Var(E(YS)).\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).

用途:这是证明 Rao-Blackwell 方差缩减的理论基础。第一项是”条件化后剩余的噪声”,第二项是”条件化后信号的方差”。

[!theorem]+ Rao-Blackwell 构造法 条件:

  • 已有一个无偏估计量 g^\hat g
  • 已找到充分统计量 TT

结论:

E(g^T)E(\hat g\mid T)

是更优(或不差)的无偏估计量。

用途:这是把”可用”无偏估计量升级成”更好”无偏估计量的标准方法。

[!theorem]+ 完全充分统计量上的无偏函数自动最优 条件:

  • TT 完全充分;
  • ϕ(T)\phi(T) 无偏估计 g(θ)g(\theta)

结论: ϕ(T)\phi(T) 是唯一 UMVUE。

用途:这让 UMVUE 的构造从”比较所有无偏估计量”降维成”在完全充分统计量上找一个无偏函数”。

2. 最优性或比较结论

方法保证什么还需要什么
Rao-Blackwell改进后不差于原估计量充分统计量 TT
Lehmann-Scheffe自动是唯一 UMVUE完全充分统计量 TT + 无偏函数
直接构造法TT 上找无偏函数猜测正确的函数形式

[!warning]+ 使用边界

  • Rao-Blackwell 只能保证”在无偏类里不差于原估计量”,不是说自动得到全局最优。
  • Lehmann-Scheffe 需要完全性;只有充分性还不够。
  • UMVUE 的唯一性通常是在几乎处处意义下成立。
  • UMVUE 在无偏类中最优,但不一定在所有估计量中最优(有偏估计量可能有更小的 MSE)。
  • 如果无偏估计量不存在,UMVUE 也不存在。

关键公式释义

1. Rao-Blackwell 改进式

g^(T)=E(g^T)\hat g^*(T)=E(\hat g\mid T)

2. 方差分解公式(全方差公式)

Var(g^)=E[Var(g^T)]+Var(E(g^T)).\operatorname{Var}(\hat g)=E[\operatorname{Var}(\hat g\mid T)]+\operatorname{Var}(E(\hat g\mid T)).

3. Lehmann-Scheffe 定理的核心逻辑

“完全充分统计量的任一无偏函数都是唯一 UMVUE。”

六、推导与证明

1. 证明依赖

2. 证明思路概览

[!proof]- 📐 深度推导:全方差公式与 Rao-Blackwell 方差缩减的严格证明

第一部分:全方差公式的推导

对任意随机变量 YYSS,定义条件方差:

Var(YS)=E(Y2S)[E(YS)]2.\operatorname{Var}(Y\mid S) = E(Y^2\mid S) - [E(Y\mid S)]^2.

我们需要证明:

Var(Y)=E[Var(YS)]+Var(E(YS)).\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).

第一步:从 Var(Y)\operatorname{Var}(Y) 的定义出发,利用条件期望的塔式性质。

Var(Y)=E(Y2)[E(Y)]2.\operatorname{Var}(Y) = E(Y^2) - [E(Y)]^2.

由塔式性质,E(Y)=E[E(YS)]E(Y)=E[E(Y\mid S)]E(Y2)=E[E(Y2S)]E(Y^2)=E[E(Y^2\mid S)]。代入得:

Var(Y)=E[E(Y2S)]{E[E(YS)]}2.\operatorname{Var}(Y) = E[E(Y^2\mid S)] - \{E[E(Y\mid S)]\}^2.

第二步:把 E(Y2S)E(Y^2\mid S) 写成条件方差的形式。

由条件方差的定义,E(Y2S)=Var(YS)+[E(YS)]2E(Y^2\mid S) = \operatorname{Var}(Y\mid S) + [E(Y\mid S)]^2。代入:

Var(Y)=E{Var(YS)+[E(YS)]2}{E[E(YS)]}2.\operatorname{Var}(Y) = E\{\operatorname{Var}(Y\mid S) + [E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2.

第三步:拆开期望,再合并成方差项。

Var(Y)=E[Var(YS)]+E{[E(YS)]2}{E[E(YS)]}2.\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + E\{[E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2.

注意 E{[E(YS)]2}{E[E(YS)]}2E\{[E(Y\mid S)]^2\} - \{E[E(Y\mid S)]\}^2 恰好就是 Var(E(YS))\operatorname{Var}(E(Y\mid S))——这是 E(YS)E(Y\mid S) 这个随机变量的方差。所以:

Var(Y)=E[Var(YS)]+Var(E(YS)).\operatorname{Var}(Y) = E[\operatorname{Var}(Y\mid S)] + \operatorname{Var}(E(Y\mid S)).

这个推导中每一步都是等式的恒等变形——没有任何近似或条件。全方差公式对任意 YYSS 都成立。


第二部分:将全方差公式应用于 Rao-Blackwell 定理

Y=g^Y=\hat g(原无偏估计量),S=TS=T(充分统计量)。则:

Var(g^)=E[Var(g^T)]+Var(E(g^T)).\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(E(\hat g\mid T)).

E(g^T)=g^(T)E(\hat g\mid T) = \hat g^*(T),所以:

Var(g^)=E[Var(g^T)]+Var(g^).\operatorname{Var}(\hat g) = E[\operatorname{Var}(\hat g\mid T)] + \operatorname{Var}(\hat g^*).

为什么交叉项为 0? 这里不需要担心交叉项——全方差公式的推导已经自动处理了这一点。交叉项不出现在最终表达式中,因为 E(Y2)E(Y^2) 的分解是严格的。更直观地说,“条件期望” E(g^T)E(\hat g\mid T) 和”条件方差” E[Var(g^T)]E[\operatorname{Var}(\hat g\mid T)] 是正交的(在 L2L^2 内积意义下),所以它们之间没有交叉贡献。

现在,E[Var(g^T)]E[\operatorname{Var}(\hat g\mid T)] 是非负的(方差总是非负的),所以:

Var(g^)Var(g^).\operatorname{Var}(\hat g) \ge \operatorname{Var}(\hat g^*).

等号成立的条件E[Var(g^T)]=0E[\operatorname{Var}(\hat g\mid T)] = 0,这意味着 Var(g^T)=0\operatorname{Var}(\hat g\mid T)=0 a.s.,即 g^\hat g 以概率 1 是 TT 的函数——也就是 g^=g^\hat g = \hat g^* a.s.

用途:这个推导清晰地展示了 Rao-Blackwell 的方差缩减来自”去掉全方差公式中的正项”。条件期望把原估计量的总方差分解为”可被 TT 解释的部分”和”残留的随机噪声”,而改进后的估计量正好是”可被 TT 解释的部分”。

[!proof]- 📐 深度推导:Lehmann-Scheffe 定理的证明思路

设置:设 TT 是完全充分统计量,ϕ(T)\phi(T)g(θ)g(\theta) 的无偏估计量。需要证明 ϕ(T)\phi(T) 是唯一 UMVUE。

第一步:证明 ϕ(T)\phi(T) 是 UMVUE。

g~\tilde g 是任意无偏估计量。由 Rao-Blackwell 定理,g~=E(g~T)\tilde g^* = E(\tilde g\mid T) 也是无偏的,且 Var(g~)Var(g~)\operatorname{Var}(\tilde g^*) \le \operatorname{Var}(\tilde g)

注意 g~\tilde g^*TT 的函数。又因为 ϕ(T)\phi(T) 也是 TT 的无偏函数,所以考虑差值:

d(T)=g~ϕ(T).d(T) = \tilde g^* - \phi(T).

由于两者都是无偏的,Eθ[d(T)]=0E_\theta[d(T)] = 0 对所有 θΘ\theta\in\Theta 成立。

第二步:利用完全性。

TT 的完全性,Eθ[d(T)]=0E_\theta[d(T)] = 0 对所有 θ\theta 成立蕴含 d(T)=0d(T)=0 a.s.。因此 g~=ϕ(T)\tilde g^* = \phi(T) a.s.

这意味着:任意无偏估计量的 Rao-Blackwell 改进都(几乎必然)等于 ϕ(T)\phi(T)

因此对任意无偏估计量 g~\tilde gVar(g~)Var(g~)=Var(ϕ(T))\operatorname{Var}(\tilde g) \ge \operatorname{Var}(\tilde g^*) = \operatorname{Var}(\phi(T))。所以 ϕ(T)\phi(T) 确实是 UMVUE。

第三步:证明唯一性。

假设存在另一个 UMVUE ϕ2(T2)\phi_2(T_2)(不一定能写成 TT 的函数)。由 Rao-Blackwell 定理改进到 TT 上,得 E(ϕ2T)E(\phi_2\mid T)TT 的无偏函数。由完全性,E(ϕ2T)=ϕ(T)E(\phi_2\mid T)=\phi(T) a.s.

又因为 ϕ2\phi_2 是 UMVUE,它的方差不能大于 ϕ(T)\phi(T) 的方差(否则 ϕ(T)\phi(T) 就不是 UMVUE),而 Rao-Blackwell 保证了 Var(ϕ2)Var(E(ϕ2T))=Var(ϕ(T))\operatorname{Var}(\phi_2) \ge \operatorname{Var}(E(\phi_2\mid T)) = \operatorname{Var}(\phi(T))。所以 Var(ϕ2)=Var(ϕ(T))\operatorname{Var}(\phi_2) = \operatorname{Var}(\phi(T)),结合无偏性,这要求 ϕ2=ϕ(T)\phi_2 = \phi(T) a.s.(因为方差相等且期望相等时,L2L^2 距离为 0)。

所以 UMVUE 在几乎处处意义下唯一。

用途:这个证明展示了完全性的核心作用——它就像一个”钳子”,把 TT 上的所有无偏函数”钳”到同一个值上,由此同时得到”最优性”和”唯一性”。

[!proof]- 📐 深度推导:指数分布 UMVUE 中 E(1/T)E(1/T) 的计算

X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)T=i=1nXiΓ(n,λ)T=\sum_{i=1}^n X_i \sim \Gamma(n,\lambda)

具体来说,TT 的密度为:

fT(t)=λnΓ(n)tn1eλt,t>0.f_T(t) = \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t},\qquad t>0.

计算 E(1/T)E(1/T)

E(1T)=01tλnΓ(n)tn1eλtdt=λnΓ(n)0tn2eλtdt.E\left(\frac{1}{T}\right) = \int_0^\infty \frac{1}{t} \cdot \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t}\, dt = \frac{\lambda^n}{\Gamma(n)} \int_0^\infty t^{n-2} e^{-\lambda t}\, dt.

注意 0tn2eλtdt\int_0^\infty t^{n-2} e^{-\lambda t}\, dt 就是 Γ(n1)/λn1\Gamma(n-1)/\lambda^{n-1}(因为 Γ(α)=0tα1eλtλα/λαdt\Gamma(\alpha)=\int_0^\infty t^{\alpha-1}e^{-\lambda t}\cdot \lambda^\alpha/\lambda^\alpha dt,需小心处理系数)。更直接地:

0tn2eλtdt=Γ(n1)λn1.\int_0^\infty t^{n-2} e^{-\lambda t}\, dt = \frac{\Gamma(n-1)}{\lambda^{n-1}}.

代入得:

E(1T)=λnΓ(n)Γ(n1)λn1=λΓ(n)Γ(n1).E\left(\frac{1}{T}\right) = \frac{\lambda^n}{\Gamma(n)} \cdot \frac{\Gamma(n-1)}{\lambda^{n-1}} = \frac{\lambda}{\Gamma(n)} \cdot \Gamma(n-1).

由 Gamma 函数的性质 Γ(n)=(n1)Γ(n1)\Gamma(n) = (n-1)\Gamma(n-1)

E(1T)=λ(n1)Γ(n1)Γ(n1)=λn1.E\left(\frac{1}{T}\right) = \frac{\lambda}{(n-1)\Gamma(n-1)} \cdot \Gamma(n-1) = \frac{\lambda}{n-1}.

因此 E(n1T)=λE\left(\frac{n-1}{T}\right) = \lambda,即 (n1)/T(n-1)/Tλ\lambda 的无偏估计量。

为什么这个计算中要小心 Gamma 函数的参数? 因为 TΓ(n,λ)T\sim\Gamma(n,\lambda) 意味着 E(T)=α/λ=n/λE(T)=\alpha/\lambda = n/\lambda,但 E(1/T)E(1/T) 不是 1/E(T)1/E(T)!这是一个容易犯的初级错误。实际通过积分计算得到 E(1/T)=λ/(n1)E(1/T)=\lambda/(n-1),需要通过 Gamma 函数的递推公式 Γ(n)=(n1)Γ(n1)\Gamma(n)=(n-1)\Gamma(n-1) 来化简。

用途:这是”在完全充分统计量上找无偏函数”的标准计算模板。类似的技巧可以用于 Poisson 模型、Gamma 模型等。

七、例题与变式

1. 标准题:指数分布的 UMVUE

**题型:**UMVUE 构造题

题目:

X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda),求 λ\lambda 的 UMVUE。

解题思路(先理顺这三步)

  1. **先判断统计任务:**这是 UMVUE 构造题。目标参数是 λ\lambda,指数分布的速率参数。
  2. **再判断工具:**指数样本中 T=XiT=\sum X_i 是完全充分统计量(指数族)。
  3. **最后在 TT 上找无偏函数:**猜测形式为 c/Tc/T,通过 Gamma 分布的矩计算出 c=n1c=n-1

解答:

T=i=1nXiΓ(n,λ)T=\sum_{i=1}^n X_i\sim \Gamma(n,\lambda),且 TTλ\lambda 的完全充分统计量。

由 Gamma 分布的性质:

E(1T)=λn1,E\left(\frac{1}{T}\right) = \frac{\lambda}{n-1},

所以

E(n1T)=λ.E\left(\frac{n-1}{T}\right) = \lambda.

因此 λ^=n1i=1nXi\hat\lambda = \frac{n-1}{\sum_{i=1}^n X_i}λ\lambda 的无偏估计量,且它是完全充分统计量的函数。

由 Lehmann-Scheffe 定理,λ^\hat\lambdaλ\lambda 的唯一 UMVUE。

答案解读:注意 UMVUE 是 (n1)/Xi(n-1)/\sum X_i,而不是 n/Xin/\sum X_i。后者是 MLE(最大似然估计),但它是有偏的——它的期望是 nn1λ>λ\frac{n}{n-1}\lambda > \lambda。这也告诉我们:MLE 不一定无偏,UMVUE 不一定就是 MLE。

常见坑点提醒:

2. 标准题:Rao-Blackwell 改进的具体操作

**题型:**Rao-Blackwell 改进题

题目:

X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)。用 Rao-Blackwell 定理改进无偏估计量 p^=X1\hat p = X_1,并说明改进后的估计量的方差。

解题思路

  1. 识别原估计量和充分统计量p^=X1\hat p = X_1 是无偏的,T=XiT=\sum X_i 是充分统计量。
  2. 计算条件期望E(X1T)E(X_1\mid T)。由于样本独立同分布,给定总和 TTX1X_1 的取值有对称性。
  3. 说明方差改进:比较改进前后的方差。

解答:

给定 T=i=1nXiT=\sum_{i=1}^n X_i,由于 X1,,XnX_1,\dots,X_n 独立同分布,由对称性:

E(X1T)=E(X2T)==E(XnT).E(X_1\mid T) = E(X_2\mid T) = \cdots = E(X_n\mid T).

又因为 i=1nE(XiT)=E(TT)=T\sum_{i=1}^n E(X_i\mid T) = E(T\mid T) = T,所以 nE(X1T)=Tn\cdot E(X_1\mid T) = T,从而:

E(X1T)=Tn=X.E(X_1\mid T) = \frac{T}{n} = \overline{X}.

改进后的估计量 p^RB=X\hat p_{\text{RB}} = \overline{X}

改进前后的方差比较:

答案解读:这个例子形象地说明了 Rao-Blackwell 的威力。X1X_1 只用了 1 个样本的信息,方差是 p(1p)p(1-p);改进到充分统计量 T=XiT=\sum X_i 上后,相当于间接使用了全部 nn 个样本的信息,方差缩小到原来的 1/n1/n。这就是”把噪声平均掉”的直观体现。

常见坑点提醒:

3. 变式题

变式一:把估计对象从 λ\lambda 换成 eλe^{-\lambda}

在指数分布 E(λ)E(\lambda) 中,Pλ(X>1)=eλP_\lambda(X>1)=e^{-\lambda}。求 eλe^{-\lambda} 的 UMVUE。

思路:完全充分统计量仍然是 T=XiT=\sum X_i。需要在 TT 上找一个函数 ϕ(T)\phi(T) 使得 E[ϕ(T)]=eλE[\phi(T)]=e^{-\lambda}

求解:

E[ϕ(T)]=0ϕ(t)λnΓ(n)tn1eλtdt=eλ.E[\phi(T)] = \int_0^\infty \phi(t) \frac{\lambda^n}{\Gamma(n)} t^{n-1} e^{-\lambda t}\, dt = e^{-\lambda}.

可以发现 ϕ(t)=(11/n)t\phi(t) = (1 - 1/n)^t(取整数部分)并不合适,因为 tt 是连续变量。实际上,通过计算可得 ϕ(T)=(11n)Xi\phi(T) = \left(1 - \frac{1}{n}\right)^{\sum X_i} 时的期望恰好是 eλe^{-\lambda}。验证这一结果需要做一些代数变换,这里不展开。

变式二:在 Bernoulli 模型中求 p(1p)p(1-p) 的 UMVUE。

完全充分统计量仍然是 T=XiT=\sum X_i,但需要找 ϕ(T)\phi(T) 使得 E[ϕ(T)]=p(1p)E[\phi(T)]=p(1-p)。一个常见陷阱是直接使用”样本方差” Sn2=1n(XiX)2S_n^2 = \frac{1}{n}\sum (X_i-\overline{X})^2,但对 Bernoulli 分布,Sn2=X(1X)S_n^2 = \overline{X}(1-\overline{X}),而 E[X(1X)]=n1np(1p)E[\overline{X}(1-\overline{X})] = \frac{n-1}{n}p(1-p)。所以 nn1X(1X)\frac{n}{n-1}\overline{X}(1-\overline{X}) 才是 p(1p)p(1-p) 的无偏估计,也是 UMVUE。

变式三:Poisson 分布的 UMVUE。

X1,,XnP(λ)X_1,\dots,X_n\sim P(\lambda)。求 λ\lambda 的 UMVUE。

完全充分统计量是 T=XiP(nλ)T=\sum X_i\sim P(n\lambda)X=T/n\overline{X}=T/n 是无偏的,由 Lehmann-Scheffe 定理,X\overline{X}λ\lambda 的唯一 UMVUE。

4. 题型提醒

[!tip]+ 做题顺序:UMVUE 构造题的三步法模板

  1. 找完全充分统计量 TT
    • 对指数族模型(Bernoulli、Poisson、正态、指数、Gamma 等),直接用因子分解定理得充分统计量,然后验证完全性。
    • 指数族(正则条件)下,充分统计量通常是完全的。
  2. TT 的函数中找无偏估计量 ϕ(T)\phi(T)
    • 如果 X\overline{X} 本身无偏,优先尝试 X=T/n\overline{X}=T/n
    • 如果需要找 ϕ(T)\phi(T) 使得 E[ϕ(T)]=g(θ)E[\phi(T)]=g(\theta),考虑用分布族的矩公式求解。
    • 对于 g(θ)=Eθ[h(X)]g(\theta)=E_\theta[h(X)] 形式的参数函数,有时可以用”U-统计量”方法构造无偏估计。
  3. 由 Lehmann-Scheffe 定理宣布 ϕ(T)\phi(T) 是唯一 UMVUE:
    • 记得在答题中明确写出:“因为 TT 是完全充分的,ϕ(T)\phi(T) 是无偏的,所以由 Lehmann-Scheffe 定理,ϕ(T)\phi(T)g(θ)g(\theta) 的唯一 UMVUE。“

八、章节连接

九、复习整理

[!summary]+ 本讲小结

  • 研究的问题:无偏估计量中谁最好(方差最小)。
  • 使用的模型:参数模型、充分统计量、完全统计量。
  • 核心统计量:完全充分统计量 TT 及其无偏函数。
  • 关键结论
    1. Rao-Blackwell 定理:对充分统计量条件化 \rightarrow 方差不增。
    2. 完全性Eθ[h(T)]=0E_\theta[h(T)]=0 对所有 θ\theta 成立 \Rightarrow h(T)=0h(T)=0 a.s.——保证了唯一性。
    3. Lehmann-Scheffe 定理:完全充分统计量的无偏函数自动是唯一 UMVUE。
  • 最重要的条件:无偏、充分、完全——三个条件缺一不可。
  • 本讲最终服务什么推断任务:系统构造最优无偏估计量,为评价估计量的”效率”做准备。

高频误套

[!warning]+ 常见错误

  • 证明了无偏就直接说是 UMVUE。 无偏只是 UMVUE 的必要条件,不是充分条件。还需要证明在所有无偏估计量中方差最小(通常通过 Lehmann-Scheffe 定理)。
  • 证明了充分就直接调用 Lehmann-Scheffe,忘了检查完全性。 如果统计量充分但不完全,可能存在多个不同的无偏函数,不能保证是 UMVUE。
  • 写 Rao-Blackwell 时没有明确条件化对象是充分统计量。 对任意统计量条件化,虽然全方差公式仍然成立,但不能保证改进后的统计量仍然是合法的无偏估计量。
  • 认为 UMVUE 在所有估计量中都最优。 UMVUE 只在”无偏”这个约束下最优。一个有偏但方差极小的估计量可能有更小的 MSE。
  • E(1/T)E(1/T) 直接写成 1/E(T)1/E(T) 期望算子不通过倒数函数,1E(T)E(1T)\frac{1}{E(T)} \neq E\left(\frac{1}{T}\right)
  • 指数分布 UMVUE 写成 n/Xin/\sum X_i 这是 MLE,但不是 UMVUE(它是有偏的)。

条件卡

  1. 结论:E(g^T)E(\hat g\mid T) 不差于 g^\hat g成立条件:g^\hat g 无偏,TT 充分。 不能用在:TT 不是充分统计量时。 **常见误套场景:**对任意统计量条件化就说”方差更小”——虽然全方差公式对任何 TT 都成立,但 E(g^T)E(\hat g\mid T) 可能不再是合法的统计量(因为它可能依赖未知参数)。

  2. 结论:ϕ(T)\phi(T) 是 UMVUE。 成立条件:TT 完全充分,ϕ(T)\phi(T) 无偏。 **不能用在:**只有充分性没有完全性时。 **常见误套场景:**找到充分统计量 TT 和无偏函数 ϕ(T)\phi(T) 后直接说”这是 UMVUE”,但忘了检查 TT 的完全性。

  3. **结论:**UMVUE 唯一。 **成立条件:**在完全充分统计量框架下,几乎处处意义下唯一。 **不能用在:**没有完全性时强行声称唯一。 **常见误套场景:**只因为”看起来最自然”就说是唯一 UMVUE——如果统计量不完全,可能存在多个无偏函数,需要进一步论证。

  4. 结论:n1Xi\frac{n-1}{\sum X_i} 是指数分布 λ\lambda 的 UMVUE。 成立条件:X1,,XnX_1,\dots,X_n 来自 E(λ)E(\lambda),样本独立同分布。 **不能用在:**总体不是指数分布时(此时 TT 的分布不是 Gamma,E(1/T)E(1/T) 也不一定是 λ/(n1)\lambda/(n-1))。 **常见误套场景:**在非指数分布模型中套用指数分布的计算公式。

十、习题区

1. 概念题

  1. **用自己的话解释:**为什么 Rao-Blackwell 定理体现的是”信息压缩后的优化”?这里的”信息压缩”指什么?“优化”体现在哪里?

  2. 完全性在 UMVUE 理论中到底起什么作用? 如果统计量 TT 充分但不完全,你还能用 Lehmann-Scheffe 定理吗?如果不能,你会面临什么问题?

  3. 为什么 UMVUE 只是在无偏类中最优,而不是所有估计量中最优? 能举出一个直观的例子说明”有偏但 MSE 更小”的情况吗?(提示:考虑 θ\theta 的估计量 θ^=0\hat\theta = 0——这是一个极其”稳定”但通常有偏的估计量。)

  4. Rao-Blackwell 定理和 Lehmann-Scheffe 定理的逻辑关系是什么? 它们是可以相互替代的平行定理,还是同一条”生产线”上的两个步骤?

2. 标准题

  1. X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)。说明 X1X_1pp 的无偏估计量,然后用 Rao-Blackwell 定理将其改进,并比较改进前后的方差。

  2. X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)

    • (a) 说明 i=1nXi\sum_{i=1}^n X_iλ\lambda 的完全充分统计量。
    • (b) 利用 Gamma 分布的性质求 λ\lambda 的 UMVUE。
    • (c) MLE 是 λ^MLE=1/X=n/Xi\hat\lambda_{\text{MLE}} = 1/\overline{X} = n/\sum X_i,比较 MLE 和 UMVUE 的期望差异(哪个有偏?偏大还是偏小?)。
  3. X1,,Xni.i.d.N(μ,σ02)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma_0^2),其中 σ02\sigma_0^2 已知。用 Lehmann-Scheffe 定理证明 X\overline{X}μ\mu 的 UMVUE。写出完整的推导过程(包括验证充分性、完全性和无偏性)。

3. 综合题

  1. UMVUE 三步法的完整练习。X1,,Xni.i.d.Poisson(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} \text{Poisson}(\lambda)

    • (a) 写出该模型的指数族形式,找出完全充分统计量 TT
    • (b) 求 λ\lambda 的 UMVUE。
    • (c) 求 eλe^{-\lambda} 的 UMVUE。(提示:Pλ(X1=0)=eλP_\lambda(X_1=0)=e^{-\lambda},以此为出发点构造无偏估计量并用 Rao-Blackwell 改进,或者直接在 TT 上求解 E[ϕ(T)]=eλE[\phi(T)]=e^{-\lambda}。)
  2. Rao-Blackwell 与 Lehmann-Scheffe 的对比分析。 就你所学的内容,画一张思维导图或写一段话,说明:

    • 两个定理分别需要什么条件
    • 两个定理分别给出什么结论
    • 两个定理如何配合使用
    • 什么情况下只需要 Rao-Blackwell(而不需要 Lehmann-Scheffe)
  3. 思考题:MLE 与 UMVUE 的关系。 在指数分布 E(λ)E(\lambda) 中,MLE 是 1/X1/\overline{X},UMVUE 是 (n1)/(nX)(n-1)/(n\overline{X})。在正态模型 N(μ,σ2)N(\mu,\sigma^2) 中(σ2\sigma^2 未知),μ\mu 的 MLE 和 UMVUE 都是 X\overline{X},但 σ2\sigma^2 的 MLE 是 (n1)S2/n(n-1)S^2/n(有偏),UMVUE 是 S2S^2(无偏)。思考:MLE 和 UMVUE 在什么情况下一致,什么情况下不一致?

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句”用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

Edit page

Previous Post
第05讲 点估计的评价与矩估计
Next Post
第07讲 Cramer-Rao下界与Fisher信息