Skip to content
Lokkue's Notes
Go back

第07讲 Cramer-Rao下界与Fisher信息

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:无偏估计量的方差到底能小到什么程度。
  • 已知什么:参数模型 p(x;θ)p(x;\theta)、无偏估计量、正则条件。
  • 未知什么:能否给所有无偏估计量设置一个统一的下界,这个下界由什么决定。
  • 核心统计对象:score 函数、Fisher 信息、Cramér-Rao 不等式。
  • 本讲结论最终服务什么推断任务:判断估计量是否高效,以及解释为什么某些估计量”已经不能再好了”。

先看全局

上一讲我们学习了 UMVUE —— 在无偏类中方差最小的那个估计量。但我们始终没有回答一个根本性的问题:

这个”最小”到底有多小?它能不能无限接近于零?

如果你手头有一个无偏估计量,它的方差是 0.12。你不知道它是不是 UMVUE,但你想知道:还有没有可能构造出方差为 0.01 的无偏估计量?或者说,是否存在一个理论上的极限,低于这个极限,任何无偏估计量都不可能达到?

答案是:确实存在这样一个极限。 它叫 Cramér-Rao 下界(C-R 下界)。只要模型满足一些基本条件,每一个无偏估计量的方差都会被一个由模型本身决定的”理论门槛”所约束。

这一讲和上一讲的关系是:

所以 Cramér-Rao 下界不是在教你构造估计量,而是在告诉你:

任何无偏估计量的方差都不可能无限小,它至少要大于某个由信息量决定的门槛。

这个”信息量”不是日常语言中的”信息”,而是 Fisher 信息 —— 一个用来量化”样本对参数敏感程度”的数学量。它的核心思想极为直观:你从样本中”感知”到的参数信息越多,你的估计就能越精确。

思维实验:想象你在测量一个未知物体的重量。如果你有一台非常精密的天平(信息量大),你称一次就能得出一个很准的估计值(方差小)。如果天平的精度很差(信息量小),你需要多次称量取平均才能稍微降低波动(方差大)。C-R 下界告诉你的正是:给定你的天平精度(Fisher 信息),你的估计精度最多能好到什么程度。

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

这一讲有三个核心对象,初学者最容易搞混,我们先在这里划清边界:

一句话串起来:score 感知参数变化 → 其方差定义 Fisher 信息 → Fisher 信息决定 C-R 下界 → C-R 下界是估计精度的极限。

3. 模型前提检查:Cramér-Rao 正则条件

Cramér-Rao 不等式不是无条件成立的。它依赖于一组称为”正则条件”的假设。如果模型不满足这些条件,就不能硬套 C-R 下界。

[!warning]+ 条件先检查

  • Cramér-Rao 下界不是无条件成立,必须检查正则条件。
  • 若模型不满足正则条件,即使套用公式算出一个数值,也没有理论意义。
  • 估计对象若是 g(θ)g(\theta) 而非 θ\theta,下界中要出现 g(θ)g'(\theta)
  • 正则条件的核心目的是保证求导和积分可以交换顺序。

下面我们来逐条解释这四条正则条件,理解每条条件到底在保护什么

正则条件 1:支持集不依赖参数。

{x:p(x;θ)>0} 与 θ 无关.\{x:p(x;\theta)>0\}\ \text{与}\ \theta\ \text{无关}.

为什么需要这条? 如果支持集依赖 θ\theta(比如 U(0,θ)U(0,\theta) 的支持集是 (0,θ)(0,\theta)θ\theta 变了支持集的边界也会变),那么对 p(x;θ)dx=1\int p(x;\theta)dx=1 两边关于 θ\theta 求导时,莱布尼茨积分法则会多出边界项,导致 ddθp(x;θ)dxpθdx\frac{d}{d\theta}\int p(x;\theta)dx\neq\int\frac{\partial p}{\partial\theta}dx。这意味着我们无法安全地交换求导和积分。

正则条件 2:密度函数在参数空间内可微。

θp(x;θ) 存在(几乎处处).\frac{\partial}{\partial\theta}p(x;\theta)\ \text{存在(几乎处处)}.

为什么需要这条? 我们需要 score 函数 U=θlogpU=\frac{\partial}{\partial\theta}\log p 被良好定义。如果密度关于参数不可微,score 函数根本不存在,后面的所有讨论无从谈起。

正则条件 3:求导与积分可交换。

ddθp(x;θ)dx=θp(x;θ)dx,ddθg^(x)p(x;θ)dx=g^(x)θp(x;θ)dx.\frac{d}{d\theta}\int p(x;\theta)dx=\int\frac{\partial}{\partial\theta}p(x;\theta)dx, \qquad \frac{d}{d\theta}\int \hat g(x)\,p(x;\theta)dx=\int \hat g(x)\,\frac{\partial}{\partial\theta}p(x;\theta)dx.

为什么需要这条? 这是 C-R 下界推导中最关键的一步:我们需要对”无偏条件”两边关于 θ\theta 求导,并把求导操作移到积分号内部。如果交换不成立,整个推导的第一步就会崩溃。典型地,当支持集依赖参数时(条件 1 被违反),这条交换就受到威胁。

正则条件 4:Fisher 信息有限且为正。

0<I(θ)=Eθ[U(X;θ)2]<.0<I(\theta)=E_\theta[U(X;\theta)^2]<\infty.

为什么需要这条? 如果 I(θ)=0I(\theta)=0,那么 score 几乎处处为 0,说明分布完全不随 θ\theta 变化——这意味着参数根本不可识别。如果 I(θ)=I(\theta)=\infty,C-R 下界退化为 0,丧失了约束意义。

[!note]+ 哪些分布不满足正则条件?

  • U(0,θ)U(0,\theta):支持集依赖 θ\theta(违反条件 1)。
  • U(θ1,θ+1)U(\theta-1,\theta+1):虽然支持集是 (θ1,θ+1)(\theta-1,\theta+1),也依赖 θ\theta
  • 双参数 Pareto 分布且形状参数未知时:支持集依赖尺度参数。
  • 二项分布 B(1,p)B(1,p):支持集 {0,1}\{0,1\} 依赖 pp(支持集是离散的固定集合)。所以 Bernoulli 分布满足正则条件!这是初学者常误判的地方。支持集依赖参数 ≠ 支持集是有限集合。

三、核心概念

3.1 Score 函数:对数似然的”斜率”

[!definition]+ Score 函数 对单个样本 XX,定义

U(X;θ)=θlogp(X;θ).U(X;\theta)=\frac{\partial}{\partial\theta}\log p(X;\theta).

用途:衡量对数似然关于参数的”瞬时变化率”。

在介绍这个定义的数学细节之前,我们先建立直觉。

思维实验:假设你有两个不同的参数值 θ\thetaθ+Δθ\theta+\Delta\theta。如果 Δθ\Delta\theta 非常小,logp(x;θ)\log p(x;\theta) 的变化大约为 U(x;θ)ΔθU(x;\theta)\cdot\Delta\theta。所以 score 函数告诉你:当参数挪动一小步时,对数似然会向哪个方向迈出多大一步。

如果说”似然”衡量的是”给定参数下数据的解释力”,那么 score 衡量的就是”参数稍微变一下,解释力会怎么变”——它是似然函数的局部斜率。

一条重要性质(稍后会用上):score 的期望为零。

Eθ[U(X;θ)]=0.E_\theta[U(X;\theta)]=0.

为什么? 因为 p(x;θ)dx=1\int p(x;\theta)dx=1,两边对 θ\theta 求导(正则条件保证可交换),得 pθdx=0\int\frac{\partial p}{\partial\theta}dx=0。而 pθ=logpθp\frac{\partial p}{\partial\theta}= \frac{\partial\log p}{\partial\theta}\cdot p,所以 U(x;θ)p(x;θ)dx=0\int U(x;\theta)\,p(x;\theta)dx=0

这条性质的含义很微妙:score 有时正有时负(参数变一点,有时似然上升,有时下降),但平均上它”不动”。如果平均不是零,那就意味着存在一个”系统性”的偏移方向——但由无偏条件 pdx=1\int p dx=1 可知,整体概率质量是守恒的,所以 score 的平均只能是零。

3.2 Fisher 信息:score 的波动强度

[!definition]+ Fisher 信息(单个样本) 对单个样本 XX,若模型满足正则条件,则定义

I(θ)=Eθ[U(X;θ)2]=Eθ[(θlogp(X;θ))2].I(\theta)=E_\theta\left[U(X;\theta)^2\right] =E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right].

用途:刻画单个样本对参数的辨识能力。信息量越大,可达到的方差下界越小。

直觉理解:score 描述了”参数变一点,分布的反应有多强”。但如果 score 的期望是 0,那要量化”反应强度”就不能用期望(因为期望抹掉了方向),而要用二阶矩——也就是方差(因为期望为 0,二阶矩 = 方差)。Fisher 信息本质上就是 score 的这个波动大小。

把这句话翻成直觉语言:

为什么叫”信息”? 这就好比你在电话里听到一个人的声音。如果那个人的音色很有特点(你只需听一个字就能认出是谁),那么”声音的信息量”大,你识别人的准度就高;如果那个人的声音毫无特色(你听了好几句也不能确定是谁),那么”信息量”小,你的识别精度就低。Fisher 信息量化了”一个样本值中包含了多少关于参数的信息”。

在正则条件下,Fisher 信息有一个等价形式,有时更方便计算:

I(θ)=Eθ[2θ2logp(X;θ)].I(\theta)=-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].

为什么这两个形式等价? 这个等价关系揭示了 Fisher 信息的另一个视角。一阶导数的平方的期望,等于负的二阶导数的期望。粗略地,如果对数似然在真实参数处”很尖”(二阶导数负得很大),说明参数稍微偏离就会导致对数似然明显下降——这意味着我们不容易搞错参数,信息量自然就大。反过来,如果对数似然的峰很平坦(二阶导数接近零),我们就难以精确锁定参数,信息量就小。

计算上的取舍:有时候用一阶导数形式更方便(比如正态均值模型),有时候用二阶导数形式更省事(比如 Bernoulli 模型)。我们后面会在例题中展示两种方法的切换。

3.3 有效估计:达到理论极限的估计量

[!definition]+ 有效估计 若某无偏估计量 g^\hat g 的方差恰好等于 Cramér-Rao 下界,则称 g^\hat gg(θ)g(\theta) 的有效估计量(efficient estimator)。

用途:说明它在无偏类中已经达到了理论最优极限,不可能再被改进。

注意:有效估计一定是 UMVUE(因为它达到了无偏类中的方差下界),但 UMVUE 不一定有效——UMVUE 是所有无偏估计量中方差最小的那个,但这个”最小”不一定等于 C-R 下界。下界达不到,可能是因为 C-R 下界本身不是紧的(即不是所有的 UMVUE 都能到达 C-R 下界)。

我们会在本章末尾用一个对比卡片来详细辨析这两个概念。

四、统计量与分布

4.1 Cramér-Rao 下界:无偏估计的理论极限

[!theorem]+ Cramér-Rao 不等式 设模型满足正则条件 1-4,g^\hat gg(θ)g(\theta) 的无偏估计量,则

Varθ(g^)(g(θ))2I(θ).\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{I(\theta)}.

nn 个 i.i.d. 样本,Fisher 信息具有可加性:

In(θ)=nI(θ),I_n(\theta)=nI(\theta),

因而

Varθ(g^)(g(θ))2nI(θ).\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{nI(\theta)}.

用途:给出任何无偏估计量方差的统一理论下界。

这个公式在说什么? 让我们逐层拆解:

思维实验:假设 I(θ)=10I(\theta)=10(信息充分),g(θ)=θg(\theta)=\thetag(θ)=1g'(\theta)=1),那么 n=1n=1 时下界为 0.1,n=100n=100 时下界为 0.001。这意味着:只要有足够多的样本,任何参数都可以被估计得任意精确——这正是统计学中”一致性”的理论基础。

这条公式的含义是”再好也不能比这更小”的硬约束。 它像一道”物理极限线”:

4.2 等号成立条件:什么时候能达到下界?

[!theorem]+ Cramér-Rao 不等式取等条件 Cramér-Rao 不等式取等号,当且仅当存在只依赖于 θ\theta 的函数 a(θ)a(\theta),使得

g^g(θ)=a(θ)U(X;θ)\hat g - g(\theta) = a(\theta) \cdot U(X;\theta)

几乎处处成立(或者说,对于几乎所有 XX 的取值成立)。

用途:这是判断一个估计量是否有效的结构标准。

这条条件在说什么? Cauchy-Schwarz 不等式中,等号成立的充要条件是两个随机变量之间几乎处处成比例。在 C-R 下界的推导中,这两个随机变量分别是:

所以,如果要达到下界,估计误差必须和 score 函数严格成比例。这意味着:

  1. score 函数的形式决定了估计量的结构。如果 score 函数本身的形式很简单(比如正态分布的 score 是 (Xμ)/σ2(X-\mu)/\sigma^2),那么估计量也会很简单。
  2. 如果 score 函数和估计误差的结构不匹配(比如 score 是二次函数,但估计量是线性的),就不可能达到下界。

等号条件的统计学含义:C-R 下界不是随随便便就能达到的。它要求估计量的误差结构必须和”参数对似然的影响力”(即 score)完全对齐。这很像说:只有当你利用到了模型关于参数的”全部信息”时,你的估计才能达到理论极限。 少用一点,你的方差就会比下界大。

4.3 信息累加:为什么 In(θ)=nI(θ)I_n(\theta)=nI(\theta)

对于 i.i.d. 样本 X1,,XnX_1,\dots,X_n,联合对数似然是单个对数似然之和:

logp(X;θ)=i=1nlogp(Xi;θ).\log p(\mathbf{X};\theta)=\sum_{i=1}^n \log p(X_i;\theta).

于是联合 score 函数是:

Un(X;θ)=i=1nU(Xi;θ),U_n(\mathbf{X};\theta)=\sum_{i=1}^n U(X_i;\theta),

其中 U(Xi;θ)=θlogp(Xi;θ)U(X_i;\theta)=\frac{\partial}{\partial\theta}\log p(X_i;\theta)

由独立性,联合 Fisher 信息为:

In(θ)=Varθ(Un)=i=1nVarθ(U(Xi;θ))=nI(θ).I_n(\theta)=\operatorname{Var}_\theta(U_n)=\sum_{i=1}^n \operatorname{Var}_\theta(U(X_i;\theta))=nI(\theta).

为什么方差可以累加? 因为独立随机变量之和的方差等于方差之和。这里的关键是 i.i.d. 样本的 score 之间彼此独立(因为原始样本独立,每个 score 是单个样本的函数)。

直觉理解:每次独立的观测都携带一部分关于参数的信息。一份观测提供 I(θ)I(\theta) 的信息量,nn 份独立观测就提供了 nI(θ)nI(\theta) 的信息量。信息就像”搬砖”——每人搬一块,nn 个人就搬 nn 块。

4.4 对比辨析

[!note]+ 对比辨析:达到 C-R 下界的估计量 vs UMVUE

维度达到 C-R 下界的估计量UMVUE(不一定达到下界)
方差大小等于理论下界无偏类中最小的,但可能大于下界
是否一定是最优是(在无偏类中方差不能再小)是(在无偏类中方差最小的)
与 score 的关系必须与 score 成线性关系不一定
依赖的条件模型必须满足正则条件不需要正则条件(通过充分完备性找)
反向关系达到下界 → 一定是 UMVUEUMVUE 不一定达到下界
举例N(μ,σ2)N(\mu,\sigma^2)X\overline{X}μ\mu 有效某些缺少完备统计量的模型中,UMVUE 可能存在但达不到 C-R 下界

最常见的坑:把”UMVUE”和”达到 C-R 下界”画等号。前者只需要在无偏类中比大小,不涉及正则条件;后者需要满足正则条件且恰好碰上下界。所以:有效估计量一定是 UMVUE,但 UMVUE 不一定是有效的。

[!note]+ 对比辨析:Fisher 信息 vs 样本量 nn

维度Fisher 信息 I(θ)I(\theta)样本量 nn
性质模型本身的属性,与估计量无关由数据收集方案决定
可控制性不可控(固定模型下是常数)可控(可以花钱多收数据)
对下界的影响I(θ)I(\theta) 越大,下界越小nn 越大,下界越小
角色”效率天花板”的高度登天的梯子数量
在 C-R 公式中的位置分母分母(与 I(θ)I(\theta) 相乘)

思考题:如果 I(θ)I(\theta) 非常小(模型对参数不敏感),你能通过增大 nn 来弥补吗?答案是可以——因为 C-R 下界中 nnI(θ)I(\theta) 是相乘关系。I(θ)=0.01I(\theta)=0.01 时,n=100n=100 就等价于 I(θ)=1I(\theta)=1n=1n=1 的信息量。

五、主要结论

1. 信息量结论

[!theorem]+ Fisher 信息的两个等价形式 条件:

  • 正则条件成立;
  • 支持集不依赖参数;
  • 求导与积分可交换。

结论:

I(θ)=Eθ[(θlogp(X;θ))2]=Eθ[2θ2logp(X;θ)].I(\theta)=E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] =-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].

用途:计算信息量时可择优使用。一阶形式适合推导和概念理解,二阶形式计算更方便。

2. 下界结论

[!theorem]+ Cramér-Rao 不等式 条件:

  • g^\hat gg(θ)g(\theta) 的无偏估计量;
  • 模型满足正则条件;
  • 样本 i.i.d.

结论:

Varθ(g^)(g(θ))2nI(θ).\operatorname{Var}_\theta(\hat g)\ge\frac{(g'(\theta))^2}{nI(\theta)}.

用途:无偏估计量方差的统一理论下界。

3. 最优性结论

[!theorem]+ 有效估计量达到理论极限 条件:

  • 估计量无偏;
  • 模型满足 C-R 正则条件;
  • 估计量方差恰好等于 C-R 下界。

结论: 该估计量在无偏类中已不能再改进——它同时是 UMVUE 且达到了理论极限。

用途:说明某些经典估计量(如正态样本均值 X\overline{X})之所以重要,不只是”常用”,而是”理论上已经达到极限”。

[!warning]+ 使用边界

  • C-R 下界只约束无偏估计量。有偏估计量可以突破这个下界(但也因此产生了偏差)。
  • 不满足正则条件时,下界可能不成立(不是”无效”,而是”不可用”)。
  • 达不到下界不意味着估计量无效,只意味着还没到理论极限。
  • 如果 g(θ)=θg(\theta)=\theta(估计 θ\theta 本身),分子为 1,下界简化为 1/(nI(θ))1/(nI(\theta))

关键公式释义

1. Score 函数

U(X;θ)=θlogp(X;θ)U(X;\theta)=\frac{\partial}{\partial\theta}\log p(X;\theta)

2. Fisher 信息

I(θ)=Eθ[U(X;θ)2]=Eθ[2θ2logp(X;θ)]I(\theta)=E_\theta\left[U(X;\theta)^2\right] =-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right]

3. Cramér-Rao 下界

Varθ(g^)(g(θ))2nI(θ)\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{nI(\theta)}

4. 等号成立条件

g^g(θ)=a(θ)U(X;θ)(几乎处处)\hat g-g(\theta)=a(\theta)\,U(X;\theta)\quad\text{(几乎处处)}

六、推导与证明

1. 证明依赖

2. 证明思路

C-R 不等式的推导思路可以概括为以下三步:

  1. 从无偏性出发,两端对参数求导

    Eθ[g^]=g(θ)ddθEθ[g^]=g(θ).E_\theta[\hat g]=g(\theta)\quad\Longrightarrow\quad\frac{d}{d\theta}E_\theta[\hat g]=g'(\theta).
  2. 将求导结果改写为 score 的协方差形式:在正则条件下,将 ddθEθ[g^]\frac{d}{d\theta}E_\theta[\hat g] 写成 g^pθdx\int\hat g\cdot\frac{\partial p}{\partial\theta}dx,再通过 pθ=Up\frac{\partial p}{\partial\theta}=U\cdot p 转化为 E[g^U]E[\hat g\cdot U]。减去 E[U]=0E[U]=0 后得到:

    Eθ[(g^g(θ))U(X;θ)]=g(θ).E_\theta[(\hat g-g(\theta))\cdot U(X;\theta)]=g'(\theta).
  3. 对协方差式应用 Cauchy-Schwarz 不等式

    (g(θ))2=(E[(g^g)U])2E[(g^g)2]E[U2]=Var(g^)I(θ).(g'(\theta))^2 = \bigl(E[(\hat g-g)U]\bigr)^2 \le E[(\hat g-g)^2]\cdot E[U^2] = \operatorname{Var}(\hat g)\cdot I(\theta).

    整理即得 Var(g^)(g(θ))2/I(θ)\operatorname{Var}(\hat g)\ge (g'(\theta))^2/I(\theta)。对于 nn 个 i.i.d. 样本,将 I(θ)I(\theta) 替换为 nI(θ)nI(\theta)

3. 完整推导(含旁白)

[!proof]- 📐 深度推导:Cramér-Rao 不等式的严谨证明

第一步:写出无偏条件。

g^\hat gg(θ)g(\theta) 的无偏估计量:

Eθ[g^]=g^(x)p(x;θ)dx=g(θ).E_\theta[\hat g]=\int\hat g(x)\,p(x;\theta)\,dx = g(\theta).

第二步:两边对 θ\theta 求导(正则条件 3 保障求导与积分可交换)。

ddθg^(x)p(x;θ)dx=g^(x)θp(x;θ)dx=g(θ).\frac{d}{d\theta}\int\hat g(x)\,p(x;\theta)\,dx = \int\hat g(x)\,\frac{\partial}{\partial\theta}p(x;\theta)\,dx = g'(\theta).

为什么要做这一步? 无偏条件本身只是一个等式,不涉及方差。对参数求导后,我们会得到 g^\hat gp/θ\partial p/\partial\theta 的联系,而 p/θ\partial p/\partial\theta 是 score 函数的”原材料”。

第三步:将 p/θ\partial p/\partial\theta 改写为 score 形式。

利用恒等式 pθ=logpθp=U(x;θ)p(x;θ)\frac{\partial p}{\partial\theta}= \frac{\partial\log p}{\partial\theta}\cdot p = U(x;\theta)\,p(x;\theta),代入得:

g^(x)U(x;θ)p(x;θ)dx=g(θ).\int\hat g(x)\,U(x;\theta)\,p(x;\theta)\,dx = g'(\theta).

Eθ[g^U(X;θ)]=g(θ).E_\theta[\hat g\cdot U(X;\theta)] = g'(\theta).

第四步:利用 Eθ[U]=0E_\theta[U]=0 引入中心化形式。

回顾我们在 3.1 节证明的 score 期望为零的性质:Eθ[U]=0E_\theta[U]=0。因此可以从上式左边减去 g(θ)Eθ[U]g(\theta)\cdot E_\theta[U]=0=0)而不改变等号:

Eθ[g^U]g(θ)Eθ[U]=g(θ)Eθ[(g^g(θ))U(X;θ)]=g(θ).E_\theta[\hat g\cdot U] - g(\theta)\cdot E_\theta[U] = g'(\theta) \quad\Longrightarrow\quad E_\theta\bigl[(\hat g-g(\theta))\cdot U(X;\theta)\bigr] = g'(\theta).

为什么要这一步? 因为我们接下来要对 (g^g)(\hat g-g)UU 应用 Cauchy-Schwarz 不等式,而 Cauchy-Schwarz 要求这两个量都是中心化的(期望为零)。g^g\hat g-g 的期望的确是 E[g^]g(θ)=0E[\hat g]-g(\theta)=0(无偏性),UU 的期望也是 0——两个零期望的随机变量,可以直接套用 Cauchy-Schwarz。

第五步:应用 Cauchy-Schwarz 不等式。

Cauchy-Schwarz 不等式说:对任意随机变量 A,BA,B

(E[AB])2E[A2]E[B2].\bigl(E[AB]\bigr)^2 \le E[A^2]\,E[B^2].

A=g^g(θ)A=\hat g-g(\theta)B=U(X;θ)B=U(X;\theta),则:

(g(θ))2=(E[(g^g)U])2E[(g^g)2]E[U2]=Varθ(g^)I(θ).\bigl(g'(\theta)\bigr)^2 = \bigl(E[(\hat g-g)U]\bigr)^2 \le E\bigl[(\hat g-g)^2\bigr]\cdot E[U^2] = \operatorname{Var}_\theta(\hat g)\cdot I(\theta).

第六步:整理出 C-R 下界。

Varθ(g^)(g(θ))2I(θ).\operatorname{Var}_\theta(\hat g) \ge \frac{(g'(\theta))^2}{I(\theta)}.

这就是单个样本下的 Cramér-Rao 不等式。

第七步:推广到 nn 个 i.i.d. 样本。

nn 个 i.i.d. 样本 X1,,XnX_1,\dots,X_n,联合对数似然为:

logp(x;θ)=i=1nlogp(xi;θ).\log p(\mathbf{x};\theta)=\sum_{i=1}^n \log p(x_i;\theta).

联合 score 函数为:

Un(X;θ)=i=1nU(Xi;θ).U_n(\mathbf{X};\theta)=\sum_{i=1}^n U(X_i;\theta).

Fisher 信息为:

In(θ)=Varθ(Un)=i=1nVarθ(U(Xi;θ))=nI(θ).I_n(\theta)=\operatorname{Var}_\theta(U_n)=\sum_{i=1}^n \operatorname{Var}_\theta(U(X_i;\theta))=nI(\theta).

为什么 score 的方差可以直接相加? 因为 XiX_i 彼此独立,每个 U(Xi;θ)U(X_i;\theta) 只是 XiX_i 的函数,所以 U(X1;θ),,U(Xn;θ)U(X_1;\theta),\dots,U(X_n;\theta) 也彼此独立。独立随机变量的方差和等于方差之和。

第八步:写出 nn 个样本下的 C-R 下界。

In(θ)=nI(θ)I_n(\theta)=nI(\theta) 代入单样本下界:

Varθ(g^)(g(θ))2nI(θ).\operatorname{Var}_\theta(\hat g) \ge \frac{(g'(\theta))^2}{nI(\theta)}.

等号成立条件:回顾 Cauchy-Schwarz 取等条件:存在常数 a(θ)a(\theta) 使得 A=a(θ)BA = a(\theta)\cdot B 几乎处处成立,即

g^g(θ)=a(θ)Un(X;θ).\hat g - g(\theta) = a(\theta)\cdot U_n(\mathbf{X};\theta).

对于多样本,这等价于 g^g(θ)=a(θ)i=1nU(Xi;θ)\hat g - g(\theta) = a(\theta)\sum_{i=1}^n U(X_i;\theta)

用途:这个推导展示了 C-R 不等式背后最核心的逻辑链条——从无偏性出发,经由求导和 score 的链接,最后用 Cauchy-Schwarz 收网。每一步都有清晰的目的:求导产生了与 g^\hat g 和参数的关系,score 变换建立了与 Fisher 信息的桥梁,Cauchy-Schwarz 把协方差转化为了方差的乘积。

4. Fisher 信息两个等价形式的证明

[!proof]- 📐 深度推导:I(θ)=E[U2]=E[U]I(\theta)=E[U^2]=-E[U'] 的证明

目标: 证明

Eθ[(θlogp(X;θ))2]=Eθ[2θ2logp(X;θ)].E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] = -E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].

第一步:写出 UU' 的表达式。

U=θlogp=1ppθU=\frac{\partial}{\partial\theta}\log p = \frac{1}{p}\frac{\partial p}{\partial\theta},对 θ\theta 再求导(用商的求导法则):

Uθ=θ(1ppθ)=1p2(pθ)2+1p2pθ2.\frac{\partial U}{\partial\theta} = \frac{\partial}{\partial\theta}\left(\frac{1}{p}\frac{\partial p}{\partial\theta}\right) = -\frac{1}{p^2}\left(\frac{\partial p}{\partial\theta}\right)^2 + \frac{1}{p}\frac{\partial^2 p}{\partial\theta^2}.

注意到 1ppθ=U\frac{1}{p}\frac{\partial p}{\partial\theta}=U,所以第一项为 U2-U^2。于是:

U=Uθ=U2+1p2pθ2.U' = \frac{\partial U}{\partial\theta} = -U^2 + \frac{1}{p}\frac{\partial^2 p}{\partial\theta^2}.

第二步:两边取期望。

E[U]=E[U2]+2pθ2dx.E[U'] = -E[U^2] + \int\frac{\partial^2 p}{\partial\theta^2}\,dx.

第三步:利用正则条件消去 2pθ2dx\int\frac{\partial^2 p}{\partial\theta^2}dx

因为 p(x;θ)dx=1\int p(x;\theta)dx=1 恒成立,两端对 θ\theta 求二阶导(正则条件保证可交换):

d2dθ2pdx=2pθ2dx=0.\frac{d^2}{d\theta^2}\int p\,dx = \int\frac{\partial^2 p}{\partial\theta^2}\,dx = 0.

所以 2pθ2dx=0\int\frac{\partial^2 p}{\partial\theta^2}dx=0,代入得:

E[U]=E[U2].E[U'] = -E[U^2].

第四步:整理。

I(θ)=E[U2]=E[U]=E[2θ2logp(X;θ)].I(\theta)=E[U^2] = -E[U'] = -E\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].

关键观察:这个等价关系成立的底层逻辑是:总体密度积分为 1 这一事实的”二阶导数版本”。一阶导数版本给了我们 E[U]=0E[U]=0,二阶导数版本给了我们 E[U2]=E[U]E[U^2]=-E[U']。两个都是正则条件(积分与求导可交换)的直接推论。

用途:这个公式给了我们计算 Fisher 信息的第二条路径。在实践中,有时计算一阶导数的平方期望很繁琐,但二阶导数的期望却很简洁(如指数分布族中)。有了这个等价关系,我们就可以灵活切换。

七、例题与变式

1. 标准题:正态均值模型的 Fisher 信息

题型: 信息量计算题 / 下界题

题目:

X1,,Xni.i.d.N(μ,σ2)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2),其中 σ2\sigma^2 已知。求 μ\mu 的 Fisher 信息和 C-R 下界。并判断 X\overline{X} 是否达到该下界。

解题思路(先理顺再动笔):

  1. 识别模型: 正态总体,均值 μ\mu 未知,方差已知。这是一个一维参数问题。
  2. 选择工具: 直接计算 score 函数的一阶矩形式 \to Fisher 信息 \to C-R 下界。对于正态分布,一阶形式足够简单。
  3. 预期结果: XN(μ,σ2/n)\overline{X}\sim N(\mu,\sigma^2/n),方差为 σ2/n\sigma^2/n。如果 C-R 下界碰巧也是 σ2/n\sigma^2/n,那 X\overline{X} 就是有效估计。

解答:

步骤 1:写出单个样本的对数密度。

logp(x;μ)=12log(2πσ2)(xμ)22σ2.\log p(x;\mu)=-\frac12\log(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}.

步骤 2:对 μ\mu 求导得到 score。

U(X;μ)=μlogp(X;μ)=Xμσ2.U(X;\mu)=\frac{\partial}{\partial\mu}\log p(X;\mu)=\frac{X-\mu}{\sigma^2}.

步骤 3:计算 Fisher 信息。

I(μ)=Eμ[U2]=Eμ[(Xμσ2)2]=1σ4Eμ[(Xμ)2]=1σ4σ2=1σ2.I(\mu)=E_\mu[U^2]=E_\mu\left[\left(\frac{X-\mu}{\sigma^2}\right)^2\right] =\frac{1}{\sigma^4}E_\mu[(X-\mu)^2]=\frac{1}{\sigma^4}\cdot\sigma^2=\frac{1}{\sigma^2}.

步骤 4:扩展到 nn 个样本。

In(μ)=nI(μ)=nσ2.I_n(\mu)=nI(\mu)=\frac{n}{\sigma^2}.

步骤 5:写出 C-R 下界(估计目标为 μ\mu,所以 g(μ)=μg(\mu)=\mug(μ)=1g'(\mu)=1)。

Var(μ^)1nI(μ)=σ2n.\operatorname{Var}(\hat\mu)\ge\frac{1}{nI(\mu)}=\frac{\sigma^2}{n}.

步骤 6:与 X\overline{X} 的方差比较。

XN ⁣(μ,σ2n),Var(X)=σ2n.\overline{X}\sim N\!\left(\mu,\frac{\sigma^2}{n}\right),\qquad \operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}.

恰好等于 C-R 下界!同时检查等号条件:Xμ\overline{X}-\mu 是否与 UnU_n 成比例?

Un(X;μ)=i=1nXiμσ2=n(Xμ)σ2,U_n(\mathbf{X};\mu)=\sum_{i=1}^n\frac{X_i-\mu}{\sigma^2}=\frac{n(\overline{X}-\mu)}{\sigma^2},

于是

Xμ=σ2nUn(X;μ)=a(μ)Un.\overline{X}-\mu=\frac{\sigma^2}{n}\cdot U_n(\mathbf{X};\mu)=a(\mu)\,U_n.

等号条件成立!

结论: X\overline{X}μ\mu 的有效估计量(也是 UMVUE)。

常见坑点提醒:

2. 标准题:Bernoulli 模型的 Fisher 信息

题型: 信息量计算题

题目:

X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)0<p<10<p<1。求 pp 的 Fisher 信息和 C-R 下界。并判断 X\overline{X} 是否有效。

解答:

步骤 1:写出概率函数。

P(X=x;p)=px(1p)1x,x=0,1.P(X=x;p)=p^x(1-p)^{1-x},\qquad x=0,1.

步骤 2:对数概率和对 pp 求导。

logp(x;p)=xlogp+(1x)log(1p),\log p(x;p)=x\log p+(1-x)\log(1-p), U(X;p)=plogp=xp1x1p=x(1p)(1x)pp(1p)=xpp(1p).U(X;p)=\frac{\partial}{\partial p}\log p=\frac{x}{p}-\frac{1-x}{1-p} =\frac{x(1-p)-(1-x)p}{p(1-p)}=\frac{x-p}{p(1-p)}.

步骤 3:计算 Fisher 信息。

I(p)=E[U2]=E[(Xpp(1p))2]=1p2(1p)2E[(Xp)2].I(p)=E[U^2]=E\left[\left(\frac{X-p}{p(1-p)}\right)^2\right] =\frac{1}{p^2(1-p)^2}E[(X-p)^2].

XB(1,p)X\sim B(1,p)Var(X)=p(1p)\operatorname{Var}(X)=p(1-p),所以 E[(Xp)2]=p(1p)E[(X-p)^2]=p(1-p)

代入得:

I(p)=p(1p)p2(1p)2=1p(1p).I(p)=\frac{p(1-p)}{p^2(1-p)^2}=\frac{1}{p(1-p)}.

使用二阶形式验证(可选):

2p2logp=xp21x(1p)2,\frac{\partial^2}{\partial p^2}\log p = -\frac{x}{p^2}-\frac{1-x}{(1-p)^2}, E[2p2logp]=E[Xp2+1X(1p)2]=pp2+1p(1p)2=1p+11p=1p(1p).E\left[-\frac{\partial^2}{\partial p^2}\log p\right] = E\left[\frac{X}{p^2}+\frac{1-X}{(1-p)^2}\right] = \frac{p}{p^2}+\frac{1-p}{(1-p)^2} = \frac{1}{p}+\frac{1}{1-p} = \frac{1}{p(1-p)}.

两种形式结果一致。

步骤 4:C-R 下界(nn 个样本)。

Var(p^)p(1p)n.\operatorname{Var}(\hat p)\ge\frac{p(1-p)}{n}.

步骤 5:验证 X\overline{X}

X1nB(n,p),Var(X)=p(1p)n.\overline{X}\sim \frac{1}{n}B(n,p),\quad \operatorname{Var}(\overline{X})=\frac{p(1-p)}{n}.

恰好等于下界。同时检查等号条件:

Un(X;p)=i=1nXipp(1p)=n(Xp)p(1p),U_n(\mathbf{X};p)=\sum_{i=1}^n\frac{X_i-p}{p(1-p)}=\frac{n(\overline{X}-p)}{p(1-p)}, Xp=p(1p)nUn.\overline{X}-p=\frac{p(1-p)}{n}\,U_n.

等号条件成立。X\overline{X}pp 的有效估计量。

答案解读: 因此,样本比例 X\overline{X} 不仅是 pp 的无偏估计,而且达到了理论最优——它利用了样本中包含的全部关于 pp 的信息。

常见坑点提醒:

3. 标准题:指数模型的 Fisher 信息

题型: 信息量计算题

题目:

X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda),密度为 f(x;λ)=λeλxf(x;\lambda)=\lambda e^{-\lambda x}x>0x>0λ>0\lambda>0

  1. λ\lambda 的 Fisher 信息 I(λ)I(\lambda)
  2. λ\lambda 的 C-R 下界。
  3. 我们知道 X\overline{X} 无偏估计 1/λ1/\lambda(因为 E[X]=1/λE[X]=1/\lambda),问:X\overline{X}1/λ1/\lambda 的估计是否有效?

解答:

第 1 问:计算 Fisher 信息。

logp(x;λ)=logλλx,\log p(x;\lambda)=\log\lambda-\lambda x, U(X;λ)=λlogp=1λX.U(X;\lambda)=\frac{\partial}{\partial\lambda}\log p = \frac{1}{\lambda}-X. I(λ)=E[U2]=E[(1λX)2]=Var(X)=1λ2.I(\lambda)=E[U^2]=E\left[\left(\frac{1}{\lambda}-X\right)^2\right] = \operatorname{Var}(X)=\frac{1}{\lambda^2}.

(因为 E[X]=1/λE[X]=1/\lambda,所以 1λX\frac{1}{\lambda}-X 的期望为 0,二阶矩等于方差。而指数分布的方差为 1/λ21/\lambda^2。)

用二阶形式验证:

2λ2logp=1λ2,I(λ)=E[U]=E[1λ2]=1λ2.\frac{\partial^2}{\partial\lambda^2}\log p = -\frac{1}{\lambda^2}, \qquad I(\lambda)=-E[U'] = -E\left[-\frac{1}{\lambda^2}\right] = \frac{1}{\lambda^2}.

结果一致。

第 2 问:λ\lambda 的 C-R 下界。

Var(λ^)1nI(λ)=λ2n.\operatorname{Var}(\hat\lambda)\ge\frac{1}{nI(\lambda)}=\frac{\lambda^2}{n}.

第 3 问:X\overline{X}1/λ1/\lambda 是否有效?

这里估计目标是 g(λ)=1/λg(\lambda)=1/\lambda,不是 λ\lambda 本身。

g(λ)=1λ2g'(\lambda)=-\frac{1}{\lambda^2}(g(λ))2=1λ4(g'(\lambda))^2=\frac{1}{\lambda^4}

C-R 下界为:

Var(g^)1/λ4n(1/λ2)=1nλ2.\operatorname{Var}(\hat g)\ge\frac{1/\lambda^4}{n\cdot(1/\lambda^2)}=\frac{1}{n\lambda^2}.

X\overline{X}1/λ1/\lambda 是無偏的:

E[X]=E[X]=1λ,Var(X)=Var(X)n=1nλ2.E[\overline{X}]=E[X]=\frac{1}{\lambda},\qquad \operatorname{Var}(\overline{X})=\frac{\operatorname{Var}(X)}{n}=\frac{1}{n\lambda^2}.

恰好等于下界。等号条件也成立(UnU_nX1/λ\overline{X}-1/\lambda 成比例)。

结论: X\overline{X}1/λ1/\lambda 的有效估计量,但 λ\lambda 本身没有简单的无偏估计量能达到 C-R 下界(因为 1/X1/\overline{X}λ\lambda 的有偏估计)。

常见坑点提醒:

4. 题型提醒

[!tip]+ 做题顺序:Fisher 信息与 C-R 下界计算题

  1. 先写单个样本的对数似然 logp(x;θ)\log p(x;\theta)
  2. 对参数求一阶导数得到 score U=θlogpU=\frac{\partial}{\partial\theta}\log p
  3. 计算 Fisher 信息——优先尝试较简洁的计算路径:
    • 如果 UU 的表达式是”某个简单随机变量的线性函数”,用 I(θ)=E[U2]I(\theta)=E[U^2] 直接算。
    • 如果二阶导数形式更简单(尤其是指数族),用 I(θ)=E[U]I(\theta)=-E[U']
  4. 记得乘上 nnIn(θ)=nI(θ)I_n(\theta)=nI(\theta)(对于 i.i.d. 样本)。
  5. 写下界
    • 估计 θ\thetaVar(θ^)1/(nI(θ))\operatorname{Var}(\hat\theta)\ge 1/(nI(\theta))
    • 估计 g(θ)g(\theta)Var(g^)(g(θ))2/(nI(θ))\operatorname{Var}(\hat g)\ge (g'(\theta))^2/(nI(\theta))
  6. 判断有效:验证估计量方差是否等于下界,且等号条件 g^g(θ)Un\hat g-g(\theta)\propto U_n 成立。

八、章节连接

九、复习整理

[!summary]+ 本讲小结

  • **研究的问题:**无偏估计量的方差最小能到哪里。
  • **使用的模型:**满足正则条件的参数模型。
  • **核心统计量:**score 函数 U(X;θ)U(X;\theta) 和 Fisher 信息 I(θ)I(\theta)
  • 关键结论:
    1. Score 函数 U=θlogpU=\frac{\partial}{\partial\theta}\log p,其期望为 0,方差为 Fisher 信息。
    2. Fisher 信息 I(θ)=E[U2]=E[U]I(\theta)=E[U^2]=-E[U'],刻画模型对参数的敏感程度。
    3. Cramér-Rao 不等式:Varθ(g^)(g(θ))2/(nI(θ))\operatorname{Var}_\theta(\hat g)\ge (g'(\theta))^2/(nI(\theta))
    4. 等号成立条件:g^g(θ)=a(θ)Un\hat g-g(\theta)=a(\theta)U_n,此时称 g^\hat g 为有效估计量。
    5. 有效估计量一定是 UMVUE,但 UMVUE 不一定有效。
  • **最重要的条件:**支持集不依赖参数、可交换求导积分、信息量有限且正(正则条件 1-4)。
  • **本讲最终服务什么推断任务:**判断估计量是否高效,以及理解”信息量”在参数估计中的核心地位。

高频误套

[!warning]+ 常见错误

  • 不检查正则条件就直接套 C-R 下界。 U(0,θ)U(0,\theta) 和 Cauchy 平移族是典型的反面教材——套公式会得到错误或无效的结果。
  • 忘记估计对象是 g(θ)g(\theta) 时分子应为 (g(θ))2(g'(\theta))^2 如果直接套 1/(nI(θ))1/(nI(\theta)) 就会漏掉 gg' 因子。
  • 只算了单个样本的信息量,忘记乘 nn 给定 nn 个 i.i.d. 样本时,In(θ)=nI(θ)I_n(\theta)=nI(\theta),不能只写单样本信息。
  • 把”达到下界”与”UMVUE”完全等同。 达到 C-R 下界确实推出 UMVUE,但反过来不成立。UMVUE 的方差可能大于 C-R 下界——下界只是一个下界,不一定紧(tight)。
  • Fisher 信息的两个等价形式混用,但没有验证正则条件。 两个形式的等价性依赖于正则条件 3(求导与积分可交换),在不满足时两个形式的计算结果可能不同。
  • 等号条件只检查方差相等,不检查比例关系。 方差相等只是必要条件,要证明有效性还需要验证 g^gU\hat g-g\propto U

条件卡

  1. 结论: I(θ)=E[(θlogp)2]=E[θ2logp]I(\theta)=E[(\partial_\theta\log p)^2]=-E[\partial_\theta^2\log p]成立条件: 正则条件成立(尤其是求导与积分可交换)。 不能用在: 支持集依赖参数或求导积分不可交换时。 常见误套场景: 任何模型都照抄 Fisher 信息公式而不检查正则条件。

  2. 结论: Var(g^)(g(θ))2/(nI(θ))\operatorname{Var}(\hat g)\ge (g'(\theta))^2/(nI(\theta))成立条件: g^\hat g 無偏,样本 i.i.d.,模型满足正则条件。 不能用在: 有偏估计量或非正则模型。 常见误套场景: 把 C-R 下界拿来比较有偏的 shrinkage 估计量(如 James-Stein 估计量)。

  3. 结论: 估计量有效。 成立条件: 它达到 C-R 下界(方差相等且等号条件成立)。 不能用在: 只因为它”看起来很好”或”方差不大”。 常见误套场景: 没有实际与 C-R 下界比较就说某估计量有效。

  4. 结论: In(θ)=nI(θ)I_n(\theta)=nI(\theta)成立条件: 样本 i.i.d. 不能用在: 样本不独立或不同分布的情形(如时间序列数据)。 常见误套场景: 在相依数据(如 AR(1) 模型)中仍用 nn 倍单样本信息,此时信息累加率低于 nn

关系图谱

本讲中的核心概念之间的关系可以总结为:

无偏条件 E[ĝ] = g(θ)

       ▼ 对θ求导(正则条件)
E[(ĝ-g(θ))·U] = g'(θ)

       ▼ Cauchy-Schwarz
(g'(θ))² ≤ Var(ĝ)·I(θ)

       ▼ 整理
Var(ĝ) ≥ (g'(θ))² / (n·I(θ))

       ├── 等号条件: ĝ-g ∝ U ⟺ 有效估计
       └── 有效估计 ⇒ UMVUE,但反之不成立

十、习题区

1. 概念题

  1. Fisher 信息为什么可以理解为”样本对参数的辨识能力”? 请用 score 函数的语言解释:信息量大和小时,分布随参数的变化有何不同?

  2. 为什么样本量越大,C-R 下界越小? 这背后的数学依据是什么?是不是所有模型下都成立?

  3. C-R 下界与 UMVUE 的关系和区别是什么? 是否存在 UMVUE 达不到 C-R 下界的情况?如果存在,原因是什么?

  4. 正则条件中的”支持集不依赖参数”到底保护了什么? 考虑 U(0,θ)U(0,\theta) 分布:如果强行套用 C-R 公式,会得到什么结果?这个结果为什么不可靠?

做题思路(概念题不需要计算,但要养成用例子说话的思维):

2. 标准题

  1. X1,,Xni.i.d.N(μ,σ2)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2)σ2\sigma^2 已知。计算 μ\mu 的 Fisher 信息和 C-R 下界,并验证 X\overline{X} 的有效性。

  2. X1,,Xni.i.d.B(1,p)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)。计算 pp 的 Fisher 信息,写出 C-R 下界,并判断 X\overline{X} 是否有效。

  3. X1,,Xni.i.d.E(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)。计算 λ\lambda 的 Fisher 信息。令 g(λ)=1/λg(\lambda)=1/\lambda,求 g(λ)g(\lambda) 的 C-R 下界,并验证 X\overline{X}g(λ)g(\lambda) 的有效性。

做题思路:

3. 综合题

  1. Poisson 分布的 C-R 下界。X1,,Xni.i.d.P(λ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} P(\lambda),密度为 p(x;λ)=eλλx/x!p(x;\lambda)=e^{-\lambda}\lambda^x/x!

    • (a) 写出 logp(x;λ)\log p(x;\lambda) 和 score U(X;λ)U(X;\lambda)
    • (b) 计算 I(λ)I(\lambda)
    • (c) 写出 λ\lambda 的 C-R 下界。X\overline{X} 是否有效?
    • (d) 如果估计目标是 g(λ)=eλg(\lambda)=e^{-\lambda}(即 P(X=0)P(X=0)),C-R 下界是什么?X\overline{X}eλe^{-\lambda} 是否无偏?是否有效?

    提示: (d) 中 g(λ)=eλg'(\lambda)=-e^{-\lambda}X\overline{X}eλe^{-\lambda} 不是无偏的(E[eX]eλE[e^{-\overline{X}}]\neq e^{-\lambda}),所以不能直接用 C-R 不等式。这是一个很好的例子说明:C-R 下界只适用于无偏估计量

  2. 均匀分布的反例。X1,,Xni.i.d.U(0,θ)X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} U(0,\theta)θ>0\theta>0

    • (a) 判断该模型是否满足 C-R 正则条件,并说明理由。
    • (b) 如果强行套用 C-R 公式,你会得到什么结果?这个结果有意义吗?
    • (c) 已知 X(n)X_{(n)}θ\theta 的 UMVUE(需要乘上 (n+1)/n(n+1)/n),它的方差和 C-R 公式得到的”伪下界”比较如何?这说明了什么?

    提示: (a) 支持集 (0,θ)(0,\theta) 依赖 θ\theta,违反正则条件 1。(b) 强行代入会发现 score 的表达式中出现了 Dirac delta 型的边界项,公式失效。(c) 这个反例说明:C-R 下界不是万能的,有些模型虽然能构造 UMVUE,但 C-R 不等式不适用

  3. “有效估计 \Rightarrow UMVUE,但反之不然”的实列。 在什么情况下,UMVUE 存在但达不到 C-R 下界?

    • 提示:考虑一个非指数族的模型,或者正则条件部分不满足的模型。讨论:为什么这样的模型中 UMVUE 的方差大于 C-R 下界?
  4. 比较”Rao-Blackwell 改进""Lehmann-Scheffe 定理""Cramér-Rao 下界”三者在点估计理论中的不同角色。

    • (a) 每个方法解决了什么问题?
    • (b) 每个方法需要什么条件?
    • (c) 三个方法之间有什么关系?

    提示: 这是一个概念对比题。Rao-Blackwell 从充分统计量出发压缩方差;Lehmann-Scheffe 从完备充分统计量出发构造唯一的 UMVUE;C-R 下界从正则条件出发给出理论极限。三者的视角不同:前两个是”构造最优”的路线,第三个是”判断是否到顶”的路线。

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句”用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

Edit page

Previous Post
第06讲 UMVUE、Rao-Blackwell与Lehmann-Scheffe
Next Post
第01讲 距离空间与收敛:从现实尺子到抽象度量的飞跃