第07讲 Cramer-Rao下界与Fisher信息

讲义信息

**课程：**数理统计
**章节：**第 3 章后段，对应课件 lec3.3(2026)169
**讲次：**第 07 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec3.3(2026)169.pdf
**研究对象：**Fisher 信息、Cramér-Rao 下界与有效估计
**统计任务：**给无偏估计量的方差设定理论下界，并理解”信息量”概念
**本讲结论用途：**为判断估计量是否高效、是否可能再改进提供基准线

[!summary]+ 本讲导读

本讲研究的问题：无偏估计量的方差到底能小到什么程度。

已知什么：参数模型 $p(x;\theta)$ 、无偏估计量、正则条件。

未知什么：能否给所有无偏估计量设置一个统一的下界，这个下界由什么决定。

核心统计对象：score 函数、Fisher 信息、Cramér-Rao 不等式。

本讲结论最终服务什么推断任务：判断估计量是否高效，以及解释为什么某些估计量”已经不能再好了”。

先看全局

上一讲我们学习了 UMVUE —— 在无偏类中方差最小的那个估计量。但我们始终没有回答一个根本性的问题：

这个”最小”到底有多小？它能不能无限接近于零？

如果你手头有一个无偏估计量，它的方差是 0.12。你不知道它是不是 UMVUE，但你想知道：还有没有可能构造出方差为 0.01 的无偏估计量？或者说，是否存在一个理论上的极限，低于这个极限，任何无偏估计量都不可能达到？

答案是：确实存在这样一个极限。 它叫 Cramér-Rao 下界（C-R 下界）。只要模型满足一些基本条件，每一个无偏估计量的方差都会被一个由模型本身决定的”理论门槛”所约束。

这一讲和上一讲的关系是：

上一讲问的是：怎样在无偏类中找到最好的那个？
这一讲问的是：这个”最好”有没有一个不可逾越的物理极限？

所以 Cramér-Rao 下界不是在教你构造估计量，而是在告诉你：

任何无偏估计量的方差都不可能无限小，它至少要大于某个由信息量决定的门槛。

这个”信息量”不是日常语言中的”信息”，而是 Fisher 信息 —— 一个用来量化”样本对参数敏感程度”的数学量。它的核心思想极为直观：你从样本中”感知”到的参数信息越多，你的估计就能越精确。

思维实验：想象你在测量一个未知物体的重量。如果你有一台非常精密的天平（信息量大），你称一次就能得出一个很准的估计值（方差小）。如果天平的精度很差（信息量小），你需要多次称量取平均才能稍微降低波动（方差大）。C-R 下界告诉你的正是：给定你的天平精度（Fisher 信息），你的估计精度最多能好到什么程度。

一、本讲定位

在课程中的位置：这是”点估计优良性”模块的理论下界部分，也是连接”有限样本理论”和”渐近理论”的关键桥梁。
和前一讲的连接：上一讲说明了如何在无偏类中找最优估计量（UMVUE），本讲则给出无偏估计量方差的理论极限（C-R 下界）。这两条线共同回答了”在无偏估计中，哪些估计量已经不能再好了”。
和后一讲的连接：后续区间估计和假设检验中，Fisher 信息会反复出现——它是刻画样本信息量的核心工具，也是渐近方差和检验功效分析的基础。
本讲重点内容：
- score 函数与 Fisher 信息的定义和直觉
- Cramér-Rao 正则条件（逐条解释）
- Cramér-Rao 不等式及其等号成立条件
- 有效估计与 UMVUE 的关系
- 典型模型中的信息量计算

二、模型与前提

1. 研究模型

**总体：**参数模型 $\{p(x;\theta):\theta\in\Theta\subset\mathbb{R}\}$ 。注意本讲讨论的参数 $\theta$ 限定为一维实参数；多维参数的情况虽然在理论上是 C-R 下界的推广，但本课程只要求一维情形。
参数空间： $\Theta$ 通常是开区间（如 $(0,\infty)$ 或 $\mathbb{R}$ ），以保证对参数求导的操作在参数空间内部进行。
**样本：**单个样本 $X$ 或 i.i.d. 样本 $X_1,\dots,X_n$ 。
抽样方式：默认 i.i.d. 样本。
**估计对象：**可以是 $\theta$ 本身，也可以是 $\theta$ 的函数 $g(\theta)$ （如 $g(\theta)=\theta^2$ 、 $g(\theta)=1/\theta$ 等）。

2. 对象区分

这一讲有三个核心对象，初学者最容易搞混，我们先在这里划清边界：

**score 函数 $U(X;\theta)$ ：**对数似然对参数的导数。它不是一个估计量，而是一个”传感器”——用来感知参数微小变化时，似然函数的反应强度。
**Fisher 信息 $I(\theta)$ ：**score 的方差。它是模型本身的性质，不依赖任何估计量。Fisher 信息大意味着：样本携带的参数信息充足，潜在的估计精度高。
**C-R 下界：**由 Fisher 信息导出的方差下界。它是具体的数值门槛，用于和实际估计量的方差做比较。

一句话串起来：score 感知参数变化 → 其方差定义 Fisher 信息 → Fisher 信息决定 C-R 下界 → C-R 下界是估计精度的极限。

3. 模型前提检查：Cramér-Rao 正则条件

Cramér-Rao 不等式不是无条件成立的。它依赖于一组称为”正则条件”的假设。如果模型不满足这些条件，就不能硬套 C-R 下界。

[!warning]+ 条件先检查

Cramér-Rao 下界不是无条件成立，必须检查正则条件。

若模型不满足正则条件，即使套用公式算出一个数值，也没有理论意义。

估计对象若是 $g(\theta)$ 而非 $\theta$ ，下界中要出现 $g'(\theta)$ 。

正则条件的核心目的是保证求导和积分可以交换顺序。

下面我们来逐条解释这四条正则条件，理解每条条件到底在保护什么。

正则条件 1：支持集不依赖参数。

\{x:p(x;\theta)>0\}\ \text{与}\ \theta\ \text{无关}.

为什么需要这条？ 如果支持集依赖 $\theta$ （比如 $U(0,\theta)$ 的支持集是 $(0,\theta)$ ， $\theta$ 变了支持集的边界也会变），那么对 $\int p(x;\theta)dx=1$ 两边关于 $\theta$ 求导时，莱布尼茨积分法则会多出边界项，导致 $\frac{d}{d\theta}\int p(x;\theta)dx\neq\int\frac{\partial p}{\partial\theta}dx$ 。这意味着我们无法安全地交换求导和积分。

正则条件 2：密度函数在参数空间内可微。

\frac{\partial}{\partial\theta}p(x;\theta)\ \text{存在（几乎处处）}.

为什么需要这条？ 我们需要 score 函数 $U=\frac{\partial}{\partial\theta}\log p$ 被良好定义。如果密度关于参数不可微，score 函数根本不存在，后面的所有讨论无从谈起。

正则条件 3：求导与积分可交换。

\frac{d}{d\theta}\int p(x;\theta)dx=\int\frac{\partial}{\partial\theta}p(x;\theta)dx, \qquad \frac{d}{d\theta}\int \hat g(x)\,p(x;\theta)dx=\int \hat g(x)\,\frac{\partial}{\partial\theta}p(x;\theta)dx.

为什么需要这条？ 这是 C-R 下界推导中最关键的一步：我们需要对”无偏条件”两边关于 $\theta$ 求导，并把求导操作移到积分号内部。如果交换不成立，整个推导的第一步就会崩溃。典型地，当支持集依赖参数时（条件 1 被违反），这条交换就受到威胁。

正则条件 4：Fisher 信息有限且为正。

0<I(\theta)=E_\theta[U(X;\theta)^2]<\infty.

为什么需要这条？ 如果 $I(\theta)=0$ ，那么 score 几乎处处为 0，说明分布完全不随 $\theta$ 变化——这意味着参数根本不可识别。如果 $I(\theta)=\infty$ ，C-R 下界退化为 0，丧失了约束意义。

[!note]+ 哪些分布不满足正则条件？

$U(0,\theta)$ ：支持集依赖 $\theta$ （违反条件 1）。

$U(\theta-1,\theta+1)$ ：虽然支持集是 $(\theta-1,\theta+1)$ ，也依赖 $\theta$ 。

双参数 Pareto 分布且形状参数未知时：支持集依赖尺度参数。

二项分布 $B(1,p)$ ：支持集 $\{0,1\}$ 不依赖 $p$ （支持集是离散的固定集合）。所以 Bernoulli 分布满足正则条件！这是初学者常误判的地方。支持集依赖参数 ≠ 支持集是有限集合。

三、核心概念

3.1 Score 函数：对数似然的”斜率”

[!definition]+ Score 函数对单个样本 $X$ ，定义
$U(X;\theta)=\frac{\partial}{\partial\theta}\log p(X;\theta).$
用途：衡量对数似然关于参数的”瞬时变化率”。

在介绍这个定义的数学细节之前，我们先建立直觉。

思维实验：假设你有两个不同的参数值 $\theta$ 和 $\theta+\Delta\theta$ 。如果 $\Delta\theta$ 非常小， $\log p(x;\theta)$ 的变化大约为 $U(x;\theta)\cdot\Delta\theta$ 。所以 score 函数告诉你：当参数挪动一小步时，对数似然会向哪个方向迈出多大一步。

如果说”似然”衡量的是”给定参数下数据的解释力”，那么 score 衡量的就是”参数稍微变一下，解释力会怎么变”——它是似然函数的局部斜率。

一条重要性质（稍后会用上）：score 的期望为零。

E_\theta[U(X;\theta)]=0.

为什么？ 因为 $\int p(x;\theta)dx=1$ ，两边对 $\theta$ 求导（正则条件保证可交换），得 $\int\frac{\partial p}{\partial\theta}dx=0$ 。而 $\frac{\partial p}{\partial\theta}= \frac{\partial\log p}{\partial\theta}\cdot p$ ，所以 $\int U(x;\theta)\,p(x;\theta)dx=0$ 。

这条性质的含义很微妙：score 有时正有时负（参数变一点，有时似然上升，有时下降），但平均上它”不动”。如果平均不是零，那就意味着存在一个”系统性”的偏移方向——但由无偏条件 $\int p dx=1$ 可知，整体概率质量是守恒的，所以 score 的平均只能是零。

3.2 Fisher 信息：score 的波动强度

[!definition]+ Fisher 信息（单个样本）对单个样本 $X$ ，若模型满足正则条件，则定义
$I(\theta)=E_\theta\left[U(X;\theta)^2\right] =E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right].$
用途：刻画单个样本对参数的辨识能力。信息量越大，可达到的方差下界越小。

直觉理解：score 描述了”参数变一点，分布的反应有多强”。但如果 score 的期望是 0，那要量化”反应强度”就不能用期望（因为期望抹掉了方向），而要用二阶矩——也就是方差（因为期望为 0，二阶矩 = 方差）。Fisher 信息本质上就是 score 的这个波动大小。

把这句话翻成直觉语言：

如果参数稍微变一点，score 就大幅摆动（ $I(\theta)$ 大），说明分布对参数极为敏感——样本里”信息”充足，我们可以把参数估计得很准。
如果参数变了一点，分布几乎毫无反应（ $I(\theta)$ 小），说明从样本中很难识别出参数——信息贫乏，估计方差会很大。

为什么叫”信息”？ 这就好比你在电话里听到一个人的声音。如果那个人的音色很有特点（你只需听一个字就能认出是谁），那么”声音的信息量”大，你识别人的准度就高；如果那个人的声音毫无特色（你听了好几句也不能确定是谁），那么”信息量”小，你的识别精度就低。Fisher 信息量化了”一个样本值中包含了多少关于参数的信息”。

在正则条件下，Fisher 信息有一个等价形式，有时更方便计算：

I(\theta)=-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].

为什么这两个形式等价？ 这个等价关系揭示了 Fisher 信息的另一个视角。一阶导数的平方的期望，等于负的二阶导数的期望。粗略地，如果对数似然在真实参数处”很尖”（二阶导数负得很大），说明参数稍微偏离就会导致对数似然明显下降——这意味着我们不容易搞错参数，信息量自然就大。反过来，如果对数似然的峰很平坦（二阶导数接近零），我们就难以精确锁定参数，信息量就小。

计算上的取舍：有时候用一阶导数形式更方便（比如正态均值模型），有时候用二阶导数形式更省事（比如 Bernoulli 模型）。我们后面会在例题中展示两种方法的切换。

3.3 有效估计：达到理论极限的估计量

[!definition]+ 有效估计若某无偏估计量 $\hat g$ 的方差恰好等于 Cramér-Rao 下界，则称 $\hat g$ 为 $g(\theta)$ 的有效估计量（efficient estimator）。

用途：说明它在无偏类中已经达到了理论最优极限，不可能再被改进。

注意：有效估计一定是 UMVUE（因为它达到了无偏类中的方差下界），但 UMVUE 不一定有效——UMVUE 是所有无偏估计量中方差最小的那个，但这个”最小”不一定等于 C-R 下界。下界达不到，可能是因为 C-R 下界本身不是紧的（即不是所有的 UMVUE 都能到达 C-R 下界）。

我们会在本章末尾用一个对比卡片来详细辨析这两个概念。

四、统计量与分布

4.1 Cramér-Rao 下界：无偏估计的理论极限

[!theorem]+ Cramér-Rao 不等式设模型满足正则条件 1-4， $\hat g$ 是 $g(\theta)$ 的无偏估计量，则
$\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{I(\theta)}.$
对 $n$ 个 i.i.d. 样本，Fisher 信息具有可加性：
$I_n(\theta)=nI(\theta),$
因而
$\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{nI(\theta)}.$
用途：给出任何无偏估计量方差的统一理论下界。

这个公式在说什么？ 让我们逐层拆解：

$\operatorname{Var}_\theta(\hat g)$ ：你最关心的量——估计量的波动大小。你希望它越小越好。
$(g'(\theta))^2$ ：如果目标不是 $\theta$ 本身而是它的函数 $g(\theta)$ ，那么函数的”变化率” $g'(\theta)$ 会放大或缩小下界。如果 $g$ 变化剧烈（ $|g'(\theta)|$ 大），相同的估计误差在 $g$ 的尺度上会被放大，下界自然变大。
$I(\theta)$ ：Fisher 信息——模型本身的属性。信息量大，下界小。
$n$ ：样本量。样本越多，信息越大，下界越小——这是”大样本更精确”的数学体现。

思维实验：假设 $I(\theta)=10$ （信息充分）， $g(\theta)=\theta$ （ $g'(\theta)=1$ ），那么 $n=1$ 时下界为 0.1， $n=100$ 时下界为 0.001。这意味着：只要有足够多的样本，任何参数都可以被估计得任意精确——这正是统计学中”一致性”的理论基础。

这条公式的含义是”再好也不能比这更小”的硬约束。 它像一道”物理极限线”：

如果某无偏估计量的方差比这个下界大，并不说明它不好——它只是还有改进空间。
如果某无偏估计量的方差恰好等于这个下界，说明它已经在无偏类中做到了极致——没有任何无偏估计量能比它方差更小。

4.2 等号成立条件：什么时候能达到下界？

[!theorem]+ Cramér-Rao 不等式取等条件 Cramér-Rao 不等式取等号，当且仅当存在只依赖于 $\theta$ 的函数 $a(\theta)$ ，使得
$\hat g - g(\theta) = a(\theta) \cdot U(X;\theta)$
几乎处处成立（或者说，对于几乎所有 $X$ 的取值成立）。

用途：这是判断一个估计量是否有效的结构标准。

这条条件在说什么？ Cauchy-Schwarz 不等式中，等号成立的充要条件是两个随机变量之间几乎处处成比例。在 C-R 下界的推导中，这两个随机变量分别是：

$\hat g - g(\theta)$ （估计误差）
$U(X;\theta)$ （score 函数）

所以，如果要达到下界，估计误差必须和 score 函数严格成比例。这意味着：

score 函数的形式决定了估计量的结构。如果 score 函数本身的形式很简单（比如正态分布的 score 是 $(X-\mu)/\sigma^2$ ），那么估计量也会很简单。
如果 score 函数和估计误差的结构不匹配（比如 score 是二次函数，但估计量是线性的），就不可能达到下界。

等号条件的统计学含义：C-R 下界不是随随便便就能达到的。它要求估计量的误差结构必须和”参数对似然的影响力”（即 score）完全对齐。这很像说：只有当你利用到了模型关于参数的”全部信息”时，你的估计才能达到理论极限。 少用一点，你的方差就会比下界大。

4.3 信息累加：为什么 $I_n(\theta)=nI(\theta)$ ？

对于 i.i.d. 样本 $X_1,\dots,X_n$ ，联合对数似然是单个对数似然之和：

\log p(\mathbf{X};\theta)=\sum_{i=1}^n \log p(X_i;\theta).

于是联合 score 函数是：

U_n(\mathbf{X};\theta)=\sum_{i=1}^n U(X_i;\theta),

其中 $U(X_i;\theta)=\frac{\partial}{\partial\theta}\log p(X_i;\theta)$ 。

由独立性，联合 Fisher 信息为：

I_n(\theta)=\operatorname{Var}_\theta(U_n)=\sum_{i=1}^n \operatorname{Var}_\theta(U(X_i;\theta))=nI(\theta).

为什么方差可以累加？ 因为独立随机变量之和的方差等于方差之和。这里的关键是 i.i.d. 样本的 score 之间彼此独立（因为原始样本独立，每个 score 是单个样本的函数）。

直觉理解：每次独立的观测都携带一部分关于参数的信息。一份观测提供 $I(\theta)$ 的信息量， $n$ 份独立观测就提供了 $nI(\theta)$ 的信息量。信息就像”搬砖”——每人搬一块， $n$ 个人就搬 $n$ 块。

4.4 对比辨析

[!note]+ 对比辨析：达到 C-R 下界的估计量 vs UMVUE

维度达到 C-R 下界的估计量 UMVUE（不一定达到下界）
方差大小等于理论下界无偏类中最小的，但可能大于下界
是否一定是最优是（在无偏类中方差不能再小）是（在无偏类中方差最小的）
与 score 的关系必须与 score 成线性关系不一定
依赖的条件模型必须满足正则条件不需要正则条件（通过充分完备性找）
反向关系达到下界 → 一定是 UMVUE UMVUE 不一定达到下界
举例 $N(\mu,\sigma^2)$ 中 $\overline{X}$ 对 $\mu$ 有效某些缺少完备统计量的模型中，UMVUE 可能存在但达不到 C-R 下界

最常见的坑：把”UMVUE”和”达到 C-R 下界”画等号。前者只需要在无偏类中比大小，不涉及正则条件；后者需要满足正则条件且恰好碰上下界。所以：有效估计量一定是 UMVUE，但 UMVUE 不一定是有效的。

维度	达到 C-R 下界的估计量	UMVUE（不一定达到下界）
方差大小	等于理论下界	无偏类中最小的，但可能大于下界
是否一定是最优	是（在无偏类中方差不能再小）	是（在无偏类中方差最小的）
与 score 的关系	必须与 score 成线性关系	不一定
依赖的条件	模型必须满足正则条件	不需要正则条件（通过充分完备性找）
反向关系	达到下界 → 一定是 UMVUE	UMVUE 不一定达到下界
举例	$N(\mu,\sigma^2)$ 中 $\overline{X}$ 对 $\mu$ 有效	某些缺少完备统计量的模型中，UMVUE 可能存在但达不到 C-R 下界

[!note]+ 对比辨析：Fisher 信息 vs 样本量 $n$

维度 Fisher 信息 $I(\theta)$ 样本量 $n$
性质模型本身的属性，与估计量无关由数据收集方案决定
可控制性不可控（固定模型下是常数）可控（可以花钱多收数据）
对下界的影响 $I(\theta)$ 越大，下界越小 $n$ 越大，下界越小
角色 ”效率天花板”的高度登天的梯子数量
在 C-R 公式中的位置分母分母（与 $I(\theta)$ 相乘）

思考题：如果 $I(\theta)$ 非常小（模型对参数不敏感），你能通过增大 $n$ 来弥补吗？答案是可以——因为 C-R 下界中 $n$ 和 $I(\theta)$ 是相乘关系。 $I(\theta)=0.01$ 时， $n=100$ 就等价于 $I(\theta)=1$ 时 $n=1$ 的信息量。

维度	Fisher 信息 $I(\theta)$	样本量 $n$
性质	模型本身的属性，与估计量无关	由数据收集方案决定
可控制性	不可控（固定模型下是常数）	可控（可以花钱多收数据）
对下界的影响	$I(\theta)$ 越大，下界越小	$n$ 越大，下界越小
角色	”效率天花板”的高度	登天的梯子数量
在 C-R 公式中的位置	分母	分母（与 $I(\theta)$ 相乘）

五、主要结论

1. 信息量结论

[!theorem]+ Fisher 信息的两个等价形式条件：

正则条件成立；

支持集不依赖参数；

求导与积分可交换。

结论：
$I(\theta)=E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] =-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].$
用途：计算信息量时可择优使用。一阶形式适合推导和概念理解，二阶形式计算更方便。

2. 下界结论

[!theorem]+ Cramér-Rao 不等式条件：

$\hat g$ 是 $g(\theta)$ 的无偏估计量；

模型满足正则条件；

样本 i.i.d.

结论：
$\operatorname{Var}_\theta(\hat g)\ge\frac{(g'(\theta))^2}{nI(\theta)}.$
用途：无偏估计量方差的统一理论下界。

3. 最优性结论

[!theorem]+ 有效估计量达到理论极限条件：

估计量无偏；

模型满足 C-R 正则条件；

估计量方差恰好等于 C-R 下界。

结论：该估计量在无偏类中已不能再改进——它同时是 UMVUE 且达到了理论极限。

用途：说明某些经典估计量（如正态样本均值 $\overline{X}$ ）之所以重要，不只是”常用”，而是”理论上已经达到极限”。

[!warning]+ 使用边界

C-R 下界只约束无偏估计量。有偏估计量可以突破这个下界（但也因此产生了偏差）。

不满足正则条件时，下界可能不成立（不是”无效”，而是”不可用”）。

达不到下界不意味着估计量无效，只意味着还没到理论极限。

如果 $g(\theta)=\theta$ （估计 $\theta$ 本身），分子为 1，下界简化为 $1/(nI(\theta))$ 。

关键公式释义

1. Score 函数

U(X;\theta)=\frac{\partial}{\partial\theta}\log p(X;\theta)

**来源：**对数似然关于参数的一阶导数。对数化的好处是把乘积变为求和，让求导操作变得干净。
**式子拆解：**左边 $U(X;\theta)$ 是 score，它是样本 $X$ 和参数 $\theta$ 的函数——同一个样本在不同的 $\theta$ 下有不同的 score。右边是” $\log p$ 关于 $\theta$ 的变化率”。
**含义：**它衡量”参数每变化一单位，对数似然的变化方向和强度”。score 绝对值大，说明样本对参数敏感；score 接近零，说明样本在这个参数下对似然”无动于衷”。
**使用提醒：**score 不是估计量本身，而是描述模型对参数敏感度的工具。它的核心统计性质是：期望为零，方差为 Fisher 信息。

2. Fisher 信息

I(\theta)=E_\theta\left[U(X;\theta)^2\right] =-E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right]

**来源：**score 的波动强度（一阶形式），或在正则条件下经分部积分得到的负二阶导数期望（二阶形式）。
**式子拆解：**左边 $I(\theta)$ 是 Fisher 信息，它等于 score 平方的期望。右边是等价的二阶形式：对数似然的曲率的期望的负值。
**含义：**信息量大 → 分布对参数极度敏感 → 参数容易识别 → 估计方差可以很小。信息量小 → 分布几乎不随参数变化 → 参数难以辨别 → 估计方差必然大。
**使用提醒：**计算时优先使用二阶形式（通常积分更简单），但如果二阶导数计算复杂，也可以用一阶形式。两种形式互为验证。

3. Cramér-Rao 下界

\operatorname{Var}_\theta(\hat g)\ge \frac{(g'(\theta))^2}{nI(\theta)}

**来源：**由无偏条件对参数求导得 $E[(\hat g-g(\theta))\cdot U]=g'(\theta)$ ，再对估计误差与 score 应用 Cauchy-Schwarz 不等式得 $(g'(\theta))^2\le\operatorname{Var}(\hat g)\cdot I(\theta)$ ，最后整理并加入样本量 $n$ 因子。
**式子拆解：**左边是无偏估计量的方差；右边是下界：分子是 $g'(\theta)$ 的平方（ $g$ 的变化率越大，下界越大），分母是 $n$ 倍的 Fisher 信息（样本越多或信息越大，下界越小）。
**含义：**任何无偏估计量的方差都不能突破这条理论极限线。如果某个估计量的方差正好等于下界，那它就是无偏类中最优的（有效估计）。
**使用提醒：**记住这里的估计对象是 $g(\theta)$ 而不是 $\theta$ 。如果直接估计 $\theta$ ，那么 $g'(\theta)=1$ ，分子变为 1。还有，这个下界只适用于满足正则条件的模型。

4. 等号成立条件

\hat g-g(\theta)=a(\theta)\,U(X;\theta)\quad\text{(几乎处处)}

**来源：**Cauchy-Schwarz 不等式取等的必要条件：两个随机变量几乎处处成比例。
**式子拆解：**左边是估计误差（ $\hat g$ 偏离真实值 $g(\theta)$ 的量），右边是 score 乘以只依赖于 $\theta$ 的系数。这条等式要求：无论 $X$ 取什么值，估计误差和 score 都要保持固定比例。
**含义：**只有当估计误差和 score 函数之间存在精确的线性关系时，C-R 下界才会被达到。这个条件非常苛刻——它要求统计量 $\hat g$ 的结构必须由 score 的形式完全决定。
**使用提醒：**这是判断”有效估计”的关键判据。如果题目中给出的估计量不满足这个结构条件，就可以立刻断言它达不到 C-R 下界（即使它可能是 UMVUE）。

六、推导与证明

1. 证明依赖

用到的定义：score、Fisher 信息、无偏估计量、正则条件。
用到的前序定理：期望的求导（Leibniz 积分法则）、Cauchy-Schwarz 不等式。
用到的分布性质：独立样本对数似然可加性、score 期望为零。
用到的关键技巧：对无偏条件做参数求导，将求导结果通过 score 函数重新表述，再与估计误差建立协方差关系。

2. 证明思路

C-R 不等式的推导思路可以概括为以下三步：

从无偏性出发，两端对参数求导：
$E_\theta[\hat g]=g(\theta)\quad\Longrightarrow\quad\frac{d}{d\theta}E_\theta[\hat g]=g'(\theta).$
将求导结果改写为 score 的协方差形式：在正则条件下，将 $\frac{d}{d\theta}E_\theta[\hat g]$ 写成 $\int\hat g\cdot\frac{\partial p}{\partial\theta}dx$ ，再通过 $\frac{\partial p}{\partial\theta}=U\cdot p$ 转化为 $E[\hat g\cdot U]$ 。减去 $E[U]=0$ 后得到：
$E_\theta[(\hat g-g(\theta))\cdot U(X;\theta)]=g'(\theta).$
对协方差式应用 Cauchy-Schwarz 不等式：
$(g'(\theta))^2 = \bigl(E[(\hat g-g)U]\bigr)^2 \le E[(\hat g-g)^2]\cdot E[U^2] = \operatorname{Var}(\hat g)\cdot I(\theta).$
整理即得 $\operatorname{Var}(\hat g)\ge (g'(\theta))^2/I(\theta)$ 。对于 $n$ 个 i.i.d. 样本，将 $I(\theta)$ 替换为 $nI(\theta)$ 。

3. 完整推导（含旁白）

[!proof]- 📐 深度推导：Cramér-Rao 不等式的严谨证明

第一步：写出无偏条件。

设 $\hat g$ 是 $g(\theta)$ 的无偏估计量：
$E_\theta[\hat g]=\int\hat g(x)\,p(x;\theta)\,dx = g(\theta).$
第二步：两边对 $\theta$ 求导（正则条件 3 保障求导与积分可交换）。
$\frac{d}{d\theta}\int\hat g(x)\,p(x;\theta)\,dx = \int\hat g(x)\,\frac{\partial}{\partial\theta}p(x;\theta)\,dx = g'(\theta).$
为什么要做这一步？ 无偏条件本身只是一个等式，不涉及方差。对参数求导后，我们会得到 $\hat g$ 和 $\partial p/\partial\theta$ 的联系，而 $\partial p/\partial\theta$ 是 score 函数的”原材料”。

第三步：将 $\partial p/\partial\theta$ 改写为 score 形式。

利用恒等式 $\frac{\partial p}{\partial\theta}= \frac{\partial\log p}{\partial\theta}\cdot p = U(x;\theta)\,p(x;\theta)$ ，代入得：
$\int\hat g(x)\,U(x;\theta)\,p(x;\theta)\,dx = g'(\theta).$
即
$E_\theta[\hat g\cdot U(X;\theta)] = g'(\theta).$
第四步：利用 $E_\theta[U]=0$ 引入中心化形式。

回顾我们在 3.1 节证明的 score 期望为零的性质： $E_\theta[U]=0$ 。因此可以从上式左边减去 $g(\theta)\cdot E_\theta[U]$ （ $=0$ ）而不改变等号：
$E_\theta[\hat g\cdot U] - g(\theta)\cdot E_\theta[U] = g'(\theta) \quad\Longrightarrow\quad E_\theta\bigl[(\hat g-g(\theta))\cdot U(X;\theta)\bigr] = g'(\theta).$
为什么要这一步？ 因为我们接下来要对 $(\hat g-g)$ 和 $U$ 应用 Cauchy-Schwarz 不等式，而 Cauchy-Schwarz 要求这两个量都是中心化的（期望为零）。 $\hat g-g$ 的期望的确是 $E[\hat g]-g(\theta)=0$ （无偏性）， $U$ 的期望也是 0——两个零期望的随机变量，可以直接套用 Cauchy-Schwarz。

第五步：应用 Cauchy-Schwarz 不等式。

Cauchy-Schwarz 不等式说：对任意随机变量 $A,B$ ，
$\bigl(E[AB]\bigr)^2 \le E[A^2]\,E[B^2].$
令 $A=\hat g-g(\theta)$ ， $B=U(X;\theta)$ ，则：
$\bigl(g'(\theta)\bigr)^2 = \bigl(E[(\hat g-g)U]\bigr)^2 \le E\bigl[(\hat g-g)^2\bigr]\cdot E[U^2] = \operatorname{Var}_\theta(\hat g)\cdot I(\theta).$
第六步：整理出 C-R 下界。
$\operatorname{Var}_\theta(\hat g) \ge \frac{(g'(\theta))^2}{I(\theta)}.$
这就是单个样本下的 Cramér-Rao 不等式。

第七步：推广到 $n$ 个 i.i.d. 样本。

对 $n$ 个 i.i.d. 样本 $X_1,\dots,X_n$ ，联合对数似然为：
$\log p(\mathbf{x};\theta)=\sum_{i=1}^n \log p(x_i;\theta).$
联合 score 函数为：
$U_n(\mathbf{X};\theta)=\sum_{i=1}^n U(X_i;\theta).$
Fisher 信息为：
$I_n(\theta)=\operatorname{Var}_\theta(U_n)=\sum_{i=1}^n \operatorname{Var}_\theta(U(X_i;\theta))=nI(\theta).$
为什么 score 的方差可以直接相加？ 因为 $X_i$ 彼此独立，每个 $U(X_i;\theta)$ 只是 $X_i$ 的函数，所以 $U(X_1;\theta),\dots,U(X_n;\theta)$ 也彼此独立。独立随机变量的方差和等于方差之和。

第八步：写出 $n$ 个样本下的 C-R 下界。

将 $I_n(\theta)=nI(\theta)$ 代入单样本下界：
$\operatorname{Var}_\theta(\hat g) \ge \frac{(g'(\theta))^2}{nI(\theta)}.$
等号成立条件：回顾 Cauchy-Schwarz 取等条件：存在常数 $a(\theta)$ 使得 $A = a(\theta)\cdot B$ 几乎处处成立，即
$\hat g - g(\theta) = a(\theta)\cdot U_n(\mathbf{X};\theta).$
对于多样本，这等价于 $\hat g - g(\theta) = a(\theta)\sum_{i=1}^n U(X_i;\theta)$ 。

用途：这个推导展示了 C-R 不等式背后最核心的逻辑链条——从无偏性出发，经由求导和 score 的链接，最后用 Cauchy-Schwarz 收网。每一步都有清晰的目的：求导产生了与 $\hat g$ 和参数的关系，score 变换建立了与 Fisher 信息的桥梁，Cauchy-Schwarz 把协方差转化为了方差的乘积。

4. Fisher 信息两个等价形式的证明

[!proof]- 📐 深度推导： $I(\theta)=E[U^2]=-E[U']$ 的证明

目标： 证明
$E_\theta\left[\left(\frac{\partial}{\partial\theta}\log p(X;\theta)\right)^2\right] = -E_\theta\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].$
第一步：写出 $U'$ 的表达式。

由 $U=\frac{\partial}{\partial\theta}\log p = \frac{1}{p}\frac{\partial p}{\partial\theta}$ ，对 $\theta$ 再求导（用商的求导法则）：
$\frac{\partial U}{\partial\theta} = \frac{\partial}{\partial\theta}\left(\frac{1}{p}\frac{\partial p}{\partial\theta}\right) = -\frac{1}{p^2}\left(\frac{\partial p}{\partial\theta}\right)^2 + \frac{1}{p}\frac{\partial^2 p}{\partial\theta^2}.$
注意到 $\frac{1}{p}\frac{\partial p}{\partial\theta}=U$ ，所以第一项为 $-U^2$ 。于是：
$U' = \frac{\partial U}{\partial\theta} = -U^2 + \frac{1}{p}\frac{\partial^2 p}{\partial\theta^2}.$
第二步：两边取期望。
$E[U'] = -E[U^2] + \int\frac{\partial^2 p}{\partial\theta^2}\,dx.$
第三步：利用正则条件消去 $\int\frac{\partial^2 p}{\partial\theta^2}dx$ 。

因为 $\int p(x;\theta)dx=1$ 恒成立，两端对 $\theta$ 求二阶导（正则条件保证可交换）：
$\frac{d^2}{d\theta^2}\int p\,dx = \int\frac{\partial^2 p}{\partial\theta^2}\,dx = 0.$
所以 $\int\frac{\partial^2 p}{\partial\theta^2}dx=0$ ，代入得：
$E[U'] = -E[U^2].$
第四步：整理。
$I(\theta)=E[U^2] = -E[U'] = -E\left[\frac{\partial^2}{\partial\theta^2}\log p(X;\theta)\right].$
关键观察：这个等价关系成立的底层逻辑是：总体密度积分为 1 这一事实的”二阶导数版本”。一阶导数版本给了我们 $E[U]=0$ ，二阶导数版本给了我们 $E[U^2]=-E[U']$ 。两个都是正则条件（积分与求导可交换）的直接推论。

用途：这个公式给了我们计算 Fisher 信息的第二条路径。在实践中，有时计算一阶导数的平方期望很繁琐，但二阶导数的期望却很简洁（如指数分布族中）。有了这个等价关系，我们就可以灵活切换。

七、例题与变式

1. 标准题：正态均值模型的 Fisher 信息

题型： 信息量计算题 / 下界题

题目：

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2)$ ，其中 $\sigma^2$ 已知。求 $\mu$ 的 Fisher 信息和 C-R 下界。并判断 $\overline{X}$ 是否达到该下界。

解题思路（先理顺再动笔）：

识别模型： 正态总体，均值 $\mu$ 未知，方差已知。这是一个一维参数问题。
选择工具： 直接计算 score 函数的一阶矩形式 $\to$ Fisher 信息 $\to$ C-R 下界。对于正态分布，一阶形式足够简单。
预期结果： $\overline{X}\sim N(\mu,\sigma^2/n)$ ，方差为 $\sigma^2/n$ 。如果 C-R 下界碰巧也是 $\sigma^2/n$ ，那 $\overline{X}$ 就是有效估计。

解答：

步骤 1：写出单个样本的对数密度。

\log p(x;\mu)=-\frac12\log(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}.

步骤 2：对 $\mu$ 求导得到 score。

U(X;\mu)=\frac{\partial}{\partial\mu}\log p(X;\mu)=\frac{X-\mu}{\sigma^2}.

步骤 3：计算 Fisher 信息。

I(\mu)=E_\mu[U^2]=E_\mu\left[\left(\frac{X-\mu}{\sigma^2}\right)^2\right] =\frac{1}{\sigma^4}E_\mu[(X-\mu)^2]=\frac{1}{\sigma^4}\cdot\sigma^2=\frac{1}{\sigma^2}.

步骤 4：扩展到 $n$ 个样本。

I_n(\mu)=nI(\mu)=\frac{n}{\sigma^2}.

步骤 5：写出 C-R 下界（估计目标为 $\mu$ ，所以 $g(\mu)=\mu$ ， $g'(\mu)=1$ ）。

\operatorname{Var}(\hat\mu)\ge\frac{1}{nI(\mu)}=\frac{\sigma^2}{n}.

步骤 6：与 $\overline{X}$ 的方差比较。

\overline{X}\sim N\!\left(\mu,\frac{\sigma^2}{n}\right),\qquad \operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}.

恰好等于 C-R 下界！同时检查等号条件： $\overline{X}-\mu$ 是否与 $U_n$ 成比例？

U_n(\mathbf{X};\mu)=\sum_{i=1}^n\frac{X_i-\mu}{\sigma^2}=\frac{n(\overline{X}-\mu)}{\sigma^2},

于是

\overline{X}-\mu=\frac{\sigma^2}{n}\cdot U_n(\mathbf{X};\mu)=a(\mu)\,U_n.

等号条件成立！

结论： $\overline{X}$ 是 $\mu$ 的有效估计量（也是 UMVUE）。

常见坑点提醒：

不要把 $\sigma^2$ 和 $\sigma$ 搞混。Fisher 信息的分母是 $\sigma^2$ ，不是 $\sigma$ 。
计算 $I(\mu)$ 时， $E[(X-\mu)^2]=\sigma^2$ 不要算错。有些同学会写成 $E[(X-\mu)^2]=\sigma$ 。
等号条件检查不要忽略——很多题目特别要求”判断是否有效”，需要同时检查方差相等和比例关系。

2. 标准题：Bernoulli 模型的 Fisher 信息

题型： 信息量计算题

题目：

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ ， $0<p<1$ 。求 $p$ 的 Fisher 信息和 C-R 下界。并判断 $\overline{X}$ 是否有效。

解答：

步骤 1：写出概率函数。

P(X=x;p)=p^x(1-p)^{1-x},\qquad x=0,1.

步骤 2：对数概率和对 $p$ 求导。

\log p(x;p)=x\log p+(1-x)\log(1-p),

U(X;p)=\frac{\partial}{\partial p}\log p=\frac{x}{p}-\frac{1-x}{1-p} =\frac{x(1-p)-(1-x)p}{p(1-p)}=\frac{x-p}{p(1-p)}.

步骤 3：计算 Fisher 信息。

I(p)=E[U^2]=E\left[\left(\frac{X-p}{p(1-p)}\right)^2\right] =\frac{1}{p^2(1-p)^2}E[(X-p)^2].

而 $X\sim B(1,p)$ ， $\operatorname{Var}(X)=p(1-p)$ ，所以 $E[(X-p)^2]=p(1-p)$ 。

代入得：

I(p)=\frac{p(1-p)}{p^2(1-p)^2}=\frac{1}{p(1-p)}.

使用二阶形式验证（可选）：

\frac{\partial^2}{\partial p^2}\log p = -\frac{x}{p^2}-\frac{1-x}{(1-p)^2},

E\left[-\frac{\partial^2}{\partial p^2}\log p\right] = E\left[\frac{X}{p^2}+\frac{1-X}{(1-p)^2}\right] = \frac{p}{p^2}+\frac{1-p}{(1-p)^2} = \frac{1}{p}+\frac{1}{1-p} = \frac{1}{p(1-p)}.

两种形式结果一致。

步骤 4：C-R 下界（ $n$ 个样本）。

\operatorname{Var}(\hat p)\ge\frac{p(1-p)}{n}.

步骤 5：验证 $\overline{X}$ 。

\overline{X}\sim \frac{1}{n}B(n,p),\quad \operatorname{Var}(\overline{X})=\frac{p(1-p)}{n}.

恰好等于下界。同时检查等号条件：

U_n(\mathbf{X};p)=\sum_{i=1}^n\frac{X_i-p}{p(1-p)}=\frac{n(\overline{X}-p)}{p(1-p)},

\overline{X}-p=\frac{p(1-p)}{n}\,U_n.

等号条件成立。 $\overline{X}$ 是 $p$ 的有效估计量。

答案解读： 因此，样本比例 $\overline{X}$ 不仅是 $p$ 的无偏估计，而且达到了理论最优——它利用了样本中包含的全部关于 $p$ 的信息。

常见坑点提醒：

计算 $I(p)$ 时， $E[(X-p)^2]=p(1-p)$ ，不要写成 $p^2$ 或 $(1-p)^2$ 。
注意 $p$ 的取值范围 $(0,1)$ 对 $I(p)$ 的影响： $p$ 靠近 0 或 1 时， $p(1-p)$ 很小， $I(p)$ 很大——因为极端概率下，样本很容易判断出 $p$ 是靠近 0 还是 1，信息量大。 $p=0.5$ 时 $I(p)$ 最小——最不容易区分。

3. 标准题：指数模型的 Fisher 信息

题型： 信息量计算题

题目：

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ ，密度为 $f(x;\lambda)=\lambda e^{-\lambda x}$ ， $x>0$ ， $\lambda>0$ 。

求 $\lambda$ 的 Fisher 信息 $I(\lambda)$ 。
求 $\lambda$ 的 C-R 下界。
我们知道 $\overline{X}$ 无偏估计 $1/\lambda$ （因为 $E[X]=1/\lambda$ ），问： $\overline{X}$ 对 $1/\lambda$ 的估计是否有效？

解答：

第 1 问：计算 Fisher 信息。

\log p(x;\lambda)=\log\lambda-\lambda x,

U(X;\lambda)=\frac{\partial}{\partial\lambda}\log p = \frac{1}{\lambda}-X.

I(\lambda)=E[U^2]=E\left[\left(\frac{1}{\lambda}-X\right)^2\right] = \operatorname{Var}(X)=\frac{1}{\lambda^2}.

（因为 $E[X]=1/\lambda$ ，所以 $\frac{1}{\lambda}-X$ 的期望为 0，二阶矩等于方差。而指数分布的方差为 $1/\lambda^2$ 。）

用二阶形式验证：

\frac{\partial^2}{\partial\lambda^2}\log p = -\frac{1}{\lambda^2}, \qquad I(\lambda)=-E[U'] = -E\left[-\frac{1}{\lambda^2}\right] = \frac{1}{\lambda^2}.

结果一致。

第 2 问： $\lambda$ 的 C-R 下界。

\operatorname{Var}(\hat\lambda)\ge\frac{1}{nI(\lambda)}=\frac{\lambda^2}{n}.

第 3 问： $\overline{X}$ 对 $1/\lambda$ 是否有效？

这里估计目标是 $g(\lambda)=1/\lambda$ ，不是 $\lambda$ 本身。

$g'(\lambda)=-\frac{1}{\lambda^2}$ ， $(g'(\lambda))^2=\frac{1}{\lambda^4}$ 。

C-R 下界为：

\operatorname{Var}(\hat g)\ge\frac{1/\lambda^4}{n\cdot(1/\lambda^2)}=\frac{1}{n\lambda^2}.

而 $\overline{X}$ 对 $1/\lambda$ 是無偏的：

E[\overline{X}]=E[X]=\frac{1}{\lambda},\qquad \operatorname{Var}(\overline{X})=\frac{\operatorname{Var}(X)}{n}=\frac{1}{n\lambda^2}.

恰好等于下界。等号条件也成立（ $U_n$ 与 $\overline{X}-1/\lambda$ 成比例）。

结论： $\overline{X}$ 是 $1/\lambda$ 的有效估计量，但 $\lambda$ 本身没有简单的无偏估计量能达到 C-R 下界（因为 $1/\overline{X}$ 是 $\lambda$ 的有偏估计）。

常见坑点提醒：

第 3 问中，很多同学会直接问” $\overline{X}$ 对 $\lambda$ 是否有效”，但其实 $\overline{X}$ 对 $\lambda$ 不是无偏的（因为 $E[\overline{X}]=1/\lambda\neq\lambda$ ），C-R 下界不适用于有偏估计量。所以一定要先明确估计目标！
计算 $I(\lambda)$ 时， $E[(1/\lambda-X)^2]=\operatorname{Var}(X)$ 利用了 $E[X]=1/\lambda$ 的结论，这与 $E[U]=0$ 是一致的（验证： $E[U]=E[1/\lambda-X]=1/\lambda-1/\lambda=0$ ）。
指数分布的双参数版本（ $\Gamma(\alpha,\lambda)$ 两个参数均未知）的 Fisher 信息是一个 $2\times2$ 矩阵，超出了本讲范围，但原理相同。

4. 题型提醒

[!tip]+ 做题顺序：Fisher 信息与 C-R 下界计算题

先写单个样本的对数似然 $\log p(x;\theta)$ 。

对参数求一阶导数得到 score $U=\frac{\partial}{\partial\theta}\log p$ 。

计算 Fisher 信息——优先尝试较简洁的计算路径：

如果 $U$ 的表达式是”某个简单随机变量的线性函数”，用 $I(\theta)=E[U^2]$ 直接算。

如果二阶导数形式更简单（尤其是指数族），用 $I(\theta)=-E[U']$ 。

记得乘上 $n$ ： $I_n(\theta)=nI(\theta)$ （对于 i.i.d. 样本）。

写下界：

估计 $\theta$ ： $\operatorname{Var}(\hat\theta)\ge 1/(nI(\theta))$ 。

估计 $g(\theta)$ ： $\operatorname{Var}(\hat g)\ge (g'(\theta))^2/(nI(\theta))$ 。

判断有效：验证估计量方差是否等于下界，且等号条件 $\hat g-g(\theta)\propto U_n$ 成立。

八、章节连接

**这一讲建立在哪些知识之上：**点估计、无偏性、方差的计算、UMVUE（第五、六讲）、常见参数模型（正态、Bernoulli、指数）、求导与积分互换（微积分）。
**这一讲为后面哪些内容做准备：**区间估计中 Fisher 信息会出现在渐近方差中；假设检验中 Fisher 信息会出现在检验的功效分析和 Wald 统计量中；渐近理论中 MLE 的渐近方差正是 C-R 下界的逆。
**这一讲在整门课中的功能：**给估计优良性建立下界标准，并解释”信息量”的统计含义。从本讲开始，你应该能理解为什么 $\overline{X}$ 在正态和 Bernoulli 模型中如此”完美”——不是因为运气好，而是因为它恰好用尽了样本中包含的全部参数信息。

九、复习整理

[!summary]+ 本讲小结

**研究的问题：**无偏估计量的方差最小能到哪里。

**使用的模型：**满足正则条件的参数模型。

**核心统计量：**score 函数 $U(X;\theta)$ 和 Fisher 信息 $I(\theta)$ 。

关键结论：

Score 函数 $U=\frac{\partial}{\partial\theta}\log p$ ，其期望为 0，方差为 Fisher 信息。

Fisher 信息 $I(\theta)=E[U^2]=-E[U']$ ，刻画模型对参数的敏感程度。

Cramér-Rao 不等式： $\operatorname{Var}_\theta(\hat g)\ge (g'(\theta))^2/(nI(\theta))$ 。

等号成立条件： $\hat g-g(\theta)=a(\theta)U_n$ ，此时称 $\hat g$ 为有效估计量。

有效估计量一定是 UMVUE，但 UMVUE 不一定有效。

**最重要的条件：**支持集不依赖参数、可交换求导积分、信息量有限且正（正则条件 1-4）。

**本讲最终服务什么推断任务：**判断估计量是否高效，以及理解”信息量”在参数估计中的核心地位。

高频误套

[!warning]+ 常见错误

不检查正则条件就直接套 C-R 下界。 $U(0,\theta)$ 和 Cauchy 平移族是典型的反面教材——套公式会得到错误或无效的结果。

忘记估计对象是 $g(\theta)$ 时分子应为 $(g'(\theta))^2$ 。 如果直接套 $1/(nI(\theta))$ 就会漏掉 $g'$ 因子。

只算了单个样本的信息量，忘记乘 $n$ 。 给定 $n$ 个 i.i.d. 样本时， $I_n(\theta)=nI(\theta)$ ，不能只写单样本信息。

把”达到下界”与”UMVUE”完全等同。 达到 C-R 下界确实推出 UMVUE，但反过来不成立。UMVUE 的方差可能大于 C-R 下界——下界只是一个下界，不一定紧（tight）。

Fisher 信息的两个等价形式混用，但没有验证正则条件。 两个形式的等价性依赖于正则条件 3（求导与积分可交换），在不满足时两个形式的计算结果可能不同。

等号条件只检查方差相等，不检查比例关系。 方差相等只是必要条件，要证明有效性还需要验证 $\hat g-g\propto U$ 。

条件卡

结论： $I(\theta)=E[(\partial_\theta\log p)^2]=-E[\partial_\theta^2\log p]$ 。 成立条件： 正则条件成立（尤其是求导与积分可交换）。 不能用在： 支持集依赖参数或求导积分不可交换时。 常见误套场景： 任何模型都照抄 Fisher 信息公式而不检查正则条件。
结论： $\operatorname{Var}(\hat g)\ge (g'(\theta))^2/(nI(\theta))$ 。 成立条件： $\hat g$ 無偏，样本 i.i.d.，模型满足正则条件。 不能用在： 有偏估计量或非正则模型。 常见误套场景： 把 C-R 下界拿来比较有偏的 shrinkage 估计量（如 James-Stein 估计量）。
结论： 估计量有效。 成立条件： 它达到 C-R 下界（方差相等且等号条件成立）。 不能用在： 只因为它”看起来很好”或”方差不大”。 常见误套场景： 没有实际与 C-R 下界比较就说某估计量有效。
结论： $I_n(\theta)=nI(\theta)$ 。 成立条件： 样本 i.i.d. 不能用在： 样本不独立或不同分布的情形（如时间序列数据）。 常见误套场景： 在相依数据（如 AR(1) 模型）中仍用 $n$ 倍单样本信息，此时信息累加率低于 $n$ 。

关系图谱

本讲中的核心概念之间的关系可以总结为：

无偏条件 E[ĝ] = g(θ)
       │
       ▼ 对θ求导（正则条件）
E[(ĝ-g(θ))·U] = g'(θ)
       │
       ▼ Cauchy-Schwarz
(g'(θ))² ≤ Var(ĝ)·I(θ)
       │
       ▼ 整理
Var(ĝ) ≥ (g'(θ))² / (n·I(θ))
       │
       ├── 等号条件: ĝ-g ∝ U ⟺ 有效估计
       └── 有效估计 ⇒ UMVUE，但反之不成立

十、习题区

1. 概念题

Fisher 信息为什么可以理解为”样本对参数的辨识能力”？ 请用 score 函数的语言解释：信息量大和小时，分布随参数的变化有何不同？
为什么样本量越大，C-R 下界越小？ 这背后的数学依据是什么？是不是所有模型下都成立？
C-R 下界与 UMVUE 的关系和区别是什么？ 是否存在 UMVUE 达不到 C-R 下界的情况？如果存在，原因是什么？
正则条件中的”支持集不依赖参数”到底保护了什么？ 考虑 $U(0,\theta)$ 分布：如果强行套用 C-R 公式，会得到什么结果？这个结果为什么不可靠？

做题思路（概念题不需要计算，但要养成用例子说话的思维）：

第 1 题：可以拿正态模型做对比。 $I(\mu)=1/\sigma^2$ ， $\sigma^2$ 越小信息越大。思考为什么方差小（数据集中）意味着参数信息量大。
第 3 题：UMVUE 不一定有效的一个经典例子是：在某些指数族分布中，UMVUE 存在但 C-R 下界比其方差小（下界不紧）。这表明 C-R 下界只是一个下界，不一定可达。
第 4 题：考虑 $U(0,\theta)$ 的 score 计算过程，你会发现导数在边界点出现问题。

2. 标准题

设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} N(\mu,\sigma^2)$ ， $\sigma^2$ 已知。计算 $\mu$ 的 Fisher 信息和 C-R 下界，并验证 $\overline{X}$ 的有效性。
设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} B(1,p)$ 。计算 $p$ 的 Fisher 信息，写出 C-R 下界，并判断 $\overline{X}$ 是否有效。
设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} E(\lambda)$ 。计算 $\lambda$ 的 Fisher 信息。令 $g(\lambda)=1/\lambda$ ，求 $g(\lambda)$ 的 C-R 下界，并验证 $\overline{X}$ 对 $g(\lambda)$ 的有效性。

做题思路：

每题先写 $\log p(x;\theta)$ → 求导得 $U$ → 算 $I(\theta)=E[U^2]$ （或 $-E[U']$ ） → 乘 $n$ → 写下界。
验证有效性时：先算估计量方差，与下界比大小；再检查等号条件 $\hat g-g\propto U_n$ 。
常见坑：第 3 题中注意估计目标是 $1/\lambda$ 还是 $\lambda$ ，分子不同。

3. 综合题

Poisson 分布的 C-R 下界。 设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} P(\lambda)$ ，密度为 $p(x;\lambda)=e^{-\lambda}\lambda^x/x!$ 。
- (a) 写出 $\log p(x;\lambda)$ 和 score $U(X;\lambda)$ 。
- (b) 计算 $I(\lambda)$ 。
- (c) 写出 $\lambda$ 的 C-R 下界。 $\overline{X}$ 是否有效？
- (d) 如果估计目标是 $g(\lambda)=e^{-\lambda}$ （即 $P(X=0)$ ），C-R 下界是什么？ $\overline{X}$ 对 $e^{-\lambda}$ 是否无偏？是否有效？
提示： (d) 中 $g'(\lambda)=-e^{-\lambda}$ 。 $\overline{X}$ 对 $e^{-\lambda}$ 不是无偏的（ $E[e^{-\overline{X}}]\neq e^{-\lambda}$ ），所以不能直接用 C-R 不等式。这是一个很好的例子说明：C-R 下界只适用于无偏估计量。
均匀分布的反例。 设 $X_1,\dots,X_n\stackrel{\text{i.i.d.}}{\sim} U(0,\theta)$ ， $\theta>0$ 。
- (a) 判断该模型是否满足 C-R 正则条件，并说明理由。
- (b) 如果强行套用 C-R 公式，你会得到什么结果？这个结果有意义吗？
- (c) 已知 $X_{(n)}$ 是 $\theta$ 的 UMVUE（需要乘上 $(n+1)/n$ ），它的方差和 C-R 公式得到的”伪下界”比较如何？这说明了什么？
提示： (a) 支持集 $(0,\theta)$ 依赖 $\theta$ ，违反正则条件 1。(b) 强行代入会发现 score 的表达式中出现了 Dirac delta 型的边界项，公式失效。(c) 这个反例说明：C-R 下界不是万能的，有些模型虽然能构造 UMVUE，但 C-R 不等式不适用。
“有效估计 $\Rightarrow$ UMVUE，但反之不然”的实列。 在什么情况下，UMVUE 存在但达不到 C-R 下界？
- 提示：考虑一个非指数族的模型，或者正则条件部分不满足的模型。讨论：为什么这样的模型中 UMVUE 的方差大于 C-R 下界？
比较”Rao-Blackwell 改进""Lehmann-Scheffe 定理""Cramér-Rao 下界”三者在点估计理论中的不同角色。
- (a) 每个方法解决了什么问题？
- (b) 每个方法需要什么条件？
- (c) 三个方法之间有什么关系？
提示： 这是一个概念对比题。Rao-Blackwell 从充分统计量出发压缩方差；Lehmann-Scheffe 从完备充分统计量出发构造唯一的 UMVUE；C-R 下界从正则条件出发给出理论极限。三者的视角不同：前两个是”构造最优”的路线，第三个是”判断是否到顶”的路线。

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句”用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

第07讲 Cramer-Rao下界与Fisher信息

讲义信息

先看全局

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查：Cramér-Rao 正则条件

三、核心概念

3.1 Score 函数：对数似然的”斜率”

3.2 Fisher 信息：score 的波动强度

3.3 有效估计：达到理论极限的估计量

四、统计量与分布

4.1 Cramér-Rao 下界：无偏估计的理论极限

4.2 等号成立条件：什么时候能达到下界？

4.3 信息累加：为什么 In(θ)=nI(θ)I_n(\theta)=nI(\theta)In​(θ)=nI(θ)？

4.4 对比辨析

五、主要结论

1. 信息量结论

2. 下界结论

3. 最优性结论

关键公式释义

1. Score 函数

2. Fisher 信息

3. Cramér-Rao 下界

4. 等号成立条件

六、推导与证明

1. 证明依赖

2. 证明思路

3. 完整推导（含旁白）

4. Fisher 信息两个等价形式的证明

七、例题与变式

1. 标准题：正态均值模型的 Fisher 信息

2. 标准题：Bernoulli 模型的 Fisher 信息

3. 标准题：指数模型的 Fisher 信息

4. 题型提醒

八、章节连接

九、复习整理

高频误套

条件卡

关系图谱

十、习题区

1. 概念题

2. 标准题

3. 综合题

附：排版约定

4.3 信息累加：为什么 $I_n(\theta)=nI(\theta)$ ？