讲义信息
- **课程:**数理统计
- **章节:**第 3 章后段,对应课件
lec3.3(2026)169
- **讲次:**第 07 讲
- 日期:
- **对应大纲:**数理统计大纲
- **对应课件:**slides/lec3.3(2026)169.pdf
- **研究对象:**Fisher 信息、Cramér-Rao 下界与有效估计
- **统计任务:**给无偏估计量的方差设定理论下界,并理解”信息量”概念
- **本讲结论用途:**为判断估计量是否高效、是否可能再改进提供基准线
[!summary]+ 本讲导读
- 本讲研究的问题:无偏估计量的方差到底能小到什么程度。
- 已知什么:参数模型 p(x;θ)、无偏估计量、正则条件。
- 未知什么:能否给所有无偏估计量设置一个统一的下界,这个下界由什么决定。
- 核心统计对象:score 函数、Fisher 信息、Cramér-Rao 不等式。
- 本讲结论最终服务什么推断任务:判断估计量是否高效,以及解释为什么某些估计量”已经不能再好了”。
先看全局
上一讲我们学习了 UMVUE —— 在无偏类中方差最小的那个估计量。但我们始终没有回答一个根本性的问题:
这个”最小”到底有多小?它能不能无限接近于零?
如果你手头有一个无偏估计量,它的方差是 0.12。你不知道它是不是 UMVUE,但你想知道:还有没有可能构造出方差为 0.01 的无偏估计量?或者说,是否存在一个理论上的极限,低于这个极限,任何无偏估计量都不可能达到?
答案是:确实存在这样一个极限。 它叫 Cramér-Rao 下界(C-R 下界)。只要模型满足一些基本条件,每一个无偏估计量的方差都会被一个由模型本身决定的”理论门槛”所约束。
这一讲和上一讲的关系是:
- 上一讲问的是:怎样在无偏类中找到最好的那个?
- 这一讲问的是:这个”最好”有没有一个不可逾越的物理极限?
所以 Cramér-Rao 下界不是在教你构造估计量,而是在告诉你:
任何无偏估计量的方差都不可能无限小,它至少要大于某个由信息量决定的门槛。
这个”信息量”不是日常语言中的”信息”,而是 Fisher 信息 —— 一个用来量化”样本对参数敏感程度”的数学量。它的核心思想极为直观:你从样本中”感知”到的参数信息越多,你的估计就能越精确。
思维实验:想象你在测量一个未知物体的重量。如果你有一台非常精密的天平(信息量大),你称一次就能得出一个很准的估计值(方差小)。如果天平的精度很差(信息量小),你需要多次称量取平均才能稍微降低波动(方差大)。C-R 下界告诉你的正是:给定你的天平精度(Fisher 信息),你的估计精度最多能好到什么程度。
一、本讲定位
- 在课程中的位置:这是”点估计优良性”模块的理论下界部分,也是连接”有限样本理论”和”渐近理论”的关键桥梁。
- 和前一讲的连接:上一讲说明了如何在无偏类中找最优估计量(UMVUE),本讲则给出无偏估计量方差的理论极限(C-R 下界)。这两条线共同回答了”在无偏估计中,哪些估计量已经不能再好了”。
- 和后一讲的连接:后续区间估计和假设检验中,Fisher 信息会反复出现——它是刻画样本信息量的核心工具,也是渐近方差和检验功效分析的基础。
- 本讲重点内容:
- score 函数与 Fisher 信息的定义和直觉
- Cramér-Rao 正则条件(逐条解释)
- Cramér-Rao 不等式及其等号成立条件
- 有效估计与 UMVUE 的关系
- 典型模型中的信息量计算
二、模型与前提
1. 研究模型
- **总体:**参数模型 {p(x;θ):θ∈Θ⊂R}。注意本讲讨论的参数 θ 限定为一维实参数;多维参数的情况虽然在理论上是 C-R 下界的推广,但本课程只要求一维情形。
- 参数空间:Θ 通常是开区间(如 (0,∞) 或 R),以保证对参数求导的操作在参数空间内部进行。
- **样本:**单个样本 X 或 i.i.d. 样本 X1,…,Xn。
- 抽样方式:默认 i.i.d. 样本。
- **估计对象:**可以是 θ 本身,也可以是 θ 的函数 g(θ)(如 g(θ)=θ2、g(θ)=1/θ 等)。
2. 对象区分
这一讲有三个核心对象,初学者最容易搞混,我们先在这里划清边界:
- **score 函数 U(X;θ):**对数似然对参数的导数。它不是一个估计量,而是一个”传感器”——用来感知参数微小变化时,似然函数的反应强度。
- **Fisher 信息 I(θ):**score 的方差。它是模型本身的性质,不依赖任何估计量。Fisher 信息大意味着:样本携带的参数信息充足,潜在的估计精度高。
- **C-R 下界:**由 Fisher 信息导出的方差下界。它是具体的数值门槛,用于和实际估计量的方差做比较。
一句话串起来:score 感知参数变化 → 其方差定义 Fisher 信息 → Fisher 信息决定 C-R 下界 → C-R 下界是估计精度的极限。
3. 模型前提检查:Cramér-Rao 正则条件
Cramér-Rao 不等式不是无条件成立的。它依赖于一组称为”正则条件”的假设。如果模型不满足这些条件,就不能硬套 C-R 下界。
[!warning]+ 条件先检查
- Cramér-Rao 下界不是无条件成立,必须检查正则条件。
- 若模型不满足正则条件,即使套用公式算出一个数值,也没有理论意义。
- 估计对象若是 g(θ) 而非 θ,下界中要出现 g′(θ)。
- 正则条件的核心目的是保证求导和积分可以交换顺序。
下面我们来逐条解释这四条正则条件,理解每条条件到底在保护什么。
正则条件 1:支持集不依赖参数。
{x:p(x;θ)>0} 与 θ 无关.
为什么需要这条? 如果支持集依赖 θ(比如 U(0,θ) 的支持集是 (0,θ),θ 变了支持集的边界也会变),那么对 ∫p(x;θ)dx=1 两边关于 θ 求导时,莱布尼茨积分法则会多出边界项,导致 dθd∫p(x;θ)dx=∫∂θ∂pdx。这意味着我们无法安全地交换求导和积分。
正则条件 2:密度函数在参数空间内可微。
∂θ∂p(x;θ) 存在(几乎处处).
为什么需要这条? 我们需要 score 函数 U=∂θ∂logp 被良好定义。如果密度关于参数不可微,score 函数根本不存在,后面的所有讨论无从谈起。
正则条件 3:求导与积分可交换。
dθd∫p(x;θ)dx=∫∂θ∂p(x;θ)dx,dθd∫g^(x)p(x;θ)dx=∫g^(x)∂θ∂p(x;θ)dx.
为什么需要这条? 这是 C-R 下界推导中最关键的一步:我们需要对”无偏条件”两边关于 θ 求导,并把求导操作移到积分号内部。如果交换不成立,整个推导的第一步就会崩溃。典型地,当支持集依赖参数时(条件 1 被违反),这条交换就受到威胁。
正则条件 4:Fisher 信息有限且为正。
0<I(θ)=Eθ[U(X;θ)2]<∞.
为什么需要这条? 如果 I(θ)=0,那么 score 几乎处处为 0,说明分布完全不随 θ 变化——这意味着参数根本不可识别。如果 I(θ)=∞,C-R 下界退化为 0,丧失了约束意义。
[!note]+ 哪些分布不满足正则条件?
- U(0,θ):支持集依赖 θ(违反条件 1)。
- U(θ−1,θ+1):虽然支持集是 (θ−1,θ+1),也依赖 θ。
- 双参数 Pareto 分布且形状参数未知时:支持集依赖尺度参数。
- 二项分布 B(1,p):支持集 {0,1} 不依赖 p(支持集是离散的固定集合)。所以 Bernoulli 分布满足正则条件!这是初学者常误判的地方。支持集依赖参数 ≠ 支持集是有限集合。
三、核心概念
3.1 Score 函数:对数似然的”斜率”
[!definition]+ Score 函数
对单个样本 X,定义
U(X;θ)=∂θ∂logp(X;θ).
用途:衡量对数似然关于参数的”瞬时变化率”。
在介绍这个定义的数学细节之前,我们先建立直觉。
思维实验:假设你有两个不同的参数值 θ 和 θ+Δθ。如果 Δθ 非常小,logp(x;θ) 的变化大约为 U(x;θ)⋅Δθ。所以 score 函数告诉你:当参数挪动一小步时,对数似然会向哪个方向迈出多大一步。
如果说”似然”衡量的是”给定参数下数据的解释力”,那么 score 衡量的就是”参数稍微变一下,解释力会怎么变”——它是似然函数的局部斜率。
一条重要性质(稍后会用上):score 的期望为零。
Eθ[U(X;θ)]=0.
为什么? 因为 ∫p(x;θ)dx=1,两边对 θ 求导(正则条件保证可交换),得 ∫∂θ∂pdx=0。而 ∂θ∂p=∂θ∂logp⋅p,所以 ∫U(x;θ)p(x;θ)dx=0。
这条性质的含义很微妙:score 有时正有时负(参数变一点,有时似然上升,有时下降),但平均上它”不动”。如果平均不是零,那就意味着存在一个”系统性”的偏移方向——但由无偏条件 ∫pdx=1 可知,整体概率质量是守恒的,所以 score 的平均只能是零。
3.2 Fisher 信息:score 的波动强度
[!definition]+ Fisher 信息(单个样本)
对单个样本 X,若模型满足正则条件,则定义
I(θ)=Eθ[U(X;θ)2]=Eθ[(∂θ∂logp(X;θ))2].
用途:刻画单个样本对参数的辨识能力。信息量越大,可达到的方差下界越小。
直觉理解:score 描述了”参数变一点,分布的反应有多强”。但如果 score 的期望是 0,那要量化”反应强度”就不能用期望(因为期望抹掉了方向),而要用二阶矩——也就是方差(因为期望为 0,二阶矩 = 方差)。Fisher 信息本质上就是 score 的这个波动大小。
把这句话翻成直觉语言:
- 如果参数稍微变一点,score 就大幅摆动(I(θ) 大),说明分布对参数极为敏感——样本里”信息”充足,我们可以把参数估计得很准。
- 如果参数变了一点,分布几乎毫无反应(I(θ) 小),说明从样本中很难识别出参数——信息贫乏,估计方差会很大。
为什么叫”信息”? 这就好比你在电话里听到一个人的声音。如果那个人的音色很有特点(你只需听一个字就能认出是谁),那么”声音的信息量”大,你识别人的准度就高;如果那个人的声音毫无特色(你听了好几句也不能确定是谁),那么”信息量”小,你的识别精度就低。Fisher 信息量化了”一个样本值中包含了多少关于参数的信息”。
在正则条件下,Fisher 信息有一个等价形式,有时更方便计算:
I(θ)=−Eθ[∂θ2∂2logp(X;θ)].
为什么这两个形式等价? 这个等价关系揭示了 Fisher 信息的另一个视角。一阶导数的平方的期望,等于负的二阶导数的期望。粗略地,如果对数似然在真实参数处”很尖”(二阶导数负得很大),说明参数稍微偏离就会导致对数似然明显下降——这意味着我们不容易搞错参数,信息量自然就大。反过来,如果对数似然的峰很平坦(二阶导数接近零),我们就难以精确锁定参数,信息量就小。
计算上的取舍:有时候用一阶导数形式更方便(比如正态均值模型),有时候用二阶导数形式更省事(比如 Bernoulli 模型)。我们后面会在例题中展示两种方法的切换。
3.3 有效估计:达到理论极限的估计量
[!definition]+ 有效估计
若某无偏估计量 g^ 的方差恰好等于 Cramér-Rao 下界,则称 g^ 为 g(θ) 的有效估计量(efficient estimator)。
用途:说明它在无偏类中已经达到了理论最优极限,不可能再被改进。
注意:有效估计一定是 UMVUE(因为它达到了无偏类中的方差下界),但 UMVUE 不一定有效——UMVUE 是所有无偏估计量中方差最小的那个,但这个”最小”不一定等于 C-R 下界。下界达不到,可能是因为 C-R 下界本身不是紧的(即不是所有的 UMVUE 都能到达 C-R 下界)。
我们会在本章末尾用一个对比卡片来详细辨析这两个概念。
四、统计量与分布
4.1 Cramér-Rao 下界:无偏估计的理论极限
[!theorem]+ Cramér-Rao 不等式
设模型满足正则条件 1-4,g^ 是 g(θ) 的无偏估计量,则
Varθ(g^)≥I(θ)(g′(θ))2.
对 n 个 i.i.d. 样本,Fisher 信息具有可加性:
In(θ)=nI(θ),
因而
Varθ(g^)≥nI(θ)(g′(θ))2.
用途:给出任何无偏估计量方差的统一理论下界。
这个公式在说什么? 让我们逐层拆解:
- Varθ(g^):你最关心的量——估计量的波动大小。你希望它越小越好。
- (g′(θ))2:如果目标不是 θ 本身而是它的函数 g(θ),那么函数的”变化率” g′(θ) 会放大或缩小下界。如果 g 变化剧烈(∣g′(θ)∣ 大),相同的估计误差在 g 的尺度上会被放大,下界自然变大。
- I(θ):Fisher 信息——模型本身的属性。信息量大,下界小。
- n:样本量。样本越多,信息越大,下界越小——这是”大样本更精确”的数学体现。
思维实验:假设 I(θ)=10(信息充分),g(θ)=θ(g′(θ)=1),那么 n=1 时下界为 0.1,n=100 时下界为 0.001。这意味着:只要有足够多的样本,任何参数都可以被估计得任意精确——这正是统计学中”一致性”的理论基础。
这条公式的含义是”再好也不能比这更小”的硬约束。 它像一道”物理极限线”:
- 如果某无偏估计量的方差比这个下界大,并不说明它不好——它只是还有改进空间。
- 如果某无偏估计量的方差恰好等于这个下界,说明它已经在无偏类中做到了极致——没有任何无偏估计量能比它方差更小。
4.2 等号成立条件:什么时候能达到下界?
[!theorem]+ Cramér-Rao 不等式取等条件
Cramér-Rao 不等式取等号,当且仅当存在只依赖于 θ 的函数 a(θ),使得
g^−g(θ)=a(θ)⋅U(X;θ)
几乎处处成立(或者说,对于几乎所有 X 的取值成立)。
用途:这是判断一个估计量是否有效的结构标准。
这条条件在说什么? Cauchy-Schwarz 不等式中,等号成立的充要条件是两个随机变量之间几乎处处成比例。在 C-R 下界的推导中,这两个随机变量分别是:
- g^−g(θ)(估计误差)
- U(X;θ)(score 函数)
所以,如果要达到下界,估计误差必须和 score 函数严格成比例。这意味着:
- score 函数的形式决定了估计量的结构。如果 score 函数本身的形式很简单(比如正态分布的 score 是 (X−μ)/σ2),那么估计量也会很简单。
- 如果 score 函数和估计误差的结构不匹配(比如 score 是二次函数,但估计量是线性的),就不可能达到下界。
等号条件的统计学含义:C-R 下界不是随随便便就能达到的。它要求估计量的误差结构必须和”参数对似然的影响力”(即 score)完全对齐。这很像说:只有当你利用到了模型关于参数的”全部信息”时,你的估计才能达到理论极限。 少用一点,你的方差就会比下界大。
4.3 信息累加:为什么 In(θ)=nI(θ)?
对于 i.i.d. 样本 X1,…,Xn,联合对数似然是单个对数似然之和:
logp(X;θ)=i=1∑nlogp(Xi;θ).
于是联合 score 函数是:
Un(X;θ)=i=1∑nU(Xi;θ),
其中 U(Xi;θ)=∂θ∂logp(Xi;θ)。
由独立性,联合 Fisher 信息为:
In(θ)=Varθ(Un)=i=1∑nVarθ(U(Xi;θ))=nI(θ).
为什么方差可以累加? 因为独立随机变量之和的方差等于方差之和。这里的关键是 i.i.d. 样本的 score 之间彼此独立(因为原始样本独立,每个 score 是单个样本的函数)。
直觉理解:每次独立的观测都携带一部分关于参数的信息。一份观测提供 I(θ) 的信息量,n 份独立观测就提供了 nI(θ) 的信息量。信息就像”搬砖”——每人搬一块,n 个人就搬 n 块。
4.4 对比辨析
[!note]+ 对比辨析:达到 C-R 下界的估计量 vs UMVUE
| 维度 | 达到 C-R 下界的估计量 | UMVUE(不一定达到下界) |
|---|
| 方差大小 | 等于理论下界 | 无偏类中最小的,但可能大于下界 |
| 是否一定是最优 | 是(在无偏类中方差不能再小) | 是(在无偏类中方差最小的) |
| 与 score 的关系 | 必须与 score 成线性关系 | 不一定 |
| 依赖的条件 | 模型必须满足正则条件 | 不需要正则条件(通过充分完备性找) |
| 反向关系 | 达到下界 → 一定是 UMVUE | UMVUE 不一定达到下界 |
| 举例 | N(μ,σ2) 中 X 对 μ 有效 | 某些缺少完备统计量的模型中,UMVUE 可能存在但达不到 C-R 下界 |
最常见的坑:把”UMVUE”和”达到 C-R 下界”画等号。前者只需要在无偏类中比大小,不涉及正则条件;后者需要满足正则条件且恰好碰上下界。所以:有效估计量一定是 UMVUE,但 UMVUE 不一定是有效的。
[!note]+ 对比辨析:Fisher 信息 vs 样本量 n
| 维度 | Fisher 信息 I(θ) | 样本量 n |
|---|
| 性质 | 模型本身的属性,与估计量无关 | 由数据收集方案决定 |
| 可控制性 | 不可控(固定模型下是常数) | 可控(可以花钱多收数据) |
| 对下界的影响 | I(θ) 越大,下界越小 | n 越大,下界越小 |
| 角色 | ”效率天花板”的高度 | 登天的梯子数量 |
| 在 C-R 公式中的位置 | 分母 | 分母(与 I(θ) 相乘) |
思考题:如果 I(θ) 非常小(模型对参数不敏感),你能通过增大 n 来弥补吗?答案是可以——因为 C-R 下界中 n 和 I(θ) 是相乘关系。I(θ)=0.01 时,n=100 就等价于 I(θ)=1 时 n=1 的信息量。
五、主要结论
1. 信息量结论
[!theorem]+ Fisher 信息的两个等价形式
条件:
- 正则条件成立;
- 支持集不依赖参数;
- 求导与积分可交换。
结论:
I(θ)=Eθ[(∂θ∂logp(X;θ))2]=−Eθ[∂θ2∂2logp(X;θ)].
用途:计算信息量时可择优使用。一阶形式适合推导和概念理解,二阶形式计算更方便。
2. 下界结论
[!theorem]+ Cramér-Rao 不等式
条件:
- g^ 是 g(θ) 的无偏估计量;
- 模型满足正则条件;
- 样本 i.i.d.
结论:
Varθ(g^)≥nI(θ)(g′(θ))2.
用途:无偏估计量方差的统一理论下界。
3. 最优性结论
[!theorem]+ 有效估计量达到理论极限
条件:
- 估计量无偏;
- 模型满足 C-R 正则条件;
- 估计量方差恰好等于 C-R 下界。
结论:
该估计量在无偏类中已不能再改进——它同时是 UMVUE 且达到了理论极限。
用途:说明某些经典估计量(如正态样本均值 X)之所以重要,不只是”常用”,而是”理论上已经达到极限”。
[!warning]+ 使用边界
- C-R 下界只约束无偏估计量。有偏估计量可以突破这个下界(但也因此产生了偏差)。
- 不满足正则条件时,下界可能不成立(不是”无效”,而是”不可用”)。
- 达不到下界不意味着估计量无效,只意味着还没到理论极限。
- 如果 g(θ)=θ(估计 θ 本身),分子为 1,下界简化为 1/(nI(θ))。
关键公式释义
1. Score 函数
U(X;θ)=∂θ∂logp(X;θ)
- **来源:**对数似然关于参数的一阶导数。对数化的好处是把乘积变为求和,让求导操作变得干净。
- **式子拆解:**左边 U(X;θ) 是 score,它是样本 X 和参数 θ 的函数——同一个样本在不同的 θ 下有不同的 score。右边是”logp 关于 θ 的变化率”。
- **含义:**它衡量”参数每变化一单位,对数似然的变化方向和强度”。score 绝对值大,说明样本对参数敏感;score 接近零,说明样本在这个参数下对似然”无动于衷”。
- **使用提醒:**score 不是估计量本身,而是描述模型对参数敏感度的工具。它的核心统计性质是:期望为零,方差为 Fisher 信息。
2. Fisher 信息
I(θ)=Eθ[U(X;θ)2]=−Eθ[∂θ2∂2logp(X;θ)]
- **来源:**score 的波动强度(一阶形式),或在正则条件下经分部积分得到的负二阶导数期望(二阶形式)。
- **式子拆解:**左边 I(θ) 是 Fisher 信息,它等于 score 平方的期望。右边是等价的二阶形式:对数似然的曲率的期望的负值。
- **含义:**信息量大 → 分布对参数极度敏感 → 参数容易识别 → 估计方差可以很小。信息量小 → 分布几乎不随参数变化 → 参数难以辨别 → 估计方差必然大。
- **使用提醒:**计算时优先使用二阶形式(通常积分更简单),但如果二阶导数计算复杂,也可以用一阶形式。两种形式互为验证。
3. Cramér-Rao 下界
Varθ(g^)≥nI(θ)(g′(θ))2
- **来源:**由无偏条件对参数求导得 E[(g^−g(θ))⋅U]=g′(θ),再对估计误差与 score 应用 Cauchy-Schwarz 不等式得 (g′(θ))2≤Var(g^)⋅I(θ),最后整理并加入样本量 n 因子。
- **式子拆解:**左边是无偏估计量的方差;右边是下界:分子是 g′(θ) 的平方(g 的变化率越大,下界越大),分母是 n 倍的 Fisher 信息(样本越多或信息越大,下界越小)。
- **含义:**任何无偏估计量的方差都不能突破这条理论极限线。如果某个估计量的方差正好等于下界,那它就是无偏类中最优的(有效估计)。
- **使用提醒:**记住这里的估计对象是 g(θ) 而不是 θ。如果直接估计 θ,那么 g′(θ)=1,分子变为 1。还有,这个下界只适用于满足正则条件的模型。
4. 等号成立条件
g^−g(θ)=a(θ)U(X;θ)(几乎处处)
- **来源:**Cauchy-Schwarz 不等式取等的必要条件:两个随机变量几乎处处成比例。
- **式子拆解:**左边是估计误差(g^ 偏离真实值 g(θ) 的量),右边是 score 乘以只依赖于 θ 的系数。这条等式要求:无论 X 取什么值,估计误差和 score 都要保持固定比例。
- **含义:**只有当估计误差和 score 函数之间存在精确的线性关系时,C-R 下界才会被达到。这个条件非常苛刻——它要求统计量 g^ 的结构必须由 score 的形式完全决定。
- **使用提醒:**这是判断”有效估计”的关键判据。如果题目中给出的估计量不满足这个结构条件,就可以立刻断言它达不到 C-R 下界(即使它可能是 UMVUE)。
六、推导与证明
1. 证明依赖
- 用到的定义:score、Fisher 信息、无偏估计量、正则条件。
- 用到的前序定理:期望的求导(Leibniz 积分法则)、Cauchy-Schwarz 不等式。
- 用到的分布性质:独立样本对数似然可加性、score 期望为零。
- 用到的关键技巧:对无偏条件做参数求导,将求导结果通过 score 函数重新表述,再与估计误差建立协方差关系。
2. 证明思路
C-R 不等式的推导思路可以概括为以下三步:
-
从无偏性出发,两端对参数求导:
Eθ[g^]=g(θ)⟹dθdEθ[g^]=g′(θ).
-
将求导结果改写为 score 的协方差形式:在正则条件下,将 dθdEθ[g^] 写成 ∫g^⋅∂θ∂pdx,再通过 ∂θ∂p=U⋅p 转化为 E[g^⋅U]。减去 E[U]=0 后得到:
Eθ[(g^−g(θ))⋅U(X;θ)]=g′(θ).
-
对协方差式应用 Cauchy-Schwarz 不等式:
(g′(θ))2=(E[(g^−g)U])2≤E[(g^−g)2]⋅E[U2]=Var(g^)⋅I(θ).
整理即得 Var(g^)≥(g′(θ))2/I(θ)。对于 n 个 i.i.d. 样本,将 I(θ) 替换为 nI(θ)。
3. 完整推导(含旁白)
[!proof]- 📐 深度推导:Cramér-Rao 不等式的严谨证明
第一步:写出无偏条件。
设 g^ 是 g(θ) 的无偏估计量:
Eθ[g^]=∫g^(x)p(x;θ)dx=g(θ).
第二步:两边对 θ 求导(正则条件 3 保障求导与积分可交换)。
dθd∫g^(x)p(x;θ)dx=∫g^(x)∂θ∂p(x;θ)dx=g′(θ).
为什么要做这一步? 无偏条件本身只是一个等式,不涉及方差。对参数求导后,我们会得到 g^ 和 ∂p/∂θ 的联系,而 ∂p/∂θ 是 score 函数的”原材料”。
第三步:将 ∂p/∂θ 改写为 score 形式。
利用恒等式 ∂θ∂p=∂θ∂logp⋅p=U(x;θ)p(x;θ),代入得:
∫g^(x)U(x;θ)p(x;θ)dx=g′(θ).
即
Eθ[g^⋅U(X;θ)]=g′(θ).
第四步:利用 Eθ[U]=0 引入中心化形式。
回顾我们在 3.1 节证明的 score 期望为零的性质:Eθ[U]=0。因此可以从上式左边减去 g(θ)⋅Eθ[U](=0)而不改变等号:
Eθ[g^⋅U]−g(θ)⋅Eθ[U]=g′(θ)⟹Eθ[(g^−g(θ))⋅U(X;θ)]=g′(θ).
为什么要这一步? 因为我们接下来要对 (g^−g) 和 U 应用 Cauchy-Schwarz 不等式,而 Cauchy-Schwarz 要求这两个量都是中心化的(期望为零)。g^−g 的期望的确是 E[g^]−g(θ)=0(无偏性),U 的期望也是 0——两个零期望的随机变量,可以直接套用 Cauchy-Schwarz。
第五步:应用 Cauchy-Schwarz 不等式。
Cauchy-Schwarz 不等式说:对任意随机变量 A,B,
(E[AB])2≤E[A2]E[B2].
令 A=g^−g(θ),B=U(X;θ),则:
(g′(θ))2=(E[(g^−g)U])2≤E[(g^−g)2]⋅E[U2]=Varθ(g^)⋅I(θ).
第六步:整理出 C-R 下界。
Varθ(g^)≥I(θ)(g′(θ))2.
这就是单个样本下的 Cramér-Rao 不等式。
第七步:推广到 n 个 i.i.d. 样本。
对 n 个 i.i.d. 样本 X1,…,Xn,联合对数似然为:
logp(x;θ)=i=1∑nlogp(xi;θ).
联合 score 函数为:
Un(X;θ)=i=1∑nU(Xi;θ).
Fisher 信息为:
In(θ)=Varθ(Un)=i=1∑nVarθ(U(Xi;θ))=nI(θ).
为什么 score 的方差可以直接相加? 因为 Xi 彼此独立,每个 U(Xi;θ) 只是 Xi 的函数,所以 U(X1;θ),…,U(Xn;θ) 也彼此独立。独立随机变量的方差和等于方差之和。
第八步:写出 n 个样本下的 C-R 下界。
将 In(θ)=nI(θ) 代入单样本下界:
Varθ(g^)≥nI(θ)(g′(θ))2.
等号成立条件:回顾 Cauchy-Schwarz 取等条件:存在常数 a(θ) 使得 A=a(θ)⋅B 几乎处处成立,即
g^−g(θ)=a(θ)⋅Un(X;θ).
对于多样本,这等价于 g^−g(θ)=a(θ)∑i=1nU(Xi;θ)。
用途:这个推导展示了 C-R 不等式背后最核心的逻辑链条——从无偏性出发,经由求导和 score 的链接,最后用 Cauchy-Schwarz 收网。每一步都有清晰的目的:求导产生了与 g^ 和参数的关系,score 变换建立了与 Fisher 信息的桥梁,Cauchy-Schwarz 把协方差转化为了方差的乘积。
4. Fisher 信息两个等价形式的证明
[!proof]- 📐 深度推导:I(θ)=E[U2]=−E[U′] 的证明
目标: 证明
Eθ[(∂θ∂logp(X;θ))2]=−Eθ[∂θ2∂2logp(X;θ)].
第一步:写出 U′ 的表达式。
由 U=∂θ∂logp=p1∂θ∂p,对 θ 再求导(用商的求导法则):
∂θ∂U=∂θ∂(p1∂θ∂p)=−p21(∂θ∂p)2+p1∂θ2∂2p.
注意到 p1∂θ∂p=U,所以第一项为 −U2。于是:
U′=∂θ∂U=−U2+p1∂θ2∂2p.
第二步:两边取期望。
E[U′]=−E[U2]+∫∂θ2∂2pdx.
第三步:利用正则条件消去 ∫∂θ2∂2pdx。
因为 ∫p(x;θ)dx=1 恒成立,两端对 θ 求二阶导(正则条件保证可交换):
dθ2d2∫pdx=∫∂θ2∂2pdx=0.
所以 ∫∂θ2∂2pdx=0,代入得:
E[U′]=−E[U2].
第四步:整理。
I(θ)=E[U2]=−E[U′]=−E[∂θ2∂2logp(X;θ)].
关键观察:这个等价关系成立的底层逻辑是:总体密度积分为 1 这一事实的”二阶导数版本”。一阶导数版本给了我们 E[U]=0,二阶导数版本给了我们 E[U2]=−E[U′]。两个都是正则条件(积分与求导可交换)的直接推论。
用途:这个公式给了我们计算 Fisher 信息的第二条路径。在实践中,有时计算一阶导数的平方期望很繁琐,但二阶导数的期望却很简洁(如指数分布族中)。有了这个等价关系,我们就可以灵活切换。
七、例题与变式
1. 标准题:正态均值模型的 Fisher 信息
题型: 信息量计算题 / 下界题
题目:
设 X1,…,Xn∼i.i.d.N(μ,σ2),其中 σ2 已知。求 μ 的 Fisher 信息和 C-R 下界。并判断 X 是否达到该下界。
解题思路(先理顺再动笔):
- 识别模型: 正态总体,均值 μ 未知,方差已知。这是一个一维参数问题。
- 选择工具: 直接计算 score 函数的一阶矩形式 → Fisher 信息 → C-R 下界。对于正态分布,一阶形式足够简单。
- 预期结果: X∼N(μ,σ2/n),方差为 σ2/n。如果 C-R 下界碰巧也是 σ2/n,那 X 就是有效估计。
解答:
步骤 1:写出单个样本的对数密度。
logp(x;μ)=−21log(2πσ2)−2σ2(x−μ)2.
步骤 2:对 μ 求导得到 score。
U(X;μ)=∂μ∂logp(X;μ)=σ2X−μ.
步骤 3:计算 Fisher 信息。
I(μ)=Eμ[U2]=Eμ[(σ2X−μ)2]=σ41Eμ[(X−μ)2]=σ41⋅σ2=σ21.
步骤 4:扩展到 n 个样本。
In(μ)=nI(μ)=σ2n.
步骤 5:写出 C-R 下界(估计目标为 μ,所以 g(μ)=μ,g′(μ)=1)。
Var(μ^)≥nI(μ)1=nσ2.
步骤 6:与 X 的方差比较。
X∼N(μ,nσ2),Var(X)=nσ2.
恰好等于 C-R 下界!同时检查等号条件:X−μ 是否与 Un 成比例?
Un(X;μ)=i=1∑nσ2Xi−μ=σ2n(X−μ),
于是
X−μ=nσ2⋅Un(X;μ)=a(μ)Un.
等号条件成立!
结论: X 是 μ 的有效估计量(也是 UMVUE)。
常见坑点提醒:
- 不要把 σ2 和 σ 搞混。Fisher 信息的分母是 σ2,不是 σ。
- 计算 I(μ) 时,E[(X−μ)2]=σ2 不要算错。有些同学会写成 E[(X−μ)2]=σ。
- 等号条件检查不要忽略——很多题目特别要求”判断是否有效”,需要同时检查方差相等和比例关系。
2. 标准题:Bernoulli 模型的 Fisher 信息
题型: 信息量计算题
题目:
设 X1,…,Xn∼i.i.d.B(1,p),0<p<1。求 p 的 Fisher 信息和 C-R 下界。并判断 X 是否有效。
解答:
步骤 1:写出概率函数。
P(X=x;p)=px(1−p)1−x,x=0,1.
步骤 2:对数概率和对 p 求导。
logp(x;p)=xlogp+(1−x)log(1−p),
U(X;p)=∂p∂logp=px−1−p1−x=p(1−p)x(1−p)−(1−x)p=p(1−p)x−p.
步骤 3:计算 Fisher 信息。
I(p)=E[U2]=E[(p(1−p)X−p)2]=p2(1−p)21E[(X−p)2].
而 X∼B(1,p),Var(X)=p(1−p),所以 E[(X−p)2]=p(1−p)。
代入得:
I(p)=p2(1−p)2p(1−p)=p(1−p)1.
使用二阶形式验证(可选):
∂p2∂2logp=−p2x−(1−p)21−x,
E[−∂p2∂2logp]=E[p2X+(1−p)21−X]=p2p+(1−p)21−p=p1+1−p1=p(1−p)1.
两种形式结果一致。
步骤 4:C-R 下界(n 个样本)。
Var(p^)≥np(1−p).
步骤 5:验证 X。
X∼n1B(n,p),Var(X)=np(1−p).
恰好等于下界。同时检查等号条件:
Un(X;p)=i=1∑np(1−p)Xi−p=p(1−p)n(X−p),
X−p=np(1−p)Un.
等号条件成立。X 是 p 的有效估计量。
答案解读: 因此,样本比例 X 不仅是 p 的无偏估计,而且达到了理论最优——它利用了样本中包含的全部关于 p 的信息。
常见坑点提醒:
- 计算 I(p) 时,E[(X−p)2]=p(1−p),不要写成 p2 或 (1−p)2。
- 注意 p 的取值范围 (0,1) 对 I(p) 的影响:p 靠近 0 或 1 时,p(1−p) 很小,I(p) 很大——因为极端概率下,样本很容易判断出 p 是靠近 0 还是 1,信息量大。p=0.5 时 I(p) 最小——最不容易区分。
3. 标准题:指数模型的 Fisher 信息
题型: 信息量计算题
题目:
设 X1,…,Xn∼i.i.d.E(λ),密度为 f(x;λ)=λe−λx,x>0,λ>0。
- 求 λ 的 Fisher 信息 I(λ)。
- 求 λ 的 C-R 下界。
- 我们知道 X 无偏估计 1/λ(因为 E[X]=1/λ),问:X 对 1/λ 的估计是否有效?
解答:
第 1 问:计算 Fisher 信息。
logp(x;λ)=logλ−λx,
U(X;λ)=∂λ∂logp=λ1−X.
I(λ)=E[U2]=E[(λ1−X)2]=Var(X)=λ21.
(因为 E[X]=1/λ,所以 λ1−X 的期望为 0,二阶矩等于方差。而指数分布的方差为 1/λ2。)
用二阶形式验证:
∂λ2∂2logp=−λ21,I(λ)=−E[U′]=−E[−λ21]=λ21.
结果一致。
第 2 问:λ 的 C-R 下界。
Var(λ^)≥nI(λ)1=nλ2.
第 3 问:X 对 1/λ 是否有效?
这里估计目标是 g(λ)=1/λ,不是 λ 本身。
g′(λ)=−λ21,(g′(λ))2=λ41。
C-R 下界为:
Var(g^)≥n⋅(1/λ2)1/λ4=nλ21.
而 X 对 1/λ 是無偏的:
E[X]=E[X]=λ1,Var(X)=nVar(X)=nλ21.
恰好等于下界。等号条件也成立(Un 与 X−1/λ 成比例)。
结论: X 是 1/λ 的有效估计量,但 λ 本身没有简单的无偏估计量能达到 C-R 下界(因为 1/X 是 λ 的有偏估计)。
常见坑点提醒:
- 第 3 问中,很多同学会直接问”X 对 λ 是否有效”,但其实 X 对 λ 不是无偏的(因为 E[X]=1/λ=λ),C-R 下界不适用于有偏估计量。所以一定要先明确估计目标!
- 计算 I(λ) 时,E[(1/λ−X)2]=Var(X) 利用了 E[X]=1/λ 的结论,这与 E[U]=0 是一致的(验证:E[U]=E[1/λ−X]=1/λ−1/λ=0)。
- 指数分布的双参数版本(Γ(α,λ) 两个参数均未知)的 Fisher 信息是一个 2×2 矩阵,超出了本讲范围,但原理相同。
4. 题型提醒
[!tip]+ 做题顺序:Fisher 信息与 C-R 下界计算题
- 先写单个样本的对数似然 logp(x;θ)。
- 对参数求一阶导数得到 score U=∂θ∂logp。
- 计算 Fisher 信息——优先尝试较简洁的计算路径:
- 如果 U 的表达式是”某个简单随机变量的线性函数”,用 I(θ)=E[U2] 直接算。
- 如果二阶导数形式更简单(尤其是指数族),用 I(θ)=−E[U′]。
- 记得乘上 n:In(θ)=nI(θ)(对于 i.i.d. 样本)。
- 写下界:
- 估计 θ:Var(θ^)≥1/(nI(θ))。
- 估计 g(θ):Var(g^)≥(g′(θ))2/(nI(θ))。
- 判断有效:验证估计量方差是否等于下界,且等号条件 g^−g(θ)∝Un 成立。
八、章节连接
- **这一讲建立在哪些知识之上:**点估计、无偏性、方差的计算、UMVUE(第五、六讲)、常见参数模型(正态、Bernoulli、指数)、求导与积分互换(微积分)。
- **这一讲为后面哪些内容做准备:**区间估计中 Fisher 信息会出现在渐近方差中;假设检验中 Fisher 信息会出现在检验的功效分析和 Wald 统计量中;渐近理论中 MLE 的渐近方差正是 C-R 下界的逆。
- **这一讲在整门课中的功能:**给估计优良性建立下界标准,并解释”信息量”的统计含义。从本讲开始,你应该能理解为什么 X 在正态和 Bernoulli 模型中如此”完美”——不是因为运气好,而是因为它恰好用尽了样本中包含的全部参数信息。
九、复习整理
[!summary]+ 本讲小结
- **研究的问题:**无偏估计量的方差最小能到哪里。
- **使用的模型:**满足正则条件的参数模型。
- **核心统计量:**score 函数 U(X;θ) 和 Fisher 信息 I(θ)。
- 关键结论:
- Score 函数 U=∂θ∂logp,其期望为 0,方差为 Fisher 信息。
- Fisher 信息 I(θ)=E[U2]=−E[U′],刻画模型对参数的敏感程度。
- Cramér-Rao 不等式:Varθ(g^)≥(g′(θ))2/(nI(θ))。
- 等号成立条件:g^−g(θ)=a(θ)Un,此时称 g^ 为有效估计量。
- 有效估计量一定是 UMVUE,但 UMVUE 不一定有效。
- **最重要的条件:**支持集不依赖参数、可交换求导积分、信息量有限且正(正则条件 1-4)。
- **本讲最终服务什么推断任务:**判断估计量是否高效,以及理解”信息量”在参数估计中的核心地位。
高频误套
[!warning]+ 常见错误
- 不检查正则条件就直接套 C-R 下界。 U(0,θ) 和 Cauchy 平移族是典型的反面教材——套公式会得到错误或无效的结果。
- 忘记估计对象是 g(θ) 时分子应为 (g′(θ))2。 如果直接套 1/(nI(θ)) 就会漏掉 g′ 因子。
- 只算了单个样本的信息量,忘记乘 n。 给定 n 个 i.i.d. 样本时,In(θ)=nI(θ),不能只写单样本信息。
- 把”达到下界”与”UMVUE”完全等同。 达到 C-R 下界确实推出 UMVUE,但反过来不成立。UMVUE 的方差可能大于 C-R 下界——下界只是一个下界,不一定紧(tight)。
- Fisher 信息的两个等价形式混用,但没有验证正则条件。 两个形式的等价性依赖于正则条件 3(求导与积分可交换),在不满足时两个形式的计算结果可能不同。
- 等号条件只检查方差相等,不检查比例关系。 方差相等只是必要条件,要证明有效性还需要验证 g^−g∝U。
条件卡
-
结论: I(θ)=E[(∂θlogp)2]=−E[∂θ2logp]。
成立条件: 正则条件成立(尤其是求导与积分可交换)。
不能用在: 支持集依赖参数或求导积分不可交换时。
常见误套场景: 任何模型都照抄 Fisher 信息公式而不检查正则条件。
-
结论: Var(g^)≥(g′(θ))2/(nI(θ))。
成立条件: g^ 無偏,样本 i.i.d.,模型满足正则条件。
不能用在: 有偏估计量或非正则模型。
常见误套场景: 把 C-R 下界拿来比较有偏的 shrinkage 估计量(如 James-Stein 估计量)。
-
结论: 估计量有效。
成立条件: 它达到 C-R 下界(方差相等且等号条件成立)。
不能用在: 只因为它”看起来很好”或”方差不大”。
常见误套场景: 没有实际与 C-R 下界比较就说某估计量有效。
-
结论: In(θ)=nI(θ)。
成立条件: 样本 i.i.d.
不能用在: 样本不独立或不同分布的情形(如时间序列数据)。
常见误套场景: 在相依数据(如 AR(1) 模型)中仍用 n 倍单样本信息,此时信息累加率低于 n。
关系图谱
本讲中的核心概念之间的关系可以总结为:
无偏条件 E[ĝ] = g(θ)
│
▼ 对θ求导(正则条件)
E[(ĝ-g(θ))·U] = g'(θ)
│
▼ Cauchy-Schwarz
(g'(θ))² ≤ Var(ĝ)·I(θ)
│
▼ 整理
Var(ĝ) ≥ (g'(θ))² / (n·I(θ))
│
├── 等号条件: ĝ-g ∝ U ⟺ 有效估计
└── 有效估计 ⇒ UMVUE,但反之不成立
十、习题区
1. 概念题
-
Fisher 信息为什么可以理解为”样本对参数的辨识能力”? 请用 score 函数的语言解释:信息量大和小时,分布随参数的变化有何不同?
-
为什么样本量越大,C-R 下界越小? 这背后的数学依据是什么?是不是所有模型下都成立?
-
C-R 下界与 UMVUE 的关系和区别是什么? 是否存在 UMVUE 达不到 C-R 下界的情况?如果存在,原因是什么?
-
正则条件中的”支持集不依赖参数”到底保护了什么? 考虑 U(0,θ) 分布:如果强行套用 C-R 公式,会得到什么结果?这个结果为什么不可靠?
做题思路(概念题不需要计算,但要养成用例子说话的思维):
- 第 1 题:可以拿正态模型做对比。I(μ)=1/σ2,σ2 越小信息越大。思考为什么方差小(数据集中)意味着参数信息量大。
- 第 3 题:UMVUE 不一定有效的一个经典例子是:在某些指数族分布中,UMVUE 存在但 C-R 下界比其方差小(下界不紧)。这表明 C-R 下界只是一个下界,不一定可达。
- 第 4 题:考虑 U(0,θ) 的 score 计算过程,你会发现导数在边界点出现问题。
2. 标准题
-
设 X1,…,Xn∼i.i.d.N(μ,σ2),σ2 已知。计算 μ 的 Fisher 信息和 C-R 下界,并验证 X 的有效性。
-
设 X1,…,Xn∼i.i.d.B(1,p)。计算 p 的 Fisher 信息,写出 C-R 下界,并判断 X 是否有效。
-
设 X1,…,Xn∼i.i.d.E(λ)。计算 λ 的 Fisher 信息。令 g(λ)=1/λ,求 g(λ) 的 C-R 下界,并验证 X 对 g(λ) 的有效性。
做题思路:
- 每题先写 logp(x;θ) → 求导得 U → 算 I(θ)=E[U2](或 −E[U′]) → 乘 n → 写下界。
- 验证有效性时:先算估计量方差,与下界比大小;再检查等号条件 g^−g∝Un。
- 常见坑:第 3 题中注意估计目标是 1/λ 还是 λ,分子不同。
3. 综合题
-
Poisson 分布的 C-R 下界。 设 X1,…,Xn∼i.i.d.P(λ),密度为 p(x;λ)=e−λλx/x!。
- (a) 写出 logp(x;λ) 和 score U(X;λ)。
- (b) 计算 I(λ)。
- (c) 写出 λ 的 C-R 下界。X 是否有效?
- (d) 如果估计目标是 g(λ)=e−λ(即 P(X=0)),C-R 下界是什么?X 对 e−λ 是否无偏?是否有效?
提示: (d) 中 g′(λ)=−e−λ。X 对 e−λ 不是无偏的(E[e−X]=e−λ),所以不能直接用 C-R 不等式。这是一个很好的例子说明:C-R 下界只适用于无偏估计量。
-
均匀分布的反例。 设 X1,…,Xn∼i.i.d.U(0,θ),θ>0。
- (a) 判断该模型是否满足 C-R 正则条件,并说明理由。
- (b) 如果强行套用 C-R 公式,你会得到什么结果?这个结果有意义吗?
- (c) 已知 X(n) 是 θ 的 UMVUE(需要乘上 (n+1)/n),它的方差和 C-R 公式得到的”伪下界”比较如何?这说明了什么?
提示: (a) 支持集 (0,θ) 依赖 θ,违反正则条件 1。(b) 强行代入会发现 score 的表达式中出现了 Dirac delta 型的边界项,公式失效。(c) 这个反例说明:C-R 下界不是万能的,有些模型虽然能构造 UMVUE,但 C-R 不等式不适用。
-
“有效估计 ⇒ UMVUE,但反之不然”的实列。 在什么情况下,UMVUE 存在但达不到 C-R 下界?
- 提示:考虑一个非指数族的模型,或者正则条件部分不满足的模型。讨论:为什么这样的模型中 UMVUE 的方差大于 C-R 下界?
-
比较”Rao-Blackwell 改进""Lehmann-Scheffe 定理""Cramér-Rao 下界”三者在点估计理论中的不同角色。
- (a) 每个方法解决了什么问题?
- (b) 每个方法需要什么条件?
- (c) 三个方法之间有什么关系?
提示: 这是一个概念对比题。Rao-Blackwell 从充分统计量出发压缩方差;Lehmann-Scheffe 从完备充分统计量出发构造唯一的 UMVUE;C-R 下界从正则条件出发给出理论极限。三者的视角不同:前两个是”构造最优”的路线,第三个是”判断是否到顶”的路线。
附:排版约定
[!tip]+ 写作规则
- 行内公式统一用
$...$。
- 行间公式统一用
$$...$$。
- 重要公式后面补一句”用途说明”。
- 先写条件,再写结论,再写用途。
- 少用缩进,多用小标题、短段落和留白。
- 保留老师强调过的原表达,但其余内容改写为讲义语言。
- 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。