讲义信息
- **课程:**数理统计
- **章节:**第 3 章前半,对应课件
lec3.1(2026)169part
- **讲次:**第 05 讲
- 日期:
- **对应大纲:**数理统计大纲
- **对应课件:**slides/lec3.1(2026)169part.pdf
- **研究对象:**点估计、估计量评价准则与矩估计方法
- **统计任务:**给未知参数构造可计算的估计量,并评价它们的好坏
- **本讲结论用途:**为后续 UMVUE、Rao-Blackwell、Cramér-Rao 下界提供基本比较标准
[!summary]+ 本讲导读
- 本讲研究的问题:如何从样本中构造一个数去估计参数,以及怎样判断这个估计量好不好。
- 已知什么:参数模型、样本 X1,…,Xn、待估计对象 θ 或 g(θ)、以及上一讲的充分统计量。
- 未知什么:合适的估计量以及它的偏差、方差、均方误差。
- 核心统计对象:点估计、无偏性、均方误差、相合性、矩估计量。
- 本讲结论最终服务什么推断任务:把”定义统计量”推进为”构造估计量并评价它”,为下一讲寻找最优无偏估计量(UMVUE)铺路。
先看全局
上一讲我们做了这样一件事:面对一大包样本数据,我们想知道哪些部分真正和参数有关,哪些部分只是表面细节。答案是指数族结构或因子分解定理告诉我们——参数的全部信息可以压缩到某个充分统计量 T(X) 中。
但有一个问题悬在空中:知道了充分统计量之后,怎么用它来估计参数?
这就好比拿到了一个信息浓缩包,但还不知道怎么把里面的信息”翻译”成一个具体的数值。本讲的任务就是解决这个”翻译”问题——我们既要知道如何构造估计量,也要知道如何评价它好不好。
本讲沿着两条线展开:
- 评价标准线: 有了一个估计量之后,怎么判断它好不好?这就是无偏性、均方误差(MSE)、相合性等概念要回答的问题。
- 构造方法线: 给定一个模型,怎么先搞出一个能算的估计量?这就是矩估计法要回答的问题。
这两条线的关系是:矩估计帮你”先做一个出来”,评价标准帮你”看看这个做得好不好”。两条线结合起来,你才算真正掌握了点估计的基本功。
本讲的叙事线
- 从充分统计量到点估计。 — 上一讲压缩了信息,这一讲用压缩后的信息构造估计量。
- 评价标准:无偏性。 — 什么叫做”长期平均上不系统高估或低估”?
- 评价标准:均方误差。 — 为什么有偏但更稳定的估计量有时反而更好?
- 评价标准:相合性。 — 样本量大了之后,估计量会越来越准吗?
- 构造方法:矩估计法。 — 用样本矩代替总体矩,解方程得到估计量。
- 推广:估计方程思想。 — 矩估计是估计方程的一个特例。
一、本讲定位
- 在课程中的位置:这是统计推断从”研究统计量分布”转入”构造参数估计”的起点。前几讲我们一直在建立语言和工具,从本讲开始,我们开始真正回答”参数是多少”这个问题。
- 和前一讲的连接:上一讲给出了充分统计量和信息压缩视角,本讲从”信息压缩”推进到”如何用压缩后的信息构造估计量”,以及”这个估计量好不好”。
- 和后一讲的连接:下一讲将把”无偏估计量中谁最好”系统化,引入 Rao-Blackwell 定理和 UMVUE。本讲的 MSE 比较和无偏性概念是下一讲所有优化讨论的基础。
- 本讲重点内容:
- 点估计与估计值的定义(估计量是随机变量,估计值是具体数值)
- 无偏性、偏差、均方误差(三个层次从粗到细的评价)
- 估计量之间的比较(MSE 是综合指标)
- 矩估计法(最直接的构造方法)
- 估计方程的基本思想(矩估计的推广)
- 矩估计量的相合性与大样本性质
二、模型与前提
1. 研究模型
- **总体:**参数模型 {Fθ:θ∈Θ}。
- **参数空间:**待估参数 θ 或参数函数 g(θ) 的取值集合。
- 样本:X1,…,Xn i.i.d.。
- 抽样方式:默认简单随机样本。
- **参数含义:**本讲的重点是”如何找到 θ 或 g(θ) 的一个好的近似”,而不是研究样本的分布本身。
2. 对象区分
在进入正式内容之前,请务必在潜意识里把下面几层概念区分清楚。这是初学者最容易混淆的地方。
[!note]+ 对比辨析:参数 vs 估计量 vs 估计值
| 维度 | 参数 θ | 估计量 θ^ | 估计值 θ^(x) |
|---|
| 本质 | 描述总体的固定未知常数 | 样本的函数(随机变量) | 将样本代入后得到的实数 |
| 是否随机 | 否(固定常数) | 是(随样本变化) | 否(给定样本后是确定值) |
| 是否已知 | 未知(推断的目标) | 可写出表达式 | 可计算 |
| 记号惯例 | 希腊字母(θ) | 带上尖的希腊字母(θ^) | 同上,但上下文暗示已代入样本 |
| 举例 | μ(总体均值) | X | x=5.2 |
最常见的坑:在证明中把 θ^ 当成常数处理。估计量是随机变量,对它取期望、方差都是有意义的;估计值是常数,不能对具体数值再取期望。
3. 模型前提检查
[!warning]+ 条件先检查
- 无偏性是”对所有参数值都成立”的条件,不是一个特定 θ0 下成立就行。
- MSE 比较允许有偏估计量参与,这是它比单纯比较方差更灵活的原因。
- 矩估计法要求相应总体矩存在,并且能从矩方程中解出参数。
- 相合性说的是 n→∞ 时的行为,和有限样本性质是两回事。
- 大样本正态近似依赖样本量和矩条件,不能当成有限样本精确结论。
三、核心概念
3.1 点估计与估计值:从样本到参数的第一步
在进入各种”评价”标准之前,先问一个最基本的问题:什么叫”用样本估计参数”?
讲白了,就是在有了样本 X1,…,Xn 之后,构造一个样本的函数 θ^(X1,…,Xn),用这个函数的值去近似真实的 θ。
[!definition]+ 点估计与估计值
设参数为 θ。若统计量
θ^=θ^(X1,…,Xn)
用于估计 θ,则称 θ^ 为参数 θ 的点估计量(point estimator);将样本值代入后得到的具体数值 θ^(x1,…,xn) 称为估计值(estimate)。
用途:这是”从样本得到参数近似值”的最基本形式。
为什么要区分估计量和估计值? 因为估计量是随机变量——它随着抽样的不同而变化。你今天抽一个样本算出一个 x,明天再抽一个样本会算出另一个 x。而估计值是具体数值,是你手头这一批数据算出来的那个数。后续所有”无偏""有效""MSE 更小”等评价,都是针对估计量而言的。
3.2 无偏性与偏差:长期平均对准了吗?
有了估计量之后,第一个自然而然的问题是:这个估计量平均起来对准目标了吗?
想象你反复从同一个总体中抽样,每次算出一个 θ^。如果你把所有这些 θ^ 的值取平均,这个平均值等于真正的 θ 吗?如果等于,就说明这个估计量”平均上不偏”——这就是无偏性的核心思想。
[!definition]+ 无偏性与偏差
若对任意 θ∈Θ 都有
Eθ(θ^)=θ,
则称 θ^ 为 θ 的无偏估计量(unbiased estimator)。
若估计目标是 g(θ),则无偏性写为
Eθ(g^)=g(θ).
若 Eθ(θ^)=θ,则称 Eθ(θ^)−θ 为估计量 θ^ 的偏差(bias)。
用途:无偏性刻画”长期平均上不系统高估或低估”。
含义解析:
- 无偏性说的不是”这一次估计一定对”,而是”重复很多次之后平均不错”。如果把 θ^ 比作射击的准星,无偏性意味着准星调正了——瞄准镜的中心正对着靶心。单次射击可能偏左或偏右,但长期平均打在靶心上。
- 无偏性的一个重要推论是:对于一个无偏估计量,它的期望正好等于真参数。这意味着它的”重心”和参数重合。
- 但要注意,无偏性只约束平均方向,不约束波动大小。一个无偏但方差很大的估计量,单次估计可能离真值很远——这就像一个瞄准镜调正了但手抖得很厉害的射手。
思维实验:考虑 X1,…,Xn∼N(μ,1)。X 是 μ 的无偏估计吗?E(X)=μ,所以是。那如果用样本第一个值 X1 来估计 μ 呢?E(X1)=μ,所以也是无偏的!但直觉告诉我们,X 应该比 X1 更好。无偏性解决不了这个区别——它只告诉我们对不对准,不告诉稳不稳定。
3.3 均方误差:偏差和波动的总评分
无偏性只回答”平均方向”的问题,但一个估计量好不好,除了要看它是否对准目标,还要看它波动的大小。一个估计量即使略微有偏,但如果它的波动很小,“总体误差”可能反而比一个无偏但波动大的估计量更小。
这就需要引入一个综合指标:均方误差(Mean Squared Error, MSE)。
[!definition]+ 均方误差
对 g(θ) 的估计量 g^,其均方误差定义为
MSEθ(g^)=Eθ(g^−g(θ))2.
用途:这是综合比较偏差与波动的最常用指标。
含义解析:
- MSE 把”误差”定义为 g^−g(θ)——即估计值与真值的差距。然后把它平方(消除正负号),再取期望(考虑平均意义)——这就是”平均的平方误差”。
- MSE 同时考虑了偏差和方差。对于无偏估计量,MSE 就是方差——因为误差 = 波动,没有偏差部分。但对于有偏估计量,MSE 会同时考虑”偏了多少”和”抖了多少”。
- 把 MSE 想象成一个”总评分”:它综合了两个维度——你偏没偏(偏差)和你抖不抖(方差)。这个评分越低,说明估计量综合表现越好。
[!warning]+ 一个重要提醒
比较两个估计量时,如果只看偏差而忽略方差,或者只看方差而忽略偏差,都可能导致片面的结论。MSE 把两者综合在一起,给出了一个更公平的比较标准。
3.4 相合性:样本量大了会越来越准吗?
无偏性和 MSE 回答的是”给定样本量 n 时估计量的表现”。但还有一个问题:当样本量 n 越来越大时,估计量会不会越来越接近真参数?
这个问题之所以重要,是因为在实际中,我们通常无法控制总体,但可以控制样本量。如果某个估计量是”相合”(consistent)的,那就意味着我们可以通过增加样本量来获得任意精度的估计。
[!definition]+ 相合性
若对任意 ε>0,
n→∞limPθ(∣θ^n−θ∣>ε)=0,
则称 θ^n 为参数 θ 的相合估计量(consistent estimator)。
用途:相合性刻画”样本量增大时估计量收敛到真值”这一基本要求。
含义解析:
- 相合性的数学表达是 θ^nPθ(依概率收敛)。直观理解就是:n 越大,估计量”脱靶”的概率越小。
- 和无偏性不同:无偏性是”固定 n 下的平均性质”;相合性是”n→∞ 时的极限性质”。一个估计量可以无偏但不相合(很少见),可以有偏但相合(常见)——比如后面会看到某些矩估计量有偏但相合。
- 相合性是点估计最基本的要求之一。如果一个估计量连相合都不满足,随着样本量增大它还不能逼近真值,那就很难说它是一个好的估计量了。
这三个评价标准之间的关系:
- 无偏性看平均方向——用来判断”系统偏差”是否存在。
- MSE / 方差看波动大小——用来比较不同估计量的综合表现。
- 相合性看大样本行为——用来保证”样本足够多时一定能得到精确估计”。
于是一个估计量完全可能:
- 无偏但方差很大(稳定差);
- 有偏但 MSE 更小(在做权衡);
- 有偏但相合(偏差随 n 增大而消失)。
四、统计量与分布
4.1 均方误差的分解:偏差-方差权衡的数学表达
在进入了解决策之前,我们需要把 MSE 拆开来看。MSE 到底由哪几部分构成?这需要利用一个极为重要的恒等式——偏差-方差分解(bias-variance decomposition)。
[!theorem]+ 偏差-方差分解
对任意估计量 g^,
MSEθ(g^)=Varθ(g^)+(Eθ(g^)−g(θ))2.
用途:比较估计量时,不必死守无偏性,可以直接比较 MSE。
这个公式为什么成立?
我们一步一步来看(这比死记公式重要得多):
设 bθ=Eθ(g^)−g(θ) 为偏差。则误差可以写成
g^−g(θ)=(g^−Eθ(g^))+bθ.
这里第一项是”随机波动”——估计量偏离其期望;第二项是”系统偏差”——期望偏离真参数。两项相加后平方再取期望:
关键的一步:展开平方后会出现交叉项 2(g^−Eθ(g^))bθ。这个交叉项取期望会怎么样?注意 bθ 是常数(不随样本变化),而 Eθ[g^−Eθ(g^)]=0(期望的期望为零)。所以交叉项的期望正好为 0——这就是 MSE 能分解为方差加偏差平方的数学原因。
MSEθ(g^)=Eθ(g^−Eθ(g^))2+bθ2=Varθ(g^)+[bias]2.
含义解析:
- 这条公式告诉我们:总误差 = 随机波动(方差)+ 系统偏差的平方。这是一个极为重要的权衡关系。
- 如果想要减小 MSE,你可以做两件事:减小方差,或减小偏差。但很多时候两者是冲突的——降低偏差往往伴随着增大方差(比如增加模型复杂度),而降低方差又可能引入偏差(比如使用有偏的正则化估计)。
- 后续比较 S2 与 Sn2(分母分别为 n−1 和 n)时,我们会看到:Sn2 有偏(偏差为 −σ2/n)但方差略小,而 S2 无偏但方差略大——这正是一个典型的偏差-方差权衡案例。
4.2 矩估计法:通常最先能做出来的方法
4.2.1 动机:为什么需要矩估计?
有了评价标准之后,下一个问题是:怎么构造估计量?
统计学里有很多构造估计量的方法(极大似然估计、Bayes 估计、稳健估计等),但矩估计法(Method of Moments, MM)有一个非常独特的地位:它是”通常最先能做出来的”。
为什么这么说?因为矩估计的核心思想极为朴素——用样本矩(sample moments)去代替总体矩(population moments),然后解方程得到参数。你不需要复杂的数值优化,不需要对分布有很深入的理解,只要懂得写期望 μk=E(Xk),然后算样本平均 an,k=n1∑Xik,代进去解方程就行。
[!definition]+ 矩估计法
若参数 θ=(θ1,…,θk) 与总体矩满足方程组
μi=gi(θ1,…,θk),i=1,…,k,
则用样本矩
an,i=n1j=1∑nXji
或中心样本矩
mn,i=n1j=1∑n(Xj−X)i
替换总体矩,并解出参数,得到的估计量称为矩估计量(method of moments estimator, MME)。
用途:这是构造估计量最直接、最通用的方法之一,特别适合”第一次见到一个模型”时使用。
矩估计的标准三步:
- 列方程:写出总体矩 μ1,μ2,… 与参数 θ1,…,θk 的关系。
- 替换:用对应的样本矩 an,1,an,2,… 替换总体矩。
- 求解:解方程(组)得到参数的矩估计量。
直观理解:大数定律告诉我们,当 n 很大时,样本矩 an,i 依概率收敛到总体矩 μi。所以”用样本矩替换总体矩”本质上是在说:如果大样本下样本矩和总体矩应该差不多,那么令它们相等,解出的参数也应该差不多是真参数。这就是矩估计法”合理”的根源。
4.2.2 典型例子
例 1:指数分布 E(λ)
X∼E(λ),密度为 f(x)=λe−λx,x>0。一阶矩为
EX=λ1.
令 X=λ1,解得
λ^MM=X1.
这是矩估计法最标准的单参数例子。注意 λ^MM 是有偏的——因为 E(1/X)=1/E(X)(期望的倒数不等于倒数的期望)。但它一定是相合的(由大数定律和大数下的连续性)。
例 2:均匀分布 U(a,b)
X∼U(a,b),两个参数需要两个方程。使用一阶矩和二阶矩(或一阶矩和二阶中心矩):
EX=2a+b,Var(X)=12(b−a)2.
用样本均值 X 估计 EX,用样本方差 Sn2=n1∑(Xi−X)2 估计 Var(X)(注意:矩估计法用 Sn2 而非 S2,因为矩估计要求用样本矩——除以 n 的那个——替换总体矩):
X=2a+b,n1i=1∑n(Xi−X)2=12(b−a)2.
解这个方程组得到:
a^MM=X−3Sn2,b^MM=X+3Sn2.
含义:矩估计把均匀分布的区间端点估计为”样本均值 ± 三倍样本标准差”。这个估计不一定落在真实区间内——比如样本可能没有覆盖到真实的端点,但矩估计的端点可能比实际样本范围更宽或更窄。
例 3:Bernoulli 分布 B(1,p)
X∼B(1,p),EX=p。一阶矩方程:
X=p⟹p^MM=X.
这个矩估计量和后面极大似然估计量是相同的。可以验证它是无偏的:E(X)=p。
例 4:正态分布 N(μ,σ2)
EX=μ,Var(X)=σ2。得
μ^MM=X,σ^MM2=n1i=1∑n(Xi−X)2.
注意矩估计的方差用 Sn2(除以 n)而不是 S2(除以 n−1)。这意味着矩估计的方差是有偏的(期望为 nn−1σ2),而通常使用的 S2 是在矩估计的基础上做了无偏修正。
4.3 S2 与 Sn2 的 MSE 比较:一个经典的偏差-方差权衡
现在我们可以用 MSE 做一个实际的比较。考虑正态总体 N(μ,σ2),两种估计量:
Sn2=n1i=1∑n(Xi−X)2,S2=n−11i=1∑n(Xi−X)2.
- S2 是无偏的:E(S2)=σ2。
- Sn2 是有偏的:E(Sn2)=nn−1σ2,偏差为 −σ2/n。
那么谁的 MSE 更小?计算可得:
MSE(Sn2)=n22n−1σ4,MSE(S2)=n−12σ4.
对于 n>1,n22n−1<n−12。所以 Sn2 的 MSE 比 S2 更小!
这个比较告诉我们的道理:虽然 Sn2 是有偏的(平均低估 σ2 约 σ2/n),但它的方差更小(因为分母更大,波动更小),综合起来 MSE 反而小于无偏的 S2。这正是一个经典的偏差-方差权衡案例——有时候”有偏但稳定”比”无偏但波动大”更好。
[!note]+ 对比辨析:无偏性 vs 相合性
| 维度 | 无偏性 | 相合性 |
|---|
| 关注的量 | E(θ^n)−θ(固定 n) | θ^n−θ 随 n→∞ 的变化 |
| 条件要求 | 对所有 n 期望等于参数 | n→∞ 时收敛到参数 |
| 是否依赖 n | 固定 n 性质 | n 的极限性质 |
| 蕴含关系 | 无偏不一定相合 | 相合不一定无偏 |
| 典型反例 | 无偏但方差不随 n 缩小→不相合 | Sn2 有偏但相合 |
| 应用场景 | 小样本下更关心平均对准 | 大样本下更关心一致性 |
最常见的坑:把”无偏”等同于”好”,忽略方差大小。一个方差很大的无偏估计量在实际中可能非常不可靠。
4.4 估计方程思想:矩估计的推广
矩估计法虽然好用,但它有一个限制:你只能用它来估计”矩方程中的参数”。更一般地,如果存在某个函数 g(x;θ),理论上满足
Eθ[g(X;θ)]=0,
那么我们就可以用样本平均来替代理论期望,求解
n1i=1∑ng(Xi;θ)=0
得到 θ 的估计量。这种方法称为估计方程法(estimating equation)。
[!definition]+ 估计方程
若存在函数 g(x;θ) 满足
Eθ[g(X;θ)]=0,
则求解
n1i=1∑ng(Xi;θ)=0
得到 θ 的估计量。矩估计法是特例(取 g(x;θ)=xi−μi(θ))。
用途:为后续的广义矩估计(GMM)、M 估计(稳健统计)和拟似然方法提供统一框架。
直观理解:估计方程的思想比矩估计更加灵活。它告诉你:
- 理论上某个函数的期望应该等于 0(这是”平衡条件”);
- 现实里看不到期望,但看得到样本平均;
- 那就让样本平均等于 0,反过来解参数。
这是一种”从理论条件反推参数”的策略。矩估计对应的是特定形式的 g——即 g(x;θ)=xi−Eθ(Xi),第 i 个样本矩减去第 i 个总体矩。
五、主要结论
1. 分布结论
[!theorem]+ 样本矩的渐近正态性
若总体的一阶矩 μ 和二阶矩 σ2 存在,则
X≈AN(μ,nσ2).
一般地,对 k 阶样本矩 an,k,若总体 2k 阶矩存在,则 an,k 也具有渐近正态性。
用途:这说明矩估计量通常可以进一步得到渐近正态性。
含义解析:
- 样本矩本身是”和式”统计量,由中心极限定理,大样本下近似正态。
- 由于矩估计量通过连续函数 θ^=h(an,1,…,an,k) 得到,由 Delta method,矩估计量也是渐近正态的。
- 这意味着除了”点估计”之外,我们还可以用渐近正态性构造近似置信区间和大样本检验。
进一步借助 Delta method,若
θ^n≈AN(θ,Σ/n),
则对可微函数 g(⋅),
g(θ^n)≈AN(g(θ),n(g′(θ))2σ2).
用途:把参数估计量的渐近正态性传递到参数函数的估计量。
2. 判别或构造结论
[!theorem]+ 矩估计的一般步骤
条件:
结论:
- 写出总体矩与参数的关系;
- 用样本矩替换总体矩;
- 解方程组得到估计量。
用途:这是”给定模型,先构造一个能算出来的估计量”的标准模板。
3. 最优性或比较结论
[!theorem]+ MSE 比较准则
若对所有参数值都有
MSEθ(g^1)≤MSEθ(g^2),
则称 g^1 在 MSE 意义下不差于 g^2。
用途:这允许比较有偏与无偏估计量,而不局限于无偏类。
[!warning]+ 使用边界
- 无偏不等于最优。一个无偏但方差很大的估计量可能不如一个有偏但稳定的估计量。
- MSE 更小不代表所有性质都更好,但它是综合比较时最常用的指标。
- 矩估计量不一定唯一、不一定无偏,也未必总是最有效——但它通常是”最先能做出来的”那个。
- 相合性是大样本性质,不能直接推广到有限样本。
关键公式释义
1. 无偏性
Eθ(θ^)=θ
- **来源:**从”长期平均不系统高估也不系统低估”这个直觉出发,翻译成数学语言就是期望等于真值。
- **式子拆解:**左边是估计量的期望——想象无穷多次重复抽样后 θ^ 的平均值;右边是待估参数的真值。两者相等意味着估计量的平均中心正好对准目标。
- **含义:**如果可以用同一个抽样方案重复做很多次实验,那么这些实验得到的 θ^ 的平均值将会收敛到 θ。它保证的是”平均方向正确”,不保证”每一次都准”。
- **使用提醒:**无偏性是一个”逐参数”条件——需要对 Θ 中每一个 θ 都成立才算无偏。只在某个特定 θ0 下成立不能称为无偏估计量。
2. MSE 分解
MSEθ(g^)=Varθ(g^)+(Eθ(g^)−g(θ))2
- **来源:**把误差 g^−g(θ) 拆成”随机波动”(g^−E(g^)) 和”系统偏差”(E(g^)−g(θ)) 之和,平方后取期望,交叉项由于 E[g^−E(g^)]=0 而消失。
- **式子拆解:**左边是总误差评分(越小越好)。右边第一项是方差——衡量估计量”抖不抖”;第二项是偏差的平方——衡量估计量”偏不偏”。
- **含义:**MSE 同时惩罚”偏离平均值”(方差)和”平均值偏离真值”(偏差)。这意味着如果你想降低 MSE,你可以降低方差(用更稳定的估计量),也可以降低偏差(用更对准的估计量),或者两者兼顾。但通常这两个目标存在冲突。
- **使用提醒:**比较有偏估计量时,不能只看方差——因为偏差平方可能很大,只看方差会低估总误差。反过来,也不能只看偏差——一个无偏但方差极大的估计量在实际中可能毫无用处。
3. 矩估计方程
μi=gi(θ1,…,θk),an,i=n1j=1∑nXji
- **来源:**用总体矩描述参数(第一组方程),再用样本矩作为总体矩的近似(第二组式子)。大数定律保证了后者的合理性。
- **式子拆解:**第一组方程 μi=gi(θ) 把”未知参数”和”理论的矩”联系起来;第二组 an,i=n1∑Xji 把”已知的样本”压缩成”可计算的样本矩”。联立两组方程——让 an,i=μi——就得到关于 θ 的方程组。
- **含义:**把”看不见的理论量”换成”看得见的样本量”,再反解参数。只要矩方程可解,矩估计就一定算得出来。这就是为什么它被称为”通常最先能做出来的方法”。
- **使用提醒:**参数有几个,通常就要列几个独立的矩方程。但有时一阶矩和二阶矩不够用(比如参数多于 2 个),需要用更高阶矩或中心矩。另外,同一模型可以用不同的矩方程组合得到不同的矩估计量。
4. 估计方程
n1i=1∑ng(Xi;θ)=0
- **来源:**从”若理论上 Eθ[g(X;θ)]=0,则用样本平均替代理论期望”的推理出发。
- **式子拆解:**左边是”样本版的平衡条件”——它用样本平均来逼近理论期望;右边等于 0 表示”我们要求样本也近似满足理论关系”;解出 θ 即可。
- **含义:**矩估计是估计方程的特例,取 g(x;θ)=xi−Eθ(Xi)。估计方程的思想更广泛——它可以容纳各种”统计关系”,不只是矩条件。这在稳健统计和半参数方法中很重要。
- **使用提醒:**方程不一定有唯一解,解的存在性需要额外条件。另外,估计方程得到的估计量的大样本性质通常可以通过”估计方程理论”统一处理。
六、推导与证明
1. 证明依赖
- 用到的定义:点估计、无偏性、MSE、矩估计量、相合性。
- 用到的前序定理:大数定律、中心极限定理、期望线性性、方差性质。
- 用到的分布性质:期望的线性性、方差的定义、独立同分布下的矩计算。
- 用到的关键技巧:偏差-方差分解、矩替换、Delta method。
2. 证明思路概览
- 比较估计量:先写出 MSE,再用偏差-方差分解拆成方差和偏差平方。交叉项消失是因为 E[g^−E(g^)]=0。
- 构造矩估计量:先写总体矩方程,再把理论量替换为样本量,最后解方程。
- 证明相合性:通常用大数定律证明样本矩收敛于总体矩,再结合参数是矩的连续函数来证明。
- 证明渐近正态性:样本矩满足中心极限定理,矩估计量是样本矩的连续函数(类似),由 Delta method 得到渐近正态。
[!proof]- 📐 深度推导:MSE 分解的严格证明
记估计量 g^ 的偏差为
bθ=Eθ(g^)−g(θ).
第一步:把误差拆成两部分。
g^−g(θ)=(g^−Eθ(g^))+bθ.
这里 g^−Eθ(g^) 是”随机波动”部分——度量 g^ 绕其期望的变异;bθ 是”系统偏差”部分——度量期望偏离真参数的程度。
第二步:平方并展开。
(g^−g(θ))2=(g^−Eθ(g^))2+2bθ(g^−Eθ(g^))+bθ2.
第三步:取期望,消去交叉项。
注意 bθ 是一个常数(不随样本变化),因此:
Eθ[2bθ(g^−Eθ(g^))]=2bθ⋅Eθ[g^−Eθ(g^)]=2bθ⋅0=0.
这个等式是整个推导的”关键一步”。它成立的原因很简单:Eθ(g^)−Eθ(g^)=0——即”估计量减其自身期望”的期望为零。
第四步:得到分解结果。
MSEθ(g^)=Eθ(g^−g(θ))2=Eθ(g^−Eθ(g^))2+bθ2=Varθ(g^)+(Eθ(g^)−g(θ))2.
为什么这个分解如此重要?
因为它告诉我们一个深刻的道理:偏差和方差之间通常是需要权衡的。 如果为了实现无偏(偏差=0)而采用了更复杂的估计量,可能反而增大了方差,导致 MSE 上升。反过来,如果愿意接受一点偏差,有时可以大幅降低方差,使得 MSE 整体下降。
这个分解是后续讨论正则化、收缩估计、模型选择等所有”偏差-方差权衡”问题的数学起点。
用途:这是估计量比较中最常用的展开式,也是理解”为什么有偏估计量有时更好”的理论基础。
[!proof]- 📐 深度推导:矩估计量的相合性与渐近正态性
相合性
以单参数情形为例。设矩估计量 θ^n=h(X),其中 h 是连续函数且 E(X)=μ(θ)。
由大数定律:XPμ(θ)。
由连续映射定理(Slutsky 定理的推论):若 h 连续,则
θ^n=h(X)Ph(μ(θ))=θ.
因此 θ^n 是 θ 的相合估计量。
这个证明之所以成立,依赖两个条件:
- X 的相合性(大数定律保证);
- h 的连续性(保证极限可以通过连续函数)。
渐近正态性
由中心极限定理:
n(X−μ(θ))dN(0,σ2).
若 h 可微且 h′(μ(θ))=0,则由 Delta method:
n(h(X)−h(μ(θ)))dN(0,[h′(μ(θ))]2σ2).
因此:
θ^n≈AN(θ,n[h′(μ(θ))]2σ2).
为什么要关注渐近分布? 因为它告诉我们两件事:
- 矩估计量在大样本下近似正态,这意味着我们可以构造近似置信区间;
- 渐近方差依赖于 h′ 和 σ2,这提示我们:不同的矩选择(不同的 h 函数)会导致不同的渐近效率。
[!proof]- 📐 深度推导:Sn2 与 S2 的 MSE 比较(正态总体下)
设 X1,…,Xn∼N(μ,σ2)。
已知:
σ2nSn2=σ2(n−1)S2∼χ2(n−1).
记 K=σ2nSn2∼χ2(n−1),则 E(K)=n−1,Var(K)=2(n−1)。
对于 Sn2(有偏):
E(Sn2)=E(nσ2K)=nσ2(n−1)=nn−1σ2,
Var(Sn2)=Var(nσ2K)=n2σ4⋅2(n−1)=n22(n−1)σ4.
偏差 b=E(Sn2)−σ2=−nσ2。因此
MSE(Sn2)=n22(n−1)σ4+n2σ4=n22n−1σ4.
对于 S2(无偏):
E(S2)=σ2,Var(S2)=n−12σ4.
因为无偏,MSE 就是方差:
MSE(S2)=n−12σ4.
比较:
MSE(S2)MSE(Sn2)=2/(n−1)(2n−1)/(n2)=2n2(2n−1)(n−1).
例如 n=5 时比值为 0.9;n=10 时为 0.855;n→∞ 时趋近于 1。
结论: Sn2 的 MSE 小于 S2 的 MSE,且在小样本下差异更显著。但 S2 是无偏的,Sn2 是有偏的。两者的取舍取决于你对”无偏”和”小 MSE”的偏好。
七、例题与变式
1. 标准题:指数分布的矩估计
**题型:**构造题
题目:
设 X1,…,Xn∼E(λ),求 λ 的矩估计量,并讨论其无偏性和相合性。
解题思路(先理顺这三步):
- **先判断统计任务:**这是单参数矩估计题。指数分布只有一个参数,用一个矩方程就够了。
- **选择矩方程:**指数分布的一阶矩最简单 EX=1/λ。
- **替换并求解:**把总体矩换成样本矩。
解答:
指数分布满足 EX=λ1。用样本均值替代总体均值:
X=λ1⟹λ^MM=X1.
无偏性讨论: X∼Γ(n,nλ),所以 E(1/X)=λ。实际上可以计算 E(1/X)=n−1nλ(推导需要用到 Gamma 分布的性质),因此 λ^MM 是有偏的。
相合性讨论: 由大数定律 XP1/λ。函数 h(x)=1/x 在 x>0 处连续,由连续映射定理得 λ^MMPλ,因此相合。
常见坑点提醒:
- 不要因为 E(1/X)=1/E(X) 就说矩估计法不对。矩估计法”替换”的是样本矩和总体矩之间的关系,不是期望的传递性。
- 当 X 非常接近 0 时,λ^MM 会变得非常大。这意味着在有限样本下,λ^MM 可能不稳定(方差大)。
2. 标准题:均匀分布的矩估计
**题型:**构造题
题目:
设 X1,…,Xn∼U(a,b),求 a,b 的矩估计量。
解题思路:
- **先判断统计任务:**这是双参数矩估计题,需要用两个矩方程。
- **选择矩方程:**均匀分布的一阶矩和二阶中心矩表达式都很简洁。
- **联立求解:**把两个方程联立起来解出 a 和 b。
解答:
EX=2a+b,Var(X)=12(b−a)2.
用 X 和 Sn2=n1∑(Xi−X)2 替换:
X=2a+b,Sn2=12(b−a)2.
解方程组:
a^MM=X−3Sn2,b^MM=X+3Sn2.
常见坑点提醒:
- 矩估计用 Sn2(除以 n),不是 S2(除以 n−1)。因为矩估计法要求”用样本矩替换总体矩”,而样本二阶中心矩定义为 n1∑(Xi−X)2。
- 当 Sn2 很大时,可能出现 a^MM<X(1) 或 b^MM>X(n) 的情况,这并不违反矩估计的定义——矩估计并不保证估计结果落在样本范围内。
3. 变式题
**变式一:**把估计对象换成参数函数 g(θ)。例如,指数分布 E(λ) 下估计 g(λ)=1/λ(即总体均值)。此时 g^MM=X,且是无偏的。
**变式二:**用不同的矩方程求解同一模型。例如,对于 U(a,b),也可以使用一阶矩和一阶绝对矩 E∣X∣,但通常不如上面的组合简便。
**变式三:**比较两个估计量的 MSE。设 X1,…,Xn∼N(μ,σ2),比较 X 和样本中位数 m~ 作为 μ 的估计量的 MSE。X 的 MSE 是 σ2/n,而 m~ 的渐近 MSE 是 πσ2/(2n)——约大 57%。这就是为什么正态总体下样本均值优于样本中位数。
4. 题型提醒
[!tip]+ 做题顺序:点估计类题目的通用流程
- 先看参数个数,决定需要几个矩方程。一般需要 k 个方程解 k 个参数。
- 优先选最容易写、最容易解的高阶矩。通常一阶矩和二阶矩(或二阶中心矩)就够用。
- 求出估计量后,别忘了检查它的基本性质:是否无偏?是否相合?MSE 表达式是什么?
- 如果题目要求比较,就用 MSE:先算每个估计量的偏差和方差,再代入 MSE 分解公式。
- 注意矩估计和极大似然估计的区别:矩估计不一定唯一,极大似然估计通常唯一(在正则条件下)。矩估计的计算简单但效率可能较低。
对比辨析
[!note]+ 对比辨析:MSE vs 方差
| 维度 | 方差 Var(θ^) | MSE |
|---|
| 考虑偏差? | 否(只考虑围绕期望的波动) | 是(考虑偏离真值的总误差) |
| 对无偏估计量 | MSE = 方差 | MSE = 方差 |
| 对有偏估计量 | 无法反映系统偏移 | 方差 + 偏差平方 = 总评分 |
| 适合场景 | 只在无偏类中比较 | 允许有偏估计量参与时的综合比较 |
最常见的坑:比较两个有偏估计量时只比较方差而忽略偏差。例如 Sn2 的方差小于 S2,但如果只看这一点就认为 Sn2 更好,那就忽略了它的偏差。要公平比较必须用 MSE。
[!note]+ 对比辨析:矩估计(MM) vs 极大似然估计(MLE)
| 维度 | 矩估计(MM) | 极大似然估计(MLE) |
|---|
| 核心思想 | 用样本矩替换总体矩 | 最大化似然函数 |
| 计算难度 | 通常简单(解代数方程) | 可能复杂(需要数值优化) |
| 是否需要分布具体形式 | 只需知道矩的表达式 | 需要完整的密度/概率函数 |
| 小样本性质 | 通常有偏 | 正则条件下渐近无偏 |
| 大样本效率 | 不一定最优 | 渐近有效(达到 Cramér-Rao 下界) |
| 参数变换不变性 | 不保持(h(θ^MM)=h(θ)MM 一般) | 保持(MLE 的变换不变性) |
| 典型使用场景 | 第一次见到模型时快速得到估计 | 追求最优效率时 |
最常见的坑:把矩估计和极大似然估计混为一谈。矩估计只是一个”快速构造法”,它不追求任何最优性;而 MLE 在正则条件下有明确的最优性(渐近有效)。矩估计的优势在于计算简单,劣势在于效率可能较低。
八、章节连接
- **这一讲建立在哪些知识之上:**统计量、样本矩、分布族、Gamma/指数分布等常见模型、大数定律与中心极限定理(一至三讲)、充分统计量(第四讲)。
- 这一讲为后面哪些内容做准备:UMVUE(下一讲将使用本讲的无偏性和 MSE 概念,系统寻找最优无偏估计量)、Rao-Blackwell 定理(在充分统计量上条件化来改进估计量)、Cramér-Rao 下界(给出无偏估计量的方差下界)。
- 这一讲在整门课中的功能:先给出估计量的”基本构造法”(矩估计)和”基本评价法”(无偏性、MSE、相合性),为后续”寻找最优估计量”提供候选对象和比较标准。
九、复习整理
[!summary]+ 本讲小结
- **研究的问题:**如何构造参数估计量并评价其好坏。
- **使用的模型:**参数模型与 i.i.d. 样本。
- 核心统计量:θ^、样本矩 an,k、中心样本矩 mn,k。
- 关键结论:
- 无偏性:E(θ^)=θ,保证平均方向正确。
- MSE 分解:MSE=Var+(bias)2,统一评价有偏和无偏估计。
- 相合性:θ^nPθ,大样本下保证收敛。
- 矩估计法:替换 + 求解三步走,通常最先能做出来。
- 估计方程:矩估计的推广,适合更一般的模型。
- **最重要的条件:**矩存在(矩估计)、二阶矩存在(MSE 分解)、n→∞(相合性与渐近正态性)。
- **本讲最终服务什么推断任务:**为后续寻找”最优无偏估计量”(UMVUE)提供候选估计量和比较标准。
高频误套
[!warning]+ 常见错误
- 把估计量和估计值混写。 估计量是随机变量,对它取期望有意义;估计值是具体数字,不能取期望。写证明时特别容易把 θ^ 和 θ^(x) 搞混。
- 只看无偏性,不看方差或 MSE。 无偏性保证方向正确但不保证稳定。一个方差很大的无偏估计量在实际中可能毫无用处。
- 矩估计方程写错总体矩与样本矩的对应关系。 比如用 S2(除以 n−1)去替换 Var(X)——矩估计里用的是 Sn2(除以 n)。
- 把大样本相合或渐近正态当成有限样本精确性质。 相合和渐近正态是 n→∞ 的极限性质,n=30 时近似程度好不好取决于具体分布。
- 在比较有偏估计量时只用方差而忽略偏差。 MSE 才是公平的比较指标。
条件卡
-
结论:θ^ 无偏。
**成立条件:**对所有 θ∈Θ 有 Eθ(θ^)=θ。
**不能用在:**只在某个特定参数值处成立时(如只证了 Eθ0(θ^)=θ0 就说”无偏”)。
**常见误套场景:**证明了 E(X)=μ 就说”X 是 μ 的无偏估计”——这个是对的,但有时学生会把”无偏估计量”和”一致估计量”混在一起说。
-
**结论:**MSE 可以分解为方差加偏差平方。
**成立条件:**估计量二阶矩存在(保证方差和 MSE 有意义)。
**不能用在:**估计量二阶矩不存在时直接使用分解式。例如 Cauchy 分布下的样本均值没有方差,不能用这个分解。
**常见误套场景:**比较有偏估计量时只看方差,不看偏差平方——把”方差”当成”MSE”。
-
**结论:**矩估计量可通过样本矩替换总体矩得到。
**成立条件:**对应总体矩存在且参数可解出。
**不能用在:**矩不存在(如 Cauchy 分布的均值)或方程不可解(如超越方程无解析解)时。
**常见误套场景:**模型参数比可用矩更多,却仍机械地列单个矩方程造成欠定;或者列的矩方程数多于参数数造成过定,没有处理方法。
-
**结论:**矩估计量相合。
**成立条件:**矩存在且矩估计量是样本矩的连续函数。
**不能用在:**矩不存在(如 Cauchy 的 E(X))或函数不连续的情形。
**常见误套场景:**以为所有矩估计量都自动相合——实际上需要验证大数定律和连续性条件。
-
结论:Sn2 的 MSE 小于 S2 的 MSE(正态总体下)。
**成立条件:**正态总体,有限样本精确计算。
**不能用在:**非正态总体下这个 MSE 比较公式不成立(推导依赖 χ2 分布)。
**常见误套场景:**在非正态总体下也直接用 MSE 比值公式。
十、习题区
1. 概念题
-
为什么无偏估计量不一定最好? 请举一个例子说明”有偏但更稳定”的估计量在实际中可能比无偏估计量更受欢迎。
**提示:**想想 Sn2 和 S2 的比较。Sn2 虽然有偏(低估 σ2),但它的 MSE 更小。如果目标是最小化”估计值与真值的平方偏差”,有偏的 Sn2 才是更好的选择。
-
MSE 为什么比单纯方差更适合比较一般估计量? 考虑一个极端有偏但方差为 0 的估计量,它的 MSE 是多少?这个例子说明了什么?
**提示:**极端例子 θ^≡5(常数估计),方差为 0 但偏差很大,MSE 很大。这说明”只看方差”会完全忽略系统偏差。
-
为什么矩估计法常常很方便,但不一定最优? 矩估计法有哪三个步骤?哪些因素可能导致矩估计量的效率不如其他方法(如 MLE)?
**提示:**矩估计法只用了矩信息,没有用到分布的全部结构。比如指数分布下,矩估计只用到 E(X),没有用到似然函数的完整形状。MLE 利用了全部分布信息,所以通常更有效。
2. 标准题
-
(矩估计) 设 X1,…,Xn∼E(λ),求 λ 的矩估计量,并讨论其相合性。
**思路:**用一阶矩方程 EX=1/λ,替换为 X=1/λ,解出 λ^=1/X。相合性由大数定律和连续映射定理保证。
-
(矩估计) 设 X1,…,Xn∼U(a,b),求 (a,b) 的矩估计量。
**思路:**双参数需要两个矩方程。用 EX 和 Var(X) 的方程联立求解。注意矩估计中用 Sn2 不是 S2。
-
(MSE 分解) 写出 MSE 分解的公式,并说明它的含义。对于无偏估计量,MSE 等于什么?
思路:MSE=Var+(bias)2。无偏时偏差为 0,MSE 等于方差。这个分解告诉我们总误差由”随机波动”和”系统偏差”两部分构成。
3. 综合题
-
(Sn2 vs S2 的 MSE 比较) 设 X1,…,Xn∼N(μ,σ2)。
- (a) 计算 Sn2 的偏差、方差和 MSE。
- (b) 计算 S2 的方差和 MSE。
- (c) 哪个的 MSE 更小?这对我们在”无偏”和”小 MSE”之间做选择有什么启示?
**提示:**利用 (n−1)S2/σ2∼χ2(n−1) 和 Sn2=nn−1S2。比较结果:Sn2 的 MSE 更小,虽然它有偏。这启示我们:如果目标是最小化 MSE,有时需要牺牲无偏性。
-
(双参数矩估计的应用) 设 X1,…,Xn∼Beta(a,b),其中 a>0,b>0。写出总体一阶矩和二阶矩的表达式(作为 a,b 的函数),并说明如何构造 (a,b) 的矩估计量。这种方法在什么情况下可能不适用?
**提示:**Beta 分布的均值为 a+ba,方差为 (a+b)2(a+b+1)ab。联立这两个方程可以得到 a,b 的矩估计量。在 a,b 很小或样本量很小时,矩估计可能不稳定。
-
(矩估计的相合性与渐近正态性) 设 X1,…,Xn∼Γ(α,λ),其中 α 已知,λ 未知。
- (a) 求 λ 的矩估计量。
- (b) 证明这个矩估计量是相合的。
- (c) 写出它的渐近分布。
提示:EX=α/λ,所以 λ^MM=α/X。相合性由大数定律和连续性保证。渐近正态性由 CLT 和 Delta method 得到:n(λ^−λ)dN(0,λ2/α)。
4. 思考题
-
为什么 MSE 分解中交叉项一定为 0? 请从数学角度严格证明,并解释这一结果在直觉上意味着什么。
**提示:**回忆推导过程:偏差 bθ 是常数,提出期望后得到 2bθ⋅E[g^−E(g^)]=0。直觉上,交叉项 (g^−E(g^))⋅bθ 的正负会相互抵消——因为 g^ 有时高于 E(g^),有时低于 E(g^),平均为零。
-
假设你是一个数据分析师,你的上司要求你”用最少的样本量得到最可靠的估计”。你会选择无偏估计量还是 MSE 更小的有偏估计量?为什么?
开放性问题,无标准答案。 需要考虑的因素:上司说”最可靠”是什么意思?是平均偏得少(无偏),还是单次误差小(小 MSE)?如果样本量很小,MSE 更小的有偏估计量可能更有优势;如果样本量很大,两者差异趋近于 0。
附:排版约定
[!tip]+ 写作规则
- 行内公式统一用
$...$。
- 行间公式统一用
$$...$$。
- 重要公式后面补一句”用途说明”。
- 先写条件,再写结论,再写用途。
- 少用缩进,多用小标题、短段落和留白。
- 保留老师强调过的原表达,但其余内容改写为讲义语言。
- 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题、对比辨析卡片。