Skip to content
Lokkue's Notes
Go back

第05讲 点估计的评价与矩估计

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:如何从样本中构造一个数去估计参数,以及怎样判断这个估计量好不好。
  • 已知什么:参数模型、样本 X1,,XnX_1,\dots,X_n、待估计对象 θ\thetag(θ)g(\theta)、以及上一讲的充分统计量。
  • 未知什么:合适的估计量以及它的偏差、方差、均方误差。
  • 核心统计对象:点估计、无偏性、均方误差、相合性、矩估计量。
  • 本讲结论最终服务什么推断任务:把”定义统计量”推进为”构造估计量并评价它”,为下一讲寻找最优无偏估计量(UMVUE)铺路。

先看全局

上一讲我们做了这样一件事:面对一大包样本数据,我们想知道哪些部分真正和参数有关,哪些部分只是表面细节。答案是指数族结构或因子分解定理告诉我们——参数的全部信息可以压缩到某个充分统计量 T(X)T(X) 中。

但有一个问题悬在空中:知道了充分统计量之后,怎么用它来估计参数?

这就好比拿到了一个信息浓缩包,但还不知道怎么把里面的信息”翻译”成一个具体的数值。本讲的任务就是解决这个”翻译”问题——我们既要知道如何构造估计量,也要知道如何评价它好不好。

本讲沿着两条线展开:

  1. 评价标准线: 有了一个估计量之后,怎么判断它好不好?这就是无偏性、均方误差(MSE)、相合性等概念要回答的问题。
  2. 构造方法线: 给定一个模型,怎么先搞出一个能算的估计量?这就是矩估计法要回答的问题。

这两条线的关系是:矩估计帮你”先做一个出来”,评价标准帮你”看看这个做得好不好”。两条线结合起来,你才算真正掌握了点估计的基本功。

本讲的叙事线

  1. 从充分统计量到点估计。 — 上一讲压缩了信息,这一讲用压缩后的信息构造估计量。
  2. 评价标准:无偏性。 — 什么叫做”长期平均上不系统高估或低估”?
  3. 评价标准:均方误差。 — 为什么有偏但更稳定的估计量有时反而更好?
  4. 评价标准:相合性。 — 样本量大了之后,估计量会越来越准吗?
  5. 构造方法:矩估计法。 — 用样本矩代替总体矩,解方程得到估计量。
  6. 推广:估计方程思想。 — 矩估计是估计方程的一个特例。

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

在进入正式内容之前,请务必在潜意识里把下面几层概念区分清楚。这是初学者最容易混淆的地方。

[!note]+ 对比辨析:参数 vs 估计量 vs 估计值

维度参数 θ\theta估计量 θ^\hat\theta估计值 θ^(x)\hat\theta(x)
本质描述总体的固定未知常数样本的函数(随机变量)将样本代入后得到的实数
是否随机否(固定常数)是(随样本变化)否(给定样本后是确定值)
是否已知未知(推断的目标)可写出表达式可计算
记号惯例希腊字母(θ\theta带上尖的希腊字母(θ^\hat\theta同上,但上下文暗示已代入样本
举例μ\mu(总体均值)X\overline{X}x=5.2\overline{x}=5.2

最常见的坑:在证明中把 θ^\hat\theta 当成常数处理。估计量是随机变量,对它取期望、方差都是有意义的;估计值是常数,不能对具体数值再取期望。

3. 模型前提检查

[!warning]+ 条件先检查

  • 无偏性是”对所有参数值都成立”的条件,不是一个特定 θ0\theta_0 下成立就行。
  • MSE 比较允许有偏估计量参与,这是它比单纯比较方差更灵活的原因。
  • 矩估计法要求相应总体矩存在,并且能从矩方程中解出参数。
  • 相合性说的是 nn\to\infty 时的行为,和有限样本性质是两回事。
  • 大样本正态近似依赖样本量和矩条件,不能当成有限样本精确结论。

三、核心概念

3.1 点估计与估计值:从样本到参数的第一步

在进入各种”评价”标准之前,先问一个最基本的问题:什么叫”用样本估计参数”?

讲白了,就是在有了样本 X1,,XnX_1,\dots,X_n 之后,构造一个样本的函数 θ^(X1,,Xn)\hat\theta(X_1,\dots,X_n),用这个函数的值去近似真实的 θ\theta

[!definition]+ 点估计与估计值 设参数为 θ\theta。若统计量

θ^=θ^(X1,,Xn)\hat\theta=\hat\theta(X_1,\dots,X_n)

用于估计 θ\theta,则称 θ^\hat\theta 为参数 θ\theta点估计量(point estimator);将样本值代入后得到的具体数值 θ^(x1,,xn)\hat\theta(x_1,\dots,x_n) 称为估计值(estimate)。

用途:这是”从样本得到参数近似值”的最基本形式。

为什么要区分估计量和估计值? 因为估计量是随机变量——它随着抽样的不同而变化。你今天抽一个样本算出一个 x\overline{x},明天再抽一个样本会算出另一个 x\overline{x}。而估计值是具体数值,是你手头这一批数据算出来的那个数。后续所有”无偏""有效""MSE 更小”等评价,都是针对估计量而言的。

3.2 无偏性与偏差:长期平均对准了吗?

有了估计量之后,第一个自然而然的问题是:这个估计量平均起来对准目标了吗?

想象你反复从同一个总体中抽样,每次算出一个 θ^\hat\theta。如果你把所有这些 θ^\hat\theta 的值取平均,这个平均值等于真正的 θ\theta 吗?如果等于,就说明这个估计量”平均上不偏”——这就是无偏性的核心思想。

[!definition]+ 无偏性与偏差 若对任意 θΘ\theta\in\Theta 都有

Eθ(θ^)=θ,E_\theta(\hat\theta)=\theta,

则称 θ^\hat\thetaθ\theta无偏估计量(unbiased estimator)。

若估计目标是 g(θ)g(\theta),则无偏性写为

Eθ(g^)=g(θ).E_\theta(\hat g)=g(\theta).

Eθ(θ^)θE_\theta(\hat\theta)\neq\theta,则称 Eθ(θ^)θE_\theta(\hat\theta)-\theta 为估计量 θ^\hat\theta偏差(bias)。

用途:无偏性刻画”长期平均上不系统高估或低估”。

含义解析

思维实验:考虑 X1,,XnN(μ,1)X_1,\dots,X_n\sim N(\mu,1)X\overline{X}μ\mu 的无偏估计吗?E(X)=μE(\overline{X})=\mu,所以是。那如果用样本第一个值 X1X_1 来估计 μ\mu 呢?E(X1)=μE(X_1)=\mu,所以也是无偏的!但直觉告诉我们,X\overline{X} 应该比 X1X_1 更好。无偏性解决不了这个区别——它只告诉我们对不对准,不告诉稳不稳定。

3.3 均方误差:偏差和波动的总评分

无偏性只回答”平均方向”的问题,但一个估计量好不好,除了要看它是否对准目标,还要看它波动的大小。一个估计量即使略微有偏,但如果它的波动很小,“总体误差”可能反而比一个无偏但波动大的估计量更小。

这就需要引入一个综合指标:均方误差(Mean Squared Error, MSE)

[!definition]+ 均方误差 对 g(θ)g(\theta) 的估计量 g^\hat g,其均方误差定义为

MSEθ(g^)=Eθ(g^g(θ))2.\operatorname{MSE}_\theta(\hat g)=E_\theta\bigl(\hat g-g(\theta)\bigr)^2.

用途:这是综合比较偏差与波动的最常用指标。

含义解析

[!warning]+ 一个重要提醒 比较两个估计量时,如果只看偏差而忽略方差,或者只看方差而忽略偏差,都可能导致片面的结论。MSE 把两者综合在一起,给出了一个更公平的比较标准。

3.4 相合性:样本量大了会越来越准吗?

无偏性和 MSE 回答的是”给定样本量 nn 时估计量的表现”。但还有一个问题:当样本量 nn 越来越大时,估计量会不会越来越接近真参数?

这个问题之所以重要,是因为在实际中,我们通常无法控制总体,但可以控制样本量。如果某个估计量是”相合”(consistent)的,那就意味着我们可以通过增加样本量来获得任意精度的估计。

[!definition]+ 相合性 若对任意 ε>0\varepsilon>0

limnPθ(θ^nθ>ε)=0,\lim_{n\to\infty} P_\theta\bigl(|\hat\theta_n-\theta|>\varepsilon\bigr)=0,

则称 θ^n\hat\theta_n 为参数 θ\theta相合估计量(consistent estimator)。

用途:相合性刻画”样本量增大时估计量收敛到真值”这一基本要求。

含义解析

这三个评价标准之间的关系

于是一个估计量完全可能:

四、统计量与分布

4.1 均方误差的分解:偏差-方差权衡的数学表达

在进入了解决策之前,我们需要把 MSE 拆开来看。MSE 到底由哪几部分构成?这需要利用一个极为重要的恒等式——偏差-方差分解(bias-variance decomposition)。

[!theorem]+ 偏差-方差分解 对任意估计量 g^\hat g

MSEθ(g^)=Varθ(g^)+(Eθ(g^)g(θ))2.\operatorname{MSE}_\theta(\hat g) =\operatorname{Var}_\theta(\hat g)+\bigl(E_\theta(\hat g)-g(\theta)\bigr)^2.

用途:比较估计量时,不必死守无偏性,可以直接比较 MSE。

这个公式为什么成立?

我们一步一步来看(这比死记公式重要得多):

bθ=Eθ(g^)g(θ)b_\theta=E_\theta(\hat g)-g(\theta) 为偏差。则误差可以写成

g^g(θ)=(g^Eθ(g^))+bθ.\hat g-g(\theta)=\bigl(\hat g-E_\theta(\hat g)\bigr)+b_\theta.

这里第一项是”随机波动”——估计量偏离其期望;第二项是”系统偏差”——期望偏离真参数。两项相加后平方再取期望:

关键的一步:展开平方后会出现交叉项 2(g^Eθ(g^))bθ2\bigl(\hat g-E_\theta(\hat g)\bigr)b_\theta。这个交叉项取期望会怎么样?注意 bθb_\theta 是常数(不随样本变化),而 Eθ[g^Eθ(g^)]=0E_\theta[\hat g-E_\theta(\hat g)]=0(期望的期望为零)。所以交叉项的期望正好为 00——这就是 MSE 能分解为方差加偏差平方的数学原因。

MSEθ(g^)=Eθ(g^Eθ(g^))2+bθ2=Varθ(g^)+[bias]2.\operatorname{MSE}_\theta(\hat g) =E_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + b_\theta^2 =\operatorname{Var}_\theta(\hat g) + \bigl[\text{bias}\bigr]^2.

含义解析

4.2 矩估计法:通常最先能做出来的方法

4.2.1 动机:为什么需要矩估计?

有了评价标准之后,下一个问题是:怎么构造估计量?

统计学里有很多构造估计量的方法(极大似然估计、Bayes 估计、稳健估计等),但矩估计法(Method of Moments, MM)有一个非常独特的地位:它是”通常最先能做出来的”

为什么这么说?因为矩估计的核心思想极为朴素——用样本矩(sample moments)去代替总体矩(population moments),然后解方程得到参数。你不需要复杂的数值优化,不需要对分布有很深入的理解,只要懂得写期望 μk=E(Xk)\mu_k=E(X^k),然后算样本平均 an,k=1nXika_{n,k}=\frac1n\sum X_i^k,代进去解方程就行。

[!definition]+ 矩估计法 若参数 θ=(θ1,,θk)\theta=(\theta_1,\dots,\theta_k) 与总体矩满足方程组

μi=gi(θ1,,θk),i=1,,k,\mu_i=g_i(\theta_1,\dots,\theta_k),\qquad i=1,\dots,k,

则用样本矩

an,i=1nj=1nXjia_{n,i}=\frac{1}{n}\sum_{j=1}^n X_j^i

或中心样本矩

mn,i=1nj=1n(XjX)im_{n,i}=\frac{1}{n}\sum_{j=1}^n (X_j-\overline X)^i

替换总体矩,并解出参数,得到的估计量称为矩估计量(method of moments estimator, MME)。

用途:这是构造估计量最直接、最通用的方法之一,特别适合”第一次见到一个模型”时使用。

矩估计的标准三步

  1. 列方程:写出总体矩 μ1,μ2,\mu_1,\mu_2,\dots 与参数 θ1,,θk\theta_1,\dots,\theta_k 的关系。
  2. 替换:用对应的样本矩 an,1,an,2,a_{n,1},a_{n,2},\dots 替换总体矩。
  3. 求解:解方程(组)得到参数的矩估计量。

直观理解:大数定律告诉我们,当 nn 很大时,样本矩 an,ia_{n,i} 依概率收敛到总体矩 μi\mu_i。所以”用样本矩替换总体矩”本质上是在说:如果大样本下样本矩和总体矩应该差不多,那么令它们相等,解出的参数也应该差不多是真参数。这就是矩估计法”合理”的根源。

4.2.2 典型例子

例 1:指数分布 E(λ)E(\lambda)

XE(λ)X\sim E(\lambda),密度为 f(x)=λeλxf(x)=\lambda e^{-\lambda x}x>0x>0。一阶矩为

EX=1λ.EX=\frac{1}{\lambda}.

X=1λ\overline{X}=\frac{1}{\lambda},解得

λ^MM=1X.\hat\lambda_{\text{MM}}=\frac{1}{\overline{X}}.

这是矩估计法最标准的单参数例子。注意 λ^MM\hat\lambda_{\text{MM}} 是有偏的——因为 E(1/X)1/E(X)E(1/\overline{X})\neq 1/E(\overline{X})(期望的倒数不等于倒数的期望)。但它一定是相合的(由大数定律和大数下的连续性)。

例 2:均匀分布 U(a,b)U(a,b)

XU(a,b)X\sim U(a,b),两个参数需要两个方程。使用一阶矩和二阶矩(或一阶矩和二阶中心矩):

EX=a+b2,Var(X)=(ba)212.EX=\frac{a+b}{2},\qquad \operatorname{Var}(X)=\frac{(b-a)^2}{12}.

用样本均值 X\overline{X} 估计 EXEX,用样本方差 Sn2=1n(XiX)2S_n^2=\frac1n\sum(X_i-\overline{X})^2 估计 Var(X)\operatorname{Var}(X)(注意:矩估计法用 Sn2S_n^2 而非 S2S^2,因为矩估计要求用样本矩——除以 nn 的那个——替换总体矩):

X=a+b2,1ni=1n(XiX)2=(ba)212.\overline{X}=\frac{a+b}{2},\qquad \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2=\frac{(b-a)^2}{12}.

解这个方程组得到:

a^MM=X3Sn2,b^MM=X+3Sn2.\hat a_{\text{MM}}=\overline{X}-\sqrt{3S_n^2},\qquad \hat b_{\text{MM}}=\overline{X}+\sqrt{3S_n^2}.

含义:矩估计把均匀分布的区间端点估计为”样本均值 ±\pm 三倍样本标准差”。这个估计不一定落在真实区间内——比如样本可能没有覆盖到真实的端点,但矩估计的端点可能比实际样本范围更宽或更窄。

例 3:Bernoulli 分布 B(1,p)B(1,p)

XB(1,p)X\sim B(1,p)EX=pEX=p。一阶矩方程:

X=pp^MM=X.\overline{X}=p\quad\Longrightarrow\quad \hat p_{\text{MM}}=\overline{X}.

这个矩估计量和后面极大似然估计量是相同的。可以验证它是无偏的:E(X)=pE(\overline{X})=p

例 4:正态分布 N(μ,σ2)N(\mu,\sigma^2)

EX=μEX=\muVar(X)=σ2\operatorname{Var}(X)=\sigma^2。得

μ^MM=X,σ^MM2=1ni=1n(XiX)2.\hat\mu_{\text{MM}}=\overline{X},\qquad \hat\sigma^2_{\text{MM}}=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2.

注意矩估计的方差用 Sn2S_n^2(除以 nn)而不是 S2S^2(除以 n1n-1)。这意味着矩估计的方差是有偏的(期望为 n1nσ2\frac{n-1}{n}\sigma^2),而通常使用的 S2S^2 是在矩估计的基础上做了无偏修正。

4.3 S2S^2Sn2S_n^2 的 MSE 比较:一个经典的偏差-方差权衡

现在我们可以用 MSE 做一个实际的比较。考虑正态总体 N(μ,σ2)N(\mu,\sigma^2),两种估计量:

Sn2=1ni=1n(XiX)2,S2=1n1i=1n(XiX)2.S_n^2=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2,\qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2.

那么谁的 MSE 更小?计算可得:

MSE(Sn2)=2n1n2σ4,MSE(S2)=2n1σ4.\operatorname{MSE}(S_n^2)=\frac{2n-1}{n^2}\sigma^4,\qquad \operatorname{MSE}(S^2)=\frac{2}{n-1}\sigma^4.

对于 n>1n>12n1n2<2n1\frac{2n-1}{n^2} < \frac{2}{n-1}。所以 Sn2S_n^2 的 MSE 比 S2S^2 更小!

这个比较告诉我们的道理:虽然 Sn2S_n^2 是有偏的(平均低估 σ2\sigma^2σ2/n\sigma^2/n),但它的方差更小(因为分母更大,波动更小),综合起来 MSE 反而小于无偏的 S2S^2。这正是一个经典的偏差-方差权衡案例——有时候”有偏但稳定”比”无偏但波动大”更好。

[!note]+ 对比辨析:无偏性 vs 相合性

维度无偏性相合性
关注的量E(θ^n)θE(\hat\theta_n)-\theta(固定 nnθ^nθ\hat\theta_n-\thetann\to\infty 的变化
条件要求对所有 nn 期望等于参数nn\to\infty 时收敛到参数
是否依赖 nn固定 nn 性质nn 的极限性质
蕴含关系无偏不一定相合相合不一定无偏
典型反例无偏但方差不随 nn 缩小→不相合Sn2S_n^2 有偏但相合
应用场景小样本下更关心平均对准大样本下更关心一致性

最常见的坑:把”无偏”等同于”好”,忽略方差大小。一个方差很大的无偏估计量在实际中可能非常不可靠。

4.4 估计方程思想:矩估计的推广

矩估计法虽然好用,但它有一个限制:你只能用它来估计”矩方程中的参数”。更一般地,如果存在某个函数 g(x;θ)g(x;\theta),理论上满足

Eθ[g(X;θ)]=0,E_\theta[g(X;\theta)]=0,

那么我们就可以用样本平均来替代理论期望,求解

1ni=1ng(Xi;θ)=0\frac{1}{n}\sum_{i=1}^n g(X_i;\theta)=0

得到 θ\theta 的估计量。这种方法称为估计方程法(estimating equation)。

[!definition]+ 估计方程 若存在函数 g(x;θ)g(x;\theta) 满足

Eθ[g(X;θ)]=0,E_\theta[g(X;\theta)]=0,

则求解

1ni=1ng(Xi;θ)=0\frac{1}{n}\sum_{i=1}^n g(X_i;\theta)=0

得到 θ\theta 的估计量。矩估计法是特例(取 g(x;θ)=xiμi(θ)g(x;\theta)=x^i-\mu_i(\theta))。

用途:为后续的广义矩估计(GMM)、MM 估计(稳健统计)和拟似然方法提供统一框架。

直观理解:估计方程的思想比矩估计更加灵活。它告诉你:

这是一种”从理论条件反推参数”的策略。矩估计对应的是特定形式的 gg——即 g(x;θ)=xiEθ(Xi)g(x;\theta)=x^i-E_\theta(X^i),第 ii 个样本矩减去第 ii 个总体矩。

五、主要结论

1. 分布结论

[!theorem]+ 样本矩的渐近正态性 若总体的一阶矩 μ\mu 和二阶矩 σ2\sigma^2 存在,则

XAN ⁣(μ,σ2n).\overline{X}\approx AN\!\left(\mu,\frac{\sigma^2}{n}\right).

一般地,对 kk 阶样本矩 an,ka_{n,k},若总体 2k2k 阶矩存在,则 an,ka_{n,k} 也具有渐近正态性。

用途:这说明矩估计量通常可以进一步得到渐近正态性。

含义解析

进一步借助 Delta method,若

θ^nAN(θ,Σ/n),\hat\theta_n\approx AN(\theta,\Sigma/n),

则对可微函数 g()g(\cdot)

g(θ^n)AN(g(θ),(g(θ))2σ2n).g(\hat\theta_n)\approx AN\left(g(\theta),\frac{(g'(\theta))^2\sigma^2}{n}\right).

用途:把参数估计量的渐近正态性传递到参数函数的估计量。

2. 判别或构造结论

[!theorem]+ 矩估计的一般步骤 条件:

  • 总体矩存在;
  • 参数可以由若干矩方程解出。

结论:

  1. 写出总体矩与参数的关系;
  2. 用样本矩替换总体矩;
  3. 解方程组得到估计量。

用途:这是”给定模型,先构造一个能算出来的估计量”的标准模板。

3. 最优性或比较结论

[!theorem]+ MSE 比较准则 若对所有参数值都有

MSEθ(g^1)MSEθ(g^2),\operatorname{MSE}_\theta(\hat g_1)\le \operatorname{MSE}_\theta(\hat g_2),

则称 g^1\hat g_1 在 MSE 意义下不差于 g^2\hat g_2

用途:这允许比较有偏与无偏估计量,而不局限于无偏类。

[!warning]+ 使用边界

  • 无偏不等于最优。一个无偏但方差很大的估计量可能不如一个有偏但稳定的估计量。
  • MSE 更小不代表所有性质都更好,但它是综合比较时最常用的指标。
  • 矩估计量不一定唯一、不一定无偏,也未必总是最有效——但它通常是”最先能做出来的”那个。
  • 相合性是大样本性质,不能直接推广到有限样本。

关键公式释义

1. 无偏性

Eθ(θ^)=θE_\theta(\hat\theta)=\theta

2. MSE 分解

MSEθ(g^)=Varθ(g^)+(Eθ(g^)g(θ))2\operatorname{MSE}_\theta(\hat g)=\operatorname{Var}_\theta(\hat g)+\bigl(E_\theta(\hat g)-g(\theta)\bigr)^2

3. 矩估计方程

μi=gi(θ1,,θk),an,i=1nj=1nXji\mu_i=g_i(\theta_1,\dots,\theta_k),\qquad a_{n,i}=\frac1n\sum_{j=1}^n X_j^i

4. 估计方程

1ni=1ng(Xi;θ)=0\frac1n\sum_{i=1}^n g(X_i;\theta)=0

六、推导与证明

1. 证明依赖

2. 证明思路概览

[!proof]- 📐 深度推导:MSE 分解的严格证明

记估计量 g^\hat g 的偏差为

bθ=Eθ(g^)g(θ).b_\theta=E_\theta(\hat g)-g(\theta).

第一步:把误差拆成两部分。

g^g(θ)=(g^Eθ(g^))+bθ.\hat g-g(\theta)=\bigl(\hat g-E_\theta(\hat g)\bigr)+b_\theta.

这里 g^Eθ(g^)\hat g-E_\theta(\hat g) 是”随机波动”部分——度量 g^\hat g 绕其期望的变异;bθb_\theta 是”系统偏差”部分——度量期望偏离真参数的程度。

第二步:平方并展开。

(g^g(θ))2=(g^Eθ(g^))2+2bθ(g^Eθ(g^))+bθ2.\bigl(\hat g-g(\theta)\bigr)^2 =\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + 2b_\theta\bigl(\hat g-E_\theta(\hat g)\bigr) + b_\theta^2.

第三步:取期望,消去交叉项。

注意 bθb_\theta 是一个常数(不随样本变化),因此:

Eθ[2bθ(g^Eθ(g^))]=2bθEθ[g^Eθ(g^)]=2bθ0=0.E_\theta\left[2b_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)\right] =2b_\theta\cdot E_\theta\bigl[\hat g-E_\theta(\hat g)\bigr] =2b_\theta\cdot 0 = 0.

这个等式是整个推导的”关键一步”。它成立的原因很简单:Eθ(g^)Eθ(g^)=0E_\theta(\hat g)-E_\theta(\hat g)=0——即”估计量减其自身期望”的期望为零。

第四步:得到分解结果。

MSEθ(g^)=Eθ(g^g(θ))2=Eθ(g^Eθ(g^))2+bθ2=Varθ(g^)+(Eθ(g^)g(θ))2.\begin{aligned} \operatorname{MSE}_\theta(\hat g) &=E_\theta\bigl(\hat g-g(\theta)\bigr)^2\\ &=E_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + b_\theta^2\\ &=\operatorname{Var}_\theta(\hat g) + \bigl(E_\theta(\hat g)-g(\theta)\bigr)^2. \end{aligned}

为什么这个分解如此重要?

因为它告诉我们一个深刻的道理:偏差和方差之间通常是需要权衡的。 如果为了实现无偏(偏差=0)而采用了更复杂的估计量,可能反而增大了方差,导致 MSE 上升。反过来,如果愿意接受一点偏差,有时可以大幅降低方差,使得 MSE 整体下降。

这个分解是后续讨论正则化、收缩估计、模型选择等所有”偏差-方差权衡”问题的数学起点。

用途:这是估计量比较中最常用的展开式,也是理解”为什么有偏估计量有时更好”的理论基础。

[!proof]- 📐 深度推导:矩估计量的相合性与渐近正态性

相合性

以单参数情形为例。设矩估计量 θ^n=h(X)\hat\theta_n=h(\overline{X}),其中 hh 是连续函数且 E(X)=μ(θ)E(X)=\mu(\theta)

由大数定律:XPμ(θ)\overline{X}\xrightarrow{P}\mu(\theta)

由连续映射定理(Slutsky 定理的推论):若 hh 连续,则

θ^n=h(X)Ph(μ(θ))=θ.\hat\theta_n=h(\overline{X})\xrightarrow{P}h(\mu(\theta))=\theta.

因此 θ^n\hat\theta_nθ\theta 的相合估计量。

这个证明之所以成立,依赖两个条件:

  1. X\overline{X} 的相合性(大数定律保证);
  2. hh 的连续性(保证极限可以通过连续函数)。

渐近正态性

由中心极限定理:

n(Xμ(θ))dN(0,σ2).\sqrt{n}(\overline{X}-\mu(\theta))\xrightarrow{d}N(0,\sigma^2).

hh 可微且 h(μ(θ))0h'(\mu(\theta))\neq 0,则由 Delta method:

n(h(X)h(μ(θ)))dN ⁣(0,[h(μ(θ))]2σ2).\sqrt{n}\bigl(h(\overline{X})-h(\mu(\theta))\bigr)\xrightarrow{d} N\!\left(0,\,[h'(\mu(\theta))]^2\sigma^2\right).

因此:

θ^nAN ⁣(θ,[h(μ(θ))]2σ2n).\hat\theta_n\approx AN\!\left(\theta,\frac{[h'(\mu(\theta))]^2\sigma^2}{n}\right).

为什么要关注渐近分布? 因为它告诉我们两件事:

  • 矩估计量在大样本下近似正态,这意味着我们可以构造近似置信区间;
  • 渐近方差依赖于 hh'σ2\sigma^2,这提示我们:不同的矩选择(不同的 hh 函数)会导致不同的渐近效率。

[!proof]- 📐 深度推导:Sn2S_n^2S2S^2 的 MSE 比较(正态总体下)

X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2)

已知:

nSn2σ2=(n1)S2σ2χ2(n1).\frac{nS_n^2}{\sigma^2}=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1).

K=nSn2σ2χ2(n1)K=\frac{nS_n^2}{\sigma^2}\sim\chi^2(n-1),则 E(K)=n1E(K)=n-1Var(K)=2(n1)\operatorname{Var}(K)=2(n-1)

对于 Sn2S_n^2(有偏):

E(Sn2)=E(σ2nK)=σ2n(n1)=n1nσ2,E(S_n^2)=E\left(\frac{\sigma^2}{n}K\right)=\frac{\sigma^2}{n}(n-1)=\frac{n-1}{n}\sigma^2, Var(Sn2)=Var(σ2nK)=σ4n22(n1)=2(n1)n2σ4.\operatorname{Var}(S_n^2)=\operatorname{Var}\left(\frac{\sigma^2}{n}K\right)=\frac{\sigma^4}{n^2}\cdot 2(n-1)=\frac{2(n-1)}{n^2}\sigma^4.

偏差 b=E(Sn2)σ2=σ2nb=E(S_n^2)-\sigma^2=-\frac{\sigma^2}{n}。因此

MSE(Sn2)=2(n1)n2σ4+σ4n2=2n1n2σ4.\operatorname{MSE}(S_n^2)=\frac{2(n-1)}{n^2}\sigma^4+\frac{\sigma^4}{n^2}=\frac{2n-1}{n^2}\sigma^4.

对于 S2S^2(无偏):

E(S2)=σ2,Var(S2)=2σ4n1.E(S^2)=\sigma^2,\qquad \operatorname{Var}(S^2)=\frac{2\sigma^4}{n-1}.

因为无偏,MSE 就是方差:

MSE(S2)=2σ4n1.\operatorname{MSE}(S^2)=\frac{2\sigma^4}{n-1}.

比较:

MSE(Sn2)MSE(S2)=(2n1)/(n2)2/(n1)=(2n1)(n1)2n2.\frac{\operatorname{MSE}(S_n^2)}{\operatorname{MSE}(S^2)}=\frac{(2n-1)/(n^2)}{2/(n-1)}=\frac{(2n-1)(n-1)}{2n^2}.

例如 n=5n=5 时比值为 0.90.9n=10n=10 时为 0.8550.855nn\to\infty 时趋近于 11

结论: Sn2S_n^2 的 MSE 小于 S2S^2 的 MSE,且在小样本下差异更显著。但 S2S^2 是无偏的,Sn2S_n^2 是有偏的。两者的取舍取决于你对”无偏”和”小 MSE”的偏好。

七、例题与变式

1. 标准题:指数分布的矩估计

**题型:**构造题

题目:

X1,,XnE(λ)X_1,\dots,X_n\sim E(\lambda),求 λ\lambda 的矩估计量,并讨论其无偏性和相合性。

解题思路(先理顺这三步):

  1. **先判断统计任务:**这是单参数矩估计题。指数分布只有一个参数,用一个矩方程就够了。
  2. **选择矩方程:**指数分布的一阶矩最简单 EX=1/λEX=1/\lambda
  3. **替换并求解:**把总体矩换成样本矩。

解答:

指数分布满足 EX=1λEX=\frac{1}{\lambda}。用样本均值替代总体均值:

X=1λλ^MM=1X.\overline{X}=\frac{1}{\lambda}\quad\Longrightarrow\quad \hat\lambda_{\text{MM}}=\frac{1}{\overline{X}}.

无偏性讨论: XΓ(n,nλ)\overline{X}\sim\Gamma(n,n\lambda),所以 E(1/X)λE(1/\overline{X})\neq\lambda。实际上可以计算 E(1/X)=nλn1E(1/\overline{X})=\frac{n\lambda}{n-1}(推导需要用到 Gamma 分布的性质),因此 λ^MM\hat\lambda_{\text{MM}} 是有偏的。

相合性讨论: 由大数定律 XP1/λ\overline{X}\xrightarrow{P}1/\lambda。函数 h(x)=1/xh(x)=1/xx>0x>0 处连续,由连续映射定理得 λ^MMPλ\hat\lambda_{\text{MM}}\xrightarrow{P}\lambda,因此相合。

常见坑点提醒:

2. 标准题:均匀分布的矩估计

**题型:**构造题

题目:

X1,,XnU(a,b)X_1,\dots,X_n\sim U(a,b),求 a,ba,b 的矩估计量。

解题思路:

  1. **先判断统计任务:**这是双参数矩估计题,需要用两个矩方程。
  2. **选择矩方程:**均匀分布的一阶矩和二阶中心矩表达式都很简洁。
  3. **联立求解:**把两个方程联立起来解出 aabb

解答:

EX=a+b2,Var(X)=(ba)212.EX=\frac{a+b}{2},\qquad\operatorname{Var}(X)=\frac{(b-a)^2}{12}.

X\overline{X}Sn2=1n(XiX)2S_n^2=\frac1n\sum(X_i-\overline{X})^2 替换:

X=a+b2,Sn2=(ba)212.\overline{X}=\frac{a+b}{2},\qquad S_n^2=\frac{(b-a)^2}{12}.

解方程组:

a^MM=X3Sn2,b^MM=X+3Sn2.\hat a_{\text{MM}}=\overline{X}-\sqrt{3S_n^2},\qquad \hat b_{\text{MM}}=\overline{X}+\sqrt{3S_n^2}.

常见坑点提醒:

3. 变式题

**变式一:**把估计对象换成参数函数 g(θ)g(\theta)。例如,指数分布 E(λ)E(\lambda) 下估计 g(λ)=1/λg(\lambda)=1/\lambda(即总体均值)。此时 g^MM=X\hat g_{\text{MM}}=\overline{X},且是无偏的。

**变式二:**用不同的矩方程求解同一模型。例如,对于 U(a,b)U(a,b),也可以使用一阶矩和一阶绝对矩 EXE|X|,但通常不如上面的组合简便。

**变式三:**比较两个估计量的 MSE。设 X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2),比较 X\overline{X} 和样本中位数 m~\tilde{m} 作为 μ\mu 的估计量的 MSE。X\overline{X} 的 MSE 是 σ2/n\sigma^2/n,而 m~\tilde{m} 的渐近 MSE 是 πσ2/(2n)\pi\sigma^2/(2n)——约大 57%。这就是为什么正态总体下样本均值优于样本中位数。

4. 题型提醒

[!tip]+ 做题顺序:点估计类题目的通用流程

  1. 先看参数个数,决定需要几个矩方程。一般需要 kk 个方程解 kk 个参数。
  2. 优先选最容易写、最容易解的高阶矩。通常一阶矩和二阶矩(或二阶中心矩)就够用。
  3. 求出估计量后,别忘了检查它的基本性质:是否无偏?是否相合?MSE 表达式是什么?
  4. 如果题目要求比较,就用 MSE:先算每个估计量的偏差和方差,再代入 MSE 分解公式。
  5. 注意矩估计和极大似然估计的区别:矩估计不一定唯一,极大似然估计通常唯一(在正则条件下)。矩估计的计算简单但效率可能较低。

对比辨析

[!note]+ 对比辨析:MSE vs 方差

维度方差 Var(θ^)\operatorname{Var}(\hat\theta)MSE
考虑偏差?否(只考虑围绕期望的波动)是(考虑偏离真值的总误差)
对无偏估计量MSE = 方差MSE = 方差
对有偏估计量无法反映系统偏移方差 + 偏差平方 = 总评分
适合场景只在无偏类中比较允许有偏估计量参与时的综合比较

最常见的坑:比较两个有偏估计量时只比较方差而忽略偏差。例如 Sn2S_n^2 的方差小于 S2S^2,但如果只看这一点就认为 Sn2S_n^2 更好,那就忽略了它的偏差。要公平比较必须用 MSE。

[!note]+ 对比辨析:矩估计(MM) vs 极大似然估计(MLE)

维度矩估计(MM)极大似然估计(MLE)
核心思想用样本矩替换总体矩最大化似然函数
计算难度通常简单(解代数方程)可能复杂(需要数值优化)
是否需要分布具体形式只需知道矩的表达式需要完整的密度/概率函数
小样本性质通常有偏正则条件下渐近无偏
大样本效率不一定最优渐近有效(达到 Cramér-Rao 下界)
参数变换不变性不保持(h(θ^MM)h(θ)^MMh(\hat\theta_{\text{MM}})\neq \widehat{h(\theta)}_{\text{MM}} 一般)保持(MLE 的变换不变性)
典型使用场景第一次见到模型时快速得到估计追求最优效率时

最常见的坑:把矩估计和极大似然估计混为一谈。矩估计只是一个”快速构造法”,它不追求任何最优性;而 MLE 在正则条件下有明确的最优性(渐近有效)。矩估计的优势在于计算简单,劣势在于效率可能较低。

八、章节连接

九、复习整理

[!summary]+ 本讲小结

  • **研究的问题:**如何构造参数估计量并评价其好坏。
  • **使用的模型:**参数模型与 i.i.d. 样本。
  • 核心统计量:θ^\hat\theta、样本矩 an,ka_{n,k}、中心样本矩 mn,km_{n,k}
  • 关键结论:
    1. 无偏性:E(θ^)=θE(\hat\theta)=\theta,保证平均方向正确。
    2. MSE 分解:MSE=Var+(bias)2\operatorname{MSE}=\operatorname{Var}+(\text{bias})^2,统一评价有偏和无偏估计。
    3. 相合性:θ^nPθ\hat\theta_n\xrightarrow{P}\theta,大样本下保证收敛。
    4. 矩估计法:替换 + 求解三步走,通常最先能做出来。
    5. 估计方程:矩估计的推广,适合更一般的模型。
  • **最重要的条件:**矩存在(矩估计)、二阶矩存在(MSE 分解)、nn\to\infty(相合性与渐近正态性)。
  • **本讲最终服务什么推断任务:**为后续寻找”最优无偏估计量”(UMVUE)提供候选估计量和比较标准。

高频误套

[!warning]+ 常见错误

  • 把估计量和估计值混写。 估计量是随机变量,对它取期望有意义;估计值是具体数字,不能取期望。写证明时特别容易把 θ^\hat\thetaθ^(x)\hat\theta(x) 搞混。
  • 只看无偏性,不看方差或 MSE。 无偏性保证方向正确但不保证稳定。一个方差很大的无偏估计量在实际中可能毫无用处。
  • 矩估计方程写错总体矩与样本矩的对应关系。 比如用 S2S^2(除以 n1n-1)去替换 Var(X)\operatorname{Var}(X)——矩估计里用的是 Sn2S_n^2(除以 nn)。
  • 把大样本相合或渐近正态当成有限样本精确性质。 相合和渐近正态是 nn\to\infty 的极限性质,n=30n=30 时近似程度好不好取决于具体分布。
  • 在比较有偏估计量时只用方差而忽略偏差。 MSE 才是公平的比较指标。

条件卡

  1. 结论:θ^\hat\theta 无偏。 **成立条件:**对所有 θΘ\theta\in\ThetaEθ(θ^)=θE_\theta(\hat\theta)=\theta。 **不能用在:**只在某个特定参数值处成立时(如只证了 Eθ0(θ^)=θ0E_{\theta_0}(\hat\theta)=\theta_0 就说”无偏”)。 **常见误套场景:**证明了 E(X)=μE(\overline{X})=\mu 就说”X\overline{X}μ\mu 的无偏估计”——这个是对的,但有时学生会把”无偏估计量”和”一致估计量”混在一起说。

  2. **结论:**MSE 可以分解为方差加偏差平方。 **成立条件:**估计量二阶矩存在(保证方差和 MSE 有意义)。 **不能用在:**估计量二阶矩不存在时直接使用分解式。例如 Cauchy 分布下的样本均值没有方差,不能用这个分解。 **常见误套场景:**比较有偏估计量时只看方差,不看偏差平方——把”方差”当成”MSE”。

  3. **结论:**矩估计量可通过样本矩替换总体矩得到。 **成立条件:**对应总体矩存在且参数可解出。 **不能用在:**矩不存在(如 Cauchy 分布的均值)或方程不可解(如超越方程无解析解)时。 **常见误套场景:**模型参数比可用矩更多,却仍机械地列单个矩方程造成欠定;或者列的矩方程数多于参数数造成过定,没有处理方法。

  4. **结论:**矩估计量相合。 **成立条件:**矩存在且矩估计量是样本矩的连续函数。 **不能用在:**矩不存在(如 Cauchy 的 E(X)E(X))或函数不连续的情形。 **常见误套场景:**以为所有矩估计量都自动相合——实际上需要验证大数定律和连续性条件。

  5. 结论:Sn2S_n^2 的 MSE 小于 S2S^2 的 MSE(正态总体下)。 **成立条件:**正态总体,有限样本精确计算。 **不能用在:**非正态总体下这个 MSE 比较公式不成立(推导依赖 χ2\chi^2 分布)。 **常见误套场景:**在非正态总体下也直接用 MSE 比值公式。

十、习题区

1. 概念题

  1. 为什么无偏估计量不一定最好? 请举一个例子说明”有偏但更稳定”的估计量在实际中可能比无偏估计量更受欢迎。

    **提示:**想想 Sn2S_n^2S2S^2 的比较。Sn2S_n^2 虽然有偏(低估 σ2\sigma^2),但它的 MSE 更小。如果目标是最小化”估计值与真值的平方偏差”,有偏的 Sn2S_n^2 才是更好的选择。

  2. MSE 为什么比单纯方差更适合比较一般估计量? 考虑一个极端有偏但方差为 0 的估计量,它的 MSE 是多少?这个例子说明了什么?

    **提示:**极端例子 θ^5\hat\theta\equiv 5(常数估计),方差为 0 但偏差很大,MSE 很大。这说明”只看方差”会完全忽略系统偏差。

  3. 为什么矩估计法常常很方便,但不一定最优? 矩估计法有哪三个步骤?哪些因素可能导致矩估计量的效率不如其他方法(如 MLE)?

    **提示:**矩估计法只用了矩信息,没有用到分布的全部结构。比如指数分布下,矩估计只用到 E(X)E(X),没有用到似然函数的完整形状。MLE 利用了全部分布信息,所以通常更有效。

2. 标准题

  1. (矩估计)X1,,XnE(λ)X_1,\dots,X_n\sim E(\lambda),求 λ\lambda 的矩估计量,并讨论其相合性。

    **思路:**用一阶矩方程 EX=1/λEX=1/\lambda,替换为 X=1/λ\overline{X}=1/\lambda,解出 λ^=1/X\hat\lambda=1/\overline{X}。相合性由大数定律和连续映射定理保证。

  2. (矩估计)X1,,XnU(a,b)X_1,\dots,X_n\sim U(a,b),求 (a,b)(a,b) 的矩估计量。

    **思路:**双参数需要两个矩方程。用 EXEXVar(X)\operatorname{Var}(X) 的方程联立求解。注意矩估计中用 Sn2S_n^2 不是 S2S^2

  3. (MSE 分解) 写出 MSE 分解的公式,并说明它的含义。对于无偏估计量,MSE 等于什么?

    思路:MSE=Var+(bias)2\operatorname{MSE}=\operatorname{Var}+(\text{bias})^2。无偏时偏差为 0,MSE 等于方差。这个分解告诉我们总误差由”随机波动”和”系统偏差”两部分构成。

3. 综合题

  1. Sn2S_n^2 vs S2S^2 的 MSE 比较)X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2)

    • (a) 计算 Sn2S_n^2 的偏差、方差和 MSE。
    • (b) 计算 S2S^2 的方差和 MSE。
    • (c) 哪个的 MSE 更小?这对我们在”无偏”和”小 MSE”之间做选择有什么启示?

    **提示:**利用 (n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim\chi^2(n-1)Sn2=n1nS2S_n^2=\frac{n-1}{n}S^2。比较结果:Sn2S_n^2 的 MSE 更小,虽然它有偏。这启示我们:如果目标是最小化 MSE,有时需要牺牲无偏性。

  2. (双参数矩估计的应用)X1,,XnBeta(a,b)X_1,\dots,X_n\sim \operatorname{Beta}(a,b),其中 a>0,b>0a>0,b>0。写出总体一阶矩和二阶矩的表达式(作为 a,ba,b 的函数),并说明如何构造 (a,b)(a,b) 的矩估计量。这种方法在什么情况下可能不适用?

    **提示:**Beta 分布的均值为 aa+b\frac{a}{a+b},方差为 ab(a+b)2(a+b+1)\frac{ab}{(a+b)^2(a+b+1)}。联立这两个方程可以得到 a,ba,b 的矩估计量。在 a,ba,b 很小或样本量很小时,矩估计可能不稳定。

  3. (矩估计的相合性与渐近正态性)X1,,XnΓ(α,λ)X_1,\dots,X_n\sim \Gamma(\alpha,\lambda),其中 α\alpha 已知,λ\lambda 未知。

    • (a) 求 λ\lambda 的矩估计量。
    • (b) 证明这个矩估计量是相合的。
    • (c) 写出它的渐近分布。

    提示:EX=α/λEX=\alpha/\lambda,所以 λ^MM=α/X\hat\lambda_{\text{MM}}=\alpha/\overline{X}。相合性由大数定律和连续性保证。渐近正态性由 CLT 和 Delta method 得到:n(λ^λ)dN(0,λ2/α)\sqrt{n}(\hat\lambda-\lambda)\xrightarrow{d}N(0,\lambda^2/\alpha)

4. 思考题

  1. 为什么 MSE 分解中交叉项一定为 0? 请从数学角度严格证明,并解释这一结果在直觉上意味着什么。

    **提示:**回忆推导过程:偏差 bθb_\theta 是常数,提出期望后得到 2bθE[g^E(g^)]=02b_\theta\cdot E[\hat g-E(\hat g)]=0。直觉上,交叉项 (g^E(g^))bθ(\hat g-E(\hat g))\cdot b_\theta 的正负会相互抵消——因为 g^\hat g 有时高于 E(g^)E(\hat g),有时低于 E(g^)E(\hat g),平均为零。

  2. 假设你是一个数据分析师,你的上司要求你”用最少的样本量得到最可靠的估计”。你会选择无偏估计量还是 MSE 更小的有偏估计量?为什么?

    开放性问题,无标准答案。 需要考虑的因素:上司说”最可靠”是什么意思?是平均偏得少(无偏),还是单次误差小(小 MSE)?如果样本量很小,MSE 更小的有偏估计量可能更有优势;如果样本量很大,两者差异趋近于 0。

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句”用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题、对比辨析卡片。

Edit page

Previous Post
第04讲 充分统计量与最小充分统计量
Next Post
第06讲 UMVUE、Rao-Blackwell与Lehmann-Scheffe