第05讲点估计的评价与矩估计

讲义信息

**课程：**数理统计
**章节：**第 3 章前半，对应课件 lec3.1(2026)169part
**讲次：**第 05 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec3.1(2026)169part.pdf
**研究对象：**点估计、估计量评价准则与矩估计方法
**统计任务：**给未知参数构造可计算的估计量，并评价它们的好坏
**本讲结论用途：**为后续 UMVUE、Rao-Blackwell、Cramér-Rao 下界提供基本比较标准

[!summary]+ 本讲导读

本讲研究的问题：如何从样本中构造一个数去估计参数，以及怎样判断这个估计量好不好。

已知什么：参数模型、样本 $X_1,\dots,X_n$ 、待估计对象 $\theta$ 或 $g(\theta)$ 、以及上一讲的充分统计量。

未知什么：合适的估计量以及它的偏差、方差、均方误差。

核心统计对象：点估计、无偏性、均方误差、相合性、矩估计量。

本讲结论最终服务什么推断任务：把”定义统计量”推进为”构造估计量并评价它”，为下一讲寻找最优无偏估计量（UMVUE）铺路。

先看全局

上一讲我们做了这样一件事：面对一大包样本数据，我们想知道哪些部分真正和参数有关，哪些部分只是表面细节。答案是指数族结构或因子分解定理告诉我们——参数的全部信息可以压缩到某个充分统计量 $T(X)$ 中。

但有一个问题悬在空中：知道了充分统计量之后，怎么用它来估计参数？

这就好比拿到了一个信息浓缩包，但还不知道怎么把里面的信息”翻译”成一个具体的数值。本讲的任务就是解决这个”翻译”问题——我们既要知道如何构造估计量，也要知道如何评价它好不好。

本讲沿着两条线展开：

评价标准线： 有了一个估计量之后，怎么判断它好不好？这就是无偏性、均方误差（MSE）、相合性等概念要回答的问题。
构造方法线： 给定一个模型，怎么先搞出一个能算的估计量？这就是矩估计法要回答的问题。

这两条线的关系是：矩估计帮你”先做一个出来”，评价标准帮你”看看这个做得好不好”。两条线结合起来，你才算真正掌握了点估计的基本功。

本讲的叙事线

从充分统计量到点估计。 — 上一讲压缩了信息，这一讲用压缩后的信息构造估计量。
评价标准：无偏性。 — 什么叫做”长期平均上不系统高估或低估”？
评价标准：均方误差。 — 为什么有偏但更稳定的估计量有时反而更好？
评价标准：相合性。 — 样本量大了之后，估计量会越来越准吗？
构造方法：矩估计法。 — 用样本矩代替总体矩，解方程得到估计量。
推广：估计方程思想。 — 矩估计是估计方程的一个特例。

一、本讲定位

在课程中的位置：这是统计推断从”研究统计量分布”转入”构造参数估计”的起点。前几讲我们一直在建立语言和工具，从本讲开始，我们开始真正回答”参数是多少”这个问题。
和前一讲的连接：上一讲给出了充分统计量和信息压缩视角，本讲从”信息压缩”推进到”如何用压缩后的信息构造估计量”，以及”这个估计量好不好”。
和后一讲的连接：下一讲将把”无偏估计量中谁最好”系统化，引入 Rao-Blackwell 定理和 UMVUE。本讲的 MSE 比较和无偏性概念是下一讲所有优化讨论的基础。
本讲重点内容：
- 点估计与估计值的定义（估计量是随机变量，估计值是具体数值）
- 无偏性、偏差、均方误差（三个层次从粗到细的评价）
- 估计量之间的比较（MSE 是综合指标）
- 矩估计法（最直接的构造方法）
- 估计方程的基本思想（矩估计的推广）
- 矩估计量的相合性与大样本性质

二、模型与前提

1. 研究模型

**总体：**参数模型 $\{F_\theta:\theta\in\Theta\}$ 。
**参数空间：**待估参数 $\theta$ 或参数函数 $g(\theta)$ 的取值集合。
样本： $X_1,\dots,X_n$ i.i.d.。
抽样方式：默认简单随机样本。
**参数含义：**本讲的重点是”如何找到 $\theta$ 或 $g(\theta)$ 的一个好的近似”，而不是研究样本的分布本身。

2. 对象区分

在进入正式内容之前,请务必在潜意识里把下面几层概念区分清楚。这是初学者最容易混淆的地方。

[!note]+ 对比辨析：参数 vs 估计量 vs 估计值

维度参数 $\theta$ 估计量 $\hat\theta$ 估计值 $\hat\theta(x)$
本质描述总体的固定未知常数样本的函数（随机变量）将样本代入后得到的实数
是否随机否（固定常数）是（随样本变化）否（给定样本后是确定值）
是否已知未知（推断的目标）可写出表达式可计算
记号惯例希腊字母（ $\theta$ ）带上尖的希腊字母（ $\hat\theta$ ）同上，但上下文暗示已代入样本
举例 $\mu$ （总体均值） $\overline{X}$ $\overline{x}=5.2$

最常见的坑：在证明中把 $\hat\theta$ 当成常数处理。估计量是随机变量，对它取期望、方差都是有意义的；估计值是常数，不能对具体数值再取期望。

维度	参数 $\theta$	估计量 $\hat\theta$	估计值 $\hat\theta(x)$
本质	描述总体的固定未知常数	样本的函数（随机变量）	将样本代入后得到的实数
是否随机	否（固定常数）	是（随样本变化）	否（给定样本后是确定值）
是否已知	未知（推断的目标）	可写出表达式	可计算
记号惯例	希腊字母（ $\theta$ ）	带上尖的希腊字母（ $\hat\theta$ ）	同上，但上下文暗示已代入样本
举例	$\mu$ （总体均值）	$\overline{X}$	$\overline{x}=5.2$

3. 模型前提检查

[!warning]+ 条件先检查

无偏性是”对所有参数值都成立”的条件，不是一个特定 $\theta_0$ 下成立就行。

MSE 比较允许有偏估计量参与，这是它比单纯比较方差更灵活的原因。

矩估计法要求相应总体矩存在，并且能从矩方程中解出参数。

相合性说的是 $n\to\infty$ 时的行为，和有限样本性质是两回事。

大样本正态近似依赖样本量和矩条件，不能当成有限样本精确结论。

三、核心概念

3.1 点估计与估计值：从样本到参数的第一步

在进入各种”评价”标准之前，先问一个最基本的问题：什么叫”用样本估计参数”？

讲白了，就是在有了样本 $X_1,\dots,X_n$ 之后，构造一个样本的函数 $\hat\theta(X_1,\dots,X_n)$ ，用这个函数的值去近似真实的 $\theta$ 。

[!definition]+ 点估计与估计值设参数为 $\theta$ 。若统计量
$\hat\theta=\hat\theta(X_1,\dots,X_n)$
用于估计 $\theta$ ，则称 $\hat\theta$ 为参数 $\theta$ 的点估计量（point estimator）；将样本值代入后得到的具体数值 $\hat\theta(x_1,\dots,x_n)$ 称为估计值（estimate）。

用途：这是”从样本得到参数近似值”的最基本形式。

为什么要区分估计量和估计值？ 因为估计量是随机变量——它随着抽样的不同而变化。你今天抽一个样本算出一个 $\overline{x}$ ，明天再抽一个样本会算出另一个 $\overline{x}$ 。而估计值是具体数值，是你手头这一批数据算出来的那个数。后续所有”无偏""有效""MSE 更小”等评价，都是针对估计量而言的。

3.2 无偏性与偏差：长期平均对准了吗？

有了估计量之后，第一个自然而然的问题是：这个估计量平均起来对准目标了吗？

想象你反复从同一个总体中抽样，每次算出一个 $\hat\theta$ 。如果你把所有这些 $\hat\theta$ 的值取平均，这个平均值等于真正的 $\theta$ 吗？如果等于，就说明这个估计量”平均上不偏”——这就是无偏性的核心思想。

[!definition]+ 无偏性与偏差若对任意 $\theta\in\Theta$ 都有
$E_\theta(\hat\theta)=\theta,$
则称 $\hat\theta$ 为 $\theta$ 的无偏估计量（unbiased estimator）。

若估计目标是 $g(\theta)$ ，则无偏性写为
$E_\theta(\hat g)=g(\theta).$
若 $E_\theta(\hat\theta)\neq\theta$ ，则称 $E_\theta(\hat\theta)-\theta$ 为估计量 $\hat\theta$ 的偏差（bias）。

用途：无偏性刻画”长期平均上不系统高估或低估”。

含义解析：

无偏性说的不是”这一次估计一定对”，而是”重复很多次之后平均不错”。如果把 $\hat\theta$ 比作射击的准星，无偏性意味着准星调正了——瞄准镜的中心正对着靶心。单次射击可能偏左或偏右，但长期平均打在靶心上。
无偏性的一个重要推论是：对于一个无偏估计量，它的期望正好等于真参数。这意味着它的”重心”和参数重合。
但要注意，无偏性只约束平均方向，不约束波动大小。一个无偏但方差很大的估计量，单次估计可能离真值很远——这就像一个瞄准镜调正了但手抖得很厉害的射手。

思维实验：考虑 $X_1,\dots,X_n\sim N(\mu,1)$ 。 $\overline{X}$ 是 $\mu$ 的无偏估计吗？ $E(\overline{X})=\mu$ ，所以是。那如果用样本第一个值 $X_1$ 来估计 $\mu$ 呢？ $E(X_1)=\mu$ ，所以也是无偏的！但直觉告诉我们， $\overline{X}$ 应该比 $X_1$ 更好。无偏性解决不了这个区别——它只告诉我们对不对准，不告诉稳不稳定。

3.3 均方误差：偏差和波动的总评分

无偏性只回答”平均方向”的问题，但一个估计量好不好，除了要看它是否对准目标，还要看它波动的大小。一个估计量即使略微有偏，但如果它的波动很小，“总体误差”可能反而比一个无偏但波动大的估计量更小。

这就需要引入一个综合指标：均方误差（Mean Squared Error, MSE）。

[!definition]+ 均方误差对 $g(\theta)$ 的估计量 $\hat g$ ，其均方误差定义为
$\operatorname{MSE}_\theta(\hat g)=E_\theta\bigl(\hat g-g(\theta)\bigr)^2.$
用途：这是综合比较偏差与波动的最常用指标。

含义解析：

MSE 把”误差”定义为 $\hat g-g(\theta)$ ——即估计值与真值的差距。然后把它平方（消除正负号），再取期望（考虑平均意义）——这就是”平均的平方误差”。
MSE 同时考虑了偏差和方差。对于无偏估计量，MSE 就是方差——因为误差 = 波动，没有偏差部分。但对于有偏估计量，MSE 会同时考虑”偏了多少”和”抖了多少”。
把 MSE 想象成一个”总评分”：它综合了两个维度——你偏没偏（偏差）和你抖不抖（方差）。这个评分越低，说明估计量综合表现越好。

[!warning]+ 一个重要提醒比较两个估计量时，如果只看偏差而忽略方差，或者只看方差而忽略偏差，都可能导致片面的结论。MSE 把两者综合在一起，给出了一个更公平的比较标准。

3.4 相合性：样本量大了会越来越准吗？

无偏性和 MSE 回答的是”给定样本量 $n$ 时估计量的表现”。但还有一个问题：当样本量 $n$ 越来越大时，估计量会不会越来越接近真参数？

这个问题之所以重要，是因为在实际中，我们通常无法控制总体，但可以控制样本量。如果某个估计量是”相合”（consistent）的，那就意味着我们可以通过增加样本量来获得任意精度的估计。

[!definition]+ 相合性若对任意 $\varepsilon>0$ ，
$\lim_{n\to\infty} P_\theta\bigl(|\hat\theta_n-\theta|>\varepsilon\bigr)=0,$
则称 $\hat\theta_n$ 为参数 $\theta$ 的相合估计量（consistent estimator）。

用途：相合性刻画”样本量增大时估计量收敛到真值”这一基本要求。

含义解析：

相合性的数学表达是 $\hat\theta_n\xrightarrow{P}\theta$ （依概率收敛）。直观理解就是： $n$ 越大，估计量”脱靶”的概率越小。
和无偏性不同：无偏性是”固定 $n$ 下的平均性质”；相合性是” $n\to\infty$ 时的极限性质”。一个估计量可以无偏但不相合（很少见），可以有偏但相合（常见）——比如后面会看到某些矩估计量有偏但相合。
相合性是点估计最基本的要求之一。如果一个估计量连相合都不满足，随着样本量增大它还不能逼近真值，那就很难说它是一个好的估计量了。

这三个评价标准之间的关系：

无偏性看平均方向——用来判断”系统偏差”是否存在。
MSE / 方差看波动大小——用来比较不同估计量的综合表现。
相合性看大样本行为——用来保证”样本足够多时一定能得到精确估计”。

于是一个估计量完全可能：

无偏但方差很大（稳定差）；
有偏但 MSE 更小（在做权衡）；
有偏但相合（偏差随 $n$ 增大而消失）。

四、统计量与分布

4.1 均方误差的分解：偏差-方差权衡的数学表达

在进入了解决策之前，我们需要把 MSE 拆开来看。MSE 到底由哪几部分构成？这需要利用一个极为重要的恒等式——偏差-方差分解（bias-variance decomposition）。

[!theorem]+ 偏差-方差分解对任意估计量 $\hat g$ ，
$\operatorname{MSE}_\theta(\hat g) =\operatorname{Var}_\theta(\hat g)+\bigl(E_\theta(\hat g)-g(\theta)\bigr)^2.$
用途：比较估计量时，不必死守无偏性，可以直接比较 MSE。

这个公式为什么成立？

我们一步一步来看（这比死记公式重要得多）：

设 $b_\theta=E_\theta(\hat g)-g(\theta)$ 为偏差。则误差可以写成

\hat g-g(\theta)=\bigl(\hat g-E_\theta(\hat g)\bigr)+b_\theta.

这里第一项是”随机波动”——估计量偏离其期望；第二项是”系统偏差”——期望偏离真参数。两项相加后平方再取期望：

关键的一步：展开平方后会出现交叉项 $2\bigl(\hat g-E_\theta(\hat g)\bigr)b_\theta$ 。这个交叉项取期望会怎么样？注意 $b_\theta$ 是常数（不随样本变化），而 $E_\theta[\hat g-E_\theta(\hat g)]=0$ （期望的期望为零）。所以交叉项的期望正好为 $0$ ——这就是 MSE 能分解为方差加偏差平方的数学原因。

\operatorname{MSE}_\theta(\hat g) =E_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + b_\theta^2 =\operatorname{Var}_\theta(\hat g) + \bigl[\text{bias}\bigr]^2.

含义解析：

这条公式告诉我们：总误差 = 随机波动（方差）+ 系统偏差的平方。这是一个极为重要的权衡关系。
如果想要减小 MSE，你可以做两件事：减小方差，或减小偏差。但很多时候两者是冲突的——降低偏差往往伴随着增大方差（比如增加模型复杂度），而降低方差又可能引入偏差（比如使用有偏的正则化估计）。
后续比较 $S^2$ 与 $S_n^2$ （分母分别为 $n-1$ 和 $n$ ）时，我们会看到： $S_n^2$ 有偏（偏差为 $-\sigma^2/n$ ）但方差略小，而 $S^2$ 无偏但方差略大——这正是一个典型的偏差-方差权衡案例。

4.2 矩估计法：通常最先能做出来的方法

4.2.1 动机：为什么需要矩估计？

有了评价标准之后，下一个问题是：怎么构造估计量？

统计学里有很多构造估计量的方法（极大似然估计、Bayes 估计、稳健估计等），但矩估计法（Method of Moments, MM）有一个非常独特的地位：它是”通常最先能做出来的”。

为什么这么说？因为矩估计的核心思想极为朴素——用样本矩（sample moments）去代替总体矩（population moments），然后解方程得到参数。你不需要复杂的数值优化，不需要对分布有很深入的理解，只要懂得写期望 $\mu_k=E(X^k)$ ，然后算样本平均 $a_{n,k}=\frac1n\sum X_i^k$ ，代进去解方程就行。

[!definition]+ 矩估计法若参数 $\theta=(\theta_1,\dots,\theta_k)$ 与总体矩满足方程组
$\mu_i=g_i(\theta_1,\dots,\theta_k),\qquad i=1,\dots,k,$
则用样本矩
$a_{n,i}=\frac{1}{n}\sum_{j=1}^n X_j^i$
或中心样本矩
$m_{n,i}=\frac{1}{n}\sum_{j=1}^n (X_j-\overline X)^i$
替换总体矩，并解出参数，得到的估计量称为矩估计量（method of moments estimator, MME）。

用途：这是构造估计量最直接、最通用的方法之一，特别适合”第一次见到一个模型”时使用。

矩估计的标准三步：

列方程：写出总体矩 $\mu_1,\mu_2,\dots$ 与参数 $\theta_1,\dots,\theta_k$ 的关系。
替换：用对应的样本矩 $a_{n,1},a_{n,2},\dots$ 替换总体矩。
求解：解方程（组）得到参数的矩估计量。

直观理解：大数定律告诉我们，当 $n$ 很大时，样本矩 $a_{n,i}$ 依概率收敛到总体矩 $\mu_i$ 。所以”用样本矩替换总体矩”本质上是在说：如果大样本下样本矩和总体矩应该差不多，那么令它们相等，解出的参数也应该差不多是真参数。这就是矩估计法”合理”的根源。

4.2.2 典型例子

例 1：指数分布 $E(\lambda)$

$X\sim E(\lambda)$ ，密度为 $f(x)=\lambda e^{-\lambda x}$ ， $x>0$ 。一阶矩为

EX=\frac{1}{\lambda}.

令 $\overline{X}=\frac{1}{\lambda}$ ，解得

\hat\lambda_{\text{MM}}=\frac{1}{\overline{X}}.

这是矩估计法最标准的单参数例子。注意 $\hat\lambda_{\text{MM}}$ 是有偏的——因为 $E(1/\overline{X})\neq 1/E(\overline{X})$ （期望的倒数不等于倒数的期望）。但它一定是相合的（由大数定律和大数下的连续性）。

例 2：均匀分布 $U(a,b)$

$X\sim U(a,b)$ ，两个参数需要两个方程。使用一阶矩和二阶矩（或一阶矩和二阶中心矩）：

EX=\frac{a+b}{2},\qquad \operatorname{Var}(X)=\frac{(b-a)^2}{12}.

用样本均值 $\overline{X}$ 估计 $EX$ ，用样本方差 $S_n^2=\frac1n\sum(X_i-\overline{X})^2$ 估计 $\operatorname{Var}(X)$ （注意：矩估计法用 $S_n^2$ 而非 $S^2$ ，因为矩估计要求用样本矩——除以 $n$ 的那个——替换总体矩）：

\overline{X}=\frac{a+b}{2},\qquad \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2=\frac{(b-a)^2}{12}.

解这个方程组得到：

\hat a_{\text{MM}}=\overline{X}-\sqrt{3S_n^2},\qquad \hat b_{\text{MM}}=\overline{X}+\sqrt{3S_n^2}.

含义：矩估计把均匀分布的区间端点估计为”样本均值 $\pm$ 三倍样本标准差”。这个估计不一定落在真实区间内——比如样本可能没有覆盖到真实的端点，但矩估计的端点可能比实际样本范围更宽或更窄。

例 3：Bernoulli 分布 $B(1,p)$

$X\sim B(1,p)$ ， $EX=p$ 。一阶矩方程：

\overline{X}=p\quad\Longrightarrow\quad \hat p_{\text{MM}}=\overline{X}.

这个矩估计量和后面极大似然估计量是相同的。可以验证它是无偏的： $E(\overline{X})=p$ 。

例 4：正态分布 $N(\mu,\sigma^2)$

$EX=\mu$ ， $\operatorname{Var}(X)=\sigma^2$ 。得

\hat\mu_{\text{MM}}=\overline{X},\qquad \hat\sigma^2_{\text{MM}}=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2.

注意矩估计的方差用 $S_n^2$ （除以 $n$ ）而不是 $S^2$ （除以 $n-1$ ）。这意味着矩估计的方差是有偏的（期望为 $\frac{n-1}{n}\sigma^2$ ），而通常使用的 $S^2$ 是在矩估计的基础上做了无偏修正。

4.3 $S^2$ 与 $S_n^2$ 的 MSE 比较：一个经典的偏差-方差权衡

现在我们可以用 MSE 做一个实际的比较。考虑正态总体 $N(\mu,\sigma^2)$ ，两种估计量：

S_n^2=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2,\qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2.

$S^2$ 是无偏的： $E(S^2)=\sigma^2$ 。
$S_n^2$ 是有偏的： $E(S_n^2)=\frac{n-1}{n}\sigma^2$ ，偏差为 $-\sigma^2/n$ 。

那么谁的 MSE 更小？计算可得：

\operatorname{MSE}(S_n^2)=\frac{2n-1}{n^2}\sigma^4,\qquad \operatorname{MSE}(S^2)=\frac{2}{n-1}\sigma^4.

对于 $n>1$ ， $\frac{2n-1}{n^2} < \frac{2}{n-1}$ 。所以 $S_n^2$ 的 MSE 比 $S^2$ 更小！

这个比较告诉我们的道理：虽然 $S_n^2$ 是有偏的（平均低估 $\sigma^2$ 约 $\sigma^2/n$ ），但它的方差更小（因为分母更大，波动更小），综合起来 MSE 反而小于无偏的 $S^2$ 。这正是一个经典的偏差-方差权衡案例——有时候”有偏但稳定”比”无偏但波动大”更好。

[!note]+ 对比辨析：无偏性 vs 相合性

维度无偏性相合性
关注的量 $E(\hat\theta_n)-\theta$ （固定 $n$ ） $\hat\theta_n-\theta$ 随 $n\to\infty$ 的变化
条件要求对所有 $n$ 期望等于参数 $n\to\infty$ 时收敛到参数
是否依赖 $n$ 固定 $n$ 性质 $n$ 的极限性质
蕴含关系无偏不一定相合相合不一定无偏
典型反例无偏但方差不随 $n$ 缩小→不相合 $S_n^2$ 有偏但相合
应用场景小样本下更关心平均对准大样本下更关心一致性

最常见的坑：把”无偏”等同于”好”，忽略方差大小。一个方差很大的无偏估计量在实际中可能非常不可靠。

维度	无偏性	相合性
关注的量	$E(\hat\theta_n)-\theta$ （固定 $n$ ）	$\hat\theta_n-\theta$ 随 $n\to\infty$ 的变化
条件要求	对所有 $n$ 期望等于参数	$n\to\infty$ 时收敛到参数
是否依赖 $n$	固定 $n$ 性质	$n$ 的极限性质
蕴含关系	无偏不一定相合	相合不一定无偏
典型反例	无偏但方差不随 $n$ 缩小→不相合	$S_n^2$ 有偏但相合
应用场景	小样本下更关心平均对准	大样本下更关心一致性

4.4 估计方程思想：矩估计的推广

矩估计法虽然好用，但它有一个限制：你只能用它来估计”矩方程中的参数”。更一般地，如果存在某个函数 $g(x;\theta)$ ，理论上满足

E_\theta[g(X;\theta)]=0,

那么我们就可以用样本平均来替代理论期望，求解

\frac{1}{n}\sum_{i=1}^n g(X_i;\theta)=0

得到 $\theta$ 的估计量。这种方法称为估计方程法（estimating equation）。

[!definition]+ 估计方程若存在函数 $g(x;\theta)$ 满足
$E_\theta[g(X;\theta)]=0,$
则求解
$\frac{1}{n}\sum_{i=1}^n g(X_i;\theta)=0$
得到 $\theta$ 的估计量。矩估计法是特例（取 $g(x;\theta)=x^i-\mu_i(\theta)$ ）。

用途：为后续的广义矩估计（GMM）、 $M$ 估计（稳健统计）和拟似然方法提供统一框架。

直观理解：估计方程的思想比矩估计更加灵活。它告诉你：

理论上某个函数的期望应该等于 0（这是”平衡条件”）；
现实里看不到期望，但看得到样本平均；
那就让样本平均等于 0，反过来解参数。

这是一种”从理论条件反推参数”的策略。矩估计对应的是特定形式的 $g$ ——即 $g(x;\theta)=x^i-E_\theta(X^i)$ ，第 $i$ 个样本矩减去第 $i$ 个总体矩。

五、主要结论

1. 分布结论

[!theorem]+ 样本矩的渐近正态性若总体的一阶矩 $\mu$ 和二阶矩 $\sigma^2$ 存在，则
$\overline{X}\approx AN\!\left(\mu,\frac{\sigma^2}{n}\right).$
一般地，对 $k$ 阶样本矩 $a_{n,k}$ ，若总体 $2k$ 阶矩存在，则 $a_{n,k}$ 也具有渐近正态性。

用途：这说明矩估计量通常可以进一步得到渐近正态性。

含义解析：

样本矩本身是”和式”统计量，由中心极限定理，大样本下近似正态。
由于矩估计量通过连续函数 $\hat\theta = h(a_{n,1},\dots,a_{n,k})$ 得到，由 Delta method，矩估计量也是渐近正态的。
这意味着除了”点估计”之外，我们还可以用渐近正态性构造近似置信区间和大样本检验。

进一步借助 Delta method，若

\hat\theta_n\approx AN(\theta,\Sigma/n),

则对可微函数 $g(\cdot)$ ，

g(\hat\theta_n)\approx AN\left(g(\theta),\frac{(g'(\theta))^2\sigma^2}{n}\right).

用途：把参数估计量的渐近正态性传递到参数函数的估计量。

2. 判别或构造结论

[!theorem]+ 矩估计的一般步骤条件：

总体矩存在；

参数可以由若干矩方程解出。

结论：

写出总体矩与参数的关系；

用样本矩替换总体矩；

解方程组得到估计量。

用途：这是”给定模型，先构造一个能算出来的估计量”的标准模板。

3. 最优性或比较结论

[!theorem]+ MSE 比较准则若对所有参数值都有
$\operatorname{MSE}_\theta(\hat g_1)\le \operatorname{MSE}_\theta(\hat g_2),$
则称 $\hat g_1$ 在 MSE 意义下不差于 $\hat g_2$ 。

用途：这允许比较有偏与无偏估计量，而不局限于无偏类。

[!warning]+ 使用边界

无偏不等于最优。一个无偏但方差很大的估计量可能不如一个有偏但稳定的估计量。

MSE 更小不代表所有性质都更好，但它是综合比较时最常用的指标。

矩估计量不一定唯一、不一定无偏，也未必总是最有效——但它通常是”最先能做出来的”那个。

相合性是大样本性质，不能直接推广到有限样本。

关键公式释义

1. 无偏性

E_\theta(\hat\theta)=\theta

**来源：**从”长期平均不系统高估也不系统低估”这个直觉出发，翻译成数学语言就是期望等于真值。
**式子拆解：**左边是估计量的期望——想象无穷多次重复抽样后 $\hat\theta$ 的平均值；右边是待估参数的真值。两者相等意味着估计量的平均中心正好对准目标。
**含义：**如果可以用同一个抽样方案重复做很多次实验，那么这些实验得到的 $\hat\theta$ 的平均值将会收敛到 $\theta$ 。它保证的是”平均方向正确”，不保证”每一次都准”。
**使用提醒：**无偏性是一个”逐参数”条件——需要对 $\Theta$ 中每一个 $\theta$ 都成立才算无偏。只在某个特定 $\theta_0$ 下成立不能称为无偏估计量。

2. MSE 分解

\operatorname{MSE}_\theta(\hat g)=\operatorname{Var}_\theta(\hat g)+\bigl(E_\theta(\hat g)-g(\theta)\bigr)^2

**来源：**把误差 $\hat g-g(\theta)$ 拆成”随机波动” $\bigl(\hat g-E(\hat g)\bigr)$ 和”系统偏差” $\bigl(E(\hat g)-g(\theta)\bigr)$ 之和，平方后取期望，交叉项由于 $E[\hat g-E(\hat g)]=0$ 而消失。
**式子拆解：**左边是总误差评分（越小越好）。右边第一项是方差——衡量估计量”抖不抖”；第二项是偏差的平方——衡量估计量”偏不偏”。
**含义：**MSE 同时惩罚”偏离平均值”（方差）和”平均值偏离真值”（偏差）。这意味着如果你想降低 MSE，你可以降低方差（用更稳定的估计量），也可以降低偏差（用更对准的估计量），或者两者兼顾。但通常这两个目标存在冲突。
**使用提醒：**比较有偏估计量时，不能只看方差——因为偏差平方可能很大，只看方差会低估总误差。反过来，也不能只看偏差——一个无偏但方差极大的估计量在实际中可能毫无用处。

3. 矩估计方程

\mu_i=g_i(\theta_1,\dots,\theta_k),\qquad a_{n,i}=\frac1n\sum_{j=1}^n X_j^i

**来源：**用总体矩描述参数（第一组方程），再用样本矩作为总体矩的近似（第二组式子）。大数定律保证了后者的合理性。
**式子拆解：**第一组方程 $\mu_i=g_i(\theta)$ 把”未知参数”和”理论的矩”联系起来；第二组 $a_{n,i}=\frac1n\sum X_j^i$ 把”已知的样本”压缩成”可计算的样本矩”。联立两组方程——让 $a_{n,i}=\mu_i$ ——就得到关于 $\theta$ 的方程组。
**含义：**把”看不见的理论量”换成”看得见的样本量”，再反解参数。只要矩方程可解，矩估计就一定算得出来。这就是为什么它被称为”通常最先能做出来的方法”。
**使用提醒：**参数有几个，通常就要列几个独立的矩方程。但有时一阶矩和二阶矩不够用（比如参数多于 2 个），需要用更高阶矩或中心矩。另外，同一模型可以用不同的矩方程组合得到不同的矩估计量。

4. 估计方程

\frac1n\sum_{i=1}^n g(X_i;\theta)=0

**来源：**从”若理论上 $E_\theta[g(X;\theta)]=0$ ，则用样本平均替代理论期望”的推理出发。
**式子拆解：**左边是”样本版的平衡条件”——它用样本平均来逼近理论期望；右边等于 0 表示”我们要求样本也近似满足理论关系”；解出 $\theta$ 即可。
**含义：**矩估计是估计方程的特例，取 $g(x;\theta)=x^i-E_\theta(X^i)$ 。估计方程的思想更广泛——它可以容纳各种”统计关系”，不只是矩条件。这在稳健统计和半参数方法中很重要。
**使用提醒：**方程不一定有唯一解，解的存在性需要额外条件。另外，估计方程得到的估计量的大样本性质通常可以通过”估计方程理论”统一处理。

六、推导与证明

1. 证明依赖

用到的定义：点估计、无偏性、MSE、矩估计量、相合性。
用到的前序定理：大数定律、中心极限定理、期望线性性、方差性质。
用到的分布性质：期望的线性性、方差的定义、独立同分布下的矩计算。
用到的关键技巧：偏差-方差分解、矩替换、Delta method。

2. 证明思路概览

比较估计量：先写出 MSE，再用偏差-方差分解拆成方差和偏差平方。交叉项消失是因为 $E[\hat g-E(\hat g)]=0$ 。
构造矩估计量：先写总体矩方程，再把理论量替换为样本量，最后解方程。
证明相合性：通常用大数定律证明样本矩收敛于总体矩，再结合参数是矩的连续函数来证明。
证明渐近正态性：样本矩满足中心极限定理，矩估计量是样本矩的连续函数（类似），由 Delta method 得到渐近正态。

[!proof]- 📐 深度推导：MSE 分解的严格证明

记估计量 $\hat g$ 的偏差为
$b_\theta=E_\theta(\hat g)-g(\theta).$
第一步：把误差拆成两部分。
$\hat g-g(\theta)=\bigl(\hat g-E_\theta(\hat g)\bigr)+b_\theta.$
这里 $\hat g-E_\theta(\hat g)$ 是”随机波动”部分——度量 $\hat g$ 绕其期望的变异； $b_\theta$ 是”系统偏差”部分——度量期望偏离真参数的程度。

第二步：平方并展开。
$\bigl(\hat g-g(\theta)\bigr)^2 =\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + 2b_\theta\bigl(\hat g-E_\theta(\hat g)\bigr) + b_\theta^2.$
第三步：取期望，消去交叉项。

注意 $b_\theta$ 是一个常数（不随样本变化），因此：
$E_\theta\left[2b_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)\right] =2b_\theta\cdot E_\theta\bigl[\hat g-E_\theta(\hat g)\bigr] =2b_\theta\cdot 0 = 0.$
这个等式是整个推导的”关键一步”。它成立的原因很简单： $E_\theta(\hat g)-E_\theta(\hat g)=0$ ——即”估计量减其自身期望”的期望为零。

第四步：得到分解结果。
$\begin{aligned} \operatorname{MSE}_\theta(\hat g) &=E_\theta\bigl(\hat g-g(\theta)\bigr)^2\\ &=E_\theta\bigl(\hat g-E_\theta(\hat g)\bigr)^2 + b_\theta^2\\ &=\operatorname{Var}_\theta(\hat g) + \bigl(E_\theta(\hat g)-g(\theta)\bigr)^2. \end{aligned}$
为什么这个分解如此重要？

因为它告诉我们一个深刻的道理：偏差和方差之间通常是需要权衡的。 如果为了实现无偏（偏差=0）而采用了更复杂的估计量，可能反而增大了方差，导致 MSE 上升。反过来，如果愿意接受一点偏差，有时可以大幅降低方差，使得 MSE 整体下降。

这个分解是后续讨论正则化、收缩估计、模型选择等所有”偏差-方差权衡”问题的数学起点。

用途：这是估计量比较中最常用的展开式，也是理解”为什么有偏估计量有时更好”的理论基础。

[!proof]- 📐 深度推导：矩估计量的相合性与渐近正态性

相合性

以单参数情形为例。设矩估计量 $\hat\theta_n=h(\overline{X})$ ，其中 $h$ 是连续函数且 $E(X)=\mu(\theta)$ 。

由大数定律： $\overline{X}\xrightarrow{P}\mu(\theta)$ 。

由连续映射定理（Slutsky 定理的推论）：若 $h$ 连续，则
$\hat\theta_n=h(\overline{X})\xrightarrow{P}h(\mu(\theta))=\theta.$
因此 $\hat\theta_n$ 是 $\theta$ 的相合估计量。

这个证明之所以成立，依赖两个条件：

$\overline{X}$ 的相合性（大数定律保证）；

$h$ 的连续性（保证极限可以通过连续函数）。

渐近正态性

由中心极限定理：
$\sqrt{n}(\overline{X}-\mu(\theta))\xrightarrow{d}N(0,\sigma^2).$
若 $h$ 可微且 $h'(\mu(\theta))\neq 0$ ，则由 Delta method：
$\sqrt{n}\bigl(h(\overline{X})-h(\mu(\theta))\bigr)\xrightarrow{d} N\!\left(0,\,[h'(\mu(\theta))]^2\sigma^2\right).$
因此：
$\hat\theta_n\approx AN\!\left(\theta,\frac{[h'(\mu(\theta))]^2\sigma^2}{n}\right).$
为什么要关注渐近分布？ 因为它告诉我们两件事：

矩估计量在大样本下近似正态，这意味着我们可以构造近似置信区间；

渐近方差依赖于 $h'$ 和 $\sigma^2$ ，这提示我们：不同的矩选择（不同的 $h$ 函数）会导致不同的渐近效率。

[!proof]- 📐 深度推导： $S_n^2$ 与 $S^2$ 的 MSE 比较（正态总体下）

设 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ 。

已知：
$\frac{nS_n^2}{\sigma^2}=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1).$
记 $K=\frac{nS_n^2}{\sigma^2}\sim\chi^2(n-1)$ ，则 $E(K)=n-1$ ， $\operatorname{Var}(K)=2(n-1)$ 。

对于 $S_n^2$ （有偏）：
$E(S_n^2)=E\left(\frac{\sigma^2}{n}K\right)=\frac{\sigma^2}{n}(n-1)=\frac{n-1}{n}\sigma^2,$ $\operatorname{Var}(S_n^2)=\operatorname{Var}\left(\frac{\sigma^2}{n}K\right)=\frac{\sigma^4}{n^2}\cdot 2(n-1)=\frac{2(n-1)}{n^2}\sigma^4.$
偏差 $b=E(S_n^2)-\sigma^2=-\frac{\sigma^2}{n}$ 。因此
$\operatorname{MSE}(S_n^2)=\frac{2(n-1)}{n^2}\sigma^4+\frac{\sigma^4}{n^2}=\frac{2n-1}{n^2}\sigma^4.$
对于 $S^2$ （无偏）：
$E(S^2)=\sigma^2,\qquad \operatorname{Var}(S^2)=\frac{2\sigma^4}{n-1}.$
因为无偏，MSE 就是方差：
$\operatorname{MSE}(S^2)=\frac{2\sigma^4}{n-1}.$
比较：
$\frac{\operatorname{MSE}(S_n^2)}{\operatorname{MSE}(S^2)}=\frac{(2n-1)/(n^2)}{2/(n-1)}=\frac{(2n-1)(n-1)}{2n^2}.$
例如 $n=5$ 时比值为 $0.9$ ； $n=10$ 时为 $0.855$ ； $n\to\infty$ 时趋近于 $1$ 。

结论： $S_n^2$ 的 MSE 小于 $S^2$ 的 MSE，且在小样本下差异更显著。但 $S^2$ 是无偏的， $S_n^2$ 是有偏的。两者的取舍取决于你对”无偏”和”小 MSE”的偏好。

七、例题与变式

1. 标准题：指数分布的矩估计

**题型：**构造题

题目：

设 $X_1,\dots,X_n\sim E(\lambda)$ ，求 $\lambda$ 的矩估计量，并讨论其无偏性和相合性。

解题思路（先理顺这三步）：

**先判断统计任务：**这是单参数矩估计题。指数分布只有一个参数，用一个矩方程就够了。
**选择矩方程：**指数分布的一阶矩最简单 $EX=1/\lambda$ 。
**替换并求解：**把总体矩换成样本矩。

解答：

指数分布满足 $EX=\frac{1}{\lambda}$ 。用样本均值替代总体均值：

\overline{X}=\frac{1}{\lambda}\quad\Longrightarrow\quad \hat\lambda_{\text{MM}}=\frac{1}{\overline{X}}.

无偏性讨论： $\overline{X}\sim\Gamma(n,n\lambda)$ ，所以 $E(1/\overline{X})\neq\lambda$ 。实际上可以计算 $E(1/\overline{X})=\frac{n\lambda}{n-1}$ （推导需要用到 Gamma 分布的性质），因此 $\hat\lambda_{\text{MM}}$ 是有偏的。

相合性讨论： 由大数定律 $\overline{X}\xrightarrow{P}1/\lambda$ 。函数 $h(x)=1/x$ 在 $x>0$ 处连续，由连续映射定理得 $\hat\lambda_{\text{MM}}\xrightarrow{P}\lambda$ ，因此相合。

常见坑点提醒：

不要因为 $E(1/\overline{X})\neq 1/E(\overline{X})$ 就说矩估计法不对。矩估计法”替换”的是样本矩和总体矩之间的关系，不是期望的传递性。
当 $\overline{X}$ 非常接近 0 时， $\hat\lambda_{\text{MM}}$ 会变得非常大。这意味着在有限样本下， $\hat\lambda_{\text{MM}}$ 可能不稳定（方差大）。

2. 标准题：均匀分布的矩估计

**题型：**构造题

题目：

设 $X_1,\dots,X_n\sim U(a,b)$ ，求 $a,b$ 的矩估计量。

解题思路：

**先判断统计任务：**这是双参数矩估计题，需要用两个矩方程。
**选择矩方程：**均匀分布的一阶矩和二阶中心矩表达式都很简洁。
**联立求解：**把两个方程联立起来解出 $a$ 和 $b$ 。

解答：

EX=\frac{a+b}{2},\qquad\operatorname{Var}(X)=\frac{(b-a)^2}{12}.

用 $\overline{X}$ 和 $S_n^2=\frac1n\sum(X_i-\overline{X})^2$ 替换：

\overline{X}=\frac{a+b}{2},\qquad S_n^2=\frac{(b-a)^2}{12}.

解方程组：

\hat a_{\text{MM}}=\overline{X}-\sqrt{3S_n^2},\qquad \hat b_{\text{MM}}=\overline{X}+\sqrt{3S_n^2}.

常见坑点提醒：

矩估计用 $S_n^2$ （除以 $n$ ），不是 $S^2$ （除以 $n-1$ ）。因为矩估计法要求”用样本矩替换总体矩”，而样本二阶中心矩定义为 $\frac1n\sum(X_i-\overline{X})^2$ 。
当 $S_n^2$ 很大时，可能出现 $\hat a_{\text{MM}} < X_{(1)}$ 或 $\hat b_{\text{MM}} > X_{(n)}$ 的情况，这并不违反矩估计的定义——矩估计并不保证估计结果落在样本范围内。

3. 变式题

**变式一：**把估计对象换成参数函数 $g(\theta)$ 。例如，指数分布 $E(\lambda)$ 下估计 $g(\lambda)=1/\lambda$ （即总体均值）。此时 $\hat g_{\text{MM}}=\overline{X}$ ，且是无偏的。

**变式二：**用不同的矩方程求解同一模型。例如，对于 $U(a,b)$ ，也可以使用一阶矩和一阶绝对矩 $E|X|$ ，但通常不如上面的组合简便。

**变式三：**比较两个估计量的 MSE。设 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ ，比较 $\overline{X}$ 和样本中位数 $\tilde{m}$ 作为 $\mu$ 的估计量的 MSE。 $\overline{X}$ 的 MSE 是 $\sigma^2/n$ ，而 $\tilde{m}$ 的渐近 MSE 是 $\pi\sigma^2/(2n)$ ——约大 57%。这就是为什么正态总体下样本均值优于样本中位数。

4. 题型提醒

[!tip]+ 做题顺序：点估计类题目的通用流程

先看参数个数，决定需要几个矩方程。一般需要 $k$ 个方程解 $k$ 个参数。

优先选最容易写、最容易解的高阶矩。通常一阶矩和二阶矩（或二阶中心矩）就够用。

求出估计量后，别忘了检查它的基本性质：是否无偏？是否相合？MSE 表达式是什么？

如果题目要求比较，就用 MSE：先算每个估计量的偏差和方差，再代入 MSE 分解公式。

注意矩估计和极大似然估计的区别：矩估计不一定唯一，极大似然估计通常唯一（在正则条件下）。矩估计的计算简单但效率可能较低。

对比辨析

[!note]+ 对比辨析：MSE vs 方差

维度方差 $\operatorname{Var}(\hat\theta)$ MSE
考虑偏差？否（只考虑围绕期望的波动）是（考虑偏离真值的总误差）
对无偏估计量 MSE = 方差 MSE = 方差
对有偏估计量无法反映系统偏移方差 + 偏差平方 = 总评分
适合场景只在无偏类中比较允许有偏估计量参与时的综合比较

最常见的坑：比较两个有偏估计量时只比较方差而忽略偏差。例如 $S_n^2$ 的方差小于 $S^2$ ，但如果只看这一点就认为 $S_n^2$ 更好，那就忽略了它的偏差。要公平比较必须用 MSE。

维度	方差 $\operatorname{Var}(\hat\theta)$	MSE
考虑偏差？	否（只考虑围绕期望的波动）	是（考虑偏离真值的总误差）
对无偏估计量	MSE = 方差	MSE = 方差
对有偏估计量	无法反映系统偏移	方差 + 偏差平方 = 总评分
适合场景	只在无偏类中比较	允许有偏估计量参与时的综合比较

[!note]+ 对比辨析：矩估计（MM） vs 极大似然估计（MLE）

维度矩估计（MM）极大似然估计（MLE）
核心思想用样本矩替换总体矩最大化似然函数
计算难度通常简单（解代数方程）可能复杂（需要数值优化）
是否需要分布具体形式只需知道矩的表达式需要完整的密度/概率函数
小样本性质通常有偏正则条件下渐近无偏
大样本效率不一定最优渐近有效（达到 Cramér-Rao 下界）
参数变换不变性不保持（ $h(\hat\theta_{\text{MM}})\neq \widehat{h(\theta)}_{\text{MM}}$ 一般）保持（MLE 的变换不变性）
典型使用场景第一次见到模型时快速得到估计追求最优效率时

最常见的坑：把矩估计和极大似然估计混为一谈。矩估计只是一个”快速构造法”，它不追求任何最优性；而 MLE 在正则条件下有明确的最优性（渐近有效）。矩估计的优势在于计算简单，劣势在于效率可能较低。

维度	矩估计（MM）	极大似然估计（MLE）
核心思想	用样本矩替换总体矩	最大化似然函数
计算难度	通常简单（解代数方程）	可能复杂（需要数值优化）
是否需要分布具体形式	只需知道矩的表达式	需要完整的密度/概率函数
小样本性质	通常有偏	正则条件下渐近无偏
大样本效率	不一定最优	渐近有效（达到 Cramér-Rao 下界）
参数变换不变性	不保持（ $h(\hat\theta_{\text{MM}})\neq \widehat{h(\theta)}_{\text{MM}}$ 一般）	保持（MLE 的变换不变性）
典型使用场景	第一次见到模型时快速得到估计	追求最优效率时

八、章节连接

**这一讲建立在哪些知识之上：**统计量、样本矩、分布族、Gamma/指数分布等常见模型、大数定律与中心极限定理（一至三讲）、充分统计量（第四讲）。
这一讲为后面哪些内容做准备：UMVUE（下一讲将使用本讲的无偏性和 MSE 概念，系统寻找最优无偏估计量）、Rao-Blackwell 定理（在充分统计量上条件化来改进估计量）、Cramér-Rao 下界（给出无偏估计量的方差下界）。
这一讲在整门课中的功能：先给出估计量的”基本构造法”（矩估计）和”基本评价法”（无偏性、MSE、相合性），为后续”寻找最优估计量”提供候选对象和比较标准。

九、复习整理

[!summary]+ 本讲小结

**研究的问题：**如何构造参数估计量并评价其好坏。

**使用的模型：**参数模型与 i.i.d. 样本。

核心统计量： $\hat\theta$ 、样本矩 $a_{n,k}$ 、中心样本矩 $m_{n,k}$ 。

关键结论：

无偏性： $E(\hat\theta)=\theta$ ，保证平均方向正确。

MSE 分解： $\operatorname{MSE}=\operatorname{Var}+(\text{bias})^2$ ，统一评价有偏和无偏估计。

相合性： $\hat\theta_n\xrightarrow{P}\theta$ ，大样本下保证收敛。

矩估计法：替换 + 求解三步走，通常最先能做出来。

估计方程：矩估计的推广，适合更一般的模型。

**最重要的条件：**矩存在（矩估计）、二阶矩存在（MSE 分解）、 $n\to\infty$ （相合性与渐近正态性）。

**本讲最终服务什么推断任务：**为后续寻找”最优无偏估计量”（UMVUE）提供候选估计量和比较标准。

高频误套

[!warning]+ 常见错误

把估计量和估计值混写。 估计量是随机变量，对它取期望有意义；估计值是具体数字，不能取期望。写证明时特别容易把 $\hat\theta$ 和 $\hat\theta(x)$ 搞混。

只看无偏性，不看方差或 MSE。 无偏性保证方向正确但不保证稳定。一个方差很大的无偏估计量在实际中可能毫无用处。

矩估计方程写错总体矩与样本矩的对应关系。 比如用 $S^2$ （除以 $n-1$ ）去替换 $\operatorname{Var}(X)$ ——矩估计里用的是 $S_n^2$ （除以 $n$ ）。

把大样本相合或渐近正态当成有限样本精确性质。 相合和渐近正态是 $n\to\infty$ 的极限性质， $n=30$ 时近似程度好不好取决于具体分布。

在比较有偏估计量时只用方差而忽略偏差。 MSE 才是公平的比较指标。

条件卡

结论： $\hat\theta$ 无偏。 **成立条件：**对所有 $\theta\in\Theta$ 有 $E_\theta(\hat\theta)=\theta$ 。 **不能用在：**只在某个特定参数值处成立时（如只证了 $E_{\theta_0}(\hat\theta)=\theta_0$ 就说”无偏”）。 **常见误套场景：**证明了 $E(\overline{X})=\mu$ 就说” $\overline{X}$ 是 $\mu$ 的无偏估计”——这个是对的，但有时学生会把”无偏估计量”和”一致估计量”混在一起说。
**结论：**MSE 可以分解为方差加偏差平方。 **成立条件：**估计量二阶矩存在（保证方差和 MSE 有意义）。 **不能用在：**估计量二阶矩不存在时直接使用分解式。例如 Cauchy 分布下的样本均值没有方差，不能用这个分解。 **常见误套场景：**比较有偏估计量时只看方差，不看偏差平方——把”方差”当成”MSE”。
**结论：**矩估计量可通过样本矩替换总体矩得到。 **成立条件：**对应总体矩存在且参数可解出。 **不能用在：**矩不存在（如 Cauchy 分布的均值）或方程不可解（如超越方程无解析解）时。 **常见误套场景：**模型参数比可用矩更多，却仍机械地列单个矩方程造成欠定；或者列的矩方程数多于参数数造成过定，没有处理方法。
**结论：**矩估计量相合。 **成立条件：**矩存在且矩估计量是样本矩的连续函数。 **不能用在：**矩不存在（如 Cauchy 的 $E(X)$ ）或函数不连续的情形。 **常见误套场景：**以为所有矩估计量都自动相合——实际上需要验证大数定律和连续性条件。
结论： $S_n^2$ 的 MSE 小于 $S^2$ 的 MSE（正态总体下）。 **成立条件：**正态总体，有限样本精确计算。 **不能用在：**非正态总体下这个 MSE 比较公式不成立（推导依赖 $\chi^2$ 分布）。 **常见误套场景：**在非正态总体下也直接用 MSE 比值公式。

十、习题区

1. 概念题

为什么无偏估计量不一定最好？ 请举一个例子说明”有偏但更稳定”的估计量在实际中可能比无偏估计量更受欢迎。

**提示：**想想 $S_n^2$ 和 $S^2$ 的比较。 $S_n^2$ 虽然有偏（低估 $\sigma^2$ ），但它的 MSE 更小。如果目标是最小化”估计值与真值的平方偏差”，有偏的 $S_n^2$ 才是更好的选择。
MSE 为什么比单纯方差更适合比较一般估计量？ 考虑一个极端有偏但方差为 0 的估计量，它的 MSE 是多少？这个例子说明了什么？

**提示：**极端例子 $\hat\theta\equiv 5$ （常数估计），方差为 0 但偏差很大，MSE 很大。这说明”只看方差”会完全忽略系统偏差。
为什么矩估计法常常很方便，但不一定最优？ 矩估计法有哪三个步骤？哪些因素可能导致矩估计量的效率不如其他方法（如 MLE）？

**提示：**矩估计法只用了矩信息，没有用到分布的全部结构。比如指数分布下，矩估计只用到 $E(X)$ ，没有用到似然函数的完整形状。MLE 利用了全部分布信息，所以通常更有效。

2. 标准题

（矩估计） 设 $X_1,\dots,X_n\sim E(\lambda)$ ，求 $\lambda$ 的矩估计量，并讨论其相合性。

**思路：**用一阶矩方程 $EX=1/\lambda$ ，替换为 $\overline{X}=1/\lambda$ ，解出 $\hat\lambda=1/\overline{X}$ 。相合性由大数定律和连续映射定理保证。
（矩估计） 设 $X_1,\dots,X_n\sim U(a,b)$ ，求 $(a,b)$ 的矩估计量。

**思路：**双参数需要两个矩方程。用 $EX$ 和 $\operatorname{Var}(X)$ 的方程联立求解。注意矩估计中用 $S_n^2$ 不是 $S^2$ 。
（MSE 分解） 写出 MSE 分解的公式，并说明它的含义。对于无偏估计量，MSE 等于什么？

思路： $\operatorname{MSE}=\operatorname{Var}+(\text{bias})^2$ 。无偏时偏差为 0，MSE 等于方差。这个分解告诉我们总误差由”随机波动”和”系统偏差”两部分构成。

3. 综合题

（ $S_n^2$ vs $S^2$ 的 MSE 比较） 设 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ 。
- (a) 计算 $S_n^2$ 的偏差、方差和 MSE。
- (b) 计算 $S^2$ 的方差和 MSE。
- (c) 哪个的 MSE 更小？这对我们在”无偏”和”小 MSE”之间做选择有什么启示？
**提示：**利用 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 和 $S_n^2=\frac{n-1}{n}S^2$ 。比较结果： $S_n^2$ 的 MSE 更小，虽然它有偏。这启示我们：如果目标是最小化 MSE，有时需要牺牲无偏性。
（双参数矩估计的应用） 设 $X_1,\dots,X_n\sim \operatorname{Beta}(a,b)$ ，其中 $a>0,b>0$ 。写出总体一阶矩和二阶矩的表达式（作为 $a,b$ 的函数），并说明如何构造 $(a,b)$ 的矩估计量。这种方法在什么情况下可能不适用？

**提示：**Beta 分布的均值为 $\frac{a}{a+b}$ ，方差为 $\frac{ab}{(a+b)^2(a+b+1)}$ 。联立这两个方程可以得到 $a,b$ 的矩估计量。在 $a,b$ 很小或样本量很小时，矩估计可能不稳定。
（矩估计的相合性与渐近正态性） 设 $X_1,\dots,X_n\sim \Gamma(\alpha,\lambda)$ ，其中 $\alpha$ 已知， $\lambda$ 未知。
- (a) 求 $\lambda$ 的矩估计量。
- (b) 证明这个矩估计量是相合的。
- (c) 写出它的渐近分布。
提示： $EX=\alpha/\lambda$ ，所以 $\hat\lambda_{\text{MM}}=\alpha/\overline{X}$ 。相合性由大数定律和连续性保证。渐近正态性由 CLT 和 Delta method 得到： $\sqrt{n}(\hat\lambda-\lambda)\xrightarrow{d}N(0,\lambda^2/\alpha)$ 。

4. 思考题

为什么 MSE 分解中交叉项一定为 0？ 请从数学角度严格证明，并解释这一结果在直觉上意味着什么。

**提示：**回忆推导过程：偏差 $b_\theta$ 是常数，提出期望后得到 $2b_\theta\cdot E[\hat g-E(\hat g)]=0$ 。直觉上，交叉项 $(\hat g-E(\hat g))\cdot b_\theta$ 的正负会相互抵消——因为 $\hat g$ 有时高于 $E(\hat g)$ ，有时低于 $E(\hat g)$ ，平均为零。
假设你是一个数据分析师，你的上司要求你”用最少的样本量得到最可靠的估计”。你会选择无偏估计量还是 MSE 更小的有偏估计量？为什么？

开放性问题，无标准答案。 需要考虑的因素：上司说”最可靠”是什么意思？是平均偏得少（无偏），还是单次误差小（小 MSE）？如果样本量很小，MSE 更小的有偏估计量可能更有优势；如果样本量很大，两者差异趋近于 0。

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句”用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题、对比辨析卡片。

第05讲 点估计的评价与矩估计

讲义信息

先看全局

本讲的叙事线

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查

三、核心概念

3.1 点估计与估计值：从样本到参数的第一步

3.2 无偏性与偏差：长期平均对准了吗？

3.3 均方误差：偏差和波动的总评分

3.4 相合性：样本量大了会越来越准吗？

四、统计量与分布

4.1 均方误差的分解：偏差-方差权衡的数学表达

4.2 矩估计法：通常最先能做出来的方法

4.2.1 动机：为什么需要矩估计？

4.2.2 典型例子

4.3 S2S^2S2 与 Sn2S_n^2Sn2​ 的 MSE 比较：一个经典的偏差-方差权衡

4.4 估计方程思想：矩估计的推广

五、主要结论

1. 分布结论

2. 判别或构造结论

3. 最优性或比较结论

关键公式释义

1. 无偏性

2. MSE 分解

3. 矩估计方程

4. 估计方程

六、推导与证明

1. 证明依赖

2. 证明思路概览

七、例题与变式

1. 标准题：指数分布的矩估计

2. 标准题：均匀分布的矩估计

3. 变式题

4. 题型提醒

对比辨析

八、章节连接

九、复习整理

高频误套

条件卡

十、习题区

1. 概念题

2. 标准题

3. 综合题

4. 思考题

附：排版约定

第05讲点估计的评价与矩估计

4.3 $S^2$ 与 $S_n^2$ 的 MSE 比较：一个经典的偏差-方差权衡