Skip to content
Lokkue's Notes
Go back

第02讲 抽样分布、正态样本与顺序统计量

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:统计推断为什么必须先研究统计量的分布。
  • 已知什么:总体模型 XFX\sim F,以及来自该总体的简单随机样本 X1,,XnX_1,\dots,X_n
  • 未知什么:样本均值、样本方差、顺序统计量等函数的分布。
  • 核心统计对象:X\overline{X}S2S^2X(1),,X(n)X_{(1)},\dots,X_{(n)}
  • 本讲结论最终服务什么推断任务:抽样分布是点估计、区间估计和假设检验的直接基础。

先看全局

上一讲我们建立了数理统计的基本语言:总体、样本、参数、统计量。我们把整门课的链条概括为

DataStatisticsInformation.\text{Data} \longrightarrow \text{Statistics} \longrightarrow \text{Information}.

但是,这条链条里有一个环节至今没有答案:统计量是一个随机变量,那么它到底服从什么分布? 如果我们连统计量的分布都不知道,就无从判断一个估计量是否靠谱、一个检验是否有效——因为我们不知道这个统计量在重复抽样下会如何摆动。

这一讲的核心任务,就是回答一个问题:

既然参数本身不是随机的,那统计推断到底在研究谁的波动?

答案是:研究统计量的波动。 因为真正会随着样本变化而变化的,不是 μ,σ2,p\mu,\sigma^2,p 这些参数,而是由样本构造出来的

X,S2,T(X1,,Xn)\overline X,\quad S^2,\quad T(X_1,\dots,X_n)

这些量。后面所有的点估计、区间估计、假设检验,本质上都必须先解决一个问题:这个统计量服从什么分布? 这个问题就叫抽样分布问题

本讲的叙事线

为了让读者不被淹没在一堆公式里,这一讲沿着一条清晰的叙事线展开:

  1. 为什么需要抽样分布? —— 从上一讲的统计量定义过渡到分布问题,建立抽样分布的概念。
  2. 最简单的抽样分布:样本均值的期望与方差。 —— 在不依赖任何具体总体模型的前提下,先看看我们能知道什么。
  3. 正态总体下的”三件套”:精确分布登场。 —— 加入正态假设后,样本均值与样本方差的分布变得完全可写,这是本讲最核心的结论。
  4. 顺序统计量:另一种看待样本的方式。 —— 当我们需要研究最小值、最大值、中位数时,原始样本不够用,需要排序后的对象。
  5. 从有限样本走向大样本。 —— 样本分位数的渐近正态性表明,即使精确分布不可写,大样本下仍有近似工具。

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

在本讲的讨论中,下面几个概念会反复出现,务必在潜意识里把它们区别清楚:

[!note]+ 对比辨析:总体分布 vs 抽样分布

维度总体分布抽样分布
对象原始随机变量 XX统计量 T(X1,,Xn)T(X_1,\dots,X_n)
是否随机XX 是随机的TT 也是随机的(因样本是随机的)
是否已知未知(我们需要推断它)有时可以精确推导,有时只能近似
依赖因素只依赖总体本身同时依赖总体分布和样本量 nn
举例XN(μ,σ2)X\sim N(\mu,\sigma^2)XN(μ,σ2/n)\overline{X}\sim N(\mu,\sigma^2/n)

最常见的初学者错误,就是把”样本来自正态总体”和”样本均值服从正态分布”当成同一件事。前者是总体分布,后者是抽样分布,二者之间需要推导

3. 模型前提检查

[!warning]+ 条件先检查

  • 抽样分布的定义只要求统计量由样本构造,但具体公式通常依赖总体模型。
  • X\overline{X} 的一般性质只需一阶二阶矩存在。
  • X\overline{X}S2S^2 的精确分布及独立性依赖正态总体。
  • 顺序统计量的一般密度公式通常默认总体是连续型分布。
  • 样本分位数的极限性质是渐近结论,使用时要分清有限样本和大样本。

三、核心概念

3.1 抽样分布:统计推断的入口

[!definition]+ 抽样分布 对统计量

T=T(X1,,Xn),T=T(X_1,\dots,X_n),

它在给定总体模型下的分布称为 TT 的抽样分布。

用途:抽样分布把”样本怎么波动”转化成”统计量怎么波动”,是统计推断的直接入口。

在进入数学公式之前,我们先建立对这个概念的直觉

思维实验:假设你知道某个总体的真实分布(比如标准正态),然后你从这个总体中反复抽取样本量为 10 的样本。每抽一次,你就计算一次样本均值 x\overline{x}。抽 10000 次,你就有了 10000 个 x\overline{x} 的值。把它们画成直方图——这个直方图的形状,就是在逼近 X\overline{X} 的抽样分布。

你马上会看到两个事实:

这就是抽样分布在用最朴素的语言告诉我们:统计量也有自己的规律。理解了这一点,后面所有”这个统计量服从什么分布”的问题就都有了落脚之地。

和相邻概念的区别:总体分布是 XX 的分布,抽样分布是 T(X1,,Xn)T(X_1,\dots,X_n) 的分布,两者不是一回事。总体分布是固定的但未知,抽样分布可以(在给定总体模型下)被推导出来。

题目里看到哪些信号会想到它:一旦题目问”统计量的分布是什么""能否标准化""能否构造检验统计量”,就进入抽样分布问题。

3.2 样本均值与样本方差的回顾

对简单随机样本 X1,,XnX_1,\dots,X_n,定义

X=1ni=1nXi,S2=1n1i=1n(XiX)2.\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i, \qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2.

这两个量在前一讲已经出现过,但当时我们只是定义了它们,没有探究它们的分布。本讲的重点就是:在什么条件下,我们能把这两个量的分布精确地写出来?

注意 S2S^2 定义中的分母是 n1n-1 而非 nn。这不是拍脑袋决定的,背后有一个深刻的原因——这个原因我们等会儿就会看到。

3.3 顺序统计量:排序后的新变量

[!definition]+ 顺序统计量 将样本 X1,,XnX_1,\dots,X_n 从小到大排列得

X(1)X(2)X(n),X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)},

则称 X(1),,X(n)X_{(1)},\dots,X_{(n)} 为顺序统计量。

用途:用于研究最小值、最大值、中位数、样本分位数和样本极差等问题。

直觉理解:原始样本 X1,,XnX_1,\dots,X_n 是”无序”的——我们只看到一组数,但不知道谁大谁小。一旦排序,我们就看清了样本的位置结构:最小值在哪、中间值在哪、最大值在哪。这在研究极值问题(如最大洪水水位、最小寿命)时是必不可少的。

最重要的一条警示:排序之后的变量一般不再独立。原始样本是 i.i.d.,但一旦排序,变量之间就被强行加上了大小约束:

X(1)X(2)X(n).X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}.

这意味着 X(2)X_{(2)} 的取值被 X(1)X_{(1)}X(3)X_{(3)} “夹”住了——它们不再是独立的。所以顺序统计量问题里,最危险的误区就是把它们还当作”原来那组独立样本”来处理。

四、统计量与分布

4.1 不依赖总体模型:样本均值与样本方差的基本性质

在研究”分布”之前,我们先问一个更温和的问题:在不假设任何具体总体分布的情况下,我们能知道 X\overline{X}S2S^2 的什么性质?

[!theorem]+ 一般样本下样本均值与样本方差的基本性质 若 EX=μEX=\muVar(X)=σ2<\operatorname{Var}(X)=\sigma^2<\infty,则

E(X)=μ,Var(X)=σ2n.E(\overline{X})=\mu, \qquad \operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}.

同时

E(S2)=σ2.E(S^2)=\sigma^2.

用途:说明 X\overline{X} 是总体均值的无偏估计,S2S^2 是总体方差的无偏估计。

命题的动机与意义

这个定理告诉我们三件事,而且这三件事不依赖任何总体分布的假设(只需要总体均值和总体方差存在就行):

  1. E(X)=μE(\overline{X})=\mu:样本均值平均上能对准总体均值。这不是偶然的——无论你抽多少次样本,样本均值的期望总是正好等于你真正想知道的那个 μ\mu。这是后面”无偏性”概念的最直接体现。

  2. Var(X)=σ2/n\operatorname{Var}(\overline{X})=\sigma^2/n:样本均值比单个样本稳定得多。单个样本的方差是 σ2\sigma^2,但 nn 个样本取了平均之后,方差缩小到原来的 1/n1/nn=100n=100 时,样本均值的波动幅度大约是单个样本的十分之一。这就是”大样本更可靠”的数学依据。

  3. E(S2)=σ2E(S^2)=\sigma^2:样本方差平均上能对准总体方差。但注意,S2S^2 的分母必须是 n1n-1 而不是 nn,才能做到这一点。如果分母用 nn,则期望会是 n1nσ2\frac{n-1}{n}\sigma^2,比 σ2\sigma^2 略小——这就解释了为什么 S2S^2 定义为除以 n1n-1

这三个性质虽然”只有”期望和方差层面的信息,但它们已经足够重要。它们告诉我们:这些统计量值得拿来做推断——因为它们至少在平均意义上是对的。

4.2 正态总体下:三大核心结论

上面的结论非常好,但有一个问题:它只给了期望和方差,没有给完整的分布。而完整的分布,才是后面做区间估计和假设检验的基础。

那么,在什么条件下能写出完整分布呢?答案是:当总体是正态分布时

为什么要研究正态总体? 不是因为正态分布”最常用”就盲目去算,而是因为正态分布具有一种罕见的代数性质:正态随机变量的线性组合仍然是正态的。这个性质意味着,当我们把 nn 个正态样本组合成统计量时,很多统计量的分布可以精确地写出来。大多数其他分布族(比如指数分布、均匀分布)都没有这种”线性变换封闭”的美感。

[!theorem]+ 正态样本下的三大核心结论 若 X1,,XnX_1,\dots,X_n 来自正态总体 N(μ,σ2)N(\mu,\sigma^2),则

结论一:样本均值的分布

XN(μ,σ2n).\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right).

用途:这是均值推断的起点。

式子拆解与含义:

  • 左边 X\overline{X} 是样本均值——把 nn 个样本点平均后得到的统计量。
  • 右边 N(μ,σ2/n)N(\mu,\sigma^2/n) 是正态分布,中心是总体均值 μ\mu,方差是 σ2/n\sigma^2/n
  • 这整条式子在说:正态总体下,样本均值本身也是一个正态随机变量。它的中心对准总体均值(暗示”无偏”),而波动幅度随样本量增大而缩小(暗示”一致性”)。
  • 这个结论给了我们一个可直接操作的分布。如果你知道 μ\muσ2\sigma^2,你就能精确地说出 X\overline{X} 落在任何区间的概率——而这正是假设检验和区间估计的核心。

结论二:样本方差的标准化分布

(n1)S2σ2χ2(n1).\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1).

用途:这是方差推断以及 tt 分布构造的起点。

式子拆解与含义:

  • 左边不是 S2S^2 本身,而是 (n1)S2/σ2(n-1)S^2/\sigma^2。这里乘上 n1n-1 是为了抵消 S2S^2 定义中的分母;除以 σ2\sigma^2 是为了去量纲化,使结果成为一个”纯数字”。
  • n1n-1S2S^2 的定义中就出现了,现在又出现在 χ2\chi^2 的自由度上——这不是巧合。自由度 n1n-1 反映的是:我们用 X\overline{X} 代替了未知的 μ\mu 来计算离差,每用一次样本均值,就”消耗”了一个自由度。
  • 右边 χ2(n1)\chi^2(n-1) 是自由度为 n1n-1 的卡方分布。χ2\chi^2 分布的定义和性质将在下一讲详细展开,但这里可以先记住:χ2\chi^2 分布是一个定义在正半轴上的右偏分布,专门用来处理”平方和”这种量。
  • 这整条式子在说:正态样本下,样本方差的波动不是杂乱无章的,而是被 χ2\chi^2 分布精确控制。你能说出 S2S^2 在重复抽样下大概多大、大概多分散——这是方差推断的基础。

结论三:样本均值与样本方差的独立性

X 与 S2 独立.\overline{X}\ \text{与}\ S^2\ \text{独立}.

用途:这是构造 Student tt 统计量的关键。

式子拆解与含义:

  • “独立”这个词的分量极重。它意味着知道了 X\overline{X} 的取值,你对 S2S^2 该取什么值仍然一无所知——反之亦然。
  • 这条结论的深层含义是:在正态总体下,位置信息和波动信息被彻底拆开了。无论样本均值偏上还是偏下,样本方差都可以自由波动,两者互不牵制。
  • 大多数其他分布族(比如指数分布、Poisson 分布)的样本均值与样本方差是相关的。正态总体能做到独立,这就是为什么正态总体在经典统计推断中地位如此特殊。

[!note]+ 对比辨析:一般总体 vs 正态总体下的 X\overline{X}

维度一般总体(矩存在)正态总体
E(X)E(\overline{X})μ\muμ\mu
Var(X)\operatorname{Var}(\overline{X})σ2/n\sigma^2/nσ2/n\sigma^2/n
X\overline{X} 的精确分布一般不可写(依赖总体形状)N(μ,σ2/n)N(\mu,\sigma^2/n),精确可知
X\overline{X}S2S^2 的关系一般相关独立
S2S^2 标准化后的分布一般不可写χ2(n1)\chi^2(n-1),精确可知

这张表揭示了正态总体的核心优势:不仅统计量的期望和方差可写,连完整分布都能精确写出来。

4.3 三大结论之间的关系:一条链,不是三个散点

这三个结论必须当成一条链来理解,而不是三个散点:

  1. X\overline{X} 正态 → 让”均值推断”变成标准的正态分布问题。你可以标准化它、查正态表、构造置信区间。
  2. (n1)S2/σ2(n-1)S^2/\sigma^2 服从 χ2\chi^2 → 让”方差推断”有了精确分布。你可以对 σ2\sigma^2 做区间估计、做假设检验。
  3. X\overline{X}S2S^2 独立 → 允许你把上面两个独立的量拼成一个新的统计量: n(Xμ)S\frac{\sqrt{n}(\overline{X}-\mu)}{S} 分子来自 X\overline{X} 的正态性,分母来自 S2S^2χ2\chi^2 性质,而独立性保证了分子和分母可以各自在概率上独立运转。这个组合正是下一讲的 tt 分布的核心——当 σ\sigma 未知时,用样本标准差 SS 替代总体标准差 σ\sigma,得到的就不再是标准正态,而是尾部更厚的 tt 分布

把这条链吃透了,后续的 tt 检验、FF 检验、方差分析都会变成自然而然的事情。

4.4 顺序统计量的分布

4.4.1 动机:为什么需要顺序统计量的分布?

到目前为止,我们研究的都是 X\overline{X}S2S^2 这类”汇总型”统计量。但有一类问题,汇总型统计量帮不上忙:

这些问题的共同特征是:你不能用”平均值”来回答,因为你关心的正是极端的那些样本。这就是引入顺序统计量的动机:当你需要知道样本的位置结构(最小值、最大值、分位数)时,必须先把样本排序,然后研究排序后的随机变量的分布。

4.4.2 联合密度公式

[!theorem]+ 连续总体下顺序统计量的联合密度 若总体连续,密度为 ff,分布函数为 FF,则顺序统计量的联合密度为

g(y1,,yn)=n!f(y1)f(yn),y1yn.g(y_1,\dots,y_n)=n!\, f(y_1)\cdots f(y_n), \qquad y_1\le \cdots \le y_n.

用途:这是推导最小值、最大值、样本分位数分布的总公式。

含义解析

4.4.3 第 kk 个顺序统计量的边际分布

从联合密度出发,我们可以积分掉其他变量,得到单个顺序统计量的分布。

[!theorem]+ 第 kk 个顺序统计量的密度 若总体连续,密度为 ff,分布函数为 FF,则

fX(k)(y)=n!(k1)!(nk)!F(y)k1(1F(y))nkf(y).f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}\bigl(1-F(y)\bigr)^{\,n-k}f(y).

用途:统一处理中位数、分位数和样本秩次位置。

这个公式建议按**“计数思维”**来理解和记忆,而不是硬背。

直觉推导(计数思维):我们要研究”第 kk 个顺序统计量落在 yy 附近的一个小区间 [y,y+dy][y,\,y+dy] 里”的概率。要发生这个事件,样本中需要有:

现在的问题是:哪几个样本扮演这三类角色?答案是:从 nn 个样本中任选 k1k-1 个做左边的、1 个做中间的、其余做右边的,有

n!(k1)!1!(nk)!\frac{n!}{(k-1)!\,1!\,(n-k)!}

种分配方式。把这三部分乘起来,再除以 dydy 取极限,就得到上面的密度公式。

含义解析

两个重要特例

  1. 最小值k=1k=1):

    P(X(1)>y)=(1F(y))n,fX(1)(y)=n(1F(y))n1f(y).P(X_{(1)}>y)=(1-F(y))^n, \qquad f_{X_{(1)}}(y)=n(1-F(y))^{n-1}f(y).

    用途:研究样本最早发生时间、最小误差、下尾分位数。

    含义:最小值大于 yy,等价于所有 nn 个样本都大于 yy。每个样本大于 yy 的概率是 1F(y)1-F(y),由独立性得 (1F(y))n(1-F(y))^n

  2. 最大值k=nk=n):

    P(X(n)y)=F(y)n,fX(n)(y)=nF(y)n1f(y).P(X_{(n)}\le y)=F(y)^n, \qquad f_{X_{(n)}}(y)=nF(y)^{n-1}f(y).

    用途:研究极值、最大寿命、上尾风险。

    含义:最大值不超过 yy,等价于所有 nn 个样本都不超过 yy。每个样本不超过 yy 的概率是 F(y)F(y),由独立性得 F(y)nF(y)^n

[!tip]+ 做题策略:最值问题先写分布函数 对于最大值和最小值,先写分布函数 P(X(n)y)P(X_{(n)}\le y)P(X(1)>y)P(X_{(1)}>y),再求导得到密度——这通常比直接从密度公式出发更稳、更不容易出错。原因是:分布函数的表达式只用到了独立性和 F(y)F(y),结构极为简单。

4.4.4 顺序统计量在推论中的注意点

[!warning]+ 关键提醒

  • 顺序统计量排序后不再独立。把 X(1)X_{(1)}X(2)X_{(2)} 的联合密度写成 fX(1)(y1)fX(2)(y2)f_{X_{(1)}}(y_1)f_{X_{(2)}}(y_2)错误的。
  • 联合密度公式中的 n!n! 容易遗漏。它来自”全排列收缩到排序区域”的概率质量集中。
  • 离散总体下的顺序统计量公式需要改用概率函数,上面的连续密度公式不能直接套用。

4.5 样本分位数

4.5.1 从总体分位数到样本分位数

总体分位数是总体分布的一个特征:总体的 pp 分位数 ξp\xi_p 定义为满足

F(ξp0)pF(ξp)F(\xi_p-0)\le p\le F(\xi_p)

的数。它回答的问题是:“总体中不超过 ξp\xi_p 的比例恰好为 pp(或至少不小于 pp)”。

但在实际中,我们不知道 FF,所以不知道 ξp\xi_p。我们能做的,是用样本去构造一个统计量,让它”逼近” ξp\xi_p——这就是样本分位数

最典型的是样本中位数(p=0.5p=0.5):

m~={X((n+1)/2),n 为奇数,X(n/2)+X(n/2+1)2,n 为偶数.\tilde{m}= \begin{cases} X_{((n+1)/2)}, & n\ \text{为奇数},\\[4pt] \dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}, & n\ \text{为偶数}. \end{cases}

用途:样本中位数是一种稳健位置估计。当数据中有异常值(outlier)时,样本均值会被严重拉动,但样本中位数几乎不受影响——因为中位数只看排序位置,不看具体的数值大小。

4.5.2 样本分位数的渐近分布

样本中位数的精确分布在小样本下通常很复杂(需要用到顺序统计量的分布)。但在大样本下,有一个简洁而强大的结论。

为什么要研究渐近分布? 因为顺序统计量的精确分布虽然可写(见上一节),但涉及 Fk1(1F)nkF^{k-1}(1-F)^{n-k} 这种复杂的幂次组合,做区间估计时不方便操作。如果能证明它在样本量大时近似正态,那就可以借用正态分布的全部工具了。

[!theorem]+ 样本分位数的渐近正态性 若总体密度 ff 在总体分位数 ξp\xi_p 附近连续且 f(ξp)>0f(\xi_p)>0,则

n(mpξp)dN ⁣(0,p(1p)f(ξp)2).\sqrt{n}(m_p-\xi_p)\xrightarrow{d}N\!\left(0,\frac{p(1-p)}{f(\xi_p)^2}\right).

用途:说明样本分位数在大样本下也具有正态近似,从而可以做区间估计与近似检验。

含义解析

[!warning]+ 使用边界

  • 这是一个渐近结论nn\to\infty),不是有限样本下的精确分布。
  • 需要 f(ξp)>0f(\xi_p)>0——如果在分位点附近密度退化(比如密度为 0),则收敛速率会变慢,上述公式失效。
  • pp 靠近 0 或 1(极值分位数)时,渐近正态的效果会变差,通常需要更大的样本量才能用。

五、主要结论

1. 分布结论

[!theorem]+ 正态样本下均值与方差的分布 条件:

  • X1,,XnX_1,\dots,X_n 为 i.i.d. 样本;
  • 总体为 N(μ,σ2)N(\mu,\sigma^2)

结论:

XN(μ,σ2n),(n1)S2σ2χ2(n1),XS2.\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right), \qquad \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1), \qquad \overline{X}\perp S^2.

用途:后面所有 tt 区间和 tt 检验都建立在这里。

2. 判别或构造结论

[!theorem]+ 顺序统计量的一般密度公式 条件:

  • 样本来自连续总体;
  • 密度 ff 和分布函数 FF 存在。

结论:

fX(k)(y)=n!(k1)!(nk)!F(y)k1(1F(y))nkf(y).f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y).

用途:构造样本中位数、样本分位数和极差分布。

3. 不同统计量的角色比较

本讲的”比较”主要不是比较估计量优劣,而是比较不同统计量在推断中的角色:

统计量适合刻画典型用途
X\overline{X}总体位置(均值 μ\mu均值估计、均值检验
S2S^2总体离散程度(方差 σ2\sigma^2方差估计、方差检验
X(1)X_{(1)}总体下界最小寿命、最早故障时间
X(n)X_{(n)}总体上界最大负荷、极端风险
X(k)X_{(k)}总体分位数中位数、分位数位置估计
Rn=X(n)X(1)R_n=X_{(n)}-X_{(1)}样本离散范围极差图、过程控制

[!warning]+ 使用边界

  • X\overline{X}S2S^2 的独立性只在正态总体下精确成立。
  • 顺序统计量的一般密度公式默认总体连续;离散情形要改用概率函数。
  • 样本分位数的渐近正态性需要 f(ξp)>0f(\xi_p)>0,不能在分位点附近密度退化时硬套。
  • X\overline{X} 的精确正态性要求正态总体。在非正态总体下,只能用中心极限定理获得渐近正态。

关键公式释义

1. 样本均值的方差

Var(X)=σ2n\operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}

2. 正态样本下样本方差的分布

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

3. 样本均值与样本方差独立

XS2\overline{X}\perp S^2

4. 第 kk 个顺序统计量密度

fX(k)(y)=n!(k1)!(nk)!F(y)k1(1F(y))nkf(y)f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y)

5. 样本分位数的渐近方差

AVar(mp)=p(1p)nf(ξp)2\operatorname{AVar}(m_p)=\frac{p(1-p)}{n\,f(\xi_p)^2}

[!note]+ 对比辨析:μ\mu vs X\overline{X}

维度μ\mu(总体均值)X\overline{X}(样本均值)
属于哪一层总体层样本层 / 统计量层
是否随机否(固定未知常数)是(会随抽样变化)
是否有分布无(固定常数没有分布)有(即抽样分布)
能否被观测不能直接观测可以计算
在推断中的角色推断的目标推断的工具
记号惯例希腊字母(μ\mu拉丁字母 / 上划线(X\overline{X}

最常见的坑:把”已知 x=5.2\overline{x}=5.2“当成”已知 μ=5.2\mu=5.2“——前者只是一个样本实现,后者是总体的真实参数,两者不能混淆。

[!note]+ 对比辨析:FF(总体分布函数)vs FnF_n(经验分布函数)

维度F(x)F(x)Fn(x)F_n(x)
本质总体特征(理论概率)样本函数(经验频率)
是否随机否(固定函数)是(随样本变化)
是否已知未知可计算
函数类型可以是任何分布函数一定是阶梯函数(步数 n\le n
nn 的关系无关nn 增大趋近 FF(Glivenko-Cantelli)
典型用途定义参数(如 μ=xdF\mu=\int x dF非参数推断、Bootstrap 的基础

最常见的坑:把 Fn(x)F_n(x) 直接当成 F(x)F(x) 用而忘记声明”这是有限样本下的近似”。事实上,Fn(x)F_n(x) 只有在 nn\to\infty 时才会一致逼近 F(x)F(x)

六、推导与证明

1. 证明依赖

2. 证明思路

[!proof]- 📐 深度推导:(n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim \chi^2(n-1) 的证明

这是本讲最核心的推导,也是后续 tt 分布、FF 分布构造的基石。

第一步:将离差平方和写成向量形式。

X=(X1,,Xn)TX=(X_1,\dots,X_n)^T。令 Yi=(Xiμ)/σN(0,1)Y_i=(X_i-\mu)/\sigma\sim N(0,1),则 Y1,,YnY_1,\dots,Y_n 是 i.i.d. N(0,1)N(0,1)。我们的目标是研究

(n1)S2σ2=1σ2i=1n(XiX)2=i=1n(YiY)2.\frac{(n-1)S^2}{\sigma^2} =\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\overline{X})^2 =\sum_{i=1}^n (Y_i-\overline{Y})^2.

也就是说,我们需要证明 nnN(0,1)N(0,1) 围绕其样本均值的离差平方和服从 χ2(n1)\chi^2(n-1)

第二步(关键一步):为什么要用正交变换?

如果我们能找到一个”坐标变换”,把原始向量 YY 旋转到一组新的正交基上,使得其中一个基方向正好对应”均值方向”,其余 n1n-1 个基方向对应”残差方向”,那么:

  • 均值方向的坐标就只涉及 Y\overline{Y}
  • 残差方向的坐标就只涉及 YiYY_i-\overline{Y}
  • 而正态向量的正交变换仍然是独立正态的!

这正是正交变换的妙处:它把看似”纠缠”的 Y\overline{Y}YiYY_i-\overline{Y} 拆到了不同的坐标轴上。

第三步:构造正交矩阵。

n×nn\times n 正交矩阵 AA,使其第一行为 (1n,1n,,1n)(\frac{1}{\sqrt{n}},\frac{1}{\sqrt{n}},\dots,\frac{1}{\sqrt{n}})(单位向量,指向”均值方向”),其余 n1n-1 行是任意与第一行正交的单位向量。

Z=AYZ=AY。由于 AA 是正交的且 YY 的各分量独立 N(0,1)N(0,1),可知 ZZ 的各分量也独立 N(0,1)N(0,1)

此时:

Z1=1ni=1nYi=nY.Z_1 = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i = \sqrt{n}\,\overline{Y}.

而由正交变换保持长度不变:

i=1nZi2=i=1nYi2.\sum_{i=1}^n Z_i^2 = \sum_{i=1}^n Y_i^2.

第四步:分离出残差平方和。

从上式可得:

i=1n(YiY)2=i=1nYi2nY2=i=1nZi2Z12=i=2nZi2.\sum_{i=1}^n (Y_i-\overline{Y})^2 = \sum_{i=1}^n Y_i^2 - n\overline{Y}^2 = \sum_{i=1}^n Z_i^2 - Z_1^2 = \sum_{i=2}^n Z_i^2.

即残差平方和恰好等于 n1n-1 个独立标准正态的平方和。

χ2(n1)\chi^2(n-1) 的定义正是 n1n-1 个独立 N(0,1)N(0,1) 的平方和!

第五步:为什么自由度是 n1n-1 而不是 nn

因为用 Y\overline{Y}(即 Z1Z_1)消耗了一个自由度。直观上,虽然 (YiY)2\sum(Y_i-\overline{Y})^2 看起来有 nn 项,但它们之间有一个约束 (YiY)=0\sum(Y_i-\overline{Y})=0,所以真正”自由”的只有 n1n-1 个量。正交变换精确地把这 n1n-1 个自由度对应的独立 N(0,1)N(0,1) 分离了出来。

用途:这是把正态样本的方差问题转化为 χ2\chi^2 问题的标准路线。理解了这一步,后面的 ttFF 构造就是水到渠成的事。

[!proof]- 📐 深度推导:X\overline{X}S2S^2 独立性的证明思路

用上面的正交变换记号:

  • X\overline{X} 只依赖于 Z1Z_1(均值方向);
  • S2S^2 只依赖于 Z2,,ZnZ_2,\dots,Z_n(残差方向)。

Z1,Z2,,ZnZ_1,Z_2,\dots,Z_n 是相互独立的标准正态变量——因为正交变换将独立正态映射为独立正态。

因此,X\overline{X}S2S^2 分别由互不相交的独立正态分量构成,故二者独立。

为什么这条结论如此特殊? 因为离开了正态分布,即使你对数据做了同样的正交变换,变换后的分量也不再是独立的(它们的分布共同依赖于原始数据的形状)。所以 X\overline{X}S2S^2 的这种”结构上”的独立,是正态分布代数性质的深刻体现。

[!proof]- 📐 深度推导:第 kk 个顺序统计量密度的严格推导

对任意 yy 和小的 Δy>0\Delta y>0,考虑事件 y<X(k)y+Δyy<X_{(k)}\le y+\Delta y。要发生这个事件,样本中需要:

  • 恰有 k1k-1 个样本点不超过 yy:每个样本不超过 yy 的概率是 F(y)F(y),所以这部分贡献 F(y)k1F(y)^{k-1}
  • 恰有 1 个样本点落在 (y,y+Δy](y,\,y+\Delta y]:概率近似为 F(y+Δy)F(y)f(y)ΔyF(y+\Delta y)-F(y)\approx f(y)\Delta y
  • 其余 nkn-k 个样本点大于 y+Δyy+\Delta y:每个超过的概率是 1F(y+Δy)1F(y)1-F(y+\Delta y)\approx 1-F(y)

三组样本的角色分配方案数为:

n!(k1)!1!(nk)!.\frac{n!}{(k-1)!\,1!\,(n-k)!}.

因此:

P(y<X(k)y+Δy)n!(k1)!(nk)!F(y)k1f(y)Δy(1F(y+Δy))nk.P(y<X_{(k)}\le y+\Delta y)\approx \frac{n!}{(k-1)!(n-k)!}\, F(y)^{k-1}\,f(y)\Delta y\,(1-F(y+\Delta y))^{n-k}.

两边除以 Δy\Delta y,再令 Δy0\Delta y\to 0,即得密度的表达式。

这个推导的精妙之处在于:我们根本不涉及复杂的多元积分,只用组合计数 + 概率乘法就得到了结果。这也是统计学中”计数思维”的一个典范。

用途:这是处理顺序统计量最常用的推导模板,适用于任何连续总体。

七、例题与变式

1. 标准题

**题型:**分布题

题目:

X1,,XnX_1,\dots,X_n 来自连续总体,分布函数为 FF,密度为 ff。求样本最大值 X(n)X_{(n)} 的分布。

解题思路(做题前先理顺这三步):

  1. **先判断统计任务:**这是顺序统计量分布题。目标是 X(n)X_{(n)},是最大值。
  2. **选择切入点:**对于最大值/最小值,先写分布函数通常比直接写密度更稳——因为分布函数的表达式极为简洁,完全不用涉及密度。
  3. 用独立性:“最大值 y\le y“等价于”每个样本都 y\le y“。由独立同分布,概率就是 F(y)nF(y)^n

解答:

P(X(n)y)=P(X1y,X2y,,Xny)=F(y)n.P(X_{(n)}\le y)=P(X_1\le y,\,X_2\le y,\dots,X_n\le y)=F(y)^n.

yy 求导得密度:

fX(n)(y)=ddyF(y)n=nF(y)n1f(y).f_{X_{(n)}}(y)=\frac{d}{dy}F(y)^n=nF(y)^{n-1}f(y).

答案解读F(y)n1F(y)^{n-1} 反映了”要想成为最大值,需要其余 n1n-1 个样本都不超过自己”的约束。当 nn 很大时,F(y)n1F(y)^{n-1} 使得密度的峰值被推向 F(y)F(y) 接近 1 的区域——最大值密度的主体集中在分布的右尾。

**用途:**这是极值统计量分布最基础的模板。

2. 变式题

变式一:把 X(n)X_{(n)} 换成 X(1)X_{(1)}

思路完全相同,只是方向反过来:

P(X(1)>y)=P(X1>y,,Xn>y)=(1F(y))n,P(X_{(1)}>y)=P(X_1>y,\dots,X_n>y)=(1-F(y))^n, fX(1)(y)=ddy(1F(y))n=n(1F(y))n1f(y).f_{X_{(1)}}(y)=-\frac{d}{dy}(1-F(y))^n=n(1-F(y))^{n-1}f(y).

变式二:把最大值换成第 kk 个顺序统计量。

直接套用一般公式:

fX(k)(y)=n!(k1)!(nk)!F(y)k1(1F(y))nkf(y).f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}F(y)^{k-1}(1-F(y))^{n-k}f(y).

变式三:若总体改成 U(0,1)U(0,1)F(y)=yF(y)=yf(y)=1f(y)=1(当 0<y<10<y<1)。

代入得:

fX(k)(y)=n!(k1)!(nk)!yk1(1y)nk,0<y<1.f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,y^{k-1}(1-y)^{n-k},\qquad 0<y<1.

这正好是 Beta 分布 Beta(k,nk+1)\text{Beta}(k,\,n-k+1) 的密度!这说明 U(0,1)U(0,1) 样本的顺序统计量服从 Beta 分布——这个联系在下一讲会进一步展开。

3. 标准题:正态样本下的分布识别

题目:

X1,,X16i.i.d.N(10,4)X_1,\dots,X_{16}\stackrel{\text{i.i.d.}}{\sim} N(10,4)。写出 X\overline{X} 的分布,并计算 P(9<X<11)P(9<\overline{X}<11)

解题思路(先理顺再动笔):

  1. **识别模型:**正态总体,μ=10\mu=10σ2=4\sigma^2=4(所以 σ=2\sigma=2),n=16n=16
  2. 调用三大核心结论之一:XN(μ,σ2/n)=N(10,4/16)=N(10,0.25)\overline{X}\sim N(\mu,\sigma^2/n)=N(10,4/16)=N(10,0.25)
  3. 标准化:Z=X100.25=X100.5N(0,1)Z=\frac{\overline{X}-10}{\sqrt{0.25}}=\frac{\overline{X}-10}{0.5}\sim N(0,1)
  4. 用标准正态表: P(9<X<11)=P ⁣(9100.5<Z<11100.5)=P(2<Z<2).P(9<\overline{X}<11)=P\!\left(\frac{9-10}{0.5}<Z<\frac{11-10}{0.5}\right)=P(-2<Z<2).

解答:

XN(10,0.25)\overline{X}\sim N(10,0.25),标准差 0.25=0.5\sqrt{0.25}=0.5

P(9<X<11)=Φ(2)Φ(2)=2Φ(2)10.9544.P(9<\overline{X}<11)=\Phi(2)-\Phi(-2)=2\Phi(2)-1\approx 0.9544.

**含义:**虽然单个样本 XiN(10,4)X_i\sim N(10,4) 落在 (9,11)(9,11) 内的概率只有 2Φ(0.5)10.3832\Phi(0.5)-1\approx 0.383,但 16 个样本取平均之后,这个概率飙升到约 95.44%。这就是”取平均能大幅度降噪”的直观体现。

常见坑点提醒:

4. 题型提醒

[!tip]+ 做题顺序:抽样分布类题目的通用流程

  1. 先辨别总体是否正态。 正态 → 可以使用精确分布结论;非正态 → 考虑渐近方法或非参数方法。
  2. 识别统计量类型。 一次看到 X\overline{X} → 正态(若总体正态);看到 S2S^2χ2\chi^2(若总体正态);看到 X\overline{X}S2S^2 同时出现 → 注意独立性,可能导向 tt 分布。
  3. 遇到最值先写分布函数,通常比直接套用密度公式更稳、更不容易出错。
  4. 标准化后再查表或调用分布。 X\overline{X} 标准化为 N(0,1)N(0,1)S2S^2 标准化为 χ2\chi^2
  5. 分清”精确分布”与”渐近分布”。 有限样本下用精确分布,大样本下可以用渐近结论近似。

八、章节连接

九、复习整理

[!summary]+ 本讲小结

  • 研究的问题:统计量到底服从什么分布。
  • 使用的模型:简单随机样本;正态总体是精确结论的核心模型。
  • 核心统计量:X\overline{X}S2S^2X(k)X_{(k)}、样本分位数。
  • 关键结论:
    1. 一般总体下,E(X)=μE(\overline{X})=\muVar(X)=σ2/n\operatorname{Var}(\overline{X})=\sigma^2/nE(S2)=σ2E(S^2)=\sigma^2——这些不依赖总体分布形式。
    2. 正态总体下,XN(μ,σ2/n)\overline{X}\sim N(\mu,\sigma^2/n)(n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim\chi^2(n-1),且 XS2\overline{X}\perp S^2——三大精确结论。
    3. 连续总体下,第 kk 个顺序统计量密度为 n!(k1)!(nk)!Fk1(1F)nkf\frac{n!}{(k-1)!(n-k)!}F^{k-1}(1-F)^{n-k}f
    4. 样本分位数具有渐近正态性,渐近方差为 p(1p)nf(ξp)2\frac{p(1-p)}{nf(\xi_p)^2}
  • 最重要的条件:正态性(精确分布)、连续性(顺序统计量密度公式)、独立同分布(全部结论的前提)。
  • 本讲最终服务什么推断任务:为后续构造检验统计量、区间估计和极值统计提供分布基础。

高频误套

[!warning]+ 常见错误

  • 把总体分布和抽样分布混成一回事。 看到"XN(μ,σ2)X\sim N(\mu,\sigma^2)"就说”结论是正态分布”——这是总体分布,不是抽样分布。统计量的分布还需要额外的推导。
  • 以为任何总体下 X\overline{X}S2S^2 都独立。 XS2\overline{X}\perp S^2 只在正态总体下精确成立。指数分布样本下,X\overline{X}S2S^2 是相关的。
  • 顺序统计量排序后仍当作独立变量处理。 这是做顺序统计量题时最容易犯的错误。排序引入了大小约束,变量之间不再独立。
  • 把样本分位数的渐近结论当成有限样本精确结论。 渐近正态性只在 nn 足够大时近似成立,小样本下分布可能严重偏斜。
  • 标准化时分母用错。 Xμσ/nN(0,1)\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),但 XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)。后者是下一讲的内容,如果这里硬套正态分布就会出错。

条件卡

  1. 结论: XN(μ,σ2/n)\overline{X}\sim N(\mu,\sigma^2/n)成立条件: 总体正态,样本 i.i.d. 不能用在: 一般总体的小样本精确推断。此时只能用中心极限定理得渐近正态,不是精确正态。 常见误套场景: 把中心极限定理和正态总体下的精确结论混用。前者说”近似正态”,后者说”精确正态”——n=5 时区别很大。

  2. 结论: (n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim \chi^2(n-1)XS2\overline{X}\perp S^2成立条件: 总体正态,样本 i.i.d. 不能用在: 非正态总体的精确推断。即使非正态总体下 (n1)S2/σ2(n-1)S^2/\sigma^2 有一致性或渐近分布,也不是精确 χ2\chi^2常见误套场景: 直接用它构造非正态样本的 tt 统计量。tt 分布的定义依赖分子正态 + 分母独立 χ2\chi^2,两个条件在非正态下可能都不成立。

  3. 结论: X(k)X_{(k)} 的密度公式中含有 Fk1(1F)nkfF^{k-1}(1-F)^{n-k}f成立条件: 总体连续(有密度),样本 i.i.d. 不能用在: 离散总体不加修改直接照抄。离散情形下 P(X(k)=y)P(X_{(k)}=y) 的表达式不同。 常见误套场景: 顺序统计量问题里忘记连续性前提,直接抄密度公式。

  4. 结论: n(mpξp)dN(0,p(1p)/f(ξp)2)\sqrt{n}(m_p-\xi_p)\xrightarrow{d}N(0,p(1-p)/f(\xi_p)^2)成立条件: ffξp\xi_p 附近连续且 f(ξp)>0f(\xi_p)>0nn\to\infty不能用在: 小样本精确分布计算、分位点密度退化情形。 常见误套场景: n=10n=10 时直接套用正态近似做区间估计(样本量太小,渐近不靠谱)。

十、习题区

1. 概念题

  1. **用自己的话解释:**为什么说抽样分布是统计推断的基础?如果不知道一个统计量的抽样分布,我们还能做推断吗?

  2. 为什么 X\overline{X}S2S^2 的独立性在正态样本中地位特殊? 如果总体是均匀分布,X\overline{X}S2S^2 还独立吗?提示:想想正态分布有什么代数性质是均匀分布没有的。

  3. 顺序统计量与原样本的最本质区别是什么? 排序之后,随机变量之间还保持独立吗?这对推导它们的联合分布有什么影响?

2. 标准题

  1. X1,,XnX_1,\dots,X_n 来自连续总体 FF。写出一组样本中最大值和最小值的分布函数与密度函数。

  2. X1,,XnN(μ,σ2)X_1,\dots,X_n\sim N(\mu,\sigma^2)。写出 X\overline{X} 的分布、(n1)S2/σ2(n-1)S^2/\sigma^2 的分布,以及 X\overline{X}S2S^2 的关系。

  3. X1,,XnU(0,1)X_1,\dots,X_n\sim U(0,1)。求 X(n)X_{(n)}(最大值)的密度,并计算 E(X(n))E(X_{(n)})。(答案:E(X(n))=n/(n+1)E(X_{(n)})=n/(n+1),这解释了为什么样本最大值总比 1 略小。)

3. 综合题

  1. 顺序统计量与 Beta 分布的联系。X1,,XnU(0,1)X_1,\dots,X_n\sim U(0,1)

    • (a) 求 X(k)X_{(k)} 的密度。
    • (b) 验证这个密度就是 Beta(k,nk+1)\text{Beta}(k,n-k+1) 的密度。
    • (c) 解释:为什么顺序统计量的分布会自然地关联到 Beta 分布?(提示:U(0,1)U(0,1)F(y)=yF(y)=y 使得 Fk1(1F)nkF^{k-1}(1-F)^{n-k} 恰好变成 yk1(1y)nky^{k-1}(1-y)^{n-k}。)
  2. 思考题:样本均值的精确分布与渐近分布。X1,,XnExp(λ)X_1,\dots,X_n\sim \text{Exp}(\lambda)(指数分布)。

    • (a) X\overline{X} 的精确分布是什么?(提示:nXΓ(n,λ)n\overline{X}\sim\Gamma(n,\lambda),所以 XΓ(n,nλ)\overline{X}\sim\Gamma(n,n\lambda)。)
    • (b) 当 n=30n=30 时,用中心极限定理近似 X\overline{X} 的分布和用精确 Gamma 分布有多大区别?(这道题让你体会”精确分布”和”渐近分布”在中等样本量下的实际差距。)
  3. 样本分位数的应用。 解释为什么在实际数据分析中,样本中位数常被用作位置估计的稳健替代方案。如果在数据中混入了一个极端异常值,样本均值和样本中位数各会受到怎样的影响?

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句”用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

Edit page

Previous Post
第01讲 统计推断的基本对象与统计量
Next Post
第03讲 Gamma分布、χ²/t/F分布与指数族