第02讲抽样分布、正态样本与顺序统计量

讲义信息

**课程：**数理统计
**章节：**第 2 章前半，对应课件 lec2.1(2026)169(3)
**讲次：**第 02 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec2.1(2026)169(3).pdf
**研究对象：**统计量的分布，尤其是样本均值、样本方差与顺序统计量
**统计任务：**从”样本来自什么总体”推进到”统计量服从什么分布”
**本讲结论用途：**为后续的区间估计、假设检验、分位数推断和极值问题打基础

[!summary]+ 本讲导读

本讲研究的问题：统计推断为什么必须先研究统计量的分布。

已知什么：总体模型 $X\sim F$ ，以及来自该总体的简单随机样本 $X_1,\dots,X_n$ 。

未知什么：样本均值、样本方差、顺序统计量等函数的分布。

核心统计对象： $\overline{X}$ 、 $S^2$ 、 $X_{(1)},\dots,X_{(n)}$ 。

本讲结论最终服务什么推断任务：抽样分布是点估计、区间估计和假设检验的直接基础。

先看全局

上一讲我们建立了数理统计的基本语言：总体、样本、参数、统计量。我们把整门课的链条概括为

\text{Data} \longrightarrow \text{Statistics} \longrightarrow \text{Information}.

但是，这条链条里有一个环节至今没有答案：统计量是一个随机变量，那么它到底服从什么分布？ 如果我们连统计量的分布都不知道，就无从判断一个估计量是否靠谱、一个检验是否有效——因为我们不知道这个统计量在重复抽样下会如何摆动。

这一讲的核心任务，就是回答一个问题：

既然参数本身不是随机的，那统计推断到底在研究谁的波动？

答案是：研究统计量的波动。因为真正会随着样本变化而变化的，不是 $\mu,\sigma^2,p$ 这些参数，而是由样本构造出来的

\overline X,\quad S^2,\quad T(X_1,\dots,X_n)

这些量。后面所有的点估计、区间估计、假设检验，本质上都必须先解决一个问题：这个统计量服从什么分布？ 这个问题就叫抽样分布问题。

本讲的叙事线

为了让读者不被淹没在一堆公式里，这一讲沿着一条清晰的叙事线展开：

为什么需要抽样分布？ —— 从上一讲的统计量定义过渡到分布问题，建立抽样分布的概念。
最简单的抽样分布：样本均值的期望与方差。 —— 在不依赖任何具体总体模型的前提下，先看看我们能知道什么。
正态总体下的”三件套”：精确分布登场。 —— 加入正态假设后，样本均值与样本方差的分布变得完全可写，这是本讲最核心的结论。
顺序统计量：另一种看待样本的方式。 —— 当我们需要研究最小值、最大值、中位数时，原始样本不够用，需要排序后的对象。
从有限样本走向大样本。 —— 样本分位数的渐近正态性表明，即使精确分布不可写，大样本下仍有近似工具。

一、本讲定位

在课程中的位置：这是从”基本对象”过渡到”统计量分布”的第一讲。
和前一讲的连接：上一讲建立了总体、样本、统计量、经验分布函数等基本语言。现在我们要追问：这些统计量本身服从什么概率规律？没有这个答案，“Data → Statistics → Information”链条中的”Statistics”就仍是黑箱。
和后一讲的连接：本讲会得出正态样本下 $S^2$ 标准化后服从 $\chi^2$ 分布。但 $\chi^2$ 分布到底是什么？它和 Gamma 分布是什么关系？ $t$ 分布和 $F$ 分布又是怎么构造出来的？这些问题都将留给下一讲系统地回答。
本讲重点内容：
- 抽样分布的概念与作用
- 正态样本下 $\overline{X}$ 与 $S^2$ 的精确分布
- $\overline{X}$ 与 $S^2$ 的独立性
- 顺序统计量的分布
- 样本中位数、样本分位数与经验分布的联系

二、模型与前提

1. 研究模型

**总体：**随机变量 $X$ ，分布函数为 $F$ ，密度或概率函数记为 $f$ 。
**参数空间：**由具体模型决定，例如正态样本中的 $(\mu,\sigma^2)$ 。
样本： $X_1,\dots,X_n$ 。
抽样方式：默认简单随机样本，即 $X_1,\dots,X_n$ 独立同分布。
**参数含义：**本讲的重点不是直接估计参数，而是研究统计量分布如何依赖模型。

2. 对象区分

在本讲的讨论中，下面几个概念会反复出现，务必在潜意识里把它们区别清楚：

总体分布： $X$ 的分布。这是”世界的真相”，但我们不知道，只能透过样本去窥探。
**抽样分布：**统计量 $T(X_1,\dots,X_n)$ 的分布。这是本讲研究的核心对象。注意：抽样分布由总体分布和样本量共同决定，但它是统计量的分布，不是原始样本的分布。
统计量： $\overline{X}$ 、 $S^2$ 、 $X_{(k)}$ 等。它们是样本的函数。
**分位数：**总体分布的函数，如总体中位数 $\xi_{0.5}$ 。这是总体的特征，不是样本的特征。
**样本分位数：**由顺序统计量构造的统计量。它是统计量，有抽样分布。

[!note]+ 对比辨析：总体分布 vs 抽样分布

维度总体分布抽样分布
对象原始随机变量 $X$ 统计量 $T(X_1,\dots,X_n)$
是否随机 $X$ 是随机的 $T$ 也是随机的（因样本是随机的）
是否已知未知（我们需要推断它）有时可以精确推导，有时只能近似
依赖因素只依赖总体本身同时依赖总体分布和样本量 $n$
举例 $X\sim N(\mu,\sigma^2)$ $\overline{X}\sim N(\mu,\sigma^2/n)$

最常见的初学者错误，就是把”样本来自正态总体”和”样本均值服从正态分布”当成同一件事。前者是总体分布，后者是抽样分布，二者之间需要推导。

维度	总体分布	抽样分布
对象	原始随机变量 $X$	统计量 $T(X_1,\dots,X_n)$
是否随机	$X$ 是随机的	$T$ 也是随机的（因样本是随机的）
是否已知	未知（我们需要推断它）	有时可以精确推导，有时只能近似
依赖因素	只依赖总体本身	同时依赖总体分布和样本量 $n$
举例	$X\sim N(\mu,\sigma^2)$	$\overline{X}\sim N(\mu,\sigma^2/n)$

3. 模型前提检查

[!warning]+ 条件先检查

抽样分布的定义只要求统计量由样本构造，但具体公式通常依赖总体模型。

$\overline{X}$ 的一般性质只需一阶二阶矩存在。

$\overline{X}$ 与 $S^2$ 的精确分布及独立性依赖正态总体。

顺序统计量的一般密度公式通常默认总体是连续型分布。

样本分位数的极限性质是渐近结论，使用时要分清有限样本和大样本。

三、核心概念

3.1 抽样分布：统计推断的入口

[!definition]+ 抽样分布对统计量
$T=T(X_1,\dots,X_n),$
它在给定总体模型下的分布称为 $T$ 的抽样分布。

用途：抽样分布把”样本怎么波动”转化成”统计量怎么波动”，是统计推断的直接入口。

在进入数学公式之前，我们先建立对这个概念的直觉。

思维实验：假设你知道某个总体的真实分布（比如标准正态），然后你从这个总体中反复抽取样本量为 10 的样本。每抽一次，你就计算一次样本均值 $\overline{x}$ 。抽 10000 次，你就有了 10000 个 $\overline{x}$ 的值。把它们画成直方图——这个直方图的形状，就是在逼近 $\overline{X}$ 的抽样分布。

你马上会看到两个事实：

这 10000 个 $\overline{x}$ 都集中在某个中心附近（那是总体均值 $\mu$ ）；
它们围绕中心波动的幅度，比单个样本 $X_i$ 的波动幅度要小；

这就是抽样分布在用最朴素的语言告诉我们：统计量也有自己的规律。理解了这一点，后面所有”这个统计量服从什么分布”的问题就都有了落脚之地。

和相邻概念的区别：总体分布是 $X$ 的分布，抽样分布是 $T(X_1,\dots,X_n)$ 的分布，两者不是一回事。总体分布是固定的但未知，抽样分布可以（在给定总体模型下）被推导出来。

题目里看到哪些信号会想到它：一旦题目问”统计量的分布是什么""能否标准化""能否构造检验统计量”，就进入抽样分布问题。

3.2 样本均值与样本方差的回顾

对简单随机样本 $X_1,\dots,X_n$ ，定义

\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i, \qquad S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2.

这两个量在前一讲已经出现过，但当时我们只是定义了它们，没有探究它们的分布。本讲的重点就是：在什么条件下，我们能把这两个量的分布精确地写出来？

注意 $S^2$ 定义中的分母是 $n-1$ 而非 $n$ 。这不是拍脑袋决定的，背后有一个深刻的原因——这个原因我们等会儿就会看到。

3.3 顺序统计量：排序后的新变量

[!definition]+ 顺序统计量将样本 $X_1,\dots,X_n$ 从小到大排列得
$X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)},$
则称 $X_{(1)},\dots,X_{(n)}$ 为顺序统计量。

用途：用于研究最小值、最大值、中位数、样本分位数和样本极差等问题。

直觉理解：原始样本 $X_1,\dots,X_n$ 是”无序”的——我们只看到一组数，但不知道谁大谁小。一旦排序，我们就看清了样本的位置结构：最小值在哪、中间值在哪、最大值在哪。这在研究极值问题（如最大洪水水位、最小寿命）时是必不可少的。

最重要的一条警示：排序之后的变量一般不再独立。原始样本是 i.i.d.，但一旦排序，变量之间就被强行加上了大小约束：

X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}.

这意味着 $X_{(2)}$ 的取值被 $X_{(1)}$ 和 $X_{(3)}$ “夹”住了——它们不再是独立的。所以顺序统计量问题里，最危险的误区就是把它们还当作”原来那组独立样本”来处理。

四、统计量与分布

4.1 不依赖总体模型：样本均值与样本方差的基本性质

在研究”分布”之前，我们先问一个更温和的问题：在不假设任何具体总体分布的情况下，我们能知道 $\overline{X}$ 和 $S^2$ 的什么性质？

[!theorem]+ 一般样本下样本均值与样本方差的基本性质若 $EX=\mu$ ， $\operatorname{Var}(X)=\sigma^2<\infty$ ，则
$E(\overline{X})=\mu, \qquad \operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}.$
同时
$E(S^2)=\sigma^2.$
用途：说明 $\overline{X}$ 是总体均值的无偏估计， $S^2$ 是总体方差的无偏估计。

命题的动机与意义：

这个定理告诉我们三件事，而且这三件事不依赖任何总体分布的假设（只需要总体均值和总体方差存在就行）：

$E(\overline{X})=\mu$ ：样本均值平均上能对准总体均值。这不是偶然的——无论你抽多少次样本，样本均值的期望总是正好等于你真正想知道的那个 $\mu$ 。这是后面”无偏性”概念的最直接体现。
$\operatorname{Var}(\overline{X})=\sigma^2/n$ ：样本均值比单个样本稳定得多。单个样本的方差是 $\sigma^2$ ，但 $n$ 个样本取了平均之后，方差缩小到原来的 $1/n$ 。 $n=100$ 时，样本均值的波动幅度大约是单个样本的十分之一。这就是”大样本更可靠”的数学依据。
$E(S^2)=\sigma^2$ ：样本方差平均上能对准总体方差。但注意， $S^2$ 的分母必须是 $n-1$ 而不是 $n$ ，才能做到这一点。如果分母用 $n$ ，则期望会是 $\frac{n-1}{n}\sigma^2$ ，比 $\sigma^2$ 略小——这就解释了为什么 $S^2$ 定义为除以 $n-1$ 。

这三个性质虽然”只有”期望和方差层面的信息，但它们已经足够重要。它们告诉我们：这些统计量值得拿来做推断——因为它们至少在平均意义上是对的。

4.2 正态总体下：三大核心结论

上面的结论非常好，但有一个问题：它只给了期望和方差，没有给完整的分布。而完整的分布，才是后面做区间估计和假设检验的基础。

那么，在什么条件下能写出完整分布呢？答案是：当总体是正态分布时。

为什么要研究正态总体？ 不是因为正态分布”最常用”就盲目去算，而是因为正态分布具有一种罕见的代数性质：正态随机变量的线性组合仍然是正态的。这个性质意味着，当我们把 $n$ 个正态样本组合成统计量时，很多统计量的分布可以精确地写出来。大多数其他分布族（比如指数分布、均匀分布）都没有这种”线性变换封闭”的美感。

[!theorem]+ 正态样本下的三大核心结论若 $X_1,\dots,X_n$ 来自正态总体 $N(\mu,\sigma^2)$ ，则

结论一：样本均值的分布
$\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right).$
用途：这是均值推断的起点。

式子拆解与含义：

左边 $\overline{X}$ 是样本均值——把 $n$ 个样本点平均后得到的统计量。

右边 $N(\mu,\sigma^2/n)$ 是正态分布，中心是总体均值 $\mu$ ，方差是 $\sigma^2/n$ 。

这整条式子在说：正态总体下，样本均值本身也是一个正态随机变量。它的中心对准总体均值（暗示”无偏”），而波动幅度随样本量增大而缩小（暗示”一致性”）。

这个结论给了我们一个可直接操作的分布。如果你知道 $\mu$ 和 $\sigma^2$ ，你就能精确地说出 $\overline{X}$ 落在任何区间的概率——而这正是假设检验和区间估计的核心。

结论二：样本方差的标准化分布
$\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1).$
用途：这是方差推断以及 $t$ 分布构造的起点。

式子拆解与含义：

左边不是 $S^2$ 本身，而是 $(n-1)S^2/\sigma^2$ 。这里乘上 $n-1$ 是为了抵消 $S^2$ 定义中的分母；除以 $\sigma^2$ 是为了去量纲化，使结果成为一个”纯数字”。

$n-1$ 在 $S^2$ 的定义中就出现了，现在又出现在 $\chi^2$ 的自由度上——这不是巧合。自由度 $n-1$ 反映的是：我们用 $\overline{X}$ 代替了未知的 $\mu$ 来计算离差，每用一次样本均值，就”消耗”了一个自由度。

右边 $\chi^2(n-1)$ 是自由度为 $n-1$ 的卡方分布。 $\chi^2$ 分布的定义和性质将在下一讲详细展开，但这里可以先记住： $\chi^2$ 分布是一个定义在正半轴上的右偏分布，专门用来处理”平方和”这种量。

这整条式子在说：正态样本下，样本方差的波动不是杂乱无章的，而是被 $\chi^2$ 分布精确控制。你能说出 $S^2$ 在重复抽样下大概多大、大概多分散——这是方差推断的基础。

结论三：样本均值与样本方差的独立性
$\overline{X}\ \text{与}\ S^2\ \text{独立}.$
用途：这是构造 Student $t$ 统计量的关键。

式子拆解与含义：

“独立”这个词的分量极重。它意味着知道了 $\overline{X}$ 的取值，你对 $S^2$ 该取什么值仍然一无所知——反之亦然。

这条结论的深层含义是：在正态总体下，位置信息和波动信息被彻底拆开了。无论样本均值偏上还是偏下，样本方差都可以自由波动，两者互不牵制。

大多数其他分布族（比如指数分布、Poisson 分布）的样本均值与样本方差是相关的。正态总体能做到独立，这就是为什么正态总体在经典统计推断中地位如此特殊。

[!note]+ 对比辨析：一般总体 vs 正态总体下的 $\overline{X}$

维度一般总体（矩存在）正态总体
$E(\overline{X})$ $\mu$ $\mu$
$\operatorname{Var}(\overline{X})$ $\sigma^2/n$ $\sigma^2/n$
$\overline{X}$ 的精确分布一般不可写（依赖总体形状） $N(\mu,\sigma^2/n)$ ，精确可知
$\overline{X}$ 与 $S^2$ 的关系一般相关独立
$S^2$ 标准化后的分布一般不可写 $\chi^2(n-1)$ ，精确可知

这张表揭示了正态总体的核心优势：不仅统计量的期望和方差可写，连完整分布都能精确写出来。

维度	一般总体（矩存在）	正态总体
$E(\overline{X})$	$\mu$	$\mu$
$\operatorname{Var}(\overline{X})$	$\sigma^2/n$	$\sigma^2/n$
$\overline{X}$ 的精确分布	一般不可写（依赖总体形状）	$N(\mu,\sigma^2/n)$ ，精确可知
$\overline{X}$ 与 $S^2$ 的关系	一般相关	独立
$S^2$ 标准化后的分布	一般不可写	$\chi^2(n-1)$ ，精确可知

4.3 三大结论之间的关系：一条链，不是三个散点

这三个结论必须当成一条链来理解，而不是三个散点：

$\overline{X}$ 正态 → 让”均值推断”变成标准的正态分布问题。你可以标准化它、查正态表、构造置信区间。
$(n-1)S^2/\sigma^2$ 服从 $\chi^2$ → 让”方差推断”有了精确分布。你可以对 $\sigma^2$ 做区间估计、做假设检验。
$\overline{X}$ 与 $S^2$ 独立 → 允许你把上面两个独立的量拼成一个新的统计量： $\frac{\sqrt{n}(\overline{X}-\mu)}{S}$ 分子来自 $\overline{X}$ 的正态性，分母来自 $S^2$ 的 $\chi^2$ 性质，而独立性保证了分子和分母可以各自在概率上独立运转。这个组合正是下一讲的 $t$ 分布的核心——当 $\sigma$ 未知时，用样本标准差 $S$ 替代总体标准差 $\sigma$ ，得到的就不再是标准正态，而是尾部更厚的 $t$ 分布。

把这条链吃透了，后续的 $t$ 检验、 $F$ 检验、方差分析都会变成自然而然的事情。

4.4 顺序统计量的分布

4.4.1 动机：为什么需要顺序统计量的分布？

到目前为止，我们研究的都是 $\overline{X}$ 和 $S^2$ 这类”汇总型”统计量。但有一类问题，汇总型统计量帮不上忙：

一条生产线上，你最关心的是最小的那个缺陷什么时候出现；
一个水库设计中，你最关心的是最大的那一次洪水会有多大；
在探索性数据分析中，你经常需要知道”前 25% 的数据点在什么水平之下；

这些问题的共同特征是：你不能用”平均值”来回答，因为你关心的正是极端的那些样本。这就是引入顺序统计量的动机：当你需要知道样本的位置结构（最小值、最大值、分位数）时，必须先把样本排序，然后研究排序后的随机变量的分布。

4.4.2 联合密度公式

[!theorem]+ 连续总体下顺序统计量的联合密度若总体连续，密度为 $f$ ，分布函数为 $F$ ，则顺序统计量的联合密度为
$g(y_1,\dots,y_n)=n!\, f(y_1)\cdots f(y_n), \qquad y_1\le \cdots \le y_n.$
用途：这是推导最小值、最大值、样本分位数分布的总公式。

含义解析：

这个公式看起来和原始样本的联合密度 $\prod_{i=1}^n f(y_i)$ 几乎一样，只多了一个 $n!$ 因子。
为什么是 $n!$ ？因为原始样本有 $n!$ 种排列方式，但排序之后只有一种排序方式满足 $y_1\le\cdots\le y_n$ 。所以原本分布在 $n!$ 个排列上的概率质量，现在全部集中到一个区域上——于是密度乘以 $n!$ 。
支持集变为 $y_1\le\cdots\le y_n$ ，这是和原始样本联合密度的关键区别。这个约束导致了顺序统计量之间的相关性。

4.4.3 第 $k$ 个顺序统计量的边际分布

从联合密度出发，我们可以积分掉其他变量，得到单个顺序统计量的分布。

[!theorem]+ 第 $k$ 个顺序统计量的密度若总体连续，密度为 $f$ ，分布函数为 $F$ ，则
$f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}\bigl(1-F(y)\bigr)^{\,n-k}f(y).$
用途：统一处理中位数、分位数和样本秩次位置。

这个公式建议按**“计数思维”**来理解和记忆，而不是硬背。

直觉推导（计数思维）：我们要研究”第 $k$ 个顺序统计量落在 $y$ 附近的一个小区间 $[y,\,y+dy]$ 里”的概率。要发生这个事件，样本中需要有：

$k-1$ 个样本落在 $y$ 左边（概率近似为 $F(y)^{k-1}$ ）；
1 个样本落在 $y$ 附近（概率近似为 $f(y)dy$ ）；
$n-k$ 个样本落在 $y$ 右边（概率近似为 $(1-F(y))^{n-k}$ ）。

现在的问题是：哪几个样本扮演这三类角色？答案是：从 $n$ 个样本中任选 $k-1$ 个做左边的、1 个做中间的、其余做右边的，有

\frac{n!}{(k-1)!\,1!\,(n-k)!}

种分配方式。把这三部分乘起来，再除以 $dy$ 取极限，就得到上面的密度公式。

含义解析：

$F(y)^{k-1}$ ：左边有 $k-1$ 个样本不超过 $y$ ，所以是 $F(y)$ 的 $k-1$ 次方。
$(1-F(y))^{n-k}$ ：右边有 $n-k$ 个样本超过 $y$ ，每个超过的概率是 $1-F(y)$ 。
$f(y)$ ：中间正好有一个样本落在 $y$ 附近，这个样本贡献了密度 $f(y)$ 。
组合系数 $\frac{n!}{(k-1)!(n-k)!}$ ：负责分配哪几个样本承担上述三种角色的”人员编排”。

两个重要特例：

最小值（ $k=1$ ）：
$P(X_{(1)}>y)=(1-F(y))^n, \qquad f_{X_{(1)}}(y)=n(1-F(y))^{n-1}f(y).$
用途：研究样本最早发生时间、最小误差、下尾分位数。

含义：最小值大于 $y$ ，等价于所有 $n$ 个样本都大于 $y$ 。每个样本大于 $y$ 的概率是 $1-F(y)$ ，由独立性得 $(1-F(y))^n$ 。
最大值（ $k=n$ ）：
$P(X_{(n)}\le y)=F(y)^n, \qquad f_{X_{(n)}}(y)=nF(y)^{n-1}f(y).$
用途：研究极值、最大寿命、上尾风险。

含义：最大值不超过 $y$ ，等价于所有 $n$ 个样本都不超过 $y$ 。每个样本不超过 $y$ 的概率是 $F(y)$ ，由独立性得 $F(y)^n$ 。

[!tip]+ 做题策略：最值问题先写分布函数对于最大值和最小值，先写分布函数 $P(X_{(n)}\le y)$ 或 $P(X_{(1)}>y)$ ，再求导得到密度——这通常比直接从密度公式出发更稳、更不容易出错。原因是：分布函数的表达式只用到了独立性和 $F(y)$ ，结构极为简单。

4.4.4 顺序统计量在推论中的注意点

[!warning]+ 关键提醒

顺序统计量排序后不再独立。把 $X_{(1)}$ 和 $X_{(2)}$ 的联合密度写成 $f_{X_{(1)}}(y_1)f_{X_{(2)}}(y_2)$ 是错误的。

联合密度公式中的 $n!$ 容易遗漏。它来自”全排列收缩到排序区域”的概率质量集中。

离散总体下的顺序统计量公式需要改用概率函数，上面的连续密度公式不能直接套用。

4.5 样本分位数

4.5.1 从总体分位数到样本分位数

总体分位数是总体分布的一个特征：总体的 $p$ 分位数 $\xi_p$ 定义为满足

F(\xi_p-0)\le p\le F(\xi_p)

的数。它回答的问题是：“总体中不超过 $\xi_p$ 的比例恰好为 $p$ （或至少不小于 $p$ ）”。

但在实际中，我们不知道 $F$ ，所以不知道 $\xi_p$ 。我们能做的，是用样本去构造一个统计量，让它”逼近” $\xi_p$ ——这就是样本分位数。

最典型的是样本中位数（ $p=0.5$ ）：

\tilde{m}= \begin{cases} X_{((n+1)/2)}, & n\ \text{为奇数},\\[4pt] \dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}, & n\ \text{为偶数}. \end{cases}

用途：样本中位数是一种稳健位置估计。当数据中有异常值（outlier）时，样本均值会被严重拉动，但样本中位数几乎不受影响——因为中位数只看排序位置，不看具体的数值大小。

4.5.2 样本分位数的渐近分布

样本中位数的精确分布在小样本下通常很复杂（需要用到顺序统计量的分布）。但在大样本下，有一个简洁而强大的结论。

为什么要研究渐近分布？ 因为顺序统计量的精确分布虽然可写（见上一节），但涉及 $F^{k-1}(1-F)^{n-k}$ 这种复杂的幂次组合，做区间估计时不方便操作。如果能证明它在样本量大时近似正态，那就可以借用正态分布的全部工具了。

[!theorem]+ 样本分位数的渐近正态性若总体密度 $f$ 在总体分位数 $\xi_p$ 附近连续且 $f(\xi_p)>0$ ，则
$\sqrt{n}(m_p-\xi_p)\xrightarrow{d}N\!\left(0,\frac{p(1-p)}{f(\xi_p)^2}\right).$
用途：说明样本分位数在大样本下也具有正态近似，从而可以做区间估计与近似检验。

含义解析：

$\sqrt{n}$ 因子：和样本均值的中心极限定理一样， $\sqrt{n}$ 说明样本分位数的收敛速率也是 $\sqrt{n}$ 。
渐近方差 $\dfrac{p(1-p)}{f(\xi_p)^2}$ ：这个表达式很有意思。分子 $p(1-p)$ 来自 Bernoulli 方差——你近似于在计数有多少样本落在分位点两侧。分母 $f(\xi_p)^2$ 说明：总体在分位点附近的密度越大，样本分位数的波动就越小。直观上，如果分位点附近挤满了样本点（密度高），那排序后分位点的位置就会很稳定；如果分位点附近样本稀疏（密度低），那稍微的抽样变化就会让分位点跳来跳去。

[!warning]+ 使用边界

这是一个渐近结论（ $n\to\infty$ ），不是有限样本下的精确分布。

需要 $f(\xi_p)>0$ ——如果在分位点附近密度退化（比如密度为 0），则收敛速率会变慢，上述公式失效。

当 $p$ 靠近 0 或 1（极值分位数）时，渐近正态的效果会变差，通常需要更大的样本量才能用。

五、主要结论

1. 分布结论

[!theorem]+ 正态样本下均值与方差的分布条件：

$X_1,\dots,X_n$ 为 i.i.d. 样本；

总体为 $N(\mu,\sigma^2)$ 。

结论：
$\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right), \qquad \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1), \qquad \overline{X}\perp S^2.$
用途：后面所有 $t$ 区间和 $t$ 检验都建立在这里。

2. 判别或构造结论

[!theorem]+ 顺序统计量的一般密度公式条件：

样本来自连续总体；

密度 $f$ 和分布函数 $F$ 存在。

结论：
$f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y).$
用途：构造样本中位数、样本分位数和极差分布。

3. 不同统计量的角色比较

本讲的”比较”主要不是比较估计量优劣，而是比较不同统计量在推断中的角色：

统计量	适合刻画	典型用途
$\overline{X}$	总体位置（均值 $\mu$ ）	均值估计、均值检验
$S^2$	总体离散程度（方差 $\sigma^2$ ）	方差估计、方差检验
$X_{(1)}$	总体下界	最小寿命、最早故障时间
$X_{(n)}$	总体上界	最大负荷、极端风险
$X_{(k)}$	总体分位数	中位数、分位数位置估计
$R_n=X_{(n)}-X_{(1)}$	样本离散范围	极差图、过程控制

[!warning]+ 使用边界

$\overline{X}$ 与 $S^2$ 的独立性只在正态总体下精确成立。

顺序统计量的一般密度公式默认总体连续；离散情形要改用概率函数。

样本分位数的渐近正态性需要 $f(\xi_p)>0$ ，不能在分位点附近密度退化时硬套。

$\overline{X}$ 的精确正态性要求正态总体。在非正态总体下，只能用中心极限定理获得渐近正态。

关键公式释义

1. 样本均值的方差

\operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}

**来源：**由 $\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i$ ，利用独立性得 $\operatorname{Var}(\sum X_i)=n\sigma^2$ ，再乘上因子 $(1/n)^2$ 即得 $\sigma^2/n$ 。
**式子拆解：**左边 $\operatorname{Var}(\overline{X})$ 是样本均值的波动大小；右边 $\sigma^2/n$ 说明这种波动等于单个样本方差的 $1/n$ 。 $n$ 越大，方差越小——这是”大样本更精确”的数学表述。
**含义：**样本均值比单个样本稳定得多。单个样本可以偏离 $\mu$ 很远（方差为 $\sigma^2$ ），但 100 个样本取平均后，偏离程度缩小到原来的 10%。
**使用提醒：**这个式子不需要正态性，但需要样本独立且总体方差存在。对于 Cauchy 分布（方差不存在），这个式子不成立。

2. 正态样本下样本方差的分布

\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

来源：将残差平方和 $\sum_{i=1}^n (X_i-\overline{X})^2$ 通过正交变换转化为 $n-1$ 个独立标准正态随机变量的平方和（详见第六节证明）。
**式子拆解：**左边是”样本方差去量纲后的版本”——乘上 $n-1$ 消去 $S^2$ 中的分母，除以 $\sigma^2$ 去掉量纲，得到一个纯数量。右边 $\chi^2(n-1)$ 是自由度为 $n-1$ 的卡方分布。自由度为 $n-1$ 而不是 $n$ ，是因为用 $\overline{X}$ 替代了 $\mu$ ，损失了一个自由度。
**含义：**样本方差在正态总体下并不是随便波动，而是有一个精确的、已知的 $\chi^2$ 分布来控制它。这意味着你可以精确计算 $S^2$ 落在任何区间的概率——这是方差推断的基础。
使用提醒：这是正态样本的小样本精确结论。非正态总体下， $(n-1)S^2/\sigma^2$ 的分布不再是精确的 $\chi^2(n-1)$ ，只能在大样本下用渐近方法。

3. 样本均值与样本方差独立

\overline{X}\perp S^2

**来源：**正态样本经正交变换后，“均值方向”和”残差方向”被分解到不同的坐标轴上，而正态分布在线性变换下仍保持独立。
式子拆解： $\overline{X}$ 和 $S^2$ 是两个不同的统计量，独立符号 $\perp$ 说明二者的取值在概率意义下互不影响。这是正态总体独特的代数性质——绝大多数其他分布族不具备。
**含义：**位置信息（ $\overline{X}$ 用于估计 $\mu$ ）和波动信息（ $S^2$ 用于估计 $\sigma^2$ ）在正态总体下被完全拆开。这意味着当我们用 $\overline{X}$ 推断 $\mu$ 时，不需要为”不知道 $\sigma$ “而额外担忧——因为 $S^2$ 的波动和 $\overline{X}$ 的波动是两件独立的事。
**使用提醒：**这条结论是后续构造 $t$ 分布的关键。对于非正态总体， $\overline{X}$ 和 $S^2$ 一般相关，不能随意套用独立性。

4. 第 $k$ 个顺序统计量密度

f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y)

**来源：**把事件”第 $k$ 个顺序统计量落在 $y$ 附近”用计数思维拆成三部分：左边 $k-1$ 个、附近 1 个、右边 $n-k$ 个，再乘上分配角色的组合数。
式子拆解： $F(y)^{k-1}$ 描述左边 $k-1$ 个样本都不超过 $y$ 的概率； $f(y)$ 是中间那个样本落在 $y$ 附近的密度贡献； $(1-F(y))^{n-k}$ 描述右边 $n-k$ 个样本都超过 $y$ 的概率； $\frac{n!}{(k-1)!(n-k)!}$ 是人员分配方案数。
**含义：**顺序统计量的分布同时受总体分布函数 $F$ 和密度函数 $f$ 控制。 $F$ 决定”有多少样本在左右两边”， $f$ 决定”中间那个落在哪的概率大”。
**使用提醒：**连续总体下这个公式最好用。离散总体应回到概率函数或直接计数。另外，公式中的组合系数 $\frac{n!}{(k-1)!(n-k)!}$ 不等于通常的二项式系数 $\binom{n}{k}$ （差了一个 $k$ ），注意不要写错。

5. 样本分位数的渐近方差

\operatorname{AVar}(m_p)=\frac{p(1-p)}{n\,f(\xi_p)^2}

**来源：**由渐近正态性结论，将渐近方差除以 $n$ 得到 $m_p$ 自身的近似方差。
**式子拆解：**分子 $p(1-p)$ 是”分位点两侧”的 Bernoulli 方差；分母 $f(\xi_p)^2$ 是关键——密度越大，方差越小。
**含义：**分位点密度高 → 分位数估计精确（方差小）；分位点密度低 → 分位数估计不精确（方差大）。这完美解释了为什么正态分布的中位数（密度高峰处）估计得很准，而均匀分布的分位数估计精度处处一样。
使用提醒： $f(\xi_p)$ 是总体的密度，在实际中是未知的，使用渐近公式时需要估计它（可用核密度估计或代入顺序统计量的间距信息）。

[!note]+ 对比辨析： $\mu$ vs $\overline{X}$

维度 $\mu$ （总体均值） $\overline{X}$ （样本均值）
属于哪一层总体层样本层 / 统计量层
是否随机否（固定未知常数）是（会随抽样变化）
是否有分布无（固定常数没有分布）有（即抽样分布）
能否被观测不能直接观测可以计算
在推断中的角色推断的目标推断的工具
记号惯例希腊字母（ $\mu$ ）拉丁字母 / 上划线（ $\overline{X}$ ）

最常见的坑：把”已知 $\overline{x}=5.2$ “当成”已知 $\mu=5.2$ “——前者只是一个样本实现，后者是总体的真实参数，两者不能混淆。

维度	$\mu$ （总体均值）	$\overline{X}$ （样本均值）
属于哪一层	总体层	样本层 / 统计量层
是否随机	否（固定未知常数）	是（会随抽样变化）
是否有分布	无（固定常数没有分布）	有（即抽样分布）
能否被观测	不能直接观测	可以计算
在推断中的角色	推断的目标	推断的工具
记号惯例	希腊字母（ $\mu$ ）	拉丁字母 / 上划线（ $\overline{X}$ ）

[!note]+ 对比辨析： $F$ （总体分布函数）vs $F_n$ （经验分布函数）

维度 $F(x)$ $F_n(x)$
本质总体特征（理论概率）样本函数（经验频率）
是否随机否（固定函数）是（随样本变化）
是否已知未知可计算
函数类型可以是任何分布函数一定是阶梯函数（步数 $\le n$ ）
与 $n$ 的关系无关随 $n$ 增大趋近 $F$ （Glivenko-Cantelli）
典型用途定义参数（如 $\mu=\int x dF$ ）非参数推断、Bootstrap 的基础

最常见的坑：把 $F_n(x)$ 直接当成 $F(x)$ 用而忘记声明”这是有限样本下的近似”。事实上， $F_n(x)$ 只有在 $n\to\infty$ 时才会一致逼近 $F(x)$ 。

维度	$F(x)$	$F_n(x)$
本质	总体特征（理论概率）	样本函数（经验频率）
是否随机	否（固定函数）	是（随样本变化）
是否已知	未知	可计算
函数类型	可以是任何分布函数	一定是阶梯函数（步数 $\le n$ ）
与 $n$ 的关系	无关	随 $n$ 增大趋近 $F$ （Glivenko-Cantelli）
典型用途	定义参数（如 $\mu=\int x dF$ ）	非参数推断、Bootstrap 的基础

六、推导与证明

1. 证明依赖

用到的定义：简单随机样本、样本均值、样本方差、顺序统计量。
用到的前序定理：正态线性变换结论、 $\chi^2$ 分布定义、正交变换性质。
用到的分布性质：独立正态线性变换、样本排序后的计数思路。
用到的关键技巧：标准化、正交变换、局部区间计数法。

2. 证明思路

**对 $\overline{X}$ ：**利用正态分布对线性组合封闭。 $\overline{X}=\frac{1}{n}\sum X_i$ 是独立正态的线性组合，因此仍为正态。期望是 $\frac{1}{n}\sum E(X_i)=\mu$ ，方差是 $\frac{1}{n^2}\sum \operatorname{Var}(X_i)=\sigma^2/n$ 。
**对 $(n-1)S^2/\sigma^2$ ：**这是本讲证明中最有技巧性的一步——关键是把 $\sum (X_i-\overline{X})^2$ 通过正交变换转化为 $n-1$ 个独立标准正态的平方和。
**对独立性：**同样是利用正交变换：变换后”均值方向”对应一个坐标，“残差方向”对应其余 $n-1$ 个坐标，而正态变量在线性变换下保持独立性。
**对顺序统计量：**计算”恰有 $k-1$ 个点落在左边、1 个点落在局部小区间、其余点落在右边”的概率，除以区间长度，取极限。

[!proof]- 📐 深度推导： $(n-1)S^2/\sigma^2\sim \chi^2(n-1)$ 的证明

这是本讲最核心的推导，也是后续 $t$ 分布、 $F$ 分布构造的基石。

第一步：将离差平方和写成向量形式。

设 $X=(X_1,\dots,X_n)^T$ 。令 $Y_i=(X_i-\mu)/\sigma\sim N(0,1)$ ，则 $Y_1,\dots,Y_n$ 是 i.i.d. $N(0,1)$ 。我们的目标是研究
$\frac{(n-1)S^2}{\sigma^2} =\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\overline{X})^2 =\sum_{i=1}^n (Y_i-\overline{Y})^2.$
也就是说，我们需要证明 $n$ 个 $N(0,1)$ 围绕其样本均值的离差平方和服从 $\chi^2(n-1)$ 。

第二步（关键一步）：为什么要用正交变换？

如果我们能找到一个”坐标变换”，把原始向量 $Y$ 旋转到一组新的正交基上，使得其中一个基方向正好对应”均值方向”，其余 $n-1$ 个基方向对应”残差方向”，那么：

均值方向的坐标就只涉及 $\overline{Y}$ ；

残差方向的坐标就只涉及 $Y_i-\overline{Y}$ ；

而正态向量的正交变换仍然是独立正态的！

这正是正交变换的妙处：它把看似”纠缠”的 $\overline{Y}$ 和 $Y_i-\overline{Y}$ 拆到了不同的坐标轴上。

第三步：构造正交矩阵。

取 $n\times n$ 正交矩阵 $A$ ，使其第一行为 $(\frac{1}{\sqrt{n}},\frac{1}{\sqrt{n}},\dots,\frac{1}{\sqrt{n}})$ （单位向量，指向”均值方向”），其余 $n-1$ 行是任意与第一行正交的单位向量。

令 $Z=AY$ 。由于 $A$ 是正交的且 $Y$ 的各分量独立 $N(0,1)$ ，可知 $Z$ 的各分量也独立 $N(0,1)$ 。

此时：
$Z_1 = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i = \sqrt{n}\,\overline{Y}.$
而由正交变换保持长度不变：
$\sum_{i=1}^n Z_i^2 = \sum_{i=1}^n Y_i^2.$
第四步：分离出残差平方和。

从上式可得：
$\sum_{i=1}^n (Y_i-\overline{Y})^2 = \sum_{i=1}^n Y_i^2 - n\overline{Y}^2 = \sum_{i=1}^n Z_i^2 - Z_1^2 = \sum_{i=2}^n Z_i^2.$
即残差平方和恰好等于 $n-1$ 个独立标准正态的平方和。

而 $\chi^2(n-1)$ 的定义正是 $n-1$ 个独立 $N(0,1)$ 的平方和！

第五步：为什么自由度是 $n-1$ 而不是 $n$ ？

因为用 $\overline{Y}$ （即 $Z_1$ ）消耗了一个自由度。直观上，虽然 $\sum(Y_i-\overline{Y})^2$ 看起来有 $n$ 项，但它们之间有一个约束 $\sum(Y_i-\overline{Y})=0$ ，所以真正”自由”的只有 $n-1$ 个量。正交变换精确地把这 $n-1$ 个自由度对应的独立 $N(0,1)$ 分离了出来。

用途：这是把正态样本的方差问题转化为 $\chi^2$ 问题的标准路线。理解了这一步，后面的 $t$ 和 $F$ 构造就是水到渠成的事。

[!proof]- 📐 深度推导： $\overline{X}$ 与 $S^2$ 独立性的证明思路

用上面的正交变换记号：

$\overline{X}$ 只依赖于 $Z_1$ （均值方向）；

$S^2$ 只依赖于 $Z_2,\dots,Z_n$ （残差方向）。

而 $Z_1,Z_2,\dots,Z_n$ 是相互独立的标准正态变量——因为正交变换将独立正态映射为独立正态。

因此， $\overline{X}$ 和 $S^2$ 分别由互不相交的独立正态分量构成，故二者独立。

为什么这条结论如此特殊？ 因为离开了正态分布，即使你对数据做了同样的正交变换，变换后的分量也不再是独立的（它们的分布共同依赖于原始数据的形状）。所以 $\overline{X}$ 和 $S^2$ 的这种”结构上”的独立，是正态分布代数性质的深刻体现。

[!proof]- 📐 深度推导：第 $k$ 个顺序统计量密度的严格推导

对任意 $y$ 和小的 $\Delta y>0$ ，考虑事件 $y<X_{(k)}\le y+\Delta y$ 。要发生这个事件，样本中需要：

恰有 $k-1$ 个样本点不超过 $y$ ：每个样本不超过 $y$ 的概率是 $F(y)$ ，所以这部分贡献 $F(y)^{k-1}$ ；

恰有 1 个样本点落在 $(y,\,y+\Delta y]$ ：概率近似为 $F(y+\Delta y)-F(y)\approx f(y)\Delta y$ ；

其余 $n-k$ 个样本点大于 $y+\Delta y$ ：每个超过的概率是 $1-F(y+\Delta y)\approx 1-F(y)$ 。

三组样本的角色分配方案数为：
$\frac{n!}{(k-1)!\,1!\,(n-k)!}.$
因此：
$P(y<X_{(k)}\le y+\Delta y)\approx \frac{n!}{(k-1)!(n-k)!}\, F(y)^{k-1}\,f(y)\Delta y\,(1-F(y+\Delta y))^{n-k}.$
两边除以 $\Delta y$ ，再令 $\Delta y\to 0$ ，即得密度的表达式。

这个推导的精妙之处在于：我们根本不涉及复杂的多元积分，只用组合计数 + 概率乘法就得到了结果。这也是统计学中”计数思维”的一个典范。

用途：这是处理顺序统计量最常用的推导模板，适用于任何连续总体。

七、例题与变式

1. 标准题

**题型：**分布题

题目：

设 $X_1,\dots,X_n$ 来自连续总体，分布函数为 $F$ ，密度为 $f$ 。求样本最大值 $X_{(n)}$ 的分布。

解题思路（做题前先理顺这三步）：

**先判断统计任务：**这是顺序统计量分布题。目标是 $X_{(n)}$ ，是最大值。
**选择切入点：**对于最大值/最小值，先写分布函数通常比直接写密度更稳——因为分布函数的表达式极为简洁，完全不用涉及密度。
用独立性：“最大值 $\le y$ “等价于”每个样本都 $\le y$ “。由独立同分布，概率就是 $F(y)^n$ 。

解答：

P(X_{(n)}\le y)=P(X_1\le y,\,X_2\le y,\dots,X_n\le y)=F(y)^n.

对 $y$ 求导得密度：

f_{X_{(n)}}(y)=\frac{d}{dy}F(y)^n=nF(y)^{n-1}f(y).

答案解读： $F(y)^{n-1}$ 反映了”要想成为最大值，需要其余 $n-1$ 个样本都不超过自己”的约束。当 $n$ 很大时， $F(y)^{n-1}$ 使得密度的峰值被推向 $F(y)$ 接近 1 的区域——最大值密度的主体集中在分布的右尾。

**用途：**这是极值统计量分布最基础的模板。

2. 变式题

变式一：把 $X_{(n)}$ 换成 $X_{(1)}$ 。

思路完全相同，只是方向反过来：

P(X_{(1)}>y)=P(X_1>y,\dots,X_n>y)=(1-F(y))^n,

f_{X_{(1)}}(y)=-\frac{d}{dy}(1-F(y))^n=n(1-F(y))^{n-1}f(y).

变式二：把最大值换成第 $k$ 个顺序统计量。

直接套用一般公式：

f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}F(y)^{k-1}(1-F(y))^{n-k}f(y).

变式三：若总体改成 $U(0,1)$ ， $F(y)=y$ ， $f(y)=1$ （当 $0<y<1$ ）。

代入得：

f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,y^{k-1}(1-y)^{n-k},\qquad 0<y<1.

这正好是 Beta 分布 $\text{Beta}(k,\,n-k+1)$ 的密度！这说明 $U(0,1)$ 样本的顺序统计量服从 Beta 分布——这个联系在下一讲会进一步展开。

3. 标准题：正态样本下的分布识别

题目：

设 $X_1,\dots,X_{16}\stackrel{\text{i.i.d.}}{\sim} N(10,4)$ 。写出 $\overline{X}$ 的分布，并计算 $P(9<\overline{X}<11)$ 。

解题思路（先理顺再动笔）：

**识别模型：**正态总体， $\mu=10$ ， $\sigma^2=4$ （所以 $\sigma=2$ ）， $n=16$ 。
调用三大核心结论之一： $\overline{X}\sim N(\mu,\sigma^2/n)=N(10,4/16)=N(10,0.25)$ 。
标准化： $Z=\frac{\overline{X}-10}{\sqrt{0.25}}=\frac{\overline{X}-10}{0.5}\sim N(0,1)$ 。
用标准正态表： $P(9<\overline{X}<11)=P\!\left(\frac{9-10}{0.5}<Z<\frac{11-10}{0.5}\right)=P(-2<Z<2).$

解答：

$\overline{X}\sim N(10,0.25)$ ，标准差 $\sqrt{0.25}=0.5$ 。

P(9<\overline{X}<11)=\Phi(2)-\Phi(-2)=2\Phi(2)-1\approx 0.9544.

**含义：**虽然单个样本 $X_i\sim N(10,4)$ 落在 $(9,11)$ 内的概率只有 $2\Phi(0.5)-1\approx 0.383$ ，但 16 个样本取平均之后，这个概率飙升到约 95.44%。这就是”取平均能大幅度降噪”的直观体现。

常见坑点提醒：

不要把总体标准差 $\sigma=2$ 当成 $\overline{X}$ 的标准差。 $\overline{X}$ 的标准差是 $\sigma/\sqrt{n}=2/4=0.5$ 。
标准化时，分母是 $\sqrt{\operatorname{Var}(\overline{X})}=\sigma/\sqrt{n}$ ，不是 $S/\sqrt{n}$ （除非题目明确说 $\sigma$ 未知，此时才用 $t$ 分布）。

4. 题型提醒

[!tip]+ 做题顺序：抽样分布类题目的通用流程

先辨别总体是否正态。 正态 → 可以使用精确分布结论；非正态 → 考虑渐近方法或非参数方法。

识别统计量类型。 一次看到 $\overline{X}$ → 正态（若总体正态）；看到 $S^2$ → $\chi^2$ （若总体正态）；看到 $\overline{X}$ 和 $S^2$ 同时出现 → 注意独立性，可能导向 $t$ 分布。

遇到最值先写分布函数，通常比直接套用密度公式更稳、更不容易出错。

标准化后再查表或调用分布。 $\overline{X}$ 标准化为 $N(0,1)$ ； $S^2$ 标准化为 $\chi^2$ 。

分清”精确分布”与”渐近分布”。 有限样本下用精确分布，大样本下可以用渐近结论近似。

八、章节连接

**这一讲建立在哪些知识之上：**随机变量、正态分布、独立性、分布函数与密度函数、经验分布函数（第一讲）、正交变换（线性代数）。
这一讲为后面哪些内容做准备： $\chi^2$ 、 $t$ 、 $F$ 分布的构造（第三讲），点估计（第五讲），区间估计和假设检验（后续章节）。
这一讲在整门课中的功能：把第一讲”统计量的定义”推进为”统计量的分布”，使推断从”定性描述”进入”可计算”的阶段。没有这一讲，后面的区间估计找不到界限，假设检验找不到临界值，点估计找不到置信度。

九、复习整理

[!summary]+ 本讲小结

研究的问题：统计量到底服从什么分布。

使用的模型：简单随机样本；正态总体是精确结论的核心模型。

核心统计量： $\overline{X}$ 、 $S^2$ 、 $X_{(k)}$ 、样本分位数。

关键结论：

一般总体下， $E(\overline{X})=\mu$ ， $\operatorname{Var}(\overline{X})=\sigma^2/n$ ， $E(S^2)=\sigma^2$ ——这些不依赖总体分布形式。

正态总体下， $\overline{X}\sim N(\mu,\sigma^2/n)$ ， $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ ，且 $\overline{X}\perp S^2$ ——三大精确结论。

连续总体下，第 $k$ 个顺序统计量密度为 $\frac{n!}{(k-1)!(n-k)!}F^{k-1}(1-F)^{n-k}f$ 。

样本分位数具有渐近正态性，渐近方差为 $\frac{p(1-p)}{nf(\xi_p)^2}$ 。

最重要的条件：正态性（精确分布）、连续性（顺序统计量密度公式）、独立同分布（全部结论的前提）。

本讲最终服务什么推断任务：为后续构造检验统计量、区间估计和极值统计提供分布基础。

高频误套

[!warning]+ 常见错误

把总体分布和抽样分布混成一回事。 看到" $X\sim N(\mu,\sigma^2)$ "就说”结论是正态分布”——这是总体分布，不是抽样分布。统计量的分布还需要额外的推导。

以为任何总体下 $\overline{X}$ 与 $S^2$ 都独立。 $\overline{X}\perp S^2$ 只在正态总体下精确成立。指数分布样本下， $\overline{X}$ 和 $S^2$ 是相关的。

顺序统计量排序后仍当作独立变量处理。 这是做顺序统计量题时最容易犯的错误。排序引入了大小约束，变量之间不再独立。

把样本分位数的渐近结论当成有限样本精确结论。 渐近正态性只在 $n$ 足够大时近似成立，小样本下分布可能严重偏斜。

标准化时分母用错。 $\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ ，但 $\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ 。后者是下一讲的内容，如果这里硬套正态分布就会出错。

条件卡

结论： $\overline{X}\sim N(\mu,\sigma^2/n)$ 。 成立条件： 总体正态，样本 i.i.d. 不能用在： 一般总体的小样本精确推断。此时只能用中心极限定理得渐近正态，不是精确正态。 常见误套场景： 把中心极限定理和正态总体下的精确结论混用。前者说”近似正态”，后者说”精确正态”——n=5 时区别很大。
结论： $(n-1)S^2/\sigma^2\sim \chi^2(n-1)$ 且 $\overline{X}\perp S^2$ 。 成立条件： 总体正态，样本 i.i.d. 不能用在： 非正态总体的精确推断。即使非正态总体下 $(n-1)S^2/\sigma^2$ 有一致性或渐近分布，也不是精确 $\chi^2$ 。 常见误套场景： 直接用它构造非正态样本的 $t$ 统计量。 $t$ 分布的定义依赖分子正态 + 分母独立 $\chi^2$ ，两个条件在非正态下可能都不成立。
结论： $X_{(k)}$ 的密度公式中含有 $F^{k-1}(1-F)^{n-k}f$ 。 成立条件： 总体连续（有密度），样本 i.i.d. 不能用在： 离散总体不加修改直接照抄。离散情形下 $P(X_{(k)}=y)$ 的表达式不同。 常见误套场景： 顺序统计量问题里忘记连续性前提，直接抄密度公式。
结论： $\sqrt{n}(m_p-\xi_p)\xrightarrow{d}N(0,p(1-p)/f(\xi_p)^2)$ 。 成立条件： $f$ 在 $\xi_p$ 附近连续且 $f(\xi_p)>0$ ， $n\to\infty$ 。 不能用在： 小样本精确分布计算、分位点密度退化情形。 常见误套场景： $n=10$ 时直接套用正态近似做区间估计（样本量太小，渐近不靠谱）。

十、习题区

1. 概念题

**用自己的话解释：**为什么说抽样分布是统计推断的基础？如果不知道一个统计量的抽样分布，我们还能做推断吗？
为什么 $\overline{X}$ 与 $S^2$ 的独立性在正态样本中地位特殊？ 如果总体是均匀分布， $\overline{X}$ 和 $S^2$ 还独立吗？提示：想想正态分布有什么代数性质是均匀分布没有的。
顺序统计量与原样本的最本质区别是什么？ 排序之后，随机变量之间还保持独立吗？这对推导它们的联合分布有什么影响？

2. 标准题

设 $X_1,\dots,X_n$ 来自连续总体 $F$ 。写出一组样本中最大值和最小值的分布函数与密度函数。
设 $X_1,\dots,X_n\sim N(\mu,\sigma^2)$ 。写出 $\overline{X}$ 的分布、 $(n-1)S^2/\sigma^2$ 的分布，以及 $\overline{X}$ 与 $S^2$ 的关系。
设 $X_1,\dots,X_n\sim U(0,1)$ 。求 $X_{(n)}$ （最大值）的密度，并计算 $E(X_{(n)})$ 。（答案： $E(X_{(n)})=n/(n+1)$ ，这解释了为什么样本最大值总比 1 略小。）

3. 综合题

顺序统计量与 Beta 分布的联系。 设 $X_1,\dots,X_n\sim U(0,1)$ 。
- (a) 求 $X_{(k)}$ 的密度。
- (b) 验证这个密度就是 $\text{Beta}(k,n-k+1)$ 的密度。
- (c) 解释：为什么顺序统计量的分布会自然地关联到 Beta 分布？（提示： $U(0,1)$ 的 $F(y)=y$ 使得 $F^{k-1}(1-F)^{n-k}$ 恰好变成 $y^{k-1}(1-y)^{n-k}$ 。）
思考题：样本均值的精确分布与渐近分布。 设 $X_1,\dots,X_n\sim \text{Exp}(\lambda)$ （指数分布）。
- (a) $\overline{X}$ 的精确分布是什么？（提示： $n\overline{X}\sim\Gamma(n,\lambda)$ ，所以 $\overline{X}\sim\Gamma(n,n\lambda)$ 。）
- (b) 当 $n=30$ 时，用中心极限定理近似 $\overline{X}$ 的分布和用精确 Gamma 分布有多大区别？（这道题让你体会”精确分布”和”渐近分布”在中等样本量下的实际差距。）
样本分位数的应用。 解释为什么在实际数据分析中，样本中位数常被用作位置估计的稳健替代方案。如果在数据中混入了一个极端异常值，样本均值和样本中位数各会受到怎样的影响？

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句”用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

第02讲 抽样分布、正态样本与顺序统计量

讲义信息

先看全局

本讲的叙事线

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查

三、核心概念

3.1 抽样分布：统计推断的入口

3.2 样本均值与样本方差的回顾

3.3 顺序统计量：排序后的新变量

四、统计量与分布

4.1 不依赖总体模型：样本均值与样本方差的基本性质

4.2 正态总体下：三大核心结论

4.3 三大结论之间的关系：一条链，不是三个散点

4.4 顺序统计量的分布

4.4.1 动机：为什么需要顺序统计量的分布？

4.4.2 联合密度公式

4.4.3 第 kkk 个顺序统计量的边际分布

4.4.4 顺序统计量在推论中的注意点

4.5 样本分位数

4.5.1 从总体分位数到样本分位数

4.5.2 样本分位数的渐近分布

五、主要结论

1. 分布结论

2. 判别或构造结论

3. 不同统计量的角色比较

关键公式释义

1. 样本均值的方差

2. 正态样本下样本方差的分布

3. 样本均值与样本方差独立

4. 第 kkk 个顺序统计量密度

5. 样本分位数的渐近方差

六、推导与证明

1. 证明依赖

2. 证明思路

七、例题与变式

1. 标准题

2. 变式题

3. 标准题：正态样本下的分布识别

4. 题型提醒

八、章节连接

九、复习整理

高频误套

条件卡

十、习题区

1. 概念题

2. 标准题

3. 综合题

附：排版约定

第02讲抽样分布、正态样本与顺序统计量

4.4.3 第 $k$ 个顺序统计量的边际分布

4. 第 $k$ 个顺序统计量密度