讲义信息
**课程:**数理统计
**章节:**第 2 章前半,对应课件 lec2.1(2026)169(3)
**讲次:**第 02 讲
日期:
**对应大纲:**数理统计大纲
**对应课件:**slides/lec2.1(2026)169(3).pdf
**研究对象:**统计量的分布,尤其是样本均值、样本方差与顺序统计量
**统计任务:**从”样本来自什么总体”推进到”统计量服从什么分布”
**本讲结论用途:**为后续的区间估计、假设检验、分位数推断和极值问题打基础
[!summary]+ 本讲导读
本讲研究的问题:统计推断为什么必须先研究统计量的分布。
已知什么:总体模型 X ∼ F X\sim F X ∼ F ,以及来自该总体的简单随机样本 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 。
未知什么:样本均值、样本方差、顺序统计量等函数的分布。
核心统计对象:X ‾ \overline{X} X 、S 2 S^2 S 2 、X ( 1 ) , … , X ( n ) X_{(1)},\dots,X_{(n)} X ( 1 ) , … , X ( n ) 。
本讲结论最终服务什么推断任务:抽样分布是点估计、区间估计和假设检验的直接基础。
先看全局
上一讲我们建立了数理统计的基本语言:总体、样本、参数、统计量。我们把整门课的链条概括为
Data ⟶ Statistics ⟶ Information . \text{Data} \longrightarrow \text{Statistics} \longrightarrow \text{Information}. Data ⟶ Statistics ⟶ Information .
但是,这条链条里有一个环节至今没有答案:统计量是一个随机变量,那么它到底服从什么分布? 如果我们连统计量的分布都不知道,就无从判断一个估计量是否靠谱、一个检验是否有效——因为我们不知道这个统计量在重复抽样下会如何摆动。
这一讲的核心任务,就是回答一个问题:
既然参数本身不是随机的,那统计推断到底在研究谁的波动?
答案是:研究统计量 的波动。
因为真正会随着样本变化而变化的,不是 μ , σ 2 , p \mu,\sigma^2,p μ , σ 2 , p 这些参数,而是由样本构造出来的
X ‾ , S 2 , T ( X 1 , … , X n ) \overline X,\quad S^2,\quad T(X_1,\dots,X_n) X , S 2 , T ( X 1 , … , X n )
这些量。后面所有的点估计、区间估计、假设检验,本质上都必须先解决一个问题:这个统计量服从什么分布? 这个问题就叫抽样分布问题 。
本讲的叙事线
为了让读者不被淹没在一堆公式里,这一讲沿着一条清晰的叙事线展开:
为什么需要抽样分布? —— 从上一讲的统计量定义过渡到分布问题,建立抽样分布的概念。
最简单的抽样分布:样本均值的期望与方差。 —— 在不依赖任何具体总体模型的前提下,先看看我们能知道什么。
正态总体下的”三件套”:精确分布登场。 —— 加入正态假设后,样本均值与样本方差的分布变得完全可写,这是本讲最核心的结论。
顺序统计量:另一种看待样本的方式。 —— 当我们需要研究最小值、最大值、中位数时,原始样本不够用,需要排序后的对象。
从有限样本走向大样本。 —— 样本分位数的渐近正态性表明,即使精确分布不可写,大样本下仍有近似工具。
一、本讲定位
在课程中的位置:这是从”基本对象”过渡到”统计量分布”的第一讲。
和前一讲的连接:上一讲建立了总体、样本、统计量、经验分布函数等基本语言。现在我们要追问:这些统计量本身服从什么概率规律?没有这个答案,“Data → Statistics → Information”链条中的”Statistics”就仍是黑箱。
和后一讲的连接:本讲会得出正态样本下 S 2 S^2 S 2 标准化后服从 χ 2 \chi^2 χ 2 分布。但 χ 2 \chi^2 χ 2 分布到底是什么?它和 Gamma 分布是什么关系?t t t 分布和 F F F 分布又是怎么构造出来的?这些问题都将留给下一讲系统地回答。
本讲重点内容:
抽样分布的概念与作用
正态样本下 X ‾ \overline{X} X 与 S 2 S^2 S 2 的精确分布
X ‾ \overline{X} X 与 S 2 S^2 S 2 的独立性
顺序统计量的分布
样本中位数、样本分位数与经验分布的联系
二、模型与前提
1. 研究模型
**总体:**随机变量 X X X ,分布函数为 F F F ,密度或概率函数记为 f f f 。
**参数空间:**由具体模型决定,例如正态样本中的 ( μ , σ 2 ) (\mu,\sigma^2) ( μ , σ 2 ) 。
样本: X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 。
抽样方式:默认简单随机样本,即 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 独立同分布。
**参数含义:**本讲的重点不是直接估计参数,而是研究统计量分布如何依赖模型。
2. 对象区分
在本讲的讨论中,下面几个概念会反复出现,务必在潜意识里把它们区别清楚:
总体分布: X X X 的分布。这是”世界的真相”,但我们不知道,只能透过样本去窥探。
**抽样分布:**统计量 T ( X 1 , … , X n ) T(X_1,\dots,X_n) T ( X 1 , … , X n ) 的分布。这是本讲研究的核心对象。注意:抽样分布由总体分布和样本量共同决定,但它是统计量的分布,不是原始样本的分布。
统计量: X ‾ \overline{X} X 、S 2 S^2 S 2 、X ( k ) X_{(k)} X ( k ) 等。它们是样本的函数。
**分位数:**总体分布的函数,如总体中位数 ξ 0.5 \xi_{0.5} ξ 0.5 。这是总体的特征,不是样本的特征。
**样本分位数:**由顺序统计量构造的统计量。它是统计量,有抽样分布。
[!note]+ 对比辨析:总体分布 vs 抽样分布
维度 总体分布 抽样分布 对象 原始随机变量 X X X 统计量 T ( X 1 , … , X n ) T(X_1,\dots,X_n) T ( X 1 , … , X n ) 是否随机 X X X 是随机的T T T 也是随机的(因样本是随机的)是否已知 未知(我们需要推断它) 有时可以精确推导,有时只能近似 依赖因素 只依赖总体本身 同时依赖总体分布和样本量 n n n 举例 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) X ‾ ∼ N ( μ , σ 2 / n ) \overline{X}\sim N(\mu,\sigma^2/n) X ∼ N ( μ , σ 2 / n )
最常见的初学者错误,就是把”样本来自正态总体”和”样本均值服从正态分布”当成同一件事。前者是总体分布,后者是抽样分布,二者之间需要推导 。
3. 模型前提检查
[!warning]+ 条件先检查
抽样分布的定义只要求统计量由样本构造,但具体公式通常依赖总体模型。
X ‾ \overline{X} X 的一般性质只需一阶二阶矩存在。
X ‾ \overline{X} X 与 S 2 S^2 S 2 的精确分布及独立性依赖正态总体。
顺序统计量的一般密度公式通常默认总体是连续型分布。
样本分位数的极限性质是渐近结论,使用时要分清有限样本和大样本。
三、核心概念
3.1 抽样分布:统计推断的入口
[!definition]+ 抽样分布
对统计量
T = T ( X 1 , … , X n ) , T=T(X_1,\dots,X_n), T = T ( X 1 , … , X n ) ,
它在给定总体模型下的分布称为 T T T 的抽样分布。
用途:抽样分布把”样本怎么波动”转化成”统计量怎么波动”,是统计推断的直接入口。
在进入数学公式之前,我们先建立对这个概念的直觉 。
思维实验 :假设你知道某个总体的真实分布(比如标准正态),然后你从这个总体中反复抽取样本量为 10 的样本。每抽一次,你就计算一次样本均值 x ‾ \overline{x} x 。抽 10000 次,你就有了 10000 个 x ‾ \overline{x} x 的值。把它们画成直方图——这个直方图的形状,就是在逼近 X ‾ \overline{X} X 的抽样分布。
你马上会看到两个事实:
这 10000 个 x ‾ \overline{x} x 都集中在某个中心附近(那是总体均值 μ \mu μ );
它们围绕中心波动的幅度,比单个样本 X i X_i X i 的波动幅度要小;
这就是抽样分布在用最朴素的语言告诉我们:统计量也有自己的规律 。理解了这一点,后面所有”这个统计量服从什么分布”的问题就都有了落脚之地。
和相邻概念的区别 :总体分布是 X X X 的分布,抽样分布是 T ( X 1 , … , X n ) T(X_1,\dots,X_n) T ( X 1 , … , X n ) 的分布,两者不是一回事。总体分布是固定的但未知,抽样分布可以(在给定总体模型下)被推导出来。
题目里看到哪些信号会想到它 :一旦题目问”统计量的分布是什么""能否标准化""能否构造检验统计量”,就进入抽样分布问题。
3.2 样本均值与样本方差的回顾
对简单随机样本 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n ,定义
X ‾ = 1 n ∑ i = 1 n X i , S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 . \overline{X}=\frac{1}{n}\sum_{i=1}^n X_i,
\qquad
S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2. X = n 1 i = 1 ∑ n X i , S 2 = n − 1 1 i = 1 ∑ n ( X i − X ) 2 .
这两个量在前一讲已经出现过,但当时我们只是定义了它们,没有探究它们的分布。本讲的重点就是:在什么条件下,我们能把这两个量的分布精确地写出来?
注意 S 2 S^2 S 2 定义中的分母是 n − 1 n-1 n − 1 而非 n n n 。这不是拍脑袋决定的,背后有一个深刻的原因——这个原因我们等会儿就会看到。
3.3 顺序统计量:排序后的新变量
[!definition]+ 顺序统计量
将样本 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 从小到大排列得
X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) , X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}, X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) ,
则称 X ( 1 ) , … , X ( n ) X_{(1)},\dots,X_{(n)} X ( 1 ) , … , X ( n ) 为顺序统计量。
用途:用于研究最小值、最大值、中位数、样本分位数和样本极差等问题。
直觉理解 :原始样本 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 是”无序”的——我们只看到一组数,但不知道谁大谁小。一旦排序,我们就看清了样本的位置结构 :最小值在哪、中间值在哪、最大值在哪。这在研究极值问题(如最大洪水水位、最小寿命)时是必不可少的。
最重要的一条警示 :排序之后的变量一般不再独立。原始样本是 i.i.d.,但一旦排序,变量之间就被强行加上了大小约束:
X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) . X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}. X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) .
这意味着 X ( 2 ) X_{(2)} X ( 2 ) 的取值被 X ( 1 ) X_{(1)} X ( 1 ) 和 X ( 3 ) X_{(3)} X ( 3 ) “夹”住了——它们不再是独立的。所以顺序统计量问题里,最危险的误区就是把它们还当作”原来那组独立样本”来处理。
四、统计量与分布
4.1 不依赖总体模型:样本均值与样本方差的基本性质
在研究”分布”之前,我们先问一个更温和的问题:在不假设任何具体总体分布的情况下,我们能知道 X ‾ \overline{X} X 和 S 2 S^2 S 2 的什么性质?
[!theorem]+ 一般样本下样本均值与样本方差的基本性质
若 E X = μ EX=\mu E X = μ ,Var ( X ) = σ 2 < ∞ \operatorname{Var}(X)=\sigma^2<\infty Var ( X ) = σ 2 < ∞ ,则
E ( X ‾ ) = μ , Var ( X ‾ ) = σ 2 n . E(\overline{X})=\mu,
\qquad
\operatorname{Var}(\overline{X})=\frac{\sigma^2}{n}. E ( X ) = μ , Var ( X ) = n σ 2 .
同时
E ( S 2 ) = σ 2 . E(S^2)=\sigma^2. E ( S 2 ) = σ 2 .
用途:说明 X ‾ \overline{X} X 是总体均值的无偏估计,S 2 S^2 S 2 是总体方差的无偏估计。
命题的动机与意义 :
这个定理告诉我们三件事,而且这三件事不依赖任何总体分布的假设 (只需要总体均值和总体方差存在就行):
E ( X ‾ ) = μ E(\overline{X})=\mu E ( X ) = μ :样本均值平均上能对准总体均值。这不是偶然的——无论你抽多少次样本,样本均值的期望总是正好等于你真正想知道的那个 μ \mu μ 。这是后面”无偏性”概念的最直接体现。
Var ( X ‾ ) = σ 2 / n \operatorname{Var}(\overline{X})=\sigma^2/n Var ( X ) = σ 2 / n :样本均值比单个样本稳定得多。单个样本的方差是 σ 2 \sigma^2 σ 2 ,但 n n n 个样本取了平均之后,方差缩小到原来的 1 / n 1/n 1/ n 。n = 100 n=100 n = 100 时,样本均值的波动幅度大约是单个样本的十分之一。这就是”大样本更可靠”的数学依据。
E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E ( S 2 ) = σ 2 :样本方差平均上能对准总体方差。但注意,S 2 S^2 S 2 的分母必须是 n − 1 n-1 n − 1 而不是 n n n ,才能做到这一点。如果分母用 n n n ,则期望会是 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 n n − 1 σ 2 ,比 σ 2 \sigma^2 σ 2 略小——这就解释了为什么 S 2 S^2 S 2 定义为除以 n − 1 n-1 n − 1 。
这三个性质虽然”只有”期望和方差层面的信息,但它们已经足够重要。它们告诉我们:这些统计量值得拿来做推断 ——因为它们至少在平均意义上是对的。
4.2 正态总体下:三大核心结论
上面的结论非常好,但有一个问题:它只给了期望和方差,没有给完整的分布 。而完整的分布,才是后面做区间估计和假设检验的基础。
那么,在什么条件下能写出完整分布呢?答案是:当总体是正态分布时 。
为什么要研究正态总体? 不是因为正态分布”最常用”就盲目去算,而是因为正态分布具有一种罕见的代数性质:正态随机变量的线性组合仍然是正态的 。这个性质意味着,当我们把 n n n 个正态样本组合成统计量时,很多统计量的分布可以精确地写出来。大多数其他分布族(比如指数分布、均匀分布)都没有这种”线性变换封闭”的美感。
[!theorem]+ 正态样本下的三大核心结论
若 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) ,则
结论一:样本均值的分布
X ‾ ∼ N ( μ , σ 2 n ) . \overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right). X ∼ N ( μ , n σ 2 ) .
用途:这是均值推断的起点。
式子拆解与含义:
左边 X ‾ \overline{X} X 是样本均值——把 n n n 个样本点平均后得到的统计量。
右边 N ( μ , σ 2 / n ) N(\mu,\sigma^2/n) N ( μ , σ 2 / n ) 是正态分布,中心是总体均值 μ \mu μ ,方差是 σ 2 / n \sigma^2/n σ 2 / n 。
这整条式子在说:正态总体下,样本均值本身也是一个正态随机变量。它的中心对准总体均值(暗示”无偏”),而波动幅度随样本量增大而缩小(暗示”一致性”)。
这个结论给了我们一个可直接操作的分布 。如果你知道 μ \mu μ 和 σ 2 \sigma^2 σ 2 ,你就能精确地说出 X ‾ \overline{X} X 落在任何区间的概率——而这正是假设检验和区间估计的核心。
结论二:样本方差的标准化分布
( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) . \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1). σ 2 ( n − 1 ) S 2 ∼ χ 2 ( n − 1 ) .
用途:这是方差推断以及 t t t 分布构造的起点。
式子拆解与含义:
左边不是 S 2 S^2 S 2 本身,而是 ( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 。这里乘上 n − 1 n-1 n − 1 是为了抵消 S 2 S^2 S 2 定义中的分母;除以 σ 2 \sigma^2 σ 2 是为了去量纲化,使结果成为一个”纯数字”。
n − 1 n-1 n − 1 在 S 2 S^2 S 2 的定义中就出现了,现在又出现在 χ 2 \chi^2 χ 2 的自由度上——这不是巧合。自由度 n − 1 n-1 n − 1 反映的是:我们用 X ‾ \overline{X} X 代替了未知的 μ \mu μ 来计算离差,每用一次样本均值,就”消耗”了一个自由度。
右边 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) 是自由度为 n − 1 n-1 n − 1 的卡方分布。χ 2 \chi^2 χ 2 分布的定义和性质将在下一讲详细展开,但这里可以先记住:χ 2 \chi^2 χ 2 分布是一个定义在正半轴上的右偏分布,专门用来处理”平方和”这种量。
这整条式子在说:正态样本下,样本方差的波动不是杂乱无章的,而是被 χ 2 \chi^2 χ 2 分布精确控制。你能说出 S 2 S^2 S 2 在重复抽样下大概多大、大概多分散——这是方差推断的基础。
结论三:样本均值与样本方差的独立性
X ‾ 与 S 2 独立 . \overline{X}\ \text{与}\ S^2\ \text{独立}. X 与 S 2 独立 .
用途:这是构造 Student t t t 统计量的关键。
式子拆解与含义:
“独立”这个词的分量极重。它意味着知道了 X ‾ \overline{X} X 的取值,你对 S 2 S^2 S 2 该取什么值仍然一无所知——反之亦然。
这条结论的深层含义是:在正态总体下,位置信息和波动信息被彻底拆开了 。无论样本均值偏上还是偏下,样本方差都可以自由波动,两者互不牵制。
大多数其他分布族(比如指数分布、Poisson 分布)的样本均值与样本方差是相关的 。正态总体能做到独立,这就是为什么正态总体在经典统计推断中地位如此特殊。
[!note]+ 对比辨析:一般总体 vs 正态总体下的 X ‾ \overline{X} X
维度 一般总体(矩存在) 正态总体 E ( X ‾ ) E(\overline{X}) E ( X ) μ \mu μ μ \mu μ Var ( X ‾ ) \operatorname{Var}(\overline{X}) Var ( X ) σ 2 / n \sigma^2/n σ 2 / n σ 2 / n \sigma^2/n σ 2 / n X ‾ \overline{X} X 的精确分布一般不可写(依赖总体形状) N ( μ , σ 2 / n ) N(\mu,\sigma^2/n) N ( μ , σ 2 / n ) ,精确可知X ‾ \overline{X} X 与 S 2 S^2 S 2 的关系一般相关 独立 S 2 S^2 S 2 标准化后的分布一般不可写 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) ,精确可知
这张表揭示了正态总体的核心优势:不仅统计量的期望和方差可写,连完整分布 都能精确写出来。
4.3 三大结论之间的关系:一条链,不是三个散点
这三个结论必须当成一条链来理解,而不是三个散点:
X ‾ \overline{X} X 正态 → 让”均值推断”变成标准的正态分布问题。你可以标准化它、查正态表、构造置信区间。
( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 服从 χ 2 \chi^2 χ 2 → 让”方差推断”有了精确分布。你可以对 σ 2 \sigma^2 σ 2 做区间估计、做假设检验。
X ‾ \overline{X} X 与 S 2 S^2 S 2 独立 → 允许你把上面两个独立的量拼成一个新的统计量:
n ( X ‾ − μ ) S \frac{\sqrt{n}(\overline{X}-\mu)}{S} S n ( X − μ )
分子来自 X ‾ \overline{X} X 的正态性,分母来自 S 2 S^2 S 2 的 χ 2 \chi^2 χ 2 性质,而独立性保证了分子和分母可以各自在概率上独立运转。这个组合正是下一讲的 t t t 分布的核心——当 σ \sigma σ 未知时,用样本标准差 S S S 替代总体标准差 σ \sigma σ ,得到的就不再是标准正态,而是尾部更厚的 t t t 分布 。
把这条链吃透了,后续的 t t t 检验、F F F 检验、方差分析都会变成自然而然的事情。
4.4 顺序统计量的分布
4.4.1 动机:为什么需要顺序统计量的分布?
到目前为止,我们研究的都是 X ‾ \overline{X} X 和 S 2 S^2 S 2 这类”汇总型”统计量。但有一类问题,汇总型统计量帮不上忙:
一条生产线上,你最关心的是最小的 那个缺陷什么时候出现;
一个水库设计中,你最关心的是最大的 那一次洪水会有多大;
在探索性数据分析中,你经常需要知道”前 25% 的数据点在什么水平之下;
这些问题的共同特征是:你不能用”平均值”来回答,因为你关心的正是极端的那些样本 。这就是引入顺序统计量的动机:当你需要知道样本的位置结构(最小值、最大值、分位数)时,必须先把样本排序,然后研究排序后的随机变量的分布。
4.4.2 联合密度公式
[!theorem]+ 连续总体下顺序统计量的联合密度
若总体连续,密度为 f f f ,分布函数为 F F F ,则顺序统计量的联合密度为
g ( y 1 , … , y n ) = n ! f ( y 1 ) ⋯ f ( y n ) , y 1 ≤ ⋯ ≤ y n . g(y_1,\dots,y_n)=n!\, f(y_1)\cdots f(y_n),
\qquad y_1\le \cdots \le y_n. g ( y 1 , … , y n ) = n ! f ( y 1 ) ⋯ f ( y n ) , y 1 ≤ ⋯ ≤ y n .
用途:这是推导最小值、最大值、样本分位数分布的总公式。
含义解析 :
这个公式看起来和原始样本的联合密度 ∏ i = 1 n f ( y i ) \prod_{i=1}^n f(y_i) ∏ i = 1 n f ( y i ) 几乎一样,只多了一个 n ! n! n ! 因子。
为什么是 n ! n! n ! ?因为原始样本有 n ! n! n ! 种排列方式,但排序之后只有一种排序方式满足 y 1 ≤ ⋯ ≤ y n y_1\le\cdots\le y_n y 1 ≤ ⋯ ≤ y n 。所以原本分布在 n ! n! n ! 个排列上的概率质量,现在全部集中到一个区域上——于是密度乘以 n ! n! n ! 。
支持集变为 y 1 ≤ ⋯ ≤ y n y_1\le\cdots\le y_n y 1 ≤ ⋯ ≤ y n ,这是和原始样本联合密度的关键区别。这个约束导致了顺序统计量之间的相关性。
4.4.3 第 k k k 个顺序统计量的边际分布
从联合密度出发,我们可以积分掉其他变量,得到单个顺序统计量的分布。
[!theorem]+ 第 k k k 个顺序统计量的密度
若总体连续,密度为 f f f ,分布函数为 F F F ,则
f X ( k ) ( y ) = n ! ( k − 1 ) ! ( n − k ) ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) . f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}\bigl(1-F(y)\bigr)^{\,n-k}f(y). f X ( k ) ( y ) = ( k − 1 )! ( n − k )! n ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) .
用途:统一处理中位数、分位数和样本秩次位置。
这个公式建议按**“计数思维”**来理解和记忆,而不是硬背。
直觉推导(计数思维) :我们要研究”第 k k k 个顺序统计量落在 y y y 附近的一个小区间 [ y , y + d y ] [y,\,y+dy] [ y , y + d y ] 里”的概率。要发生这个事件,样本中需要有:
k − 1 k-1 k − 1 个样本落在 y y y 左边(概率近似为 F ( y ) k − 1 F(y)^{k-1} F ( y ) k − 1 );
1 个样本落在 y y y 附近(概率近似为 f ( y ) d y f(y)dy f ( y ) d y );
n − k n-k n − k 个样本落在 y y y 右边(概率近似为 ( 1 − F ( y ) ) n − k (1-F(y))^{n-k} ( 1 − F ( y ) ) n − k )。
现在的问题是:哪几个样本扮演这三类角色?答案是:从 n n n 个样本中任选 k − 1 k-1 k − 1 个做左边的、1 个做中间的、其余做右边的,有
n ! ( k − 1 ) ! 1 ! ( n − k ) ! \frac{n!}{(k-1)!\,1!\,(n-k)!} ( k − 1 )! 1 ! ( n − k )! n !
种分配方式。把这三部分乘起来,再除以 d y dy d y 取极限,就得到上面的密度公式。
含义解析 :
F ( y ) k − 1 F(y)^{k-1} F ( y ) k − 1 :左边有 k − 1 k-1 k − 1 个样本不超过 y y y ,所以是 F ( y ) F(y) F ( y ) 的 k − 1 k-1 k − 1 次方。
( 1 − F ( y ) ) n − k (1-F(y))^{n-k} ( 1 − F ( y ) ) n − k :右边有 n − k n-k n − k 个样本超过 y y y ,每个超过的概率是 1 − F ( y ) 1-F(y) 1 − F ( y ) 。
f ( y ) f(y) f ( y ) :中间正好有一个样本落在 y y y 附近,这个样本贡献了密度 f ( y ) f(y) f ( y ) 。
组合系数 n ! ( k − 1 ) ! ( n − k ) ! \frac{n!}{(k-1)!(n-k)!} ( k − 1 )! ( n − k )! n ! :负责分配哪几个样本承担上述三种角色的”人员编排”。
两个重要特例 :
最小值 (k = 1 k=1 k = 1 ):
P ( X ( 1 ) > y ) = ( 1 − F ( y ) ) n , f X ( 1 ) ( y ) = n ( 1 − F ( y ) ) n − 1 f ( y ) . P(X_{(1)}>y)=(1-F(y))^n,
\qquad
f_{X_{(1)}}(y)=n(1-F(y))^{n-1}f(y). P ( X ( 1 ) > y ) = ( 1 − F ( y ) ) n , f X ( 1 ) ( y ) = n ( 1 − F ( y ) ) n − 1 f ( y ) .
用途:研究样本最早发生时间、最小误差、下尾分位数。
含义 :最小值大于 y y y ,等价于所有 n n n 个样本都大于 y y y 。每个样本大于 y y y 的概率是 1 − F ( y ) 1-F(y) 1 − F ( y ) ,由独立性得 ( 1 − F ( y ) ) n (1-F(y))^n ( 1 − F ( y ) ) n 。
最大值 (k = n k=n k = n ):
P ( X ( n ) ≤ y ) = F ( y ) n , f X ( n ) ( y ) = n F ( y ) n − 1 f ( y ) . P(X_{(n)}\le y)=F(y)^n,
\qquad
f_{X_{(n)}}(y)=nF(y)^{n-1}f(y). P ( X ( n ) ≤ y ) = F ( y ) n , f X ( n ) ( y ) = n F ( y ) n − 1 f ( y ) .
用途:研究极值、最大寿命、上尾风险。
含义 :最大值不超过 y y y ,等价于所有 n n n 个样本都不超过 y y y 。每个样本不超过 y y y 的概率是 F ( y ) F(y) F ( y ) ,由独立性得 F ( y ) n F(y)^n F ( y ) n 。
[!tip]+ 做题策略:最值问题先写分布函数
对于最大值和最小值,先写分布函数 P ( X ( n ) ≤ y ) P(X_{(n)}\le y) P ( X ( n ) ≤ y ) 或 P ( X ( 1 ) > y ) P(X_{(1)}>y) P ( X ( 1 ) > y ) ,再求导得到密度 ——这通常比直接从密度公式出发更稳、更不容易出错。原因是:分布函数的表达式只用到了独立性和 F ( y ) F(y) F ( y ) ,结构极为简单。
4.4.4 顺序统计量在推论中的注意点
[!warning]+ 关键提醒
顺序统计量排序后不再独立。把 X ( 1 ) X_{(1)} X ( 1 ) 和 X ( 2 ) X_{(2)} X ( 2 ) 的联合密度写成 f X ( 1 ) ( y 1 ) f X ( 2 ) ( y 2 ) f_{X_{(1)}}(y_1)f_{X_{(2)}}(y_2) f X ( 1 ) ( y 1 ) f X ( 2 ) ( y 2 ) 是错误 的。
联合密度公式中的 n ! n! n ! 容易遗漏。它来自”全排列收缩到排序区域”的概率质量集中。
离散总体下的顺序统计量公式需要改用概率函数,上面的连续密度公式不能直接套用。
4.5 样本分位数
4.5.1 从总体分位数到样本分位数
总体分位数是总体分布的一个特征:总体的 p p p 分位数 ξ p \xi_p ξ p 定义为满足
F ( ξ p − 0 ) ≤ p ≤ F ( ξ p ) F(\xi_p-0)\le p\le F(\xi_p) F ( ξ p − 0 ) ≤ p ≤ F ( ξ p )
的数。它回答的问题是:“总体中不超过 ξ p \xi_p ξ p 的比例恰好为 p p p (或至少不小于 p p p )”。
但在实际中,我们不知道 F F F ,所以不知道 ξ p \xi_p ξ p 。我们能做的,是用样本去构造一个统计量,让它”逼近” ξ p \xi_p ξ p ——这就是样本分位数 。
最典型的是样本中位数(p = 0.5 p=0.5 p = 0.5 ):
m ~ = { X ( ( n + 1 ) / 2 ) , n 为奇数 , X ( n / 2 ) + X ( n / 2 + 1 ) 2 , n 为偶数 . \tilde{m}=
\begin{cases}
X_{((n+1)/2)}, & n\ \text{为奇数},\\[4pt]
\dfrac{X_{(n/2)}+X_{(n/2+1)}}{2}, & n\ \text{为偶数}.
\end{cases} m ~ = ⎩ ⎨ ⎧ X (( n + 1 ) /2 ) , 2 X ( n /2 ) + X ( n /2 + 1 ) , n 为奇数 , n 为偶数 .
用途:样本中位数是一种稳健位置估计 。当数据中有异常值(outlier)时,样本均值会被严重拉动,但样本中位数几乎不受影响——因为中位数只看排序位置,不看具体的数值大小。
4.5.2 样本分位数的渐近分布
样本中位数的精确分布在小样本下通常很复杂(需要用到顺序统计量的分布)。但在大样本下,有一个简洁而强大的结论。
为什么要研究渐近分布? 因为顺序统计量的精确分布虽然可写(见上一节),但涉及 F k − 1 ( 1 − F ) n − k F^{k-1}(1-F)^{n-k} F k − 1 ( 1 − F ) n − k 这种复杂的幂次组合,做区间估计时不方便操作。如果能证明它在样本量大时近似正态,那就可以借用正态分布的全部工具了。
[!theorem]+ 样本分位数的渐近正态性
若总体密度 f f f 在总体分位数 ξ p \xi_p ξ p 附近连续且 f ( ξ p ) > 0 f(\xi_p)>0 f ( ξ p ) > 0 ,则
n ( m p − ξ p ) → d N ( 0 , p ( 1 − p ) f ( ξ p ) 2 ) . \sqrt{n}(m_p-\xi_p)\xrightarrow{d}N\!\left(0,\frac{p(1-p)}{f(\xi_p)^2}\right). n ( m p − ξ p ) d N ( 0 , f ( ξ p ) 2 p ( 1 − p ) ) .
用途:说明样本分位数在大样本下也具有正态近似,从而可以做区间估计与近似检验。
含义解析 :
n \sqrt{n} n 因子 :和样本均值的中心极限定理一样,n \sqrt{n} n 说明样本分位数的收敛速率也是 n \sqrt{n} n 。
渐近方差 p ( 1 − p ) f ( ξ p ) 2 \dfrac{p(1-p)}{f(\xi_p)^2} f ( ξ p ) 2 p ( 1 − p ) :这个表达式很有意思。分子 p ( 1 − p ) p(1-p) p ( 1 − p ) 来自 Bernoulli 方差——你近似于在计数有多少样本落在分位点两侧。分母 f ( ξ p ) 2 f(\xi_p)^2 f ( ξ p ) 2 说明:总体在分位点附近的密度越大,样本分位数的波动就越小 。直观上,如果分位点附近挤满了样本点(密度高),那排序后分位点的位置就会很稳定;如果分位点附近样本稀疏(密度低),那稍微的抽样变化就会让分位点跳来跳去。
[!warning]+ 使用边界
这是一个渐近结论 (n → ∞ n\to\infty n → ∞ ),不是有限样本下的精确分布。
需要 f ( ξ p ) > 0 f(\xi_p)>0 f ( ξ p ) > 0 ——如果在分位点附近密度退化(比如密度为 0),则收敛速率会变慢,上述公式失效。
当 p p p 靠近 0 或 1(极值分位数)时,渐近正态的效果会变差,通常需要更大的样本量才能用。
五、主要结论
1. 分布结论
[!theorem]+ 正态样本下均值与方差的分布
条件:
X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 为 i.i.d. 样本;
总体为 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 。
结论:
X ‾ ∼ N ( μ , σ 2 n ) , ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) , X ‾ ⊥ S 2 . \overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right),
\qquad
\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1),
\qquad
\overline{X}\perp S^2. X ∼ N ( μ , n σ 2 ) , σ 2 ( n − 1 ) S 2 ∼ χ 2 ( n − 1 ) , X ⊥ S 2 .
用途:后面所有 t t t 区间和 t t t 检验都建立在这里。
2. 判别或构造结论
[!theorem]+ 顺序统计量的一般密度公式
条件:
样本来自连续总体;
密度 f f f 和分布函数 F F F 存在。
结论:
f X ( k ) ( y ) = n ! ( k − 1 ) ! ( n − k ) ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) . f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y). f X ( k ) ( y ) = ( k − 1 )! ( n − k )! n ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) .
用途:构造样本中位数、样本分位数和极差分布。
3. 不同统计量的角色比较
本讲的”比较”主要不是比较估计量优劣,而是比较不同统计量在推断中的角色:
统计量 适合刻画 典型用途 X ‾ \overline{X} X 总体位置(均值 μ \mu μ ) 均值估计、均值检验 S 2 S^2 S 2 总体离散程度(方差 σ 2 \sigma^2 σ 2 ) 方差估计、方差检验 X ( 1 ) X_{(1)} X ( 1 ) 总体下界 最小寿命、最早故障时间 X ( n ) X_{(n)} X ( n ) 总体上界 最大负荷、极端风险 X ( k ) X_{(k)} X ( k ) 总体分位数 中位数、分位数位置估计 R n = X ( n ) − X ( 1 ) R_n=X_{(n)}-X_{(1)} R n = X ( n ) − X ( 1 ) 样本离散范围 极差图、过程控制
[!warning]+ 使用边界
X ‾ \overline{X} X 与 S 2 S^2 S 2 的独立性只在正态总体下精确成立。
顺序统计量的一般密度公式默认总体连续;离散情形要改用概率函数。
样本分位数的渐近正态性需要 f ( ξ p ) > 0 f(\xi_p)>0 f ( ξ p ) > 0 ,不能在分位点附近密度退化时硬套。
X ‾ \overline{X} X 的精确正态性要求正态总体。在非正态总体下,只能用中心极限定理获得渐近正态。
关键公式释义
1. 样本均值的方差
Var ( X ‾ ) = σ 2 n \operatorname{Var}(\overline{X})=\frac{\sigma^2}{n} Var ( X ) = n σ 2
**来源:**由 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^n X_i X = n 1 ∑ i = 1 n X i ,利用独立性得 Var ( ∑ X i ) = n σ 2 \operatorname{Var}(\sum X_i)=n\sigma^2 Var ( ∑ X i ) = n σ 2 ,再乘上因子 ( 1 / n ) 2 (1/n)^2 ( 1/ n ) 2 即得 σ 2 / n \sigma^2/n σ 2 / n 。
**式子拆解:**左边 Var ( X ‾ ) \operatorname{Var}(\overline{X}) Var ( X ) 是样本均值的波动大小;右边 σ 2 / n \sigma^2/n σ 2 / n 说明这种波动等于单个样本方差的 1 / n 1/n 1/ n 。n n n 越大,方差越小——这是”大样本更精确”的数学表述。
**含义:**样本均值比单个样本稳定得多。单个样本可以偏离 μ \mu μ 很远(方差为 σ 2 \sigma^2 σ 2 ),但 100 个样本取平均后,偏离程度缩小到原来的 10%。
**使用提醒:**这个式子不需要正态性,但需要样本独立且总体方差存在。对于 Cauchy 分布(方差不存在),这个式子不成立。
2. 正态样本下样本方差的分布
( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) σ 2 ( n − 1 ) S 2 ∼ χ 2 ( n − 1 )
来源:将残差平方和 ∑ i = 1 n ( X i − X ‾ ) 2 \sum_{i=1}^n (X_i-\overline{X})^2 ∑ i = 1 n ( X i − X ) 2 通过 正交变换 转化为 n − 1 n-1 n − 1 个独立标准正态随机变量的平方和(详见第六节证明)。
**式子拆解:**左边是”样本方差去量纲后的版本”——乘上 n − 1 n-1 n − 1 消去 S 2 S^2 S 2 中的分母,除以 σ 2 \sigma^2 σ 2 去掉量纲,得到一个纯数量。右边 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) 是自由度为 n − 1 n-1 n − 1 的卡方分布。自由度为 n − 1 n-1 n − 1 而不是 n n n ,是因为用 X ‾ \overline{X} X 替代了 μ \mu μ ,损失了一个自由度。
**含义:**样本方差在正态总体下并不是随便波动,而是有一个精确的、已知的 χ 2 \chi^2 χ 2 分布来控制它。这意味着你可以精确计算 S 2 S^2 S 2 落在任何区间的概率——这是方差推断的基础。
使用提醒:这是正态样本的 小样本精确结论 。非正态总体下,( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 的分布不再是精确的 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) ,只能在大样本下用渐近方法。
3. 样本均值与样本方差独立
X ‾ ⊥ S 2 \overline{X}\perp S^2 X ⊥ S 2
**来源:**正态样本经正交变换后,“均值方向”和”残差方向”被分解到不同的坐标轴上,而正态分布在线性变换下仍保持独立。
式子拆解: X ‾ \overline{X} X 和 S 2 S^2 S 2 是两个不同的统计量,独立符号 ⊥ \perp ⊥ 说明二者的取值在概率意义下互不影响。这是正态总体独特的代数性质——绝大多数其他分布族不具备。
**含义:**位置信息(X ‾ \overline{X} X 用于估计 μ \mu μ )和波动信息(S 2 S^2 S 2 用于估计 σ 2 \sigma^2 σ 2 )在正态总体下被完全拆开。这意味着当我们用 X ‾ \overline{X} X 推断 μ \mu μ 时,不需要为”不知道 σ \sigma σ “而额外担忧——因为 S 2 S^2 S 2 的波动和 X ‾ \overline{X} X 的波动是两件独立的事。
**使用提醒:**这条结论是后续构造 t t t 分布的关键。对于非正态总体,X ‾ \overline{X} X 和 S 2 S^2 S 2 一般相关,不能随意套用独立性。
4. 第 k k k 个顺序统计量密度
f X ( k ) ( y ) = n ! ( k − 1 ) ! ( n − k ) ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,F(y)^{\,k-1}(1-F(y))^{\,n-k}f(y) f X ( k ) ( y ) = ( k − 1 )! ( n − k )! n ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y )
**来源:**把事件”第 k k k 个顺序统计量落在 y y y 附近”用计数思维拆成三部分:左边 k − 1 k-1 k − 1 个、附近 1 个、右边 n − k n-k n − k 个,再乘上分配角色的组合数。
式子拆解: F ( y ) k − 1 F(y)^{k-1} F ( y ) k − 1 描述左边 k − 1 k-1 k − 1 个样本都不超过 y y y 的概率;f ( y ) f(y) f ( y ) 是中间那个样本落在 y y y 附近的密度贡献;( 1 − F ( y ) ) n − k (1-F(y))^{n-k} ( 1 − F ( y ) ) n − k 描述右边 n − k n-k n − k 个样本都超过 y y y 的概率;n ! ( k − 1 ) ! ( n − k ) ! \frac{n!}{(k-1)!(n-k)!} ( k − 1 )! ( n − k )! n ! 是人员分配方案数。
**含义:**顺序统计量的分布同时受总体分布函数 F F F 和密度函数 f f f 控制。F F F 决定”有多少样本在左右两边”,f f f 决定”中间那个落在哪的概率大”。
**使用提醒:**连续总体下这个公式最好用。离散总体应回到概率函数或直接计数。另外,公式中的组合系数 n ! ( k − 1 ) ! ( n − k ) ! \frac{n!}{(k-1)!(n-k)!} ( k − 1 )! ( n − k )! n ! 不等于通常的二项式系数 ( n k ) \binom{n}{k} ( k n ) (差了一个 k k k ),注意不要写错。
5. 样本分位数的渐近方差
AVar ( m p ) = p ( 1 − p ) n f ( ξ p ) 2 \operatorname{AVar}(m_p)=\frac{p(1-p)}{n\,f(\xi_p)^2} AVar ( m p ) = n f ( ξ p ) 2 p ( 1 − p )
**来源:**由渐近正态性结论,将渐近方差除以 n n n 得到 m p m_p m p 自身的近似方差。
**式子拆解:**分子 p ( 1 − p ) p(1-p) p ( 1 − p ) 是”分位点两侧”的 Bernoulli 方差;分母 f ( ξ p ) 2 f(\xi_p)^2 f ( ξ p ) 2 是关键——密度越大,方差越小。
**含义:**分位点密度高 → 分位数估计精确(方差小);分位点密度低 → 分位数估计不精确(方差大)。这完美解释了为什么正态分布的中位数(密度高峰处)估计得很准,而均匀分布的分位数估计精度处处一样。
使用提醒:f ( ξ p ) f(\xi_p) f ( ξ p ) 是总体的密度 ,在实际中是未知的,使用渐近公式时需要估计它(可用核密度估计或代入顺序统计量的间距信息)。
[!note]+ 对比辨析:μ \mu μ vs X ‾ \overline{X} X
维度 μ \mu μ (总体均值)X ‾ \overline{X} X (样本均值)属于哪一层 总体层 样本层 / 统计量层 是否随机 否(固定未知常数) 是(会随抽样变化) 是否有分布 无(固定常数没有分布) 有(即抽样分布) 能否被观测 不能直接观测 可以计算 在推断中的角色 推断的目标 推断的工具 记号惯例 希腊字母(μ \mu μ ) 拉丁字母 / 上划线(X ‾ \overline{X} X )
最常见的坑 :把”已知 x ‾ = 5.2 \overline{x}=5.2 x = 5.2 “当成”已知 μ = 5.2 \mu=5.2 μ = 5.2 “——前者只是一个样本实现,后者是总体的真实参数,两者不能混淆。
[!note]+ 对比辨析:F F F (总体分布函数)vs F n F_n F n (经验分布函数)
维度 F ( x ) F(x) F ( x ) F n ( x ) F_n(x) F n ( x ) 本质 总体特征(理论概率) 样本函数(经验频率) 是否随机 否(固定函数) 是(随样本变化) 是否已知 未知 可计算 函数类型 可以是任何分布函数 一定是阶梯函数(步数 ≤ n \le n ≤ n ) 与 n n n 的关系 无关 随 n n n 增大趋近 F F F (Glivenko-Cantelli) 典型用途 定义参数(如 μ = ∫ x d F \mu=\int x dF μ = ∫ x d F ) 非参数推断、Bootstrap 的基础
最常见的坑 :把 F n ( x ) F_n(x) F n ( x ) 直接当成 F ( x ) F(x) F ( x ) 用而忘记声明”这是有限样本下的近似”。事实上,F n ( x ) F_n(x) F n ( x ) 只有在 n → ∞ n\to\infty n → ∞ 时才会一致逼近 F ( x ) F(x) F ( x ) 。
六、推导与证明
1. 证明依赖
用到的定义:简单随机样本、样本均值、样本方差、顺序统计量。
用到的前序定理:正态线性变换结论、χ 2 \chi^2 χ 2 分布定义、正交变换性质。
用到的分布性质:独立正态线性变换、样本排序后的计数思路。
用到的关键技巧:标准化、正交变换、局部区间计数法。
2. 证明思路
**对 X ‾ \overline{X} X :**利用正态分布对线性组合封闭。X ‾ = 1 n ∑ X i \overline{X}=\frac{1}{n}\sum X_i X = n 1 ∑ X i 是独立正态的线性组合,因此仍为正态。期望是 1 n ∑ E ( X i ) = μ \frac{1}{n}\sum E(X_i)=\mu n 1 ∑ E ( X i ) = μ ,方差是 1 n 2 ∑ Var ( X i ) = σ 2 / n \frac{1}{n^2}\sum \operatorname{Var}(X_i)=\sigma^2/n n 2 1 ∑ Var ( X i ) = σ 2 / n 。
**对 ( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 :**这是本讲证明中最有技巧性的一步——关键是把 ∑ ( X i − X ‾ ) 2 \sum (X_i-\overline{X})^2 ∑ ( X i − X ) 2 通过正交变换转化为 n − 1 n-1 n − 1 个独立标准正态的平方和。
**对独立性:**同样是利用正交变换:变换后”均值方向”对应一个坐标,“残差方向”对应其余 n − 1 n-1 n − 1 个坐标,而正态变量在线性变换下保持独立性。
**对顺序统计量:**计算”恰有 k − 1 k-1 k − 1 个点落在左边、1 个点落在局部小区间、其余点落在右边”的概率,除以区间长度,取极限。
[!proof]- 📐 深度推导:( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) (n-1)S^2/\sigma^2\sim \chi^2(n-1) ( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) 的证明
这是本讲最核心的推导,也是后续 t t t 分布、F F F 分布构造的基石。
第一步:将离差平方和写成向量形式。
设 X = ( X 1 , … , X n ) T X=(X_1,\dots,X_n)^T X = ( X 1 , … , X n ) T 。令 Y i = ( X i − μ ) / σ ∼ N ( 0 , 1 ) Y_i=(X_i-\mu)/\sigma\sim N(0,1) Y i = ( X i − μ ) / σ ∼ N ( 0 , 1 ) ,则 Y 1 , … , Y n Y_1,\dots,Y_n Y 1 , … , Y n 是 i.i.d. N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 。我们的目标是研究
( n − 1 ) S 2 σ 2 = 1 σ 2 ∑ i = 1 n ( X i − X ‾ ) 2 = ∑ i = 1 n ( Y i − Y ‾ ) 2 . \frac{(n-1)S^2}{\sigma^2}
=\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\overline{X})^2
=\sum_{i=1}^n (Y_i-\overline{Y})^2. σ 2 ( n − 1 ) S 2 = σ 2 1 i = 1 ∑ n ( X i − X ) 2 = i = 1 ∑ n ( Y i − Y ) 2 .
也就是说,我们需要证明 n n n 个 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 围绕其样本均值的离差平方和服从 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) 。
第二步(关键一步):为什么要用正交变换?
如果我们能找到一个”坐标变换”,把原始向量 Y Y Y 旋转到一组新的正交基上,使得其中一个基方向正好对应”均值方向”,其余 n − 1 n-1 n − 1 个基方向对应”残差方向”,那么:
均值方向的坐标就只涉及 Y ‾ \overline{Y} Y ;
残差方向的坐标就只涉及 Y i − Y ‾ Y_i-\overline{Y} Y i − Y ;
而正态向量的正交变换仍然是独立正态的!
这正是正交变换的妙处:它把看似”纠缠”的 Y ‾ \overline{Y} Y 和 Y i − Y ‾ Y_i-\overline{Y} Y i − Y 拆到了不同的坐标轴上。
第三步:构造正交矩阵。
取 n × n n\times n n × n 正交矩阵 A A A ,使其第一行为 ( 1 n , 1 n , … , 1 n ) (\frac{1}{\sqrt{n}},\frac{1}{\sqrt{n}},\dots,\frac{1}{\sqrt{n}}) ( n 1 , n 1 , … , n 1 ) (单位向量,指向”均值方向”),其余 n − 1 n-1 n − 1 行是任意与第一行正交的单位向量。
令 Z = A Y Z=AY Z = A Y 。由于 A A A 是正交的且 Y Y Y 的各分量独立 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) ,可知 Z Z Z 的各分量也独立 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 。
此时:
Z 1 = 1 n ∑ i = 1 n Y i = n Y ‾ . Z_1 = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i = \sqrt{n}\,\overline{Y}. Z 1 = n 1 i = 1 ∑ n Y i = n Y .
而由正交变换保持长度不变:
∑ i = 1 n Z i 2 = ∑ i = 1 n Y i 2 . \sum_{i=1}^n Z_i^2 = \sum_{i=1}^n Y_i^2. i = 1 ∑ n Z i 2 = i = 1 ∑ n Y i 2 .
第四步:分离出残差平方和。
从上式可得:
∑ i = 1 n ( Y i − Y ‾ ) 2 = ∑ i = 1 n Y i 2 − n Y ‾ 2 = ∑ i = 1 n Z i 2 − Z 1 2 = ∑ i = 2 n Z i 2 . \sum_{i=1}^n (Y_i-\overline{Y})^2
= \sum_{i=1}^n Y_i^2 - n\overline{Y}^2
= \sum_{i=1}^n Z_i^2 - Z_1^2
= \sum_{i=2}^n Z_i^2. i = 1 ∑ n ( Y i − Y ) 2 = i = 1 ∑ n Y i 2 − n Y 2 = i = 1 ∑ n Z i 2 − Z 1 2 = i = 2 ∑ n Z i 2 .
即残差平方和恰好等于 n − 1 n-1 n − 1 个独立标准正态的平方和。
而 χ 2 ( n − 1 ) \chi^2(n-1) χ 2 ( n − 1 ) 的定义正是 n − 1 n-1 n − 1 个独立 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 的平方和!
第五步:为什么自由度是 n − 1 n-1 n − 1 而不是 n n n ?
因为用 Y ‾ \overline{Y} Y (即 Z 1 Z_1 Z 1 )消耗了一个自由度。直观上,虽然 ∑ ( Y i − Y ‾ ) 2 \sum(Y_i-\overline{Y})^2 ∑ ( Y i − Y ) 2 看起来有 n n n 项,但它们之间有一个约束 ∑ ( Y i − Y ‾ ) = 0 \sum(Y_i-\overline{Y})=0 ∑ ( Y i − Y ) = 0 ,所以真正”自由”的只有 n − 1 n-1 n − 1 个量。正交变换精确地把这 n − 1 n-1 n − 1 个自由度对应的独立 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 分离了出来。
用途:这是把正态样本的方差问题转化为 χ 2 \chi^2 χ 2 问题的标准路线。理解了这一步,后面的 t t t 和 F F F 构造就是水到渠成的事。
[!proof]- 📐 深度推导:X ‾ \overline{X} X 与 S 2 S^2 S 2 独立性的证明思路
用上面的正交变换记号:
X ‾ \overline{X} X 只依赖于 Z 1 Z_1 Z 1 (均值方向);
S 2 S^2 S 2 只依赖于 Z 2 , … , Z n Z_2,\dots,Z_n Z 2 , … , Z n (残差方向)。
而 Z 1 , Z 2 , … , Z n Z_1,Z_2,\dots,Z_n Z 1 , Z 2 , … , Z n 是相互独立的标准正态变量——因为正交变换将独立正态映射为独立正态。
因此,X ‾ \overline{X} X 和 S 2 S^2 S 2 分别由互不相交的独立正态分量构成,故二者独立。
为什么这条结论如此特殊? 因为离开了正态分布,即使你对数据做了同样的正交变换,变换后的分量也不再是独立的(它们的分布共同依赖于原始数据的形状)。所以 X ‾ \overline{X} X 和 S 2 S^2 S 2 的这种”结构上”的独立,是正态分布代数性质的深刻体现。
[!proof]- 📐 深度推导:第 k k k 个顺序统计量密度的严格推导
对任意 y y y 和小的 Δ y > 0 \Delta y>0 Δ y > 0 ,考虑事件 y < X ( k ) ≤ y + Δ y y<X_{(k)}\le y+\Delta y y < X ( k ) ≤ y + Δ y 。要发生这个事件,样本中需要:
恰有 k − 1 k-1 k − 1 个样本点不超过 y y y :每个样本不超过 y y y 的概率是 F ( y ) F(y) F ( y ) ,所以这部分贡献 F ( y ) k − 1 F(y)^{k-1} F ( y ) k − 1 ;
恰有 1 个样本点落在 ( y , y + Δ y ] (y,\,y+\Delta y] ( y , y + Δ y ] :概率近似为 F ( y + Δ y ) − F ( y ) ≈ f ( y ) Δ y F(y+\Delta y)-F(y)\approx f(y)\Delta y F ( y + Δ y ) − F ( y ) ≈ f ( y ) Δ y ;
其余 n − k n-k n − k 个样本点大于 y + Δ y y+\Delta y y + Δ y :每个超过的概率是 1 − F ( y + Δ y ) ≈ 1 − F ( y ) 1-F(y+\Delta y)\approx 1-F(y) 1 − F ( y + Δ y ) ≈ 1 − F ( y ) 。
三组样本的角色分配方案数为:
n ! ( k − 1 ) ! 1 ! ( n − k ) ! . \frac{n!}{(k-1)!\,1!\,(n-k)!}. ( k − 1 )! 1 ! ( n − k )! n ! .
因此:
P ( y < X ( k ) ≤ y + Δ y ) ≈ n ! ( k − 1 ) ! ( n − k ) ! F ( y ) k − 1 f ( y ) Δ y ( 1 − F ( y + Δ y ) ) n − k . P(y<X_{(k)}\le y+\Delta y)\approx
\frac{n!}{(k-1)!(n-k)!}\,
F(y)^{k-1}\,f(y)\Delta y\,(1-F(y+\Delta y))^{n-k}. P ( y < X ( k ) ≤ y + Δ y ) ≈ ( k − 1 )! ( n − k )! n ! F ( y ) k − 1 f ( y ) Δ y ( 1 − F ( y + Δ y ) ) n − k .
两边除以 Δ y \Delta y Δ y ,再令 Δ y → 0 \Delta y\to 0 Δ y → 0 ,即得密度的表达式。
这个推导的精妙之处在于:我们根本不涉及复杂的多元积分,只用组合计数 + 概率乘法 就得到了结果。这也是统计学中”计数思维”的一个典范。
用途:这是处理顺序统计量最常用的推导模板,适用于任何连续总体。
七、例题与变式
1. 标准题
**题型:**分布题
题目:
设 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 来自连续总体,分布函数为 F F F ,密度为 f f f 。求样本最大值 X ( n ) X_{(n)} X ( n ) 的分布。
解题思路 (做题前先理顺这三步):
**先判断统计任务:**这是顺序统计量分布题。目标是 X ( n ) X_{(n)} X ( n ) ,是最大值。
**选择切入点:**对于最大值/最小值,先写分布函数通常比直接写密度更稳 ——因为分布函数的表达式极为简洁,完全不用涉及密度。
用独立性: “最大值 ≤ y \le y ≤ y “等价于”每个样本都 ≤ y \le y ≤ y “。由独立同分布,概率就是 F ( y ) n F(y)^n F ( y ) n 。
解答:
P ( X ( n ) ≤ y ) = P ( X 1 ≤ y , X 2 ≤ y , … , X n ≤ y ) = F ( y ) n . P(X_{(n)}\le y)=P(X_1\le y,\,X_2\le y,\dots,X_n\le y)=F(y)^n. P ( X ( n ) ≤ y ) = P ( X 1 ≤ y , X 2 ≤ y , … , X n ≤ y ) = F ( y ) n .
对 y y y 求导得密度:
f X ( n ) ( y ) = d d y F ( y ) n = n F ( y ) n − 1 f ( y ) . f_{X_{(n)}}(y)=\frac{d}{dy}F(y)^n=nF(y)^{n-1}f(y). f X ( n ) ( y ) = d y d F ( y ) n = n F ( y ) n − 1 f ( y ) .
答案解读 :F ( y ) n − 1 F(y)^{n-1} F ( y ) n − 1 反映了”要想成为最大值,需要其余 n − 1 n-1 n − 1 个样本都不超过自己”的约束。当 n n n 很大时,F ( y ) n − 1 F(y)^{n-1} F ( y ) n − 1 使得密度的峰值被推向 F ( y ) F(y) F ( y ) 接近 1 的区域——最大值密度的主体集中在分布的右尾。
**用途:**这是极值统计量分布最基础的模板。
2. 变式题
变式一:把 X ( n ) X_{(n)} X ( n ) 换成 X ( 1 ) X_{(1)} X ( 1 ) 。
思路完全相同,只是方向反过来:
P ( X ( 1 ) > y ) = P ( X 1 > y , … , X n > y ) = ( 1 − F ( y ) ) n , P(X_{(1)}>y)=P(X_1>y,\dots,X_n>y)=(1-F(y))^n, P ( X ( 1 ) > y ) = P ( X 1 > y , … , X n > y ) = ( 1 − F ( y ) ) n ,
f X ( 1 ) ( y ) = − d d y ( 1 − F ( y ) ) n = n ( 1 − F ( y ) ) n − 1 f ( y ) . f_{X_{(1)}}(y)=-\frac{d}{dy}(1-F(y))^n=n(1-F(y))^{n-1}f(y). f X ( 1 ) ( y ) = − d y d ( 1 − F ( y ) ) n = n ( 1 − F ( y ) ) n − 1 f ( y ) .
变式二:把最大值换成第 k k k 个顺序统计量。
直接套用一般公式:
f X ( k ) ( y ) = n ! ( k − 1 ) ! ( n − k ) ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) . f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}F(y)^{k-1}(1-F(y))^{n-k}f(y). f X ( k ) ( y ) = ( k − 1 )! ( n − k )! n ! F ( y ) k − 1 ( 1 − F ( y ) ) n − k f ( y ) .
变式三:若总体改成 U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) ,F ( y ) = y F(y)=y F ( y ) = y ,f ( y ) = 1 f(y)=1 f ( y ) = 1 (当 0 < y < 1 0<y<1 0 < y < 1 )。
代入得:
f X ( k ) ( y ) = n ! ( k − 1 ) ! ( n − k ) ! y k − 1 ( 1 − y ) n − k , 0 < y < 1. f_{X_{(k)}}(y)=\frac{n!}{(k-1)!(n-k)!}\,y^{k-1}(1-y)^{n-k},\qquad 0<y<1. f X ( k ) ( y ) = ( k − 1 )! ( n − k )! n ! y k − 1 ( 1 − y ) n − k , 0 < y < 1.
这正好是 Beta 分布 Beta ( k , n − k + 1 ) \text{Beta}(k,\,n-k+1) Beta ( k , n − k + 1 ) 的密度!这说明 U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 样本的顺序统计量服从 Beta 分布——这个联系在下一讲会进一步展开。
3. 标准题:正态样本下的分布识别
题目:
设 X 1 , … , X 16 ∼ i.i.d. N ( 10 , 4 ) X_1,\dots,X_{16}\stackrel{\text{i.i.d.}}{\sim} N(10,4) X 1 , … , X 16 ∼ i.i.d. N ( 10 , 4 ) 。写出 X ‾ \overline{X} X 的分布,并计算 P ( 9 < X ‾ < 11 ) P(9<\overline{X}<11) P ( 9 < X < 11 ) 。
解题思路 (先理顺再动笔):
**识别模型:**正态总体,μ = 10 \mu=10 μ = 10 ,σ 2 = 4 \sigma^2=4 σ 2 = 4 (所以 σ = 2 \sigma=2 σ = 2 ),n = 16 n=16 n = 16 。
调用三大核心结论之一: X ‾ ∼ N ( μ , σ 2 / n ) = N ( 10 , 4 / 16 ) = N ( 10 , 0.25 ) \overline{X}\sim N(\mu,\sigma^2/n)=N(10,4/16)=N(10,0.25) X ∼ N ( μ , σ 2 / n ) = N ( 10 , 4/16 ) = N ( 10 , 0.25 ) 。
标准化: Z = X ‾ − 10 0.25 = X ‾ − 10 0.5 ∼ N ( 0 , 1 ) Z=\frac{\overline{X}-10}{\sqrt{0.25}}=\frac{\overline{X}-10}{0.5}\sim N(0,1) Z = 0.25 X − 10 = 0.5 X − 10 ∼ N ( 0 , 1 ) 。
用标准正态表:
P ( 9 < X ‾ < 11 ) = P ( 9 − 10 0.5 < Z < 11 − 10 0.5 ) = P ( − 2 < Z < 2 ) . P(9<\overline{X}<11)=P\!\left(\frac{9-10}{0.5}<Z<\frac{11-10}{0.5}\right)=P(-2<Z<2). P ( 9 < X < 11 ) = P ( 0.5 9 − 10 < Z < 0.5 11 − 10 ) = P ( − 2 < Z < 2 ) .
解答:
X ‾ ∼ N ( 10 , 0.25 ) \overline{X}\sim N(10,0.25) X ∼ N ( 10 , 0.25 ) ,标准差 0.25 = 0.5 \sqrt{0.25}=0.5 0.25 = 0.5 。
P ( 9 < X ‾ < 11 ) = Φ ( 2 ) − Φ ( − 2 ) = 2 Φ ( 2 ) − 1 ≈ 0.9544. P(9<\overline{X}<11)=\Phi(2)-\Phi(-2)=2\Phi(2)-1\approx 0.9544. P ( 9 < X < 11 ) = Φ ( 2 ) − Φ ( − 2 ) = 2Φ ( 2 ) − 1 ≈ 0.9544.
**含义:**虽然单个样本 X i ∼ N ( 10 , 4 ) X_i\sim N(10,4) X i ∼ N ( 10 , 4 ) 落在 ( 9 , 11 ) (9,11) ( 9 , 11 ) 内的概率只有 2 Φ ( 0.5 ) − 1 ≈ 0.383 2\Phi(0.5)-1\approx 0.383 2Φ ( 0.5 ) − 1 ≈ 0.383 ,但 16 个样本取平均之后,这个概率飙升到约 95.44%。这就是”取平均能大幅度降噪”的直观体现。
常见坑点提醒:
不要把总体标准差 σ = 2 \sigma=2 σ = 2 当成 X ‾ \overline{X} X 的标准差。X ‾ \overline{X} X 的标准差是 σ / n = 2 / 4 = 0.5 \sigma/\sqrt{n}=2/4=0.5 σ / n = 2/4 = 0.5 。
标准化时,分母是 Var ( X ‾ ) = σ / n \sqrt{\operatorname{Var}(\overline{X})}=\sigma/\sqrt{n} Var ( X ) = σ / n ,不是 S / n S/\sqrt{n} S / n (除非题目明确说 σ \sigma σ 未知,此时才用 t t t 分布)。
4. 题型提醒
[!tip]+ 做题顺序:抽样分布类题目的通用流程
先辨别总体是否正态。 正态 → 可以使用精确分布结论;非正态 → 考虑渐近方法或非参数方法。
识别统计量类型。 一次看到 X ‾ \overline{X} X → 正态(若总体正态);看到 S 2 S^2 S 2 → χ 2 \chi^2 χ 2 (若总体正态);看到 X ‾ \overline{X} X 和 S 2 S^2 S 2 同时出现 → 注意独立性,可能导向 t t t 分布。
遇到最值先写分布函数 ,通常比直接套用密度公式更稳、更不容易出错。
标准化后再查表或调用分布。 X ‾ \overline{X} X 标准化为 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) ;S 2 S^2 S 2 标准化为 χ 2 \chi^2 χ 2 。
分清”精确分布”与”渐近分布”。 有限样本下用精确分布,大样本下可以用渐近结论近似。
八、章节连接
**这一讲建立在哪些知识之上:**随机变量、正态分布、独立性、分布函数与密度函数、经验分布函数(第一讲)、正交变换(线性代数)。
这一讲为后面哪些内容做准备:χ 2 \chi^2 χ 2 、t t t 、F F F 分布的构造(第三讲),点估计(第五讲),区间估计和假设检验(后续章节)。
这一讲在整门课中的功能:把第一讲”统计量的定义”推进为”统计量的分布”,使推断从”定性描述”进入”可计算”的阶段。没有这一讲,后面的区间估计找不到界限,假设检验找不到临界值,点估计找不到置信度。
九、复习整理
[!summary]+ 本讲小结
研究的问题:统计量到底服从什么分布。
使用的模型:简单随机样本;正态总体是精确结论的核心模型。
核心统计量:X ‾ \overline{X} X 、S 2 S^2 S 2 、X ( k ) X_{(k)} X ( k ) 、样本分位数。
关键结论:
一般总体下,E ( X ‾ ) = μ E(\overline{X})=\mu E ( X ) = μ ,Var ( X ‾ ) = σ 2 / n \operatorname{Var}(\overline{X})=\sigma^2/n Var ( X ) = σ 2 / n ,E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E ( S 2 ) = σ 2 ——这些不依赖总体分布形式。
正态总体下,X ‾ ∼ N ( μ , σ 2 / n ) \overline{X}\sim N(\mu,\sigma^2/n) X ∼ N ( μ , σ 2 / n ) ,( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) (n-1)S^2/\sigma^2\sim\chi^2(n-1) ( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) ,且 X ‾ ⊥ S 2 \overline{X}\perp S^2 X ⊥ S 2 ——三大精确结论。
连续总体下,第 k k k 个顺序统计量密度为 n ! ( k − 1 ) ! ( n − k ) ! F k − 1 ( 1 − F ) n − k f \frac{n!}{(k-1)!(n-k)!}F^{k-1}(1-F)^{n-k}f ( k − 1 )! ( n − k )! n ! F k − 1 ( 1 − F ) n − k f 。
样本分位数具有渐近正态性,渐近方差为 p ( 1 − p ) n f ( ξ p ) 2 \frac{p(1-p)}{nf(\xi_p)^2} n f ( ξ p ) 2 p ( 1 − p ) 。
最重要的条件:正态性(精确分布)、连续性(顺序统计量密度公式)、独立同分布(全部结论的前提)。
本讲最终服务什么推断任务:为后续构造检验统计量、区间估计和极值统计提供分布基础。
高频误套
[!warning]+ 常见错误
把总体分布和抽样分布混成一回事。 看到"X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) "就说”结论是正态分布”——这是总体分布,不是抽样分布。统计量的分布还需要额外的推导。
以为任何总体下 X ‾ \overline{X} X 与 S 2 S^2 S 2 都独立。 X ‾ ⊥ S 2 \overline{X}\perp S^2 X ⊥ S 2 只在正态总体下精确成立。指数分布样本下,X ‾ \overline{X} X 和 S 2 S^2 S 2 是相关的。
顺序统计量排序后仍当作独立变量处理。 这是做顺序统计量题时最容易犯的错误。排序引入了大小约束,变量之间不再独立。
把样本分位数的渐近结论当成有限样本精确结论。 渐近正态性只在 n n n 足够大时近似成立,小样本下分布可能严重偏斜。
标准化时分母用错。 X ‾ − μ σ / n ∼ N ( 0 , 1 ) \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) σ / n X − μ ∼ N ( 0 , 1 ) ,但 X ‾ − μ S / n ∼ t ( n − 1 ) \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S / n X − μ ∼ t ( n − 1 ) 。后者是下一讲的内容,如果这里硬套正态分布就会出错。
条件卡
结论: X ‾ ∼ N ( μ , σ 2 / n ) \overline{X}\sim N(\mu,\sigma^2/n) X ∼ N ( μ , σ 2 / n ) 。
成立条件: 总体正态,样本 i.i.d.
不能用在: 一般总体的小样本精确推断。此时只能用中心极限定理得渐近正态,不是精确正态。
常见误套场景: 把中心极限定理和正态总体下的精确结论混用。前者说”近似正态”,后者说”精确正态”——n=5 时区别很大。
结论: ( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) (n-1)S^2/\sigma^2\sim \chi^2(n-1) ( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) 且 X ‾ ⊥ S 2 \overline{X}\perp S^2 X ⊥ S 2 。
成立条件: 总体正态,样本 i.i.d.
不能用在: 非正态总体的精确推断。即使非正态总体下 ( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 有一致性或渐近分布,也不是精确 χ 2 \chi^2 χ 2 。
常见误套场景: 直接用它构造非正态样本的 t t t 统计量。t t t 分布的定义依赖分子正态 + 分母独立 χ 2 \chi^2 χ 2 ,两个条件在非正态下可能都不成立。
结论: X ( k ) X_{(k)} X ( k ) 的密度公式中含有 F k − 1 ( 1 − F ) n − k f F^{k-1}(1-F)^{n-k}f F k − 1 ( 1 − F ) n − k f 。
成立条件: 总体连续(有密度),样本 i.i.d.
不能用在: 离散总体不加修改直接照抄。离散情形下 P ( X ( k ) = y ) P(X_{(k)}=y) P ( X ( k ) = y ) 的表达式不同。
常见误套场景: 顺序统计量问题里忘记连续性前提,直接抄密度公式。
结论: n ( m p − ξ p ) → d N ( 0 , p ( 1 − p ) / f ( ξ p ) 2 ) \sqrt{n}(m_p-\xi_p)\xrightarrow{d}N(0,p(1-p)/f(\xi_p)^2) n ( m p − ξ p ) d N ( 0 , p ( 1 − p ) / f ( ξ p ) 2 ) 。
成立条件: f f f 在 ξ p \xi_p ξ p 附近连续且 f ( ξ p ) > 0 f(\xi_p)>0 f ( ξ p ) > 0 ,n → ∞ n\to\infty n → ∞ 。
不能用在: 小样本精确分布计算、分位点密度退化情形。
常见误套场景: n = 10 n=10 n = 10 时直接套用正态近似做区间估计(样本量太小,渐近不靠谱)。
十、习题区
1. 概念题
**用自己的话解释:**为什么说抽样分布是统计推断的基础?如果不知道一个统计量的抽样分布,我们还能做推断吗?
为什么 X ‾ \overline{X} X 与 S 2 S^2 S 2 的独立性在正态样本中地位特殊? 如果总体是均匀分布,X ‾ \overline{X} X 和 S 2 S^2 S 2 还独立吗?提示:想想正态分布有什么代数性质是均匀分布没有的。
顺序统计量与原样本的最本质区别是什么? 排序之后,随机变量之间还保持独立吗?这对推导它们的联合分布有什么影响?
2. 标准题
设 X 1 , … , X n X_1,\dots,X_n X 1 , … , X n 来自连续总体 F F F 。写出一组样本中最大值和最小值的分布函数与密度函数。
设 X 1 , … , X n ∼ N ( μ , σ 2 ) X_1,\dots,X_n\sim N(\mu,\sigma^2) X 1 , … , X n ∼ N ( μ , σ 2 ) 。写出 X ‾ \overline{X} X 的分布、( n − 1 ) S 2 / σ 2 (n-1)S^2/\sigma^2 ( n − 1 ) S 2 / σ 2 的分布,以及 X ‾ \overline{X} X 与 S 2 S^2 S 2 的关系。
设 X 1 , … , X n ∼ U ( 0 , 1 ) X_1,\dots,X_n\sim U(0,1) X 1 , … , X n ∼ U ( 0 , 1 ) 。求 X ( n ) X_{(n)} X ( n ) (最大值)的密度,并计算 E ( X ( n ) ) E(X_{(n)}) E ( X ( n ) ) 。(答案:E ( X ( n ) ) = n / ( n + 1 ) E(X_{(n)})=n/(n+1) E ( X ( n ) ) = n / ( n + 1 ) ,这解释了为什么样本最大值总比 1 略小。)
3. 综合题
顺序统计量与 Beta 分布的联系。 设 X 1 , … , X n ∼ U ( 0 , 1 ) X_1,\dots,X_n\sim U(0,1) X 1 , … , X n ∼ U ( 0 , 1 ) 。
(a) 求 X ( k ) X_{(k)} X ( k ) 的密度。
(b) 验证这个密度就是 Beta ( k , n − k + 1 ) \text{Beta}(k,n-k+1) Beta ( k , n − k + 1 ) 的密度。
(c) 解释:为什么顺序统计量的分布会自然地关联到 Beta 分布?(提示:U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 的 F ( y ) = y F(y)=y F ( y ) = y 使得 F k − 1 ( 1 − F ) n − k F^{k-1}(1-F)^{n-k} F k − 1 ( 1 − F ) n − k 恰好变成 y k − 1 ( 1 − y ) n − k y^{k-1}(1-y)^{n-k} y k − 1 ( 1 − y ) n − k 。)
思考题:样本均值的精确分布与渐近分布。 设 X 1 , … , X n ∼ Exp ( λ ) X_1,\dots,X_n\sim \text{Exp}(\lambda) X 1 , … , X n ∼ Exp ( λ ) (指数分布)。
(a) X ‾ \overline{X} X 的精确分布是什么?(提示:n X ‾ ∼ Γ ( n , λ ) n\overline{X}\sim\Gamma(n,\lambda) n X ∼ Γ ( n , λ ) ,所以 X ‾ ∼ Γ ( n , n λ ) \overline{X}\sim\Gamma(n,n\lambda) X ∼ Γ ( n , nλ ) 。)
(b) 当 n = 30 n=30 n = 30 时,用中心极限定理近似 X ‾ \overline{X} X 的分布和用精确 Gamma 分布有多大区别?(这道题让你体会”精确分布”和”渐近分布”在中等样本量下的实际差距。)
样本分位数的应用。 解释为什么在实际数据分析中,样本中位数常被用作位置估计的稳健替代方案。如果在数据中混入了一个极端异常值,样本均值和样本中位数各会受到怎样的影响?
附:排版约定
[!tip]+ 写作规则
行内公式统一用 $...$。
行间公式统一用 $$...$$。
重要公式后面补一句”用途说明”。
先写条件,再写结论,再写用途。
少用缩进,多用小标题、短段落和留白。
保留老师强调过的原表达,但其余内容改写为讲义语言。
每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。