第01讲统计推断的基本对象与统计量

讲义信息

**课程：**数理统计
**章节：**第 1 章导论，对应课件 lec1.1(2026)169
**讲次：**第 01 讲
日期：
**对应大纲：**数理统计大纲
**对应课件：**slides/lec1.1(2026)169.pdf
**研究对象：**总体分布、总体参数、样本及其函数
**统计任务：**建立数理统计的基本语言，明确“从样本推断总体”这一主线
**本讲结论用途：**为后续抽样分布、点估计、区间估计、假设检验提供统一术语和建模框架

[!summary]+ 本讲导读

本讲研究的问题：数理统计到底在研究什么，统计推断是如何从数据走向结论的。

已知什么：来自总体的一组样本数据，或关于总体的模型假设。

未知什么：总体分布本身，或总体分布中控制其形状的参数。

核心统计对象：总体、个体、样本、统计量、参数、分布族、经验分布函数。

本讲结论最终服务什么推断任务：把后续所有“估计”和“检验”都放回到同一条链条中，即 Data → Statistics → Information。

先看全局

这一讲最重要的不是记住几个定义，而是先把整门课的层次关系理清。一个统计问题通常至少有四层：

**现实对象层：**我们真正关心的是寿命、成功率、平均水平、波动大小等现实问题。
**总体模型层：**把现实对象抽象成某个总体分布，例如 $N(\mu,\sigma^2)$ 、 $B(1,p)$ 、 $E(\lambda)$ 。
**样本层：**真正能观察到的是从总体中抽出来的一组样本 $X_1,\dots,X_n$ 。
**统计量层：**为了做推断，再把样本压缩成 $\overline X$ 、 $S^2$ 、 $\sum X_i$ 、 $F_n(x)$ 这类统计量。

后面所有章节，其实都只是在这四层之间来回切换：

概率论更像“已知总体，研究样本”；
数理统计更像“观察样本，反推总体”。

一、本讲定位

在课程中的位置：这是整门课的入口课，负责建立基本术语、基本对象和基本视角。
和前一讲的连接：无，属于课程起点。
和后一讲的连接：下一步将进入“抽样分布”的研究，开始讨论统计量到底服从什么分布。
本讲重点内容：
- 统计推断的总体框架
- 总体、样本、参数与统计量的区分
- 参数模型、非参数模型与分布族
- 简单随机样本
- 经验分布函数
- 统计量的定义与基本例子

二、模型与前提

1. 研究模型

**总体：**研究对象全体的概率规律。
**参数空间：**控制总体分布的未知参数的取值集合，常记为 $\Theta$ 。
**样本：**从总体中抽取的观测结果，记为 $X_1,\dots,X_n$ 。
抽样方式：本讲默认简单随机抽样，即样本独立同分布。
**参数含义：**参数不随样本变化，是总体分布的未知特征；参数函数 $g(\theta)$ 仍然属于推断对象。

2. 对象区分

**总体：**要研究的整体对象，其概率规律通常用随机变量 $X$ 或分布函数 $F$ 表示。
**样本：**从总体中得到的随机变量组 $(X_1,\dots,X_n)$ 。
**参数：**总体分布中的未知常数，如 $\mu,\sigma^2,p,\lambda$ 。
**统计量：**样本的函数，且不含未知参数。
估计量：专门用来估计参数或参数函数的统计量。
**检验统计量：**专门用来做假设检验的统计量。

3. 模型前提检查

[!warning]+ 条件先检查

是否为 i.i.d. 样本：本讲中“简单随机样本”默认是。

是否来自正态总体：本讲不强求，但后续很多精确分布结论会依赖它。

参数是否已知：本讲只做对象区分，不要求具体已知。

是小样本还是大样本：本讲不区分，但经验分布函数的收敛结论涉及 $n\to\infty$ 。

是精确结论还是渐近结论：经验分布函数逼近总体分布属于渐近结论。

是否还需要额外正则条件：本讲一般不需要，但涉及极限理论时要明确收敛方式。

三、核心概念

[!definition]+ 数理统计的基本任务数理统计研究的是：在总体分布未知、只能观察样本的条件下，怎样利用样本中的信息去推断总体分布或总体参数。

更紧凑地说，数理统计的主线是
$\text{Data} \longrightarrow \text{Statistics} \longrightarrow \text{Information}.$
用途：这是整门课的总纲，而不是某一道题的局部技巧。

正文说明：

**直觉理解：**统计并不是盯着某一个样本值本身，而是借助样本去看它背后的总体规律。
和相邻概念的区别：概率论常常是“已知总体分布，研究样本行为”；数理统计则是“观察样本，反推总体分布或参数”。
题目里看到哪些信号会想到它：只要题目问“估计”“检验”“判断总体参数”“推断总体分布”，都在这条主线上。

[!definition]+ 总体、个体与样本

总体（population）：研究对象的全体。

个体（individual）：总体中的一个具体单位。

样本（sample）：从总体中抽取的一组观测值或随机变量。

在数理统计中，常把总体用一个随机变量 $X$ 或其分布函数 $F$ 表示，把样本记作
$(X_1,X_2,\dots,X_n).$
用途：这是后续所有定义的起点。

正文说明：

**直觉理解：**总体回答“研究谁”，样本回答“我们实际看到了谁”。
和相邻概念的区别：总体不是样本的简单并列堆积，而是概率规律意义下的“来源”；样本是从总体中抽出来的观测。
题目里看到哪些信号会想到它：题目里凡是出现“从某总体中抽取”“设 $X_1,\dots,X_n$ 来自某分布”，都默认进入总体与样本的语言。

[!definition]+ 参数与分布族若总体分布属于某一类由参数控制的分布集合
$\mathcal{F}=\{F_\theta:\theta\in\Theta\},$
则称 $\mathcal{F}$ 为一个分布族， $\theta$ 为参数， $\Theta$ 为参数空间。

用途：这是把实际问题写成“统计模型”的标准形式。

正文说明：

**直觉理解：**参数模型的核心不是“一条确定分布”，而是“在一族可能的分布里找出真正那一条”。
和相邻概念的区别：参数是未知但固定的总体特征；统计量会随样本变化，参数不会随样本变化。
题目里看到哪些信号会想到它：当题目写出 $X\sim N(\mu,\sigma^2)$ 、 $X\sim B(1,p)$ 、 $X\sim E(\lambda)$ 时，本质上都在给出一个分布族。

四、统计量与分布

1. 总体分布与统计模型

现实问题进入数理统计时，通常先做的不是“直接计算”，而是建模。也就是说，要先回答：

总体可以用哪个随机变量表示；
总体分布属于哪一个分布族；
未知的到底是有限维参数，还是整个分布函数。

典型例子如下。

指数分布族：
$\mathcal{F}=\{E(\lambda):\lambda>0\}.$
用途：表示寿命、等待时间等非负随机现象的参数模型。
Bernoulli 分布族：
$\mathcal{F}=\{B(1,p):0<p<1\}.$
用途：表示“成功 / 失败”“合格 / 不合格”这一类二值总体。
正态分布族：
$\mathcal{F}_1=\{N(\mu,\sigma^2):-\infty<\mu<\infty,\ \sigma>0\}.$
用途：表示均值与方差都未知的正态总体模型。
部分参数已知的正态模型：
$\mathcal{F}_2=\{N(\mu,\sigma_0^2):-\infty<\mu<\infty\}.$
用途：表示方差已知、只需估计均值时的参数模型。
非参数模型：
$\mathcal{F}=\{F(x):F\ \text{为分布函数}\}.$
用途：表示我们并不预先指定有限维参数，而是把整个分布函数都作为研究对象。

[!theorem]+ 简单随机样本的联合分布若 $X_1,\dots,X_n$ 是来自总体分布 $F$ 的简单随机样本，即它们独立同分布，则其联合分布函数为
$F_n(x_1,\dots,x_n)=F(x_1)F(x_2)\cdots F(x_n).$
若总体有密度或概率函数 $f$ ，则样本的联合密度或联合概率函数为
$f_n(x_1,\dots,x_n)=\prod_{i=1}^n f(x_i).$
用途：这是后续构造似然函数、研究统计量分布的基础。

正文说明：

这个分布是如何得到的：关键只用到两件事，独立性给出“乘积结构”，同分布给出“每一项都长得一样”。
与正态、 $\chi^2$ 、 $t$ 、 $F$ 的联系：后续所有正态样本下的精确分布结论，都是从这种联合结构出发推出来的。
**这里是否依赖独立性或正态性：**依赖独立同分布，但不依赖正态性。

2. 经验分布函数

[!definition]+ 经验分布函数对样本 $X_1,\dots,X_n$ ，定义
$F_n(x)=\frac{1}{n}\#\{X_i\le x: i=1,\dots,n\} =\frac{1}{n}\sum_{i=1}^n I\{X_i\le x\}.$
用途：这是用样本直接逼近总体分布函数 $F(x)$ 的基本对象。

正文说明：

直觉理解： $F_n(x)$ 就是“样本中不超过 $x$ 的比例”。
和相邻概念的区别： $F(x)$ 是总体分布函数，固定但未知； $F_n(x)$ 是由样本构造出来的随机函数。
题目里看到哪些信号会想到它：一旦题目谈“从样本恢复总体分布”“用样本频率近似概率”，就应该想到经验分布函数。

若记样本次序统计量为

X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)},

则经验分布函数可写为分段形式

F_n(x)= \begin{cases} 0, & x<X_{(1)},\\ \dfrac{k}{n}, & X_{(k)}\le x<X_{(k+1)},\quad k=1,\dots,n-1,\\ 1, & x\ge X_{(n)}. \end{cases}

**用途：**这是看清 $F_n$ 是一个右连续阶梯函数的标准表达。

[!theorem]+ 经验分布函数的一致收敛若 $X_1,\dots,X_n$ 是来自总体分布 $F$ 的 i.i.d. 样本，则
$P\left(\lim_{n\to\infty}\sup_{x\in\mathbb{R}}|F_n(x)-F(x)|=0\right)=1.$
这就是 Glivenko-Cantelli 定理。

用途：说明样本量增大时，经验分布函数会一致逼近总体分布函数。

正文说明：

**这个结论回答了什么问题：**样本频率能否稳定地逼近真实分布。
**为什么它重要：**它给“用样本恢复总体分布”提供了理论保证。
这里属于什么类型的结论：这是渐近结论，不是有限样本下的精确等式。

五、主要结论

1. 统计量

[!definition]+ 统计量设样本为 $X=(X_1,\dots,X_n)$ 。若
$T=T(X_1,\dots,X_n)$
是样本的 Borel 可测函数，且不含未知参数，则称 $T$ 为统计量。

用途：统计量负责把原始数据压缩为可用于推断的信息。

容易混淆的点有三类。

统计量必须是样本的函数。
统计量可以是一个数，也可以是一个向量。
统计量中不能含未知参数，但可以含已知常数。

例如，在总体 $X\sim N(\mu,\sigma^2)$ 且 $\mu$ 未知、 $\sigma>0$ 未知时：

$X_1+X_2+X_3$ 是统计量；
$\max(X_1,X_2,X_3)$ 是统计量；
$|X_3-X_1|$ 是统计量；
$X_1+\mu$ 不是统计量，因为含有未知参数 $\mu$ ；
$\dfrac{1}{\sigma^2}\sum_{i=1}^3 X_i^2$ 不是统计量，因为含有未知参数 $\sigma^2$ ；
常数 $30$ 可以看作平凡统计量，因为它不依赖未知参数。

2. 常见统计量

[!theorem]+ 常用样本统计量对样本 $X_1,\dots,X_n$ ，最常见的统计量包括：
$\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i,$
用途：样本均值，用于估计总体均值 $\mu=EX$ 。
$S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2,$
用途：样本方差，用于估计总体方差 $\sigma^2=\operatorname{Var}(X)$ 。
$a_{n,k}=\frac{1}{n}\sum_{i=1}^n X_i^k,$
用途： $k$ 阶原点样本矩，用于估计 $EX^k$ 。
$m_{n,k}=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^k,$
用途： $k$ 阶中心样本矩，用于估计中心矩。

正文说明：

这些统计量之所以重要，不是因为形式复杂，而是因为它们分别对应均值、方差、矩等总体特征。
从“Data → Statistics → Information”的角度看，这些统计量就是把原始样本压缩成若干可解释的数。

3. 参数、统计量、估计量的关系

[!theorem]+ 三者的角色分工

参数：总体中的未知常数，如 $\mu,\sigma^2,p,\lambda$ 。

统计量：样本的函数，不含未知参数。

估计量：以参数或参数函数为目标的统计量。

用途：这是后续“点估计”一章的语言基础。

一个最常见的误区是把总体均值 $\mu$ 和样本均值 $\overline{X}$ 混为一谈。两者虽然都和“平均”有关，但角色不同：

$\mu$ 属于总体层，是未知参数；
$\overline{X}$ 属于样本层，是统计量；
用 $\overline{X}$ 去估计 $\mu$ 时， $\overline{X}$ 才进一步成为估计量。

[!warning]+ 使用边界

只要表达式里含未知参数，就不是统计量。

经验分布函数逼近总体分布是渐近结论，不能误写成有限样本下的恒等式。

简单随机样本的联合分布乘积形式依赖独立同分布，抽样方式一变，公式可能就失效。

关键公式释义

1. 分布族记号

\mathcal{F}=\{F_\theta:\theta\in\Theta\}

**来源：**这是把“总体可能属于哪些分布”统一写成集合的标准方式。
**含义：**真实总体不是任意分布，而是落在这族分布中的某一个；未知的只是其中的参数 $\theta$ 。
**使用提醒：**以后看到任何“设 $X\sim N(\mu,\sigma^2)$ ”“设 $X\sim B(1,p)$ ”之类写法，都可以理解成在指定一个分布族。

2. 简单随机样本的联合分布

f_n(x_1,\dots,x_n)=\prod_{i=1}^n f(x_i)

**来源：**独立性给出乘积结构，同分布说明每一项都用同一个 $f$ 。
**含义：**样本的整体分布完全由单个样本点的分布和“独立同分布”这两个条件决定。
**使用提醒：**只要样本不是 i.i.d.，这个乘积形式就不能直接写。

3. 经验分布函数

F_n(x)=\frac{1}{n}\sum_{i=1}^n I\{X_i\le x\}

**来源：**把“样本中不超过 $x$ 的个数”除以样本量 $n$ 。
**含义：**它是在用样本比例近似总体概率 $P(X\le x)$ 。
**使用提醒：**它是样本函数，不是真实总体分布函数；只有在大样本下才会逼近 $F(x)$ 。

4. 统计量定义式

T=T(X_1,\dots,X_n)

**来源：**统计量本质上就是样本的函数。
**含义：**它把一整组样本压缩成一个数或一个向量，用于后续推断。
**使用提醒：**判断是否是统计量时，除了看是不是样本的函数，还必须检查是否含未知参数。

六、推导与证明

1. 证明依赖

用到的定义：简单随机样本、经验分布函数、统计量。
用到的前序定理：无。
用到的分布性质：独立同分布的乘积结构。
用到的关键技巧：把经验分布函数写成指示函数平均，再调用大数定律或更强的一致收敛定理。

2. 证明思路

**目标是什么：**说明为什么经验分布函数能逼近总体分布函数。
**为什么选这个工具：**因为 $F_n(x)=\frac{1}{n}\sum_{i=1}^n I\{X_i\le x\}$ 本身就是 i.i.d. 随机变量的样本均值。
**关键一步在哪：**固定 $x$ 后，把 $I\{X_i\le x\}$ 看成 Bernoulli 随机变量，其均值正好是 $F(x)$ 。
**最后如何回到命题：**先得到逐点收敛，再用 Glivenko-Cantelli 升级为一致收敛。

[!proof]- 经验分布函数逐点逼近总体分布的思路对固定的 $x$ ，令
$Y_i=I\{X_i\le x\},\qquad i=1,\dots,n.$
则 $Y_1,\dots,Y_n$ 独立同分布，且
$P(Y_i=1)=P(X_i\le x)=F(x).$
因而
$E(Y_i)=F(x),\qquad \operatorname{Var}(Y_i)=F(x)(1-F(x)).$
又因为
$F_n(x)=\frac{1}{n}\sum_{i=1}^n Y_i,$
所以由大数定律可得
$F_n(x)\to F(x)\quad \text{a.s.}$
用途：这是说明经验分布函数合理性的第一步。若进一步要求对全体 $x$ 一致成立，则需使用 Glivenko-Cantelli 定理。

七、例题与变式

1. 标准题

**题型：**概念判别题 / 估计题预备题

题目：

设 $X_1,\dots,X_n$ 来自总体 $X\sim B(1,p)$ ，其中 $0<p<1$ 未知。判断下列表达式哪些是统计量：

\overline{X},\qquad \sum_{i=1}^n X_i,\qquad \overline{X}-p,\qquad p(1-p),\qquad \max(X_1,\dots,X_n).

思路：

**先判断统计任务是什么：**这是“识别统计量”的基本题。
**再判断使用哪个统计对象和哪个结论：**只需抓住统计量定义，即“样本的函数，且不含未知参数”。

解答：

$\overline{X}$ 是统计量。
$\sum_{i=1}^n X_i$ 是统计量。
$\overline{X}-p$ 不是统计量，因为含未知参数 $p$ 。
$p(1-p)$ 不是统计量，因为它只依赖未知参数而不依赖样本。
$\max(X_1,\dots,X_n)$ 是统计量。

**用途：**这是把“定义”真正落到判别上的标准题。

2. 变式题

改变总体分布后，哪些步骤失效：判断统计量是否成立与总体具体分布通常无关，只看是否含未知参数。
改变参数已知情况后，方法如何调整：若题中声明某个参数已知，则含该已知常数的表达式仍可能是统计量。
若改成大样本，是否可换成渐近方法：本题不需要，大样本方法与“统计量定义”无关。

3. 题型提醒

[!tip]+ 做题顺序

先看表达式里有没有未知参数。

再看它是否真的是样本的函数。

不要把“参数的函数”误当成“统计量”。

八、章节连接

**这一讲建立在哪些知识之上：**概率论中随机变量、分布函数、密度函数、独立同分布、期望与方差。
这一讲为后面哪些内容做准备：抽样分布、点估计、区间估计、假设检验、充分统计量。
这一讲在整门课中的功能：统一语言，明确研究对象，建立“从样本到总体”的思维起点。

九、复习整理

[!summary]+ 本讲小结

研究的问题：如何从样本出发推断总体分布或总体参数。

使用的模型：总体 $X$ 或分布函数 $F$ 描述总体，样本 $(X_1,\dots,X_n)$ 描述观测。

核心统计量：经验分布函数 $F_n(x)$ 、样本均值 $\overline{X}$ 、样本方差 $S^2$ 、样本矩等。

关键结论：简单随机样本的联合分布具有乘积形式；经验分布函数一致逼近总体分布；统计量是不含未知参数的样本函数。

最重要的条件：简单随机样本要求独立同分布。

本讲最终服务什么推断任务：为后面研究统计量分布及其推断作用打基础。

高频误套

[!warning]+ 常见错误

把总体均值 $\mu$ 与样本均值 $\overline{X}$ 混写。

看到“样本函数”就以为一定是统计量，却忘了检查是否含未知参数。

把总体分布 $F$ 与经验分布函数 $F_n$ 混为一谈。

把“逐点收敛”误当成“一致收敛”。

条件卡

结论： $X_1,\dots,X_n$ 的联合分布可写成乘积形式。成立条件：样本独立同分布。不能用在：不放回抽样、相关样本、时间序列样本。常见误套场景：只看到“来自同一总体”就直接写成乘积。
结论： $F_n(x)$ 可以逼近 $F(x)$ 。成立条件：样本来自同一总体，且通常讨论 $n\to\infty$ 的极限。不能用在：有限样本下把 $F_n(x)$ 当成 $F(x)$ 的精确等式。常见误套场景：把经验分布函数直接当成真实分布函数使用而不说明近似性质。
结论： $T(X_1,\dots,X_n)$ 是统计量。成立条件： $T$ 是样本的函数，且不含未知参数。不能用在：表达式中含有 $\mu,\sigma^2,p,\lambda$ 等未知参数时。常见误套场景：把 $\overline{X}-\mu$ 、 $\sum X_i/\sigma^2$ 当成统计量。

十、习题区

1. 概念题

用自己的话解释“Data → Statistics → Information”在数理统计中的含义。
说明总体、样本、参数、统计量四者的区别与联系。
为什么说参数函数 $g(\theta)$ 仍然是统计推断对象？

2. 标准题

给定 $X\sim E(\lambda)$ ，写出总体分布族，并写出 i.i.d. 样本的联合密度。
给定样本 $X_1,\dots,X_n$ ，判断若干表达式是否为统计量，并说明理由。
写出经验分布函数的定义，并解释它为什么是阶梯函数。

3. 综合题

给一个实际背景，自行写出“总体建模 + 参数空间 + 样本表示 + 统计量示例”。
**结合经验分布函数说明：**为什么统计推断研究的是“稳定规律”，而不是单个样本值本身。

附：排版约定

[!tip]+ 写作规则

行内公式统一用 $...$ 。

行间公式统一用 $$...$$。

重要公式后面补一句“用途说明”。

先写条件，再写结论，再写用途。

少用缩进，多用小标题、短段落和留白。

保留老师强调过的原表达，但其余内容改写为讲义语言。

每讲默认产出：本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

第01讲 统计推断的基本对象与统计量

讲义信息

先看全局

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查

三、核心概念

四、统计量与分布

1. 总体分布与统计模型

2. 经验分布函数

五、主要结论

1. 统计量

2. 常见统计量

3. 参数、统计量、估计量的关系

关键公式释义

1. 分布族记号

2. 简单随机样本的联合分布

3. 经验分布函数

4. 统计量定义式

六、推导与证明

1. 证明依赖

2. 证明思路

七、例题与变式

1. 标准题

2. 变式题

3. 题型提醒

八、章节连接

九、复习整理

高频误套

条件卡

十、习题区

1. 概念题

2. 标准题

3. 综合题

附：排版约定

第01讲统计推断的基本对象与统计量