Skip to content
Lokkue's Notes
Go back

第01讲 统计推断的基本对象与统计量

Edit page

讲义信息

[!summary]+ 本讲导读

  • 本讲研究的问题:数理统计到底在研究什么,统计推断是如何从数据走向结论的。
  • 已知什么:来自总体的一组样本数据,或关于总体的模型假设。
  • 未知什么:总体分布本身,或总体分布中控制其形状的参数。
  • 核心统计对象:总体、个体、样本、统计量、参数、分布族、经验分布函数。
  • 本讲结论最终服务什么推断任务:把后续所有“估计”和“检验”都放回到同一条链条中,即 Data → Statistics → Information

先看全局

这一讲最重要的不是记住几个定义,而是先把整门课的层次关系理清。一个统计问题通常至少有四层:

  1. **现实对象层:**我们真正关心的是寿命、成功率、平均水平、波动大小等现实问题。
  2. **总体模型层:**把现实对象抽象成某个总体分布,例如 N(μ,σ2)N(\mu,\sigma^2)B(1,p)B(1,p)E(λ)E(\lambda)
  3. **样本层:**真正能观察到的是从总体中抽出来的一组样本 X1,,XnX_1,\dots,X_n
  4. **统计量层:**为了做推断,再把样本压缩成 X\overline XS2S^2Xi\sum X_iFn(x)F_n(x) 这类统计量。

后面所有章节,其实都只是在这四层之间来回切换:

一、本讲定位

二、模型与前提

1. 研究模型

2. 对象区分

3. 模型前提检查

[!warning]+ 条件先检查

  • 是否为 i.i.d. 样本:本讲中“简单随机样本”默认是。
  • 是否来自正态总体:本讲不强求,但后续很多精确分布结论会依赖它。
  • 参数是否已知:本讲只做对象区分,不要求具体已知。
  • 是小样本还是大样本:本讲不区分,但经验分布函数的收敛结论涉及 nn\to\infty
  • 是精确结论还是渐近结论:经验分布函数逼近总体分布属于渐近结论。
  • 是否还需要额外正则条件:本讲一般不需要,但涉及极限理论时要明确收敛方式。

三、核心概念

[!definition]+ 数理统计的基本任务 数理统计研究的是:在总体分布未知、只能观察样本的条件下,怎样利用样本中的信息去推断总体分布或总体参数。

更紧凑地说,数理统计的主线是

DataStatisticsInformation.\text{Data} \longrightarrow \text{Statistics} \longrightarrow \text{Information}.

用途:这是整门课的总纲,而不是某一道题的局部技巧。

正文说明:

[!definition]+ 总体、个体与样本

  • 总体(population):研究对象的全体。
  • 个体(individual):总体中的一个具体单位。
  • 样本(sample):从总体中抽取的一组观测值或随机变量。

在数理统计中,常把总体用一个随机变量 XX 或其分布函数 FF 表示,把样本记作

(X1,X2,,Xn).(X_1,X_2,\dots,X_n).

用途:这是后续所有定义的起点。

正文说明:

[!definition]+ 参数与分布族 若总体分布属于某一类由参数控制的分布集合

F={Fθ:θΘ},\mathcal{F}=\{F_\theta:\theta\in\Theta\},

则称 F\mathcal{F} 为一个分布族,θ\theta 为参数,Θ\Theta 为参数空间。

用途:这是把实际问题写成“统计模型”的标准形式。

正文说明:

四、统计量与分布

1. 总体分布与统计模型

现实问题进入数理统计时,通常先做的不是“直接计算”,而是建模。也就是说,要先回答:

典型例子如下。

  1. 指数分布族:

    F={E(λ):λ>0}.\mathcal{F}=\{E(\lambda):\lambda>0\}.

    用途:表示寿命、等待时间等非负随机现象的参数模型。

  2. Bernoulli 分布族:

    F={B(1,p):0<p<1}.\mathcal{F}=\{B(1,p):0<p<1\}.

    用途:表示“成功 / 失败”“合格 / 不合格”这一类二值总体。

  3. 正态分布族:

    F1={N(μ,σ2):<μ<, σ>0}.\mathcal{F}_1=\{N(\mu,\sigma^2):-\infty<\mu<\infty,\ \sigma>0\}.

    用途:表示均值与方差都未知的正态总体模型。

  4. 部分参数已知的正态模型:

    F2={N(μ,σ02):<μ<}.\mathcal{F}_2=\{N(\mu,\sigma_0^2):-\infty<\mu<\infty\}.

    用途:表示方差已知、只需估计均值时的参数模型。

  5. 非参数模型:

    F={F(x):F 为分布函数}.\mathcal{F}=\{F(x):F\ \text{为分布函数}\}.

    用途:表示我们并不预先指定有限维参数,而是把整个分布函数都作为研究对象。

[!theorem]+ 简单随机样本的联合分布 若 X1,,XnX_1,\dots,X_n 是来自总体分布 FF 的简单随机样本,即它们独立同分布,则其联合分布函数为

Fn(x1,,xn)=F(x1)F(x2)F(xn).F_n(x_1,\dots,x_n)=F(x_1)F(x_2)\cdots F(x_n).

若总体有密度或概率函数 ff,则样本的联合密度或联合概率函数为

fn(x1,,xn)=i=1nf(xi).f_n(x_1,\dots,x_n)=\prod_{i=1}^n f(x_i).

用途:这是后续构造似然函数、研究统计量分布的基础。

正文说明:

2. 经验分布函数

[!definition]+ 经验分布函数 对样本 X1,,XnX_1,\dots,X_n,定义

Fn(x)=1n#{Xix:i=1,,n}=1ni=1nI{Xix}.F_n(x)=\frac{1}{n}\#\{X_i\le x: i=1,\dots,n\} =\frac{1}{n}\sum_{i=1}^n I\{X_i\le x\}.

用途:这是用样本直接逼近总体分布函数 F(x)F(x) 的基本对象。

正文说明:

若记样本次序统计量为

X(1)X(2)X(n),X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)},

则经验分布函数可写为分段形式

Fn(x)={0,x<X(1),kn,X(k)x<X(k+1),k=1,,n1,1,xX(n).F_n(x)= \begin{cases} 0, & x<X_{(1)},\\ \dfrac{k}{n}, & X_{(k)}\le x<X_{(k+1)},\quad k=1,\dots,n-1,\\ 1, & x\ge X_{(n)}. \end{cases}

**用途:**这是看清 FnF_n 是一个右连续阶梯函数的标准表达。

[!theorem]+ 经验分布函数的一致收敛 若 X1,,XnX_1,\dots,X_n 是来自总体分布 FF 的 i.i.d. 样本,则

P(limnsupxRFn(x)F(x)=0)=1.P\left(\lim_{n\to\infty}\sup_{x\in\mathbb{R}}|F_n(x)-F(x)|=0\right)=1.

这就是 Glivenko-Cantelli 定理。

用途:说明样本量增大时,经验分布函数会一致逼近总体分布函数。

正文说明:

五、主要结论

1. 统计量

[!definition]+ 统计量 设样本为 X=(X1,,Xn)X=(X_1,\dots,X_n)。若

T=T(X1,,Xn)T=T(X_1,\dots,X_n)

是样本的 Borel 可测函数,且不含未知参数,则称 TT 为统计量。

用途:统计量负责把原始数据压缩为可用于推断的信息。

容易混淆的点有三类。

  1. 统计量必须是样本的函数。
  2. 统计量可以是一个数,也可以是一个向量。
  3. 统计量中不能含未知参数,但可以含已知常数。

例如,在总体 XN(μ,σ2)X\sim N(\mu,\sigma^2)μ\mu 未知、σ>0\sigma>0 未知时:

2. 常见统计量

[!theorem]+ 常用样本统计量 对样本 X1,,XnX_1,\dots,X_n,最常见的统计量包括:

X=1ni=1nXi,\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i,

用途:样本均值,用于估计总体均值 μ=EX\mu=EX

S2=1n1i=1n(XiX)2,S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2,

用途:样本方差,用于估计总体方差 σ2=Var(X)\sigma^2=\operatorname{Var}(X)

an,k=1ni=1nXik,a_{n,k}=\frac{1}{n}\sum_{i=1}^n X_i^k,

用途:kk 阶原点样本矩,用于估计 EXkEX^k

mn,k=1ni=1n(XiX)k,m_{n,k}=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^k,

用途:kk 阶中心样本矩,用于估计中心矩。

正文说明:

3. 参数、统计量、估计量的关系

[!theorem]+ 三者的角色分工

  • 参数:总体中的未知常数,如 μ,σ2,p,λ\mu,\sigma^2,p,\lambda
  • 统计量:样本的函数,不含未知参数。
  • 估计量:以参数或参数函数为目标的统计量。

用途:这是后续“点估计”一章的语言基础。

一个最常见的误区是把总体均值 μ\mu 和样本均值 X\overline{X} 混为一谈。两者虽然都和“平均”有关,但角色不同:

[!warning]+ 使用边界

  • 只要表达式里含未知参数,就不是统计量。
  • 经验分布函数逼近总体分布是渐近结论,不能误写成有限样本下的恒等式。
  • 简单随机样本的联合分布乘积形式依赖独立同分布,抽样方式一变,公式可能就失效。

关键公式释义

1. 分布族记号

F={Fθ:θΘ}\mathcal{F}=\{F_\theta:\theta\in\Theta\}

2. 简单随机样本的联合分布

fn(x1,,xn)=i=1nf(xi)f_n(x_1,\dots,x_n)=\prod_{i=1}^n f(x_i)

3. 经验分布函数

Fn(x)=1ni=1nI{Xix}F_n(x)=\frac{1}{n}\sum_{i=1}^n I\{X_i\le x\}

4. 统计量定义式

T=T(X1,,Xn)T=T(X_1,\dots,X_n)

六、推导与证明

1. 证明依赖

2. 证明思路

[!proof]- 经验分布函数逐点逼近总体分布的思路 对固定的 xx,令

Yi=I{Xix},i=1,,n.Y_i=I\{X_i\le x\},\qquad i=1,\dots,n.

Y1,,YnY_1,\dots,Y_n 独立同分布,且

P(Yi=1)=P(Xix)=F(x).P(Y_i=1)=P(X_i\le x)=F(x).

因而

E(Yi)=F(x),Var(Yi)=F(x)(1F(x)).E(Y_i)=F(x),\qquad \operatorname{Var}(Y_i)=F(x)(1-F(x)).

又因为

Fn(x)=1ni=1nYi,F_n(x)=\frac{1}{n}\sum_{i=1}^n Y_i,

所以由大数定律可得

Fn(x)F(x)a.s.F_n(x)\to F(x)\quad \text{a.s.}

用途:这是说明经验分布函数合理性的第一步。若进一步要求对全体 xx 一致成立,则需使用 Glivenko-Cantelli 定理。

七、例题与变式

1. 标准题

**题型:**概念判别题 / 估计题预备题

题目:

X1,,XnX_1,\dots,X_n 来自总体 XB(1,p)X\sim B(1,p),其中 0<p<10<p<1 未知。判断下列表达式哪些是统计量:

X,i=1nXi,Xp,p(1p),max(X1,,Xn).\overline{X},\qquad \sum_{i=1}^n X_i,\qquad \overline{X}-p,\qquad p(1-p),\qquad \max(X_1,\dots,X_n).

思路:

解答:

**用途:**这是把“定义”真正落到判别上的标准题。

2. 变式题

3. 题型提醒

[!tip]+ 做题顺序

  • 先看表达式里有没有未知参数。
  • 再看它是否真的是样本的函数。
  • 不要把“参数的函数”误当成“统计量”。

八、章节连接

九、复习整理

[!summary]+ 本讲小结

  • 研究的问题:如何从样本出发推断总体分布或总体参数。
  • 使用的模型:总体 XX 或分布函数 FF 描述总体,样本 (X1,,Xn)(X_1,\dots,X_n) 描述观测。
  • 核心统计量:经验分布函数 Fn(x)F_n(x)、样本均值 X\overline{X}、样本方差 S2S^2、样本矩等。
  • 关键结论:简单随机样本的联合分布具有乘积形式;经验分布函数一致逼近总体分布;统计量是不含未知参数的样本函数。
  • 最重要的条件:简单随机样本要求独立同分布。
  • 本讲最终服务什么推断任务:为后面研究统计量分布及其推断作用打基础。

高频误套

[!warning]+ 常见错误

  • 把总体均值 μ\mu 与样本均值 X\overline{X} 混写。
  • 看到“样本函数”就以为一定是统计量,却忘了检查是否含未知参数。
  • 把总体分布 FF 与经验分布函数 FnF_n 混为一谈。
  • 把“逐点收敛”误当成“一致收敛”。

条件卡

  1. 结论:X1,,XnX_1,\dots,X_n 的联合分布可写成乘积形式。 成立条件:样本独立同分布。 不能用在:不放回抽样、相关样本、时间序列样本。 常见误套场景:只看到“来自同一总体”就直接写成乘积。

  2. 结论:Fn(x)F_n(x) 可以逼近 F(x)F(x)。 成立条件:样本来自同一总体,且通常讨论 nn\to\infty 的极限。 不能用在:有限样本下把 Fn(x)F_n(x) 当成 F(x)F(x) 的精确等式。 常见误套场景:把经验分布函数直接当成真实分布函数使用而不说明近似性质。

  3. 结论:T(X1,,Xn)T(X_1,\dots,X_n) 是统计量。 成立条件:TT 是样本的函数,且不含未知参数。 不能用在:表达式中含有 μ,σ2,p,λ\mu,\sigma^2,p,\lambda 等未知参数时。 常见误套场景:把 Xμ\overline{X}-\muXi/σ2\sum X_i/\sigma^2 当成统计量。

十、习题区

1. 概念题

  1. 用自己的话解释“Data → Statistics → Information”在数理统计中的含义。
  2. 说明总体、样本、参数、统计量四者的区别与联系。
  3. 为什么说参数函数 g(θ)g(\theta) 仍然是统计推断对象?

2. 标准题

  1. 给定 XE(λ)X\sim E(\lambda),写出总体分布族,并写出 i.i.d. 样本的联合密度。
  2. 给定样本 X1,,XnX_1,\dots,X_n,判断若干表达式是否为统计量,并说明理由。
  3. 写出经验分布函数的定义,并解释它为什么是阶梯函数。

3. 综合题

  1. 给一个实际背景,自行写出“总体建模 + 参数空间 + 样本表示 + 统计量示例”。
  2. **结合经验分布函数说明:**为什么统计推断研究的是“稳定规律”,而不是单个样本值本身。

附:排版约定

[!tip]+ 写作规则

  • 行内公式统一用 $...$
  • 行间公式统一用 $$...$$
  • 重要公式后面补一句“用途说明”。
  • 先写条件,再写结论,再写用途。
  • 少用缩进,多用小标题、短段落和留白。
  • 保留老师强调过的原表达,但其余内容改写为讲义语言。
  • 每讲默认产出:本讲小结、高频误套、3 至 5 张条件卡、标准题与变式题。

Edit page

Next Post
第02讲 抽样分布、正态样本与顺序统计量