6 统计量与抽样分布¶
6.1 随机样本与统计量¶
总体:研究对象的全体。如一批灯泡。
个体:组成总体的每个元素。如某个灯泡。
总体是某一数量指标的全体,是具有确定分布的随机变量。
抽样:从总体X中抽取有限个个体,进行观察的取值过程。
随机样本:随机抽取的n个个体的集合\((X_1,X_2,…,X_n)\),\(n\)为样本容量
满足以下两个条件的随机样本\((X_1,X_2,…,X_n)\)称为简单随机样本:
-
代表性:每个\(X_i\)与\(X\)同分布
-
独立性:\(X_1 ,X_2,…,X_n\)是相互独立的随机变量
后面提到的样本均指简单随机样本
统计量:不含任何未知参数的样本的函数。
- 样本均值 \(\overline X=\frac{1}{n}\sum_{i=1}^{n}X_i\)
- 样本方差 \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\)
- 样本 \(k\) 阶(原点)矩 \(A_k=\frac{1}{n}\sum_{i=1}^nX_i^k(k=1,2,...)\)
- 样本 \(k\) 阶中心矩 \(B_k=\frac 1n \sum_{i=1}^n(X_i-\overline X)^k\)
Warning
\(A_1=\overline X,B_2=\frac{n-1}n S^2\)
6.2 常用的分布¶
6.2.1 卡方分布¶
随机变量 \(X_1,X_2,...,X_n\) 相互独立,而且 \(X_i\sim N(0,1)(i=1,2,...,n)\) 则
服从自由度为n的 \(\chi^2\) 分布,记为 \(X\sim\chi^2(n)\). 自由度指独立的标准正态分布的随机变量个数。
Warning
随机变量相互独立,每个随机变量遵循标准正态分布
概率密度函数¶
\(\chi^2(n)\) 分布的概率密度为:
其中 \(\Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}dt\)
上侧 α 分位数¶
分布记号: \(\chi^2(n)\) —— 分布记号 \(\chi^2_\alpha(n)\) —— 分位数
定义:对给定的概率 \(α\), \(0 < α < 1\), 称满足条件
的点 \(\chi^2_\alpha(n)\) 为 \(\chi^2(n)\) 分布的上侧 \(\alpha\) 分位数。
性质:若 \(X \sim \chi^2(n)\), \(P(X > \chi^2_\alpha(n)) = \alpha\),
上 \(\alpha\) 分位数 \(\chi^2_\alpha(n)\) 的值可查 \(\chi^2\) 分布表:\(\chi^2_{0.1}(40) = 51.805\)
n>40的情况
当 \(n > 40\) 时,有近似公式:\(\chi^2_\alpha(n) \approx \frac{1}{2} \left( z_\alpha + \sqrt{2n - 1} \right)^2\)
其中 \(z_\alpha\) 为标准正态分布的上侧 \(α\) 分位数:\(z_{0.1} = 1.28\)
当 \(n = 40\) 时上式右边 = 51.696
n非常大的时候
若 \(n\) 足够大,\(X \sim \chi^2(n)\),由中心极限定理可知,\(X \sim N(n, 2n)\)
重要性质¶
(1)\(\chi^2\)分布的可加性
设 \(Y_1\sim\chi^2(n_1),Y_2\sim\chi^2(n_2)\),且 \(Y_1,Y_2\) 相互独立,则有 \(Y_1+Y_2\sim\chi^2(n_1+n_2)\)
(2)\(\chi^2\) 分布的数学期望和方差
设 \(Y\sim \chi^2(n)\),则有 \(E(Y)=n,Var(Y)=2n\)
证明:设 \(Y = X_1^2 + X_2^2 + \cdots + X_n^2\),\(X_1, X_2, \ldots, X_n\) 均服从 \(N(0, 1)\) 的独立随机变量。
期望和方差的计算
方差中的四阶矩的计算
6.2.2 t-分布¶
设 \(X\sim N(0,1)\) ,\(Y\sim\chi^2(n)\),并且 \(X,Y\) 相互独立,则称随机变量
服从自由度为 \(n\) 的 t-分布,记为 \(t\sim t(n)\)
概率密度函数¶
\(t(n)\) 分布的概率密度函数为:
上侧 α 分位数¶
对给定的 \(\alpha\),\(0 < \alpha < 1\),称满足条件 \(P(t > t_\alpha(n)) = \int_{t_\alpha(n)}^\infty f(t) \, dt = \alpha\) 的点 \(t_\alpha(n)\) 为 t(n) 分布的上侧 \(\alpha\) 分位数。t 分布的上 \(\alpha\) 分位数可查 t 分布表.
重要性质¶
(1) \(\lim_{n \to \infty} f(t) = \frac{1}{\sqrt{2\pi}} e^{-t^2/2} = \varphi(t)\)
(2) 若 \(X \sim t(n)\),则 \(E(X) = 0\),\(Var(X) = \frac{n}{n-2} > 1\),\(n > 2\)
(3) \(t_{1-\alpha}(n) = -t_\alpha(n)\)
(4) 当 \(n > 45\) 时,\(t_\alpha(n) \approx z_\alpha\)
若 \(n\) 充分大时,\(X \sim t(n)\),也可认为:\(X \overset{\text{近似}}{\sim} N(0, 1)\)
6.2.3 F 分布¶
设 \(X\sim \chi^2(n_1)\),\(Y\sim \chi^2(n_2)\),且 \(X,Y\) 独立,则称随机变量
服从自由度 \((n_1,n_2)\) 的F分布,记为 \(F\sim F(n_1,n_2)\),其中 \(n_1\) 称为第一自由度,\(n_2\) 称为第二自由度。
概率密度函数¶
\(F(n_1, n_2)\)分布的概率密度
其中 \(B(a, b) = \int_0^1 x^{a-1} (1 - x)^{b-1} \, dx = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}\),\(\Gamma(a) = \int_0^{+\infty} x^{a-1} e^{-x} \, dx\)
上侧 α 分位数¶
对于给定的 \(\alpha\),\(0 < \alpha < 1\),称满足条件 \(\int_{F_\alpha(n_1, n_2)}^\infty f(x) \, dx = \alpha\) 的点 \(F_\alpha(n_1, n_2)\) 为 \(F(n_1, n_2)\) 分布的上 \(\alpha\) 分位数。\(F_\alpha(n_1, n_2)\) 的值可查 F 分布表
重要性质¶
(1) 若 \(F \sim F(n_1, n_2)\),则 \(\frac{1}{F} \sim F(n_2, n_1)\)
(2) 若 \(t \sim t(n)\),则 \(t^2 \sim F(1, n)\)
(3) \((t_{\alpha/2}(n))^2 = F_\alpha(1, n)\)
(4) \(F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}\)
F分布分位数表中,下标(概率值)只有 0.1 0.05 0.025 0.01 0.005
Note
(2) 设 \(t = \frac{X}{\sqrt{Y/n}} \sim t(n)\)
其中 \(X \sim N(0, 1)\),\(Y \sim \chi^2(n)\),并且两者独立。
因此:\(t^2 = \frac{X^2}{Y/n} = \frac{X^2 / 1}{Y/n} \sim F(1, n)\)
(3) 设 \(t \sim t(n)\),则 \(t^2 \sim F(1, n)\)
\(P(t^2 > (t_{\alpha/2}(n))^2)= P(\{t > t_{\alpha/2}(n)\} \cup \{t < -t_{\alpha/2}(n)\}) = \frac{\alpha}{2} + \frac{\alpha}{2} = \alpha\)
因此:\((t_{\alpha/2}(n))^2 = F_\alpha(1, n)\)
(4) 设 \(F \sim F(n_1, n_2)\),则 \(\frac{1}{F} \sim F(n_2, n_1)\)
\(1 - \alpha = P(F > F_{1-\alpha}(n_1, n_2)) = P(\frac{1}{F} < \frac{1}{F_{1-\alpha}(n_1, n_2)})= 1 - P(\frac{1}{F} \geq \frac{1}{F_{1-\alpha}(n_1, n_2)})\)
即 \(P(\frac{1}{F} \geq \frac{1}{F_{1-\alpha}(n_1, n_2)}) = \alpha\)
\(\therefore F_\alpha(n_2, n_1) = \frac{1}{F_{1-\alpha}(n_1, n_2)}\) 也即 \(F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}\)
例:\(F_{0.99}(20, 10) = \frac{1}{F_{0.01}(10, 20)} = \frac{1}{3.37}\)
6.3 正态总体的抽样分布¶
定理1(样本均值的分布)¶
设 \((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样本方差,则有:
定理2(样本方差的分布)¶
设 \((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样本方差,则有:
(1) \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)
(2)\(\overline X\) 和 \(S^2\) 相互独立
[分析]
对照一下: \(\sum_{i=1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n)\)
\(\because \sum_{i=1}^{n}\left(\frac{X_i - \overline{X}}{\sigma}\right) = 0\) 或 \(\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i\),有一个约束条件。具体证明无需掌握,只需注意到自由度减少了1(多了一个约束条件)
定理3(样品均值与样品方差的关系)¶
设 \((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样品方差,则有:
证明:
且两者独立,由t分布定义得:
定理4(两个不同样本)¶
设样本 \((X_1, \cdots, X_{n_1})\) 和 \((Y_1, \cdots, Y_{n_2})\) 分别来自总体 \(N(\mu_1, \sigma_1^2)\) 和 \(N(\mu_2, \sigma_2^2)\) 并且它们相互独立,其样本方差分别为 \(S_1^2, S_2^2\), 则:
(1) \(F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \frac{S_1^2}{S_2^2} \bigg/ \frac{\sigma_1^2}{\sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)
(2) \(\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)\),
(3) 当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时, \(\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\),其中 \(S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}\), \(S_w = \sqrt{S_w^2}\)
Note
第一项主要针对于两个样本方差之间的关系
第二项主要针对于两个样本均值的关系
第三项则是两个样本方差与均值的关系
证明:
(1)
且两者独立,由F分布的定义,有:
(2)
且 \(\overline{X}\) 与 \(\overline{Y}\) 相互独立,所以 \(\overline{X} - \overline{Y} \sim N(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})\),
那么我们就得到了
(3) 当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时,由 (2) 得
又由前定理知:
且它们相互独立,故有 \(\chi^2\) 分布的可加性:
且 \(U\) 与 \(V\) 相互独立,于是根据 \(t\) 分布:
3+4的应用¶
Homework¶
第六章
A5 注意二项分布的数学期望以及方差的计算
A11(5) 注意正态分布减的时候的方差的计算
B10 注意正负号都可以