跳转至

6 统计量与抽样分布

文本统计:约 2340 个字

6.1 随机样本与统计量

总体:研究对象的全体。如一批灯泡。

个体:组成总体的每个元素。如某个灯泡。

总体是某一数量指标的全体,是具有确定分布的随机变量。

抽样:从总体X中抽取有限个个体,进行观察的取值过程。

随机样本:随机抽取的n个个体的集合\((X_1,X_2,…,X_n)\),\(n\)为样本容量

满足以下两个条件的随机样本\((X_1,X_2,…,X_n)\)称为简单随机样本

  1. 代表性:每个\(X_i\)\(X\)同分布

  2. 独立性:\(X_1 ,X_2,…,X_n\)是相互独立的随机变量

后面提到的样本均指简单随机样本

统计量:不含任何未知参数的样本的函数。

  1. 样本均值 \(\overline X=\frac{1}{n}\sum_{i=1}^{n}X_i\)
  2. 样本方差 \(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\)
  3. 样本 \(k\) 阶(原点)矩 \(A_k=\frac{1}{n}\sum_{i=1}^nX_i^k(k=1,2,...)\)
  4. 样本 \(k\) 阶中心矩 \(B_k=\frac 1n \sum_{i=1}^n(X_i-\overline X)^k\)

Warning

\(A_1=\overline X,B_2=\frac{n-1}n S^2\)

Note

从这个例子中可以直观地感受到取\(\frac{1}{n-1}\)的道理

6.2 常用的分布

6.2.1 卡方分布

随机变量 \(X_1,X_2,...,X_n\) 相互独立,而且 \(X_i\sim N(0,1)(i=1,2,...,n)\)

\[ X=\sum_{i=1}^nX_i^2 \]

服从自由度为n的 \(\chi^2\) 分布,记为 \(X\sim\chi^2(n)\). 自由度指独立的标准正态分布的随机变量个数。

Warning

随机变量相互独立,每个随机变量遵循标准正态分布

概率密度函数

\(\chi^2(n)\) 分布的概率密度为:

\[ f(x)=\left\{ \begin{aligned} &\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac n2-1}e^{-\frac x2},\ &&x > 0,\\ &0, &&x \le0, \end{aligned}\right. \]

其中 \(\Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}dt\)

上侧 α 分位数

分布记号: \(\chi^2(n)\) —— 分布记号 \(\chi^2_\alpha(n)\) —— 分位数

定义:对给定的概率 \(α\), \(0 < α < 1\), 称满足条件

\[ \int_{\chi^2_\alpha(n)}^{\infty} f(x) \, dx = \alpha \]

的点 \(\chi^2_\alpha(n)\)\(\chi^2(n)\) 分布的上侧 \(\alpha\) 分位数。

性质:若 \(X \sim \chi^2(n)\), \(P(X > \chi^2_\alpha(n)) = \alpha\),

\(\alpha\) 分位数 \(\chi^2_\alpha(n)\) 的值可查 \(\chi^2\) 分布表:\(\chi^2_{0.1}(40) = 51.805\)

n>40的情况

\(n > 40\) 时,有近似公式:\(\chi^2_\alpha(n) \approx \frac{1}{2} \left( z_\alpha + \sqrt{2n - 1} \right)^2\)

其中 \(z_\alpha\) 为标准正态分布的上侧 \(α\) 分位数:\(z_{0.1} = 1.28\)

\(n = 40\) 时上式右边 = 51.696

n非常大的时候

\(n\) 足够大,\(X \sim \chi^2(n)\),由中心极限定理可知,\(X \sim N(n, 2n)\)

Example

重要性质

(1)\(\chi^2\)分布的可加性

\(Y_1\sim\chi^2(n_1),Y_2\sim\chi^2(n_2)\),且 \(Y_1,Y_2\) 相互独立,则有 \(Y_1+Y_2\sim\chi^2(n_1+n_2)\)

(2)\(\chi^2\) 分布的数学期望方差

\(Y\sim \chi^2(n)\),则有 \(E(Y)=n,Var(Y)=2n\)

证明:设 \(Y = X_1^2 + X_2^2 + \cdots + X_n^2\)\(X_1, X_2, \ldots, X_n\) 均服从 \(N(0, 1)\) 的独立随机变量。

期望和方差的计算

\[ E(Y) = E(X_1^2 + X_2^2 + \cdots + X_n^2) = n E(X_1^2) = n [Var(X_1) + E^2(X_1)] = n \]
\[ Var(Y) = Var(X_1^2 + X_2^2 + \cdots + X_n^2) = n Var(X_1^2) = n [E(X_1^4) - E^2(X_1^2)] = n [3 - 1] = 2n \]

方差中的四阶矩的计算

\[ \begin{aligned} E(X_1^4) &= \int_{-\infty}^{+\infty} x^4 \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx \\ &= \frac{1}{\sqrt{2\pi}} \left[ -x^3 e^{-\frac{x^2}{2}} \right]_{-\infty}^{+\infty} + \int_{-\infty}^{+\infty} e^{-\frac{x^2}{2}} 3x^2 dx \\ &= \frac{1}{\sqrt{2\pi}} \left[ -3x e^{-\frac{x^2}{2}} \right]_{-\infty}^{+\infty} + 3 \int_{-\infty}^{+\infty} e^{-\frac{x^2}{2}} dx \\ &= 3 \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx = 3 \end{aligned} \]

6.2.2 t-分布

\(X\sim N(0,1)\)\(Y\sim\chi^2(n)\),并且 \(X,Y\) 相互独立,则称随机变量

\[ t=\frac{X}{\sqrt {Y/n}} \]

服从自由度为 \(n\) 的 t-分布,记为 \(t\sim t(n)\)

概率密度函数

\(t(n)\) 分布的概率密度函数为:

\[ f(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi} \cdot \Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}, \quad -\infty < t < +\infty \]

上侧 α 分位数

对给定的 \(\alpha\)\(0 < \alpha < 1\),称满足条件 \(P(t > t_\alpha(n)) = \int_{t_\alpha(n)}^\infty f(t) \, dt = \alpha\) 的点 \(t_\alpha(n)\) 为 t(n) 分布的上侧 \(\alpha\) 分位数。t 分布的上 \(\alpha\) 分位数可查 t 分布表.

重要性质

(1) \(\lim_{n \to \infty} f(t) = \frac{1}{\sqrt{2\pi}} e^{-t^2/2} = \varphi(t)\)

(2) 若 \(X \sim t(n)\),则 \(E(X) = 0\)\(Var(X) = \frac{n}{n-2} > 1\)\(n > 2\)

(3) \(t_{1-\alpha}(n) = -t_\alpha(n)\)

(4) 当 \(n > 45\) 时,\(t_\alpha(n) \approx z_\alpha\)

\(n\) 充分大时,\(X \sim t(n)\),也可认为:\(X \overset{\text{近似}}{\sim} N(0, 1)\)

6.2.3 F 分布

\(X\sim \chi^2(n_1)\)\(Y\sim \chi^2(n_2)\),且 \(X,Y\) 独立,则称随机变量

\[ F=\frac{X/n_1}{Y/n_2} \]

服从自由度 \((n_1,n_2)\) 的F分布,记为 \(F\sim F(n_1,n_2)\),其中 \(n_1\) 称为第一自由度,\(n_2\) 称为第二自由度。

概率密度函数

\(F(n_1, n_2)\)分布的概率密度

\[ f(x) = \begin{cases} \frac{1}{B\left(\frac{n_1}{2}, \frac{n_2}{2}\right)} \cdot \left( \frac{n_1}{n_2} \right)^{\frac{n_1}{2}} \cdot x^{\frac{n_1}{2} - 1} \cdot \left( 1 + \frac{n_1}{n_2} x \right)^{-\frac{n_1 + n_2}{2}} & x > 0 \\ 0 & x \leq 0 \end{cases} \]

其中 \(B(a, b) = \int_0^1 x^{a-1} (1 - x)^{b-1} \, dx = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}\)\(\Gamma(a) = \int_0^{+\infty} x^{a-1} e^{-x} \, dx\)

上侧 α 分位数

对于给定的 \(\alpha\)\(0 < \alpha < 1\),称满足条件 \(\int_{F_\alpha(n_1, n_2)}^\infty f(x) \, dx = \alpha\) 的点 \(F_\alpha(n_1, n_2)\)\(F(n_1, n_2)\) 分布的上 \(\alpha\) 分位数。\(F_\alpha(n_1, n_2)\) 的值可查 F 分布表

重要性质

(1) 若 \(F \sim F(n_1, n_2)\),则 \(\frac{1}{F} \sim F(n_2, n_1)\)

(2) 若 \(t \sim t(n)\),则 \(t^2 \sim F(1, n)\)

(3) \((t_{\alpha/2}(n))^2 = F_\alpha(1, n)\)

(4) \(F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}\)

F分布分位数表中,下标(概率值)只有 0.1 0.05 0.025 0.01 0.005

Note

(2) 设 \(t = \frac{X}{\sqrt{Y/n}} \sim t(n)\)

其中 \(X \sim N(0, 1)\)\(Y \sim \chi^2(n)\),并且两者独立。

因此:\(t^2 = \frac{X^2}{Y/n} = \frac{X^2 / 1}{Y/n} \sim F(1, n)\)

(3) 设 \(t \sim t(n)\),则 \(t^2 \sim F(1, n)\)

\(P(t^2 > (t_{\alpha/2}(n))^2)= P(\{t > t_{\alpha/2}(n)\} \cup \{t < -t_{\alpha/2}(n)\}) = \frac{\alpha}{2} + \frac{\alpha}{2} = \alpha\)

因此:\((t_{\alpha/2}(n))^2 = F_\alpha(1, n)\)

(4) 设 \(F \sim F(n_1, n_2)\),则 \(\frac{1}{F} \sim F(n_2, n_1)\)

\(1 - \alpha = P(F > F_{1-\alpha}(n_1, n_2)) = P(\frac{1}{F} < \frac{1}{F_{1-\alpha}(n_1, n_2)})= 1 - P(\frac{1}{F} \geq \frac{1}{F_{1-\alpha}(n_1, n_2)})\)

\(P(\frac{1}{F} \geq \frac{1}{F_{1-\alpha}(n_1, n_2)}) = \alpha\)

\(\therefore F_\alpha(n_2, n_1) = \frac{1}{F_{1-\alpha}(n_1, n_2)}\) 也即 \(F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)}\)

例:\(F_{0.99}(20, 10) = \frac{1}{F_{0.01}(10, 20)} = \frac{1}{3.37}\)

6.3 正态总体的抽样分布

定理1(样本均值的分布)

\((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样本方差,则有:

\[ \overline X\sim(\mu,\frac{\sigma^2}{n}) \]

定理2(样本方差的分布)

\((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样本方差,则有:

(1) \(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)

(2)\(\overline X\)\(S^2\) 相互独立

[分析]

\[ \frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})^2}{\sigma^2} = \sum_{i=1}^{n}\left(\frac{X_i - \overline{X}}{\sigma}\right)^2 \sim \chi^2(n-1) \]

对照一下: \(\sum_{i=1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n)\)

\(\because \sum_{i=1}^{n}\left(\frac{X_i - \overline{X}}{\sigma}\right) = 0\)\(\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i\),有一个约束条件。具体证明无需掌握,只需注意到自由度减少了1(多了一个约束条件)

定理3(样品均值与样品方差的关系)

\((X_1,X_2,...,X_n)\) 是总体 \(N(\mu,\sigma^2)\) 的样本,\(\overline X,S^2\) 分别是样本均值和样品方差,则有:

\[ \frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1) \]

证明:

\[ \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \triangleq U \sim N(0, 1), \quad \frac{(n-1)S^2}{\sigma^2} \triangleq V \sim \chi^2(n-1) \]

且两者独立,由t分布定义得:

\[ \frac{U}{\sqrt{V / (n-1)}} = \frac{\frac{\overline{X} - \mu}{\sigma / \sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2} / (n-1)}} = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n-1) \]

定理4(两个不同样本)

设样本 \((X_1, \cdots, X_{n_1})\)\((Y_1, \cdots, Y_{n_2})\) 分别来自总体 \(N(\mu_1, \sigma_1^2)\)\(N(\mu_2, \sigma_2^2)\) 并且它们相互独立,其样本方差分别为 \(S_1^2, S_2^2\), 则:

(1) \(F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \frac{S_1^2}{S_2^2} \bigg/ \frac{\sigma_1^2}{\sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)

(2) \(\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)\),

(3) 当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时, \(\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\),其中 \(S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}\), \(S_w = \sqrt{S_w^2}\)

Note

第一项主要针对于两个样本方差之间的关系

第二项主要针对于两个样本均值的关系

第三项则是两个样本方差与均值的关系

证明:

(1)

\[ \frac{(n_1 - 1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1 - 1), \frac{(n_2 - 1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2 - 1) \]

且两者独立,由F分布的定义,有:

\[ \frac{\frac{(n_1 - 1)S_1^2}{\sigma_1^2}}{\frac{(n_2 - 1)S_2^2}{\sigma_2^2}} = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1) \]

(2)

\[ \overline{X} \sim N(\mu_1, \frac{\sigma_1^2}{n_1}), \overline{Y} \sim N(\mu_2, \frac{\sigma_2^2}{n_2}) \]

\(\overline{X}\)\(\overline{Y}\) 相互独立,所以 \(\overline{X} - \overline{Y} \sim N(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})\),

那么我们就得到了

\[ \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1) \]

(3) 当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时,由 (2) 得

\[ U = \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sigma \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim N(0, 1) \]

又由前定理知:

\[ \frac{(n_1 - 1)S_1^2}{\sigma^2} \sim \chi^2(n_1 - 1), \quad \frac{(n_2 - 1)S_2^2}{\sigma^2} \sim \chi^2(n_2 - 1) \]

且它们相互独立,故有 \(\chi^2\) 分布的可加性:

\[ V = \frac{(n_1 - 1)S_1^2}{\sigma^2} + \frac{(n_2 - 1)S_2^2}{\sigma^2} \sim \chi^2(n_1 + n_2 - 2) \]

\(U\)\(V\) 相互独立,于是根据 \(t\) 分布:

\[ \frac{U}{\sqrt{V / (n_1 + n_2 - 2)}} = \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \]

3+4的应用

Homework

第六章

A5 注意二项分布的数学期望以及方差的计算

A11(5) 注意正态分布减的时候的方差的计算

B10 注意正负号都可以

评论区

对你有帮助的话请给我个赞和 star => GitHub stars
欢迎跟我探讨!!!