5 大数定律和中心极限定理¶
5.1 大数定律¶
设 \(\{ Y_n, n≥1\}\) 为一随机变量序列, \(c\) 为一常数, 若对任意的\(\epsilon > 0\), 都有
成立, 则称 \(\{ Y_n, n≥1\}\) 依概率收敛 (convergence in probability) 于 \(c\), 记为 \(Y_n\stackrel{P}{\rightarrow} c,n \rightarrow +\infty\)
依概率收敛的性质:
若当 \(n \to \infty\) 时,\(X_n \xrightarrow{P} a\),\(Y_n \xrightarrow{P} b\),且函数 \(g(x, y)\) 在点 \((a, b)\) 连续,则
例如当 \(n \to \infty\) 时,
5.1.1 马尔可夫不等式¶
设随机变量 Y 的 k 阶矩 \(E(Y^k)\) 存在 (\(k\ge1\)) 则对于任意 \(\varepsilon>0\),都有
成立,特别地,当 \(Y\) 取非负值的随机变量时,则有
证明:
化简即得马尔可夫不等式
5.1.2 切比雪夫不等式¶
直观的理解就是远离平均数的数据量受到方差的影响
设随机变量X具有数学期望 \(E(X)=\mu\),方差为 \(Var(X)=\sigma^2\),则对于任意 \(\epsilon>0\) 都有
只需要在马尔可夫不等式中取 \(Y=X-\mu\),以及 \(k=2\)
5.1.3 大数定律¶
设 \(Y_1, \ldots, Y_n, \ldots\) 为一个随机变量序列,若存在常数序列 \(\{c_n, n \geq 1\}\),使得对 \(\forall \varepsilon > 0\),均有:
成立,即有当 \(n \to +\infty\),
则称随机变量序列 \(\{Y_i, i \geq 1\}\) 服从(弱)大数定律。
Note
随机变量序列前 \(n\) 个变量的算术平均依概率收敛于 \(c\),则这个随机变量序列服从大数定律。
5.1.4 伯努利大数定律¶
设 \(n_A\) 为 \(n\) 重贝努里试验中事件 \(A\) 发生的次数,并记事件 \(A\) 在每次试验中发生的概率为 \(p\),则对 \(\forall \varepsilon > 0\),有:
证明: ∵ \(n_A \sim B(n, p)\) 我们可以得到 \(\frac{n_A}{n}\) 的期望与方差
由切比雪夫不等式:
推论:0-1分布 \(\{X_i \sim B(1, p), i \geq 1\}\) 的随机变量序列服从大数定律。
Note
关于依概率收敛之类的证明,往往是通过马尔可夫或者切比雪夫不等式得到
揭示了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意义。
5.1.5 辛钦大数定律¶
描述了随着测试量的增加,随机变量序列的平均值会无限趋近于数学期望
设 \(\{X_i, i \geq 1\}\) 为独立同分布的随机变量序列,且其期望存在,记为 \(\mu\),则对 \(\forall \varepsilon > 0\),有:
即随机变量序列 \(\{X_i, i \geq 1\}\) 服从大数定律,
也即,当 \(n \to +\infty\) 时,
推论¶
设 \(\{X_i, i \geq 1\}\) 为独立同分布的随机变量序列,若 \(h(x)\) 为连续函数,且 \(E |h(X_1)| < +\infty\),则对 \(\forall \varepsilon > 0\),有:
即随机变量 \(\{h(X_i), i \geq 1\}\) 也服从大数定律。
即
可由依概率收敛的性质推出。(见 5.1 节)
Note
若 \(X_1, X_2, \ldots, X_n\) 为独立同分布的,\(h(x)\) 为连续函数,则 \(h(X_1), h(X_2), \ldots, h(X_n)\) 也为独立同分布的。
5.2 中心极限定理¶
某些指标(随机变量)是由大量的相互独立因素的综合影响所形成的,而其中每个因素作用都很小,则这种指标(随机变量)往往服从或近似服从正态分布,或者说它的极限分布是正态分布。中心极限定理正是从数学上论证了这一现象,它在长达两个世纪的时期内曾是概率论研究的中心课题。
独立同分布的随机变量重复次数越多,均值的分布越接近正态分布
定理 (独立同分布的中心极限定理)¶
设随机变量 \(X_1, X_2, \ldots, X_n, \ldots\) 相互独立同分布,
有:
此定理表明,当 \(n\) 充分大时,\(Y_n\) 近似服从 \(N(0, 1)\)。
也即:\(\sum_{i=1}^n X_i \sim N(n\mu, n\sigma^2)\) ,对应的期望与方差为:\(E\left(\sum_{i=1}^n X_i\right) = n\mu, Var\left(\sum_{i=1}^n X_i\right) = n\sigma^2\)
思考题(\(n\) 足够大)
\(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\) 的近似分布是什么?
答:\(N\left(\mu, \frac{\sigma^2}{n}\right)\)
推论 (德莫弗-拉普拉斯定理)¶
设 \(n_A\) 为 \(n\) 重贝努里试验中事件 \(A\) 发生的次数,\(P(A) = p\) (\(0 < p < 1\)),则
若 \(n\) 足够大,\(n_A \sim B(n, p)\),则 \(n_A \sim N(np, npq)\)。
Note
伯努利试验看为多个 0-1试验的叠加,并应用中心极限定理
证明:令 \(X_i = \begin{cases} 1 & \text{第 } i \text{ 次试验时 } A \text{ 发生} \\ 0 & \text{第 } i \text{ 次试验时 } A \text{ 未发生} \end{cases}\)
则 \(X_1, X_2, \ldots, X_n, \ldots\) 相互独立同分布,\(X_i \sim B(1, p)\)。
由于 \(n_A = X_1 + X_2 + \cdots + X_n\),
符合独立同分布的中心极限定理,所以 \(n_A \sim N(np, npq)\)。
计算公式: