4 随机变量的数字特征¶
4.1 数学期望¶
4.1.1 数学期望的定义¶
设离散型随机变量 \(X\) 的概率分布律为 \(P\{X=x_i\}=p_i,i=1,2,..\)
若级数\(\sum_{i=1}^{+\infty}x_ip_i\)绝对收敛,则称级数\(\sum_{i=1}^{+\infty}x_ip_i\)为随机变量 \(X\) 的数学期望或均值,简称期望,记为 \(E(X)\),即
若级数不是绝对收敛的,则称随机变量 \(X\) 的数学期望不存在
Note
数学期望的存在需要级数 \(\sum_{i=1}^{+\infty}x_ip_i\) 绝对收敛, 这是因为若该级数不绝对收敛, 而仅仅条件收敛, 此时级数的和会随着级数各项的排列次序不同而发生改变, 从而无法得到唯一值. 而从直观意义上来看, 离散型随机变量的数学期望当与其概率分布律中的各项排列次序无关.
对于连续型随机变量的数学期望,我们有如下定义
设连续型随机变量 \(X\) 的密度函数为 \(f( x)\) . 若
则称 \(\int_{-\infty}^{+\infty}xf(x)dx\) 为 \(X\) 的数学期望或均值,记为 \(E(X)\),即
若 \(\int_{-\infty}^{+\infty}|x|f(x)dx=+\infty\) ,则称随机变量 \(X\)( 或相应的分布) 的数学期望不存在.
4.1.2 随机变量函数的数学期望¶
定理 4.1.1 当 \(X\) 为离散型随机变量时,若 \(\sum_{i=1}^{+\infty} |g(x_i)| p_i < +\infty\),则 \(g(X)\) 的数学期望 \(E(g(X))\) 存在,且
其中 \(P\{X = x_i\} = p_i, i = 1, 2, \cdots\) 为 \(X\) 的概率分布律。
当 \(X\) 为连续型随机变量时,若 \(\int_{-\infty}^{+\infty} |g(x)| f(x) \, dx < +\infty\),则 \(g(X)\) 的数学期望 \(E(g(X))\) 存在,且
其中 \(f(x)\) 为 \(X\) 的密度函数。
定理 4.1.2 当 \((X, Y)\) 为二维离散型随机变量时,若实函数 \(h(x, y)\) 满足 $$ \sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} |h(x_i, y_j)| P{X = x_i, Y = y_j} < +\infty, $$
则 \(h(X, Y)\) 的数学期望 \(E(h(X, Y))\) 存在,且
其中 \(P\{X = x_i, Y = y_j\} = p_{ij}, i = 1, 2, \cdots, j = 1, 2, \cdots\) 为 \((X, Y)\) 的联合分布律。
当 \((X, Y)\) 为二维连续型随机变量时,若实函数 \(h(x, y)\) 满足
则 \(h(X, Y)\) 的数学期望 \(E(h(X, Y))\) 存在,且
其中 \(f(x, y)\) 为 \((X, Y)\) 的联合密度函数。
4.1.3 数学期望的性质¶
(一)若 \(n\) 个随机变量 \(X_1 , X_2 , ... , X_n ( n ≥ 1 )\) 的数学期望都存在,则对任意 \(n + 1\) 个实数 \(c_o , c_1 , c_2 ,...c_n\),\(c_0+\sum_{i=1}^nc_iX_i\) 的数学期望也存在, 且
(二)\(n\) 个相互独立的随机变量乘积的数学期望等于它们的数学期望的乘积.
若随机变量 \(X_1 , X_2, ... , X_n ( n ≥ 1 )\) 相互独立, 且它们的数学期望都存在, 则 \(\prod_{i=1}^nX_i\) 的数学期望也存在, 且
证明过程:
下面仅就 \(n = 2\) 且 \((X_1, X_2)\) 是连续型随机变量的情形给出证明,其他情形可以类似得到。设 \((X_1, X_2)\) 的联合密度函数为 \(f(x_1, x_2)\),其边际密度函数为 \(f_{X_1}(x_1)\),\(f_{X_2}(x_2)\)。由独立性知,\(f(x_1, x_2) = f_{X_1}(x_1) \cdot f_{X_2}(x_2)\)。此时利用定理 4.1.2,有
故 \(X_1 X_2\) 的数学期望存在。再次利用定理 4.1.2,可得
Warning
满足E(XY)=E(X)E(Y)的时候不能说明随机变量X和Y相互独立,实际上只能说明随机变量X和Y不满足线性关系
4.1.4 一些常见分布的数学期望¶
泊松分布的数学期望¶
设随机变量 \(X\) 服从参数为 \(\lambda > 0\) 的泊松分布 \(P(\lambda)\),其概率质量函数(probability mass function, PMF)定义为:
泊松分布的数学期望 \(E(X)\) 可以通过求和的方式直接计算得出。根据期望值的定义,我们有
注意到当 \(k = 0\) 时,\(k \cdot P(X = k) = 0\),因此可以将求和从 \(k = 1\) 开始,即
通过变换指数和阶乘项,可以进一步简化为
其中利用了 \(e^{\lambda} = \sum_{j=0}^{\infty} \frac{\lambda^j}{j!}\) 这一指数函数的泰勒级数展开。因此,对于一个服从泊松分布的随机变量 \(X\),其数学期望正好等于其分布参数 \(\lambda\)。
正态分布的数学期望¶
设随机变量 \(X\) 服从正态分布 \(N(\mu, \sigma^2)\),\(-\infty < \mu < +\infty\),\(\sigma > 0\)。由于 \(Z = \frac{X - \mu}{\sigma} \sim N(0, 1)\),所以任意服从正态分布的随机变量都可以写成服从标准正态分布的随机变量的线性组合,即 \(X = \sigma Z + \mu\)。\(E(Z) = 0\),那么
这表明正态分布中的参数 \(\mu\) 恰是此分布的数学期望。
二项分布的数学期望¶
设随机变量 \(X\) 服从二项分布 \(B(n, p)\) \((0 < p < 1)\),证明:\(E(X) = np\)。
证明 由于 \(X\) 可看成 \(n\) 重伯努利试验中随机事件 \(A\) 发生的次数,其中 \(P(A) = p\),引入随机变量
则 \(Y_i, i = 1, 2, \cdots, n\) 相互独立,都服从参数为 \(p\) 的 \(0-1\) 分布,且
注意到 \(X = \sum_{i=1}^{n} Y_i\),于是
此题也可以利用二项分布的概率分布律,采用数学期望的定义进行证明。
4.2 方差¶
4.2.1 方差的定义¶
设随机变量 \(X\) 的数学期望 \(E( X)\) 存在, 若 \(E[( X - E( X))^2]\) 存在, 则称
为 \(X\) (等价地, 相应的分布) 的方差 (variance) , 记为 \(Var( X)\) 或 \(D( X)\) (有时也可写为 \(V( X)\) ) .
方差的平方根 \(Var( X)\) 称为随机变量 \(X\) 的标准差 ( standard deviation )或均方差, 记为 \(\sigma(X)\) 或 \(SD(X)\).
(1) 若离散型随机变量 \(X\) 的概率分布律为 \(P\{X = x_i\} = p_i, i = 1, 2, \cdots\),则 \(X\) 的方差为
(2) 若连续型随机变量 \(X\) 的密度函数为 \(f(x)\),则 \(X\) 的方差为
方差与期望¶
方差可以由随机变量的平方的期望与随机变量的期望得到
若随机变量 \(X\) 的方差存在,则
证明 利用方差的定义及定理 4.1.3,得 $$ \begin{aligned} \operatorname{Var}(X) &= E[(X - E(X))^2] \ &= E[X^2 - 2X E(X) + (E(X))^2] \ &= E(X^2) - 2E(X) \cdot E(X) + (E(X))^2 \ &= E(X^2) - (E(X))^2. \end{aligned} $$
由上面的定理,显然可得
由于上式中的各项都是非负项,所以若 \(E(X^2) < +\infty\),可得 \(\operatorname{Var}(X) < +\infty\)。其实反之也成立,即若 \(\operatorname{Var}(X) < +\infty\),也可得出 \(E(X^2) < +\infty\)。
另外,由于 \(|X| \leq X^2 + 1\),所以某一随机变量平方的数学期望若存在,则一定保证了这个随机变量数学期望的存在性。
标准化随机变量X*¶
随机变量 \(X\) 具有数学期望 \(E(X)=\mu\),方差 \(Var(X)=\sigma^2\ne0\),记 \(X^*=\frac{X-\mu}{\sigma}\) 从而 \(X^*\) 的期望为0,方差为1
4.2.3 方差的性质¶
设随机变量 \(X\) 的方差存在, \(c\)为某一常数, 则
(1) \(Var(cX ) = c^2Var ( X)\)
(2) \(Var( X + c) = Var( X)\)
(3) 设 \(X,Y\) 是两个随机变量,则有
特别的,若\(X,Y\)相互独立或无线性关系(协方差为0) ,则有\(Var(X\pm Y)=Var[X]+Var[Y]\)
进一步推广,若 \(X_1, X_2, \cdots, X_n\) 相互(或两两)独立,则有
综合上述三项,设 \(X, Y\) 相互独立,\(a, b, c\) 是常数,则
(4)* \(Var( X) ≤E[ ( X-c) ^2]\) , 其中当且仅当 \(E(X) =c\) 时等号成立.
综合以上性质,可以得到相关推论:
若 \(n\) 个两两独立的随机变量 \(X_1 , X_2 , ... , X_n ( n ≥ 1 )\) 的方差都存在,则对任意有限个实数 \(c_o , c_1 , c_2 ,...c_n\),\(c_0+\sum_{i=1}^nc_iX_i\) 的方差也存在, 且
4.2.2 一些常见分布的方差¶
泊松分布的方差¶
设随机变量 \(X\) 服从泊松分布 \(P(\lambda)\) (\(\lambda > 0\)),则
又 \(E(X) = \lambda\),故
指数分布方差¶
设随机变量 \(X\) 服从指数分布 \(E(\lambda)\) (\(\lambda > 0\)),则
而 \(E(X) = \frac{1}{\lambda}\),故
即,指数分布的方差为其数学期望的平方。
标准正态分布方差¶
设随机变量 \(X\) 服从标准正态分布 \(N(0,1)\),则
而 \(E(X) = 0\),故
即,标准正态分布的方差为 1。
对于一般的正态分布 \(X\sim N(\mu,\sigma^2)\),期望为\(\mu\),方差为 \(\sigma^2\)
二项分布的方差¶
设随机变量 \(X\) 服从二项分布 \(B(n, p)\) (\(0 < p < 1\))。由于服从二项分布 \(B(n, p)\) 的随机变量都可以看成 \(n\) 个相互独立且都服从参数为 \(p\) 的 \(0-1\) 分布的随机变量的和,即若 \(Y_i\) 表示服从参数同为 \(p\) 的 \(0-1\) 分布的相互独立的随机变量,\(i = 1, 2, \cdots, n\),则 \(\sum_{i=1}^{n} Y_i \sim B(n, p)\)。易知,
由于 \(Y_i\) 服从 \(0-1\) 分布,其方差为 \(p(1-p)\),因此
总结¶
4.3 协方差与相关系数¶
4.3.1 定义¶
协方差¶
对于数学期望都存在的随机变量 \(X\) 和 \(Y\), 当 \(( X- E( X) ) (Y-E(Y))\) 的数学期望存在时, 称
为 \(X\) 与 \(Y\) 的协方差 (covariance)
(1) 若二维离散型随机变量 \((X, Y)\) 的联合分布律为
则 \(X\) 与 \(Y\) 的协方差为
(2) 若二维连续型随机变量 \((X, Y)\) 的联合密度函数为 \(f(x, y)\),则 \(X\) 与 \(Y\) 的协方差为
直接按上述定义计算协方差往往比较麻烦,在实际应用中常常使用下面给出的计算公式来得到协方差:
相关系数¶
对于随机变量 \(X\) 和 \(Y\), 当 \(E( X^2)\) 与 \(E(Y^2 )\) 均存在且 \(Var( X) ,Var(Y)\) 均为非零实数时, 称
为 \(X\) 与 \(Y\) 的相关系数 (correlation coefficient ) , 有时也简记为 \(\rho\).
4.3.2 性质¶
协方差¶
若随机变量 X 和 Y 的协方差存在, 则
(1) \(Cov( X, Y) = Cov(Y, X)\) ;
(2) \(Cov(X, X) =Var(X)\);
(3) \(Cov(aX, bY) = abCov(X, Y)\), 其中a, b 为两个实数 ;
(4) 若\(Cov(X_i , Y) ( i = 1,2)\)存在,则 \(Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)\);
关于上述四条性质的推论
(5) 若 \(X\) 和 \(Y\) 相互独立, 则 \(Cov ( X, Y ) = 0\), 但反之不然;
(6) \(Var(X) \cdot Var(Y) \ne 0\) 时, 有\((Cov(X, Y))^2 \le Var(X)Var(Y)\), 其中等号成立当且仅当 \(X\) 与 \(Y\) 之间有严格的线性关系,即\(|\rho|\le1\)
相关系数¶
(1) \(|\rho_{XY}| \leq 1\)
证明*:
相关系数 \(\rho_{XY}\) 定义为:
其中 \(\operatorname{Cov}(X, Y)\) 是 \(X\) 和 \(Y\) 的协方差,\(\operatorname{Var}(X)\) 和 \(\operatorname{Var}(Y)\) 分别是 \(X\) 和 \(Y\) 的方差。
根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),对于任意的随机变量 \(X\) 和 \(Y\),有:
因此:
(2) \(|\rho_{XY}| = 1 \Leftrightarrow\) 存在常数 \(a, b\),使 \(P(Y = a + bX) = 1\)
证明*:
-
必要性:假设 \(|\rho_{XY}| = 1\),则 \(\operatorname{Cov}(X, Y)^2 = \operatorname{Var}(X) \operatorname{Var}(Y)\)。根据柯西-施瓦茨不等式,当且仅当 \(X\) 和 \(Y\) 线性相关时,等号成立。因此,存在常数 \(a\) 和 \(b\),使得 \(Y = a + bX\)。
-
充分性:假设存在常数 \(a\) 和 \(b\),使得 \(P(Y = a + bX) = 1\)。则 \(Y\) 和 \(X\) 完全线性相关,因此 \(\operatorname{Cov}(X, Y)^2 = \operatorname{Var}(X) \operatorname{Var}(Y)\),从而 \(|\rho_{XY}| = 1\)。
特别地,\(\rho_{XY} = 1\) 时,\(b > 0\); \(\rho_{XY} = -1\) 时,\(b < 0\)。
4.3.3 随机变量 \(X\) 和 \(Y\) 的相关性与独立性¶
相关性判断:对于随机变量 \(X\) 和 \(Y\) , 当相关系数 \(\rho_{xy}\) 存在时, 有
(1) 若 \(X\) 和 \(Y\) 相互独立, 则 \(\rho_{xy}\) = 0, 但反之不然;
(2) \(| \rho_{xy} | ≤ 1\) , 其中等号成立当且仅当 \(X\) 与 \(Y\) 之间有严格的线性关系
( 即存在常数 \(c_1\), \(c_2\) , 使得 \(P\{Y = c_1 + c_2X \} = 1\) 成立).
当随机变量 X 和 Y 的相关系数 \(\rho_{xy}\) = 0 时, 称 \(X\) 和 \(Y\) 不相关 ( uncorrelated ) 或零相关.
由 相关系数及协方差定义, 可知 “不相关” 还可以用 下面的任意一条来
(1) \(Cov( X, Y) = 0\) ;
(2) \(E(XY) = E( X) E(Y)\) ;
(3) \(Var( X + Y) = Var ( X ) + Var(Y)\).
独立性判断:离散量用分布律,连续量用密度函数。
若两离散量取值互不影响或两连续量的 f(x,y) 可表示为 g(x)与h(y)乘积 ,则可初步认为两变量独立(看似独立)。
-
如看似独立的,先判断独立性,因为若真的独立了,则一定不相关,不必再求各期望了。
-
如看似不独立的,先判断相关性,因为若相关则不独立,不必再求边际分布了
对于二维正态分布 \((X,Y)\sim N(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho)\),有 \(\rho_{XY}=\rho\)
那么 \(X,Y\) 独立性等价于 \(\rho=0\) (前面已证) 等价于 \(\rho_{XY}=0\) 等价于 \(X\) 与 \(Y\) 不相关
Warning
一般情况下,相关一定不独立,独立一定不相关,独立性不等价于不相关,因为不相关不一定独立。但是在XY满足e正态分布的条件下,二者等价
4.4 其他数字特征¶
4.4.1 矩¶
定义:设 \(X\) 和 \(Y\) 是随机变量
若 \(\mu_k = E(X^k) \quad k = 1, 2, \cdots\) 存在,则称它为 \(X\) 的 \(k\) 阶(原点)矩;
若 \(\nu_k = E\left([X - E(X)]^k\right) \quad k = 1, 2, \cdots\) 存在,称它为 \(X\) 的 \(k\) 阶中心矩;
若 \(E\left(X^k Y^l\right)\) 存在 \(k, l = 1, 2, \cdots\) 存在,则称它为 \(X\) 和 \(Y\) 的 \(k + l\) 阶混合(原点)矩;
若 \(E\left([X - E(X)]^k [Y - E(Y)]^l\right)\) \(k, l = 1, 2, \cdots\) 存在,则称它为 \(X, Y\) 的 \(k + l\) 阶混合中心矩;
显然,最常用到的是一、二阶矩。
4.4.2 分位数¶
\(X\) 为连续型随机变量,其分布函数和概率密度函数分别为 \(F(x)\) 和 \(f(x)\),称满足条件
的实数 \(x_\alpha\) 为随机变量 \(X\)(或此分布)的上(侧)\(\alpha\) 分位数(点)。
4.5 多元随机变量的数字特征¶
设 \(n\) 元随机变量 \(X=(X_1,X_2,...,X_n)'\) ,若其每一分量的数学期望都存在,则称
为 \(n\) 元随机变量 \(X\) 的数学期望(向量)
4.5.1 协方差矩阵¶
设二维随机变量 \((X_1, X_2)\) 的四个二阶中心矩存在,将它们排成矩阵:
称为 \((X_1, X_2)\) 的协方差矩阵。
设 \(n\) 维随机变量 \(X = (X_1, X_2, \cdots, X_n)'\),\(\operatorname{Cov}(X_i, X_j)\) 都存在,\(i, j = 1, 2, \cdots, n\),称矩阵
为 \(n\) 维随机变量 \(X = (X_1, X_2, \cdots, X_n)'\) 的协方差矩阵。
协方差矩阵是一个对称的非负定矩阵
[以下内容不作要求]
我们可以利用协方差矩阵,将二维正态变量的概率密度推广,得到n维正态变量的概率密度
已知 \(X_1, X_2\) 服从二维正态分布,其概率密度为:
引入列向量:\(X = \begin{pmatrix} X_1 \\ X_2 \end{pmatrix},\mu = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}\),X的协方差矩阵为:\(B = \begin{pmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{pmatrix}\)
二元正态分布记为:\(X \sim N(\mu, B)\)
\(B\) 的逆矩阵为:
经计算:
于是 \(X_1, X_2\) 的概率密度可写成:
上式容易推广到n维正态变量 \((X_1, X_2, \cdots, X_n)\) 的情况
引入列向量:
\(B\) 是 \((X_1, X_2, \cdots, X_n)\) 的协方差矩阵,
\((X_1, X_2, \cdots, X_n)\) 的概率密度定义为:
4.5.2 n维正态变量重要性质¶
(1)n维正态变量 \((X_1, X_2, \cdots, X_n)\) 的每一个分量 \(X_i, i = 1, 2, \cdots, n\) 都是正态变量; 反之,若 \(X_1, X_2, \cdots, X_n\) 都是正态变量,且相互独立,则 \((X_1, X_2, \cdots, X_n)\) 是 \(n\) 维正态变量;
(2)n维随机变量 \((X_1, X_2, \cdots, X_n)\) 服从 \(n\) 维正态分布的充要条件是不全为零的 \(l_1, l_2, \cdots, l_n\) 常数,均有 \(l_1 X_1 + l_2 X_2 + \cdots + l_n X_n\) 服从一维正态分布;
(3)若 \((X_1, X_2, \cdots, X_n)\) 服从 \(n\) 维正态分布,设 \(Y_1, Y_2, \cdots, Y_k\) 是 \(X_j (j = 1, 2, \cdots, n)\) 的线性函数,则 \((Y_1, Y_2, \cdots, Y_k)\) 也服从多维正态分布;这一性质称为正态变量的线性变换不变性。
(4)设 \((X_1, X_2, \cdots, X_n)\) 服从 \(n\) 维正态分布,则 \(X_1, X_2, \cdots, X_n\) 相互独立的充要条件是 \(X_1, X_2, \cdots, X_n\) 两两不相关。在这里独立性与相关性等价了