2 随机变量及其概率分布¶
2.1 随机变量¶
2.2 离散型随机变量¶
若随机变量的所有可能取值为有限个或可列个, 则称此随机变量为离散型随机变量
离散型随机变量的统计规律通常用概率分布律来描述.
设 X 为离散型随机变量, 若其可能取值为, 则称
为 \(X\) 的概率分布律或概率分布列, 简称为 \(X\) 的分布律 (distribution law) 或分布列 (distribution sequence)
概率分布律满足:
2.2.1 0-1(p)分布¶
若随机变量 X 的概率分布律为
\(X\) | 0 | 1 |
---|---|---|
\(p\) | 1-p | p |
其中 \(0 < p < 1\) , 则称 \(X\) 服从参数为 \(p\) 的 \(0-1\) 分布, 也称为两点分布 (two point distribution) , 并用记号 \(X \sim 0 − 1 ( p)\) 表示 (也可表示为 \(B( 1 , p)\) ) . \(0 - 1\)分布的概率分布律也可写成如下形式:
2.2.2 二项分布¶
若随机变量 X 的概率分布律为
其中 \(0 < p < 1, n≥1\), 则称 \(X\) 服从参数为 \((n, p)\) 的二项分布 (binomial distribution) , 记为 \(X \sim B(n, p)\)
n重伯努利试验:设在 \(n\) 次独立重复试验中, 每次试验都只有两个结果: \(A, \overline A\),且每次试验中 \(A\) 发生的概率不变, 记 \(P( A) = p, 0 < p < 1\) ,
设 \(X\) 为在 \(n\) 次试验中 \(A\) 发生的次数, 则 \(X \sim B(n, p)\)
2.2.3 泊松分布¶
若随机变量 \(X\) 的概率分布律为
其中 \(\lambda > 0\) , 则称 \(X\) 服从参数为 \(\lambda\) 的泊松分布 (Poisson distribution ) , 记为 \(X \sim P(X)\).
泊松分布是 \(n\) 足够大时,\(p\)充分小时,泊松分布\((\lambda=np)\)接近于参数为\((n,p)\) 的二项分布。
2.2.4 超几何分布¶
若随机变量 \(X\) 的概率分布律为
其中\(l_1=max\{0,n-b\},l_2=min\{a,n\}\)
就称 \(X\) 满足超几何分布 (hypergeometric distribution) , 记为 \(H(n, a, N)\).
2.3 随机变量的概率分布函数¶
设 \(X\) 为一随机变量, \(x\)为任意实数, 函数
称为随机变量 \(X\) 的概率分布函数, 简称分布函数 (distribution function) .
2.4 连续型随机变量¶
对于随机变量 \(X\) , 其分布函数为 \(F(x)\) , 若存在一个非负的实值函数 \(f (x)\) ,\(-\infty< x < + \infty\), 使得对任意实数 \(x\) , 有
则称 \(X\) 为连续型随机变量, 称 \(f(x)\) 为 \(X\) 的概率密度函数 (probability density function ) , 简称密度函数
由性质(3),连续型随机变量取任 一定值的概率为零。
因此, 连续型随机变量落在开区间与相应闭区间上的概率相等。
(4)在\(f(x)\)的连续点 \(x\) 处, \(F'(x)=f(x)\)
2.4.1 均匀分布¶
设随机变量 \(X\) 具有密度函数
则称 \(X\) 服从区间 \((a, b)\) 上均匀分布 (uniform distribution) , 记为 \(X \sim U ( a, b )\).
2.4.2 正态分布¶
设随机变量 \(X\) 具有密度函数
其中 \(-\infty < p < + \infty\), \(\sigma > 0\) , 则称 \(X\) 服从参数为 \((\mu, \sigma)\) 的正态分布 (normal distribution) , 简称 \(X\) 为正态变量, 记为 \(X \sim N(\mu,\sigma^2)\).
正态变量 \(X\) 的密度函数 \(f ( x)\) 具有以下性质:
(1) \(f( x )\) 关于 \(x = \mu\) 对称.
(2) \(\max_{-\infty<x<+\infty} f(x) = f(\mu) =\frac{1}{\sqrt{2\pi}\sigma}\)
(3) \(\lim_{|x-\mu|\rightarrow+\infty}f(x)=0\)
\(f ( x )\) 的值是中间 (\(\mu\) 附近) 大,头(离 \(\mu\) 远的地方) 小, 而且是对称的 (关于 \(x = \mu\)).
正态变量的参数 \(\mu\) 为位置参数, 因为 给出了密度函数对称轴的位置及 \(X\) 的取值集中的位置;
称 \(\sigma\) 为尺度参数, 因为密度函数曲线的尺度(图形的形状) 完全由\(\sigma\) 决定 (而与 \(\mu\) 无关).
当 \(\mu=0,\sigma=1\)时, 若记这时的正态变量为 \(Z\) , 即 \(Z\sim N( 0,1 )\), 称 Z 服从标准正态分布 (standard normal distribution) , 其密度函数为
对任一实数 \(x\), 均有 \(\Phi(-x)=1-\Phi(x)\), 处理一般的正态分布函数,可以利用换元将其换成标准正态分布函数
2.4.3 指数分布¶
设随机变量 \(X\) 具有密度函数
其中 \(λ > 0\), 则称 \(X\) 服从参数为 \(λ\) 的指数分布 (exponential distribution) , 记为 \(X \sim E (λ)\) .
无论 \(\lambda\) 为多少,将密度函数从负无穷积到正无穷都是1。
Note
注意有些时候,会用 \(\theta\) 来表示参数,
若将 \(X\) 看成某电子产品的寿命 (单位: \(h\)) , 则上述式子可解释为: “在已知产品用了 \(t_0 h\) 没有坏的条件下, 再用 \(t h\) 不坏” 的条件概率等于此产品 “最初使用 \(th\) 不坏” 的概率. 形象地说此产品 “忘却” 了 “ 已使用 \(t_0 h\)" ,所以常将其形象地称作指数分布的 “无记忆性”。
2.5 随机变量函数的分布¶
已知 \(X\) 的分布, \(Y = g ( X )\) , 其中 \(g(· )\) 已知, 要求 \(Y\) 的分布。
通用方法:
- 先根据 \(X\) 非零部分推出 \(Y\) 的非零部分
- 先求 \(Y\) 的分布函数,求的时候将 \({Y\le y}\) 转化为 \(X\) 的等价事件,然后根据 \(X\) 的密度函数来相应的计算\(Y\) 的分布函数。
- 若要求 \(Y\) 的密度函数,只需要将分布函数求导即可
定理:设 \(X\) 为一连续型随机变量, 其密度函数为 \(f_X(x)\) , 随机变量 \(Y = g( X)\) . 若函数 \(y = g( x)\) 为一处处可寻的严格单调增函数 (或严格单调减函数) , 记 \(y = g( x)\)的反函数为 \(x = h( y)\) , 则 \(Y\) 的密度函数为
其中 \(D\) 为函数 \(y = g ( x)\) 的值域.