7 参数估计¶
7.1 参数的点估计¶
点估计的问题就是根据样本 \((X_1,X_2,...,X_n)\),对每一个总体中的未知参数 \(\theta_i(i=1,2,..,k)\),构造出一个统计量 \(\hat\theta_i=\hat\theta_i(X_1,X_2,...,X_n)\) ,作为参数 \(\theta_i\)的估计,称为 \(\theta_i\) 的估计量,\(\hat\theta_i=\hat\theta_i(X_1,X_2,...,X_n)\)称为 \(\theta_i\) 的估计值.
常用的点估计有:矩估计法、极大似然估计法.
7.1.1 矩估计法¶
设总体 \(X\) 的分布函数为 \(F(x;\theta_1,\theta_2,...,\theta_m)\),\((\theta_1,\theta_2,...,\theta_m)\) 是待估计的未知参数,假定总体 \(X\) 的 \(i(i=1,2,...,m)\) 阶原点矩 \(\mu_i=E(X^i)\) 存在且含有未知参数 (否则用到下一阶矩),然后我求解相应的反函数
然后我用样本的矩 (\(A_i=\frac{1}{n}\sum_{j=1}^nX_j^i\)) 来代替总体的矩,从而完成对参数的估计,得到 \((\theta_1,\theta_2,..,\theta_m)\) 的矩估计量
对于一个样本的矩估计量,我们可以选择任意阶矩,但是我们约定取含未知参数的最小阶矩,作为矩估计量。
若 \(\hat \theta\) 是 \(\theta_i\) 的矩估计,\(g(\theta)\) 是 \(\theta\) 的连续函数,则 \(g(\hat\theta)\) 是 \(g(\theta)\) 的矩估计
矩估计法的优点是:计算简单
矩估计法的缺点是:
-
在总体分布已知时,没有充分利用总体分布所提供的信息,在小样本场合没有突出的性质.
-
在一些场合下,矩估计量不具有唯一性。
总的来说,矩估计法就是用样本分布的一些统计量来估计总体分布的参数,缺失了细节,不是特别精确。
7.1.2 极大似然估计法¶
我观察现在样本的情况,估计参数使得得到样本的情况的概率最大
用数学语言来说就是
一般地,设离散型总体 \(X\sim P(X=x)=p(x;\theta)\),\(\theta\in\Theta\),\(\theta\) 未知,从总体 \(X\) 中取得样本 \(X_1,..,X_n\),其观察值为 \(x_1,x_2,..,x_n\),则事件 \(\{X_1=x_1,X_2=x_2,...,X_n=x_n\}\) 发生的概率为
其中 \(L(\theta)\) 被称为似然函数,极大似然原理:\(L(\hat\theta(x_1,..,x_n))=\max_{\theta\in\Theta}L(\theta)\) 称 \(\hat\theta(x_1,..,x_n)\) 为 \(\theta\) 的极大似然估计值,称统计量 \(\hat\theta(x_1,..,x_n)\) 为 \(\theta\) 的极大似然估计量。
如果总体 \(X\) 为连续性,概率密度为 \(f(x,\theta)\),\(\theta\in \Theta\),\(\theta\) 为未知函数,则对于样本 \((X_1,X_2,...,X_n)\) 的观察值为 \((x_1,x_2,...,x_n)\),似然函数 \(L(\theta)=\prod_{i=1}^{n}f(x_i,\theta)\)
说明
-
未知函数可能多于一个,一般设为\(\theta(\theta_1,\theta_2,...,\theta_m)\)
-
在求 \(L(\theta)\) 达到最大值点,通常转换为求 \(ln(L(\theta))\) ,记为 \(l(\theta)\)
-
若 \(L(\theta)\) 关于某个 \(\theta_i\) 是单调增(减)函数,此时 \(\theta_i\) 的最大似然估计在其右(左)边界取得
-
若 \(\hat \theta\) 是 \(\theta_i\) 的极大似然估计,\(g(\theta)\) 是 \(\theta\) 的连续函数,则 \(g(\hat\theta)\) 是 \(g(\theta)\) 的极大似然估计,可称之为极大似然估计的不变性
7.1.3 总结¶
除了均匀分布以外,其他的极大似然估计量均等于矩估计量,矩估计量更加好算,所以求极大似然估计量时,可以使用矩估计量。
7.2 估计量的评价准则¶
无偏性,有效性,均方误差,相和性
7.2.1 无偏性准则¶
定义:若参数 \(\theta\) 的估计量 \(\hat \theta=\theta(X_1,X_2,...,X_n)\),满足 \(E(\hat \theta)=\theta\),则称 \(\hat \theta\) 是 \(\theta\) 的一个无偏估计量。若 \(E(\hat \theta)\ne \theta\),那么 \(E(\theta)-\theta\) 称为 估计量 \(\hat \theta\) 的偏差,若 \(\lim_{n\rightarrow\infty}E(\theta)=\theta\),则称 \(\hat \theta\) 是 \(\theta\) 的渐近无偏估计量。
纠偏方法:若 \(E(\hat \theta)=a\theta+b,\theta\in\Theta\),其中 \(a,b\) 是常数,且 \(a\ne0\),则 \(\frac1a(\hat \theta-b)\) 是 \(\theta\) 的无偏估计
若 \(\hat \theta\) 是 \(\theta\) 的无偏估计,且 \(Var(\hat\theta)>0\), 则\(\hat\theta^2\) 不是 \(\theta^2\) 的无偏估计
证明:\(E(\theta^2)=Var(\theta)+E^2(\theta)=Var(\theta)+\theta^2\ne\theta^2\)
7.2.2 有效性准则¶
设 \(\hat{\theta}_1, \hat{\theta}_2\) 是 \(\theta\) 的两个无偏估计,如果 \(Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2)\),对一切 \(\theta \in \Theta\) 成立,且至少有一个 \(\theta \in \Theta\) 使不等号成立,则称 \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 有效。
7.2.3 均方误差准则¶
定义:设 \(\hat{\theta}\) 是参数 \(\theta\) 的点估计,方差存在,则称 \(E(\hat{\theta} - \theta)^2\) 是估计量的均方误差,记为 \(Mse(\hat{\theta})\). 即 \(Mse(\hat{\theta}) = E(\hat{\theta} - \theta)^2\)
估计量 \(\hat{\theta}\) 的均方误差越小,说明用 \(\hat{\theta}\) 来估计参数 \(\theta\) 时的平均误差越小,因而也就越优越,这就是均方误差准则。
若 \(\hat{\theta}\) 是 \(\theta\) 的无偏估计,则有 \(Mse(\hat{\theta}) = E(\hat{\theta} - \theta)^2 = Var(\hat{\theta})\)
在实际应用中,均方误差准则比无偏性准则更重要。
7.2.4 相合性准则¶
设 \(\theta(X_1, \cdots, X_n)\) 为参数 \(\theta\) 的估计量,若对于任意 \(\theta \in \Theta\),当 \(n \to +\infty\) 时,\(\theta_n\) 依概率收敛于 \(\theta\),即 \(\forall \varepsilon > 0\),有:
则称 \(\theta_n\) 为 \(\theta\) 的相合估计量或一致估计量。
估计量具有相合性是估计的基本要求若某估计不具备此要求,那么不管 \(n\) 多大,都不能得到一个足够精度的估计,这样的估计当然是不理想的。
判断一个估计量是否具有相合或一致性,一般需要用大数定律、切比雪夫不等式。
7.3 区间估计¶
点估计是由样本求出未知参数 \(\theta\) 的一个估计 \(\hat{\theta}\),
由于其随机性,\(\hat{\theta}\) 总是不会恰好等于 \(\theta\),它仅仅是 \(\theta\) 的参考值,没有反映这个近似值的误差范围。而区间估计则要由样本给出参数 \(\theta\) 的一个估计范围,并指出该区间包含 \(\theta\) 的可靠程度。
假设 \((X_1, \cdots, X_n)\) 是总体 \(X\) 的一个样本,双侧区间估计的方法是给出两个统计量
使区间 \([\theta_1, \theta_2]\) 以一定的可靠程度盖住 \(\theta\)。
7.3.1 双侧置信¶
定义:设总体 \(X\) 的分布函数 \(F(x; \theta)\) 含有未知参数 \(\theta\),\((X_1, \cdots, X_n)\) 是 \(X\) 的一个样本,对给定的值 \(\alpha\) (\(0 < \alpha < 1\)),若有统计量 \(\theta_1 = \theta_1(X_1, \cdots, X_n)\), \(\theta_2 = \theta_2(X_1, \cdots, X_n)\),使得:
则称随机区间 \((\theta_1, \theta_2)\) 为 \(\theta\) 的双侧置信区间;称 \(1 - \alpha\) 为 置信度;称 \(\theta_1\) 为 双侧置信下限;称 \(\theta_2\) 为 双侧置信上限。
Note
理解置信区间就是参数估计的结果落在某个区间的概率要大于置信度
称置信区间 \([\hat\theta_1,\hat\theta_2]\) 的平均长度 \(E(\hat\theta_2-\hat\theta_1)\) 为区间的精确度,并称二分之一区间的平均长度为置信区间的误差限。在给定的样本容量下,置信区间长度越长,置信度越高,精确度越低。所以,置信度和精确度是相互制约的。
奈曼原则:在置信度达到一定的前提下,取精确度尽可能高的区间
7.3.2 单侧置信¶
在以上定义中,若将 (7-1) 式改为:
则称 \(\theta_1 = \theta_1(X_1, \cdots, X_n)\) 为 \(\theta\) 的单侧置信下限。
随机区间 \((\theta_1, +\infty)\) 是 \(\theta\) 的置信度为 \(1 - \alpha\) 的单侧置信区间。
若将 (7-1) 式改为:
则称 \(\theta_2 = \theta_2(X_1, \cdots, X_n)\) 为 \(\theta\) 的单侧置信上限。
随机区间 \((- \infty, \theta_2)\) 是 \(\theta\) 的置信度为 \(1 - \alpha\) 的单侧置信区间。
Note
理解单侧置信下限就是参数估计的结果比某个值大的概率大于置信度;相反的,单侧置信上限就是参数估计的结果比某个值小的概率小于置信度
7.3.3 怎么求未知参数的置信区间?¶
枢轴量与统计量
(1) 枢轴量:含有未知参数的样本函数,其分布不依赖于未知参数
上面例子的枢轴量为 \(\frac{\overline X-\mu}{\sigma/\sqrt{n}}\)
(2) 统计量:是不含未知参数的样本函数
- 根据得到的样本构造函数(枢轴量)\(G(X_1, \ldots, X_n; \theta)\)。要求
(1)含待估参数 \(\theta\);
(2)含 \(\theta\) 的点估计(如无偏估计等);
(3)含总体已知的信息;
(4)不含除 \(\theta\) 外的其它未知参数;
(5)分布已知.
-
奈曼原则。对于给定的置信度 \(1 - \alpha\),确定尽可能大的 \(a\),尽可能小的 \(b\)(让置信区间尽可能小),使得 \(P\{a < G(\theta) < b\} \geq 1 - \alpha\);对称分布、双侧时,\(a\) 和 \(b\) 分别是相应分布的 \(1 - \frac{\alpha}{2}\) 和 \(\frac{\alpha}{2}\) 分位数
-
等价变换。若能从 \(a < G(\theta) < b\) 得到等价的不等式
那么 \((\theta_1, \theta_2)\) 就是 \(\theta\) 的置信度为 \(1 - \alpha\) 的双侧置信区间。
Note
求单侧置信限,只要将 “2.” 中的 \(P\{a < G(\theta) < b\} \geq 1 - \alpha\) 改为 \(P\{a < G(\theta)\} \geq 1 - \alpha\) 或 \(P\{G(\theta) < b\} \geq 1 - \alpha\) 即可。 求单侧区间时,\(a\) 和 \(b\) 分别是相应分布的 \(1 - \alpha\) 和 \(\alpha\) 分位数。
Note
枢轴量的引入是为了引入一个类似于不变量的东西(实际上是一个分布已知的随机变量),然后这个枢轴量又包括了参数估计量(已知的)与未知参数,这样我们就可以根据枢轴量的分布来推出未知参数的分布,得到置信区间
7.4.4 正态总体下常用的枢轴量¶
单总体 \(N(\mu, \sigma^2)\) 常用枢轴量
- \(\sigma^2\) 已知, 求 \(\mu\) 的区间估计:
- \(\sigma^2\) 未知, 求 \(\mu\) 的区间估计:
- \(\mu\) 未知, 求 \(\sigma^2\) 的区间估计:
- \(\mu\) 已知, 求 \(\sigma^2\) 的区间估计:
双总体 \(N(\mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)\) 常用枢轴量
- \(\sigma_1^2, \sigma_2^2\) 已知, 求 \(\mu_1 - \mu_2\) 的区间估计:
- \(\sigma_1^2 = \sigma_2^2\) 未知, 求 \(\mu_1 - \mu_2\) 的区间估计:
其中 \(S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}\)
- \(\mu_1, \mu_2\) 未知, 求 \(\frac{\sigma_1^2}{\sigma_2^2}\) 的区间估计:
- \(\mu_1, \mu_2\) 已知, 求 \(\frac{\sigma_1^2}{\sigma_2^2}\) 的区间估计: