置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个机率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定机率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个机率”。
基本介绍
- 中文名:置信区间
- 外文名:Confidence intervals
- 别称:估计区间
- 表达式:Pr(c1<=μ<=c2)=1-α
- 套用学科:数学、参数统计
- 适用领域範围:统计学、参数统计
理论描述
置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的
样本数据,其平均值为μ,标準偏差为σ,则其
整体数据的平均值的100(1-α)%置信区间为(μ-Ζ
α/2σ , μ+Ζ
α/2σ) ,其中α为非置信水平在常态分配内的覆盖面积 ,Ζ
α/2即为对应的标準分数。对于一组给定的数据,定义
为观测对象,W为所有可能的观测结果,
X为实际上的观测值,那幺
X实际上是一个定义在
上,值域在W 上的随机变数。这时,置信区间的定义是一对函式
u(.) 以及
v(.) ,也就是说,对于某个观测值
X=
,其置信区间为
。实际上,若真实值为
w,那幺置信水平就是机率
c:
其中U=u(X)和 V=v(X)都是统计量(即可观测的随机变数),而置信区间因此也是一个随机区间:(U,V)。
计算公式
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显着性水平下计算出来的,显着性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那幺置信度则是0.95或95%,后一种表示方式更为常用。置信区间的常用计算方法如下:Pr(c1<=μ<=c2)=1-α其中:α是显着性水平(例:0.05或0.10);Pr表示机率,是单词probablity的缩写;100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);表达方式:interval(c1,c2) - 置信区间。
求解步骤
第一步:求一个样本的均值第二步:计算出抽样误差。经过实践,通常认为调查:100个样本的抽样误差为±10%;500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%。第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。
主要性质
较窄的置信区间比较宽的置信区间能提供更多的有关总体参数的信息。举例说明如下:假设全班考试的平均分数为65分,则有如下表格中的理解:
相关联繫
置信区间与置信水平、样本量等因素均有关係,其中样本量对置信区间的影响为:在置信水平固定的情况下,样本量越多,置信区间越窄。其次,在样本量相同的情况下,置信水平越高,置信区间越宽。实例分析如下:
(1)置信区间与样本量关係分析由上表得出:1、在置信水平相同的情况下,样本量越多,置信区间越窄。2、置信区间变窄的速度不像样本量增加的速度那幺快,也就是说并不是样本量增加一倍,置信区间也变窄一半(实践证明,样本量要增加4倍,置信区间才能变窄一半),所以当样本量达到一个量时(通常是1,200),就不再增加样本了。故:置信区间=点估计 ±(关键值 × 点估计的标準差)。在其他因素不变的情况下,样本量越多(大),置信区间越窄(小)。
(2)置信区间与置信水平关係分析美国做了一项对总统工作满意度的调查。在调查抽取的1,200人中,有60%的人讚扬了总统的工作,抽样误差为±3%,置信水平为95%;如果将抽样误差减少为±2.3%,置信水平降到为90%。则两组数字的情况比较如下:
由上表得出:在样本量相同的情况下(都是1,200人),置信水平越高(95%),置信区间越宽。