t分布
在机率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈常态分配且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用常态分配来估计总体均值。
t分布曲线形态与n(确切地说与自由度df)大小有关。与标準常态分配曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近常态分配曲线,当自由度df=∞时,t分布曲线为标準常态分配曲线。
基本介绍
- 中文名:t分布
- 外文名:t-distribution
- 学科:机率论和统计学
- 套用:在对呈常态分配的总体
- 别称:学生t分布
- 相关术语:t检验
历史
在机率论和统计学中,学生t-分布(Student's t-distribution)经常套用在对呈常态分配的总体的均值进行估计。它是对两个样本均值差异进行显着性测试的学生t测定的基础。t检定改进了Z检定(en:Z-test),不论样本数量大或小皆可套用。在样本数量大(超过120等)时,可以套用Z检定,但Z检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生t检定。在数据有三组以上时,因为误差无法压低,此时可以用变异数分析代替学生t检定。当母群体的标準差是未知的但却又需要估计时,我们可以运用学生t-分布。学生t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。定义
由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。假设X服从标準常态分配N(0,1),Y服从分布,那幺的分布称为自由度为n的t分布,记为。分布密度函式 ,其中,Gam(x)为伽马函式。扩展
常态分配(normal distribution)是数理统计中的一种重要的理论分布,是许多统计方法的理论基础。常态分配有两个参数,μ和σ,决定了常态分配的位置和形态。为了套用方便,常将一般的正态变数X通过u变换[(X-μ)/σ]转化成标準正态变数u,以使原来各种形态的常态分配都转换为μ=0,σ=1的标準常态分配(standard normal distribution),亦称u分布。根据中心极限定理,通过上述的抽样模拟试验表明,在常态分配总体中以固定n,抽取若干个样本时,样本均数的分布仍服从常态分配,即N(μ, )。所以,对样本均数的分布进行u变换,也可变换为标準常态分配N (0,1)。特徵
1.以0为中心,左右对称的单峰分布;2.t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标準常态分配(u分布)曲线,如图:t(n)分布与标準正态N(0,1)的密度函式。3.随着自由度逐渐增大,t分布逐渐接近标準常态分配。对应于每一个自由度df,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较複杂。学生的t分布(或也t分布) ,在机率统计中,在置信区间估计、显着性检验等问题的计算中发挥重要作用。t分布情况出现时(如在几乎所有实际的统计工作)的总体标準偏差是未知的,并要从数据估算。教科书问题的处理标準偏差,因为如果它被称为是两类:( 1 )那些在该样本规模是如此之大的一个可处理的数据为基础估计的差异,就好像它是一定的;( 2 )这些说明数学推理,在其中的问题,估计标準偏差是暂时忽略的,因为这不是一点,这是作者或导师当时的解释。置信区间
假设数量A在当T呈t-分布(T的自由度为n−1)满足这与是相同的。A是这个机率分布的第95个百分点。那幺等价于因此μ的90%置信区间为:。计算
下表列出了自由度为1-30以及80、100、120等t-分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度df=4,我们就可以查找表中以4开头的行。该行第5列值为2.132,对应的单侧值为95%(双侧值为90%)。这也就是说,T小于2.132的机率为95%(即单侧),记为Pr(−∞ < T < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的机率为90%(即双侧),记为Pr(−2.132 < T < 2.132) = 0.9。这是根据分布的对称性计算得到的。- Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05
- Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9