一、T检验的思路
举个例子:假设X公司有两块土地:土地A采用A方案进行种植,平均每株可以结100g的农作物。土地B采用改进的B方案种植,公司想知道“B方案是否比A方案好,能提高农作物产量”。为了减少测试成本,假设只从B方案的土地中采样了5株农作物,样本均值为120g。从结果上看,似乎产量提高了,样本均值增加了20%,但是我们可以这样认为吗?
二、 分析:
现在提出假设检验:
- 假设:B方案没有提高产量,即AB方案是同一个分布
- 检验:在此假设下,
![]()
发生的概率高不高
已知的数据是,A方案下的农作物的产量服从
![]()
,标准差
未知的正态分布:
而B方案下的农作物的产量的样本均值
![]()
,样本数为5。下图为不同的均值、标准差对应的正态分布的图像:
标准差越大,说明数据越分散,那么曲线的跨度就越大,曲线显得更加‘矮胖’;反之标准差越小,说明数据越集中,跨度越小,曲线显得更加‘高瘦’。
X如果服从正态分布
这里
![]()
,
![]()
。
采样5个点使其
![]()
图像如下:
由此可见,那5个样本属于
![]()
的分布概率非常低。即A、B方案是同一个分布的可能性不大,我们有很大把握可以认为B方案比A方案好,能提高农作物产。
而如果X服从的是跨度更大的正态分布,采样5个点使其
![]()
的图像如下(为了演示,正态分布的参数选的不是很严谨):
这样的正态分布,那5个样本属于
![]()
的分布概率并不低,即A、B方案还是极大可能为同一个分布的。因此,看起来不能单纯依靠均值100,120比较出 “B方案比A方案好,能提高农作物产”。
下面我引出统计量T值:
我们不能单纯依靠
![]()
来判断,但是可以除以样本标准差 s可以消除跨度的影响:
因为A方案的
![]()
, 我们不清楚,但是我们假设AB同分布,所以直接使用了标准差 s。当然,样本数 n 也会影响结果。比如说,在 n =1000 下,得到
![]()
,那么根据大数定理,我们不用算了,基本上可以认为“B方案比A方案好,能提高农作物产”。
所以,认为应该综合考虑 样本均值
![]()
, 另一个整体样本均值
![]()
、样本方差 s(这个方差s指的是均值
![]()
的方差) 和样本数 n(样本均值
![]()
的样本个数) ,给出了一个统计量t值的计算公式:
t值越大说明B方案比A方案越好。
三、T分布
![]()
,其中 样本均值
![]()
, 另一个整体样本均值
![]()
、样本方差 s(这个方差s指的是均值
![]()
的方差) 和样本数 n(样本均值
![]()
的样本个数)。 对应的概率密度函数,也就是t分布为:
其中
![]()
叫做自由度。而
![]()
为伽马函数(gamma)。
f(t)接近于标准正态分布,灰色曲线表示正态分布,蓝色是
![]()
的t分布
t值对应的就是横坐标的值,假设t值等于4的话,那么t=4之后的曲线下面积其实就是P值:
所以,我们计算出t值之后,就可以根据
![]()
以及要求的P值,查出当前的t值是否会拒绝我们的假设。
这里举一个例子,比如本文中的AB方案下的数据为:
计算出来:
服从
![]()
的t分布:
如果我们要求 5% 的显著水平的话,因为p值为0.01,所以可以拒绝“B方案没有提高产量”这个假设了,也就是说,B方案使得产量提高了。
但是通常P值我们是无法计算的,所以要查T分布表,根据假设已经知道
![]()
,
![]()
(95%的置信度)。查表链接 (或者见本文末尾)t为2.776。计算出来的t值为4,并且4>2.776。查表知上图中黄色线的位置为t为2.776处(p值为0.05)。所以计算出来的t值在查表t的右侧,所以P值小于0.05,拒绝假设,B方案显著提高产量了。
四、T检验的用途
1)单样本t检验(样本均数与总体均数的比较)
样本均数与总体均数的比较的t检验,即单样本t检验。比较的目的是推断样本所代表的未知总体均数μ与已知的总体均数
![]()
有无差别。
2)两样本均数的比较
有三种类别:
a、两个样本均值比较是将受试对象按一定条件配成对子,配成对子的同对受试对象分别给予两种不同的处理,其目的是推断两种处理的效果有无差别。
b、同一受试对象分别接受两种不同处理,其目的是推断两种处理的效果有无差别;
c、同一受试对象处理前后的比较,其目的是推断某种处理有无作用。
五、T分布的特点
(1)t分布为对称分布,关于t=0对称,只有一个峰,峰值在t=0处,与标准正太分布曲线相比,t分布曲线顶部略底,两尾部稍高而平。
(2)t分布曲线受自由度影响,自由度越小,离散程度越大。
(3)t分布的极限是正太分布,自由度越大,越接近标准正太分布。
(4)当n>30时,t分布与标准正太分布的区别较小;当n>100时,t分布与标准正太分布基本一致;n接近无穷时,t分布与标准正太分布完全一致。
(5)t分布适用于n小于30的场景。
六、例子
1)单样本t检验:
大量检测已知正常人血浆载脂蛋白E(apo E) 总体平均水平为4.15mmol/L。某医师经抽样测得41例陈旧性心机梗死患者的血浆载脂蛋白E平均浓度为5.22mmol/L,标准差为1.61mmol/L。据此能否认为陈旧性心肌梗死患 者的血浆载脂蛋白E平均浓度与正常人的平均浓度不一致?
第一步:建立检验假设和确定检验水准
![]()
:
![]()
:
第二步:选定检验方法和计算统计量
用单样本的t检验
自由度ν=41-1=40
第三步:确定P值和作出推断结论
查t界值表,查表得t1=2.021,t=4.26 > t1,P<0.05。按α=0.05,拒绝H0,接受H1,
认为陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人不一致。
这里说一下:为什么t=4.26时,P<0.05。
如下图所示:当
![]()
=2.021时,
![]()
为0.05。计算后的P值为4.26,在2.021的右侧,右侧面积小于0.05。
这里说一下:为什么t=4.26时,P<0.05。
如下图所示:当
![]()
=2.021时,
![]()
为0.05。计算后的P值为4.26,在2.021的右侧,右侧面积小于0.05。
2)两样本均数的比较(c)
胃癌或巨型胃溃疡13人, 在实行全胃 切除术前后的体重(kg):试比较手术前后体重有无变化?
序号 手术前手术后手术后、手术前差值
![]()
:
![]()
:
手术后、手术前差值的和为56.2
手术后、手术前差值的标准差
![]()
为6.867
查t界值表,查表得t1=2.179,t=2.27> t1,P<0.05。按α=0.05,拒绝H0,接受H1,
认为手术前后体重有差别。
其他讲解,百度文库
[图文]统计学正态分布及t分布 - 百度文库wenku.baidu.com
参考:
t检验(t test)_人工智能_Tonywu2018的博客-CSDN博客blog.csdn.net
T分布表
t分布统计表 - 百度文库wenku.baidu.com