均值已知检验方差_T检验、T分布、T检验的计算方法

论坛 期权论坛 期权     
选择匿名的用户   2021-6-1 06:20   5571   0

一、T检验的思路

举个例子:假设X公司有两块土地:土地A采用A方案进行种植,平均每株可以结100g的农作物。土地B采用改进的B方案种植,公司想知道“B方案是否比A方案好,能提高农作物产量”。为了减少测试成本,假设只从B方案的土地中采样了5株农作物,样本均值为120g。从结果上看,似乎产量提高了,样本均值增加了20%,但是我们可以这样认为吗?

二、 分析:

现在提出假设检验:

  • 假设:B方案没有提高产量,即AB方案是同一个分布
  • 检验:在此假设下,
    发生的概率高不高

已知的数据是,A方案下的农作物的产量服从

,标准差

未知的正态分布:

2612f5207a1c1d26602832721786c9d3.png

而B方案下的农作物的产量的样本均值

,样本数为5。下图为不同的均值、标准差对应的正态分布的图像:

5454652442b4232abc103444f8431cb7.png

标准差越大,说明数据越分散,那么曲线的跨度就越大,曲线显得更加‘矮胖’;反之标准差越小,说明数据越集中,跨度越小,曲线显得更加‘高瘦’。

X如果服从正态分布

f9d72559a0cb3610e9120b0c2dafa6c3.png

这里

采样5个点使其

图像如下:

45aa28b165e22e7b6cda6483d234168e.png

由此可见,那5个样本属于

的分布概率非常低。即A、B方案是同一个分布的可能性不大,我们有很大把握可以认为B方案比A方案好,能提高农作物产。

而如果X服从的是跨度更大的正态分布,采样5个点使其

的图像如下(为了演示,正态分布的参数选的不是很严谨):

4b11422b7de12fb551ce297f32599607.png

这样的正态分布,那5个样本属于

的分布概率并不低,即A、B方案还是极大可能为同一个分布的。因此,看起来不能单纯依靠均值100,120比较出 “B方案比A方案好,能提高农作物产”。

下面我引出统计量T值:

我们不能单纯依靠

来判断,但是可以除以样本标准差 s可以消除跨度的影响:

因为A方案的

, 我们不清楚,但是我们假设AB同分布,所以直接使用了标准差 s。当然,样本数 n 也会影响结果。比如说,在 n =1000 下,得到
,那么根据大数定理,我们不用算了,基本上可以认为“B方案比A方案好,能提高农作物产”。

所以,认为应该综合考虑 样本均值

, 另一个整体样本均值
、样本方差 s(这个方差s指的是均值
的方差) 和样本数 n(样本均值
的样本个数) ,给出了一个统计量t值的计算公式:

t值越大说明B方案比A方案越好

三、T分布

,其中 样本均值
, 另一个整体样本均值
、样本方差 s(这个方差s指的是均值
的方差) 和样本数 n(样本均值
的样本个数)。 对应的概率密度函数,也就是t分布为:

8b555255f92cbb82c03e5f6d5dc75b33.png

其中

叫做自由度。而
为伽马函数(gamma)。

f(t)接近于标准正态分布,灰色曲线表示正态分布,蓝色是

的t分布

e97044beaf43be4b83c13ea71c911803.png

t值对应的就是横坐标的值,假设t值等于4的话,那么t=4之后的曲线下面积其实就是P值:

144d5d140d9bd3f75489bd236ec477c0.png

所以,我们计算出t值之后,就可以根据

以及要求的P值,查出当前的t值是否会拒绝我们的假设。

这里举一个例子,比如本文中的AB方案下的数据为:

计算出来:

服从

的t分布:

9ed78ae826d61751f62cb4b836eb3ee7.png

如果我们要求 5% 的显著水平的话,因为p值为0.01,所以可以拒绝“B方案没有提高产量”这个假设了,也就是说,B方案使得产量提高了。

但是通常P值我们是无法计算的,所以要查T分布表,根据假设已经知道
(95%的置信度)。查表链接 (或者见本文末尾)t为2.776。计算出来的t值为4,并且4>2.776。查表知上图中黄色线的位置为t为2.776处(p值为0.05)。所以计算出来的t值在查表t的右侧,所以P值小于0.05,拒绝假设,B方案显著提高产量了。

四、T检验的用途

1)单样本t检验(样本均数与总体均数的比较)

样本均数与总体均数的比较的t检验,即单样本t检验。比较的目的是推断样本所代表的未知总体均数μ与已知的总体均数

有无差别。

2)两样本均数的比较

有三种类别:

a、两个样本均值比较是将受试对象按一定条件配成对子,配成对子的同对受试对象分别给予两种不同的处理,其目的是推断两种处理的效果有无差别。

b、同一受试对象分别接受两种不同处理,其目的是推断两种处理的效果有无差别;

c、同一受试对象处理前后的比较,其目的是推断某种处理有无作用。

五、T分布的特点

(1)t分布为对称分布,关于t=0对称,只有一个峰,峰值在t=0处,与标准正太分布曲线相比,t分布曲线顶部略底,两尾部稍高而平。

(2)t分布曲线受自由度影响,自由度越小,离散程度越大。

(3)t分布的极限是正太分布,自由度越大,越接近标准正太分布。

(4)当n>30时,t分布与标准正太分布的区别较小;当n>100时,t分布与标准正太分布基本一致;n接近无穷时,t分布与标准正太分布完全一致。

(5)t分布适用于n小于30的场景。

六、例子

1)单样本t检验:

大量检测已知正常人血浆载脂蛋白E(apo E) 总体平均水平为4.15mmol/L。某医师经抽样测得41例陈旧性心机梗死患者的血浆载脂蛋白E平均浓度为5.22mmol/L,标准差为1.61mmol/L。据此能否认为陈旧性心肌梗死患 者的血浆载脂蛋白E平均浓度与正常人的平均浓度不一致?

第一步:建立检验假设和确定检验水准

第二步:选定检验方法和计算统计量

用单样本的t检验

自由度ν=41-1=40

第三步:确定P值和作出推断结论

查t界值表,查表得t1=2.021,t=4.26 > t1,P<0.05。按α=0.05,拒绝H0,接受H1,
认为陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人不一致。
这里说一下:为什么t=4.26时,P<0.05。
如下图所示:当
=2.021时,
为0.05。计算后的P值为4.26,在2.021的右侧,右侧面积小于0.05。
这里说一下:为什么t=4.26时,P<0.05。
如下图所示:当
=2.021时,
为0.05。计算后的P值为4.26,在2.021的右侧,右侧面积小于0.05。

f60be42c2421dddb1ae42020e230442d.png

2)两样本均数的比较(c)

胃癌或巨型胃溃疡13人, 在实行全胃 切除术前后的体重(kg):试比较手术前后体重有无变化?

序号 手术前手术后手术后、手术前差值

088beff7b7b235ae6296c5bd731d2a6d.png

手术后、手术前差值的和为56.2

手术后、手术前差值的标准差

为6.867

查t界值表,查表得t1=2.179,t=2.27> t1,P<0.05。按α=0.05,拒绝H0,接受H1,

认为手术前后体重有差别。

其他讲解,百度文库

[图文]统计学正态分布及t分布 - 百度文库wenku.baidu.com

参考:

t检验(t test)_人工智能_Tonywu2018的博客-CSDN博客blog.csdn.net
0be4b7609c3d47be82a56c05ef92f7be.png

T分布表

49a3bc81b70c7a8c9a2df6a43ae9eb14.png
t分布统计表 - 百度文库wenku.baidu.com
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP