两样本均值的假设检验及其R软件实现
时间:2022-04-14 10:11:45 浏览次数:次
摘要:两样本均值的假设检验是《概率论与数理统计》中很关键的一部分内容,在生物医学、质量检测等领域中常遇到比较两样本是否存在显著差异。利用传统的手工方法分析数据存在一些困难,因此,将统计软件引入《概率论与数理统计》教学中适合了时代的发展。本文结合实例介绍R统计软件在两样本均值假设检验中的应用。
关键词:R统计软件;假设检验;U检验;t检验
中图分类号:G642 文献标志码:A 文章编号:1674-9324(2013)20-0213-02
两样本假设检验问题在生物医学、质量检测等领域常常遇到。如研究两种不同饲料对雌鼠体重增加是否有差异,两种不同药品对病人疗效是否相同。在讲授两样本假设检验理论知识的同时应将统计软件的应用作为一个重点,让学生至少熟练掌握一门统计软件。目前,可用于统计分析的软件有很多,如Excel、SPSS、SAS、Eviews、Minitab,S-plus以及R等。由于R软件具有强大的计算与图形展示功能、更新迅速以及自由免费等诸多优点[1-5],目前国内越来越多的高等院校在统计教学中将R软件作为教学软件。本文将结合实例介绍R统计软件在两样本均值假设检验中的应用。
一、两样本均值假设检验及R语言实现
设X1,X2,…,Xn■~N(μ1,σ■■),Y1,Y2,…,Yn■~N(μ2,σ■■)且两样本独立。在《概率论与数理统计》课程中,对两正态总体的假设检验问题常介绍两种情况:(1)σ■■和σ■■已知;(2)σ■■=σ■■=σ■未知。本文仅以双侧假设检验为例,考虑假设检验问题:H0∶μ1=μ2,H1∶μ1≠μ2.下面分别介绍两种情况下的检验方法及R语言实现。
1.检验方法。①σ■■和σ■■已知,当H0为真时,可以构造U检验统计量:U=■~N(0,1)对给定的显著性水平α,H0的拒绝域为:U≥Zα/2.②σ■■=σ■■=σ■未知,当H0为真时,可以构造t检验统计量:T=■~t(n1+n2-2),其中Sw=■,S■■和S■■分别是X和Y的样本标准差。对给定的显著性水平α,得H0的拒绝域为:T≥tα/2(n1+n2-2).
2.案例分析。本节采用文献[6]中的案例来说明R统计软件在两样本假设检验中的应用。某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L),结果如下:克山病患者(X):0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11。健康人(Y):0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
该地克山病患者与健康人的血磷值是否相同?
①假定σ■■和σ■■已知,σ■■=0.17,σ■■=0.18。两样本均值假设检验程序代码如下:##两样本方差已知的均值检验###
mean_test<-function(x, y,sigma1,sigma2){
n1<-length(x) #X样本数
n2<-length(y) #Y样本数
xb<-mean(x) #X样本均值
yb<-mean(y) #Y样本均值
u<-(xb-yb)/sqrt(sigma1^2/n1+sigma2^2/n2) #计算U检验统计量
pp<-pnorm(u,0,1) #计算标准正态分布在u点的概率分布函数值
if(pp<1/2) P=2*pp #计算假设检验P值
else P=2*(1-pp)
data.frame(mean=xb-yb, U=u, p_vale=P)
}
X=c(0.84,1.05,1.20,1.20,1.39,1.53,1.67,1.80,1.87,
2.07,2.11) #输入样本值
Y=c(0.54,0.64,0.64,0.75,0.76,0.81,1.16,1.20,1.34,
1.35,1.48,1.56,1.87)
mean_test(X,Y,sqrt(0.17),sqrt(0.18)) #通过编写的mean_test函数计算检验p值
运行结果
mean U p_vale
0.4362937 2.548825 0.01080866
从运行结果可以看出p-value<0.05,拒绝原假设,即该地区克山病患者与健康人的血磷值不同。
②假定σ■■=σ■■=σ■■未知,R软件中提供了t.test()进行两样本的假设检验和区间估计,关于t.test()的用法以及功能可参见文献[1]或者输入help(t.test)。程序代码为:t.test(X,Y,var.equal=TRUE)
运行结果
data: X and Y
t = 2.5237, df = 22, p-value = 0.01934
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.07776886 0.79481855
sample estimates:
mean of x mean of y
1.520909 1.084615
从运行结果可以看出p-value<0.05,仍拒绝原假设。
二、 探索与思考
在传授专业知识的同时,不仅要使学生能够将所学的统计方法用统计软件加以实现,增强学生的动手能力,而且应该启发同学去探索和思考,增强学生分析问题和解决问题的能力。通过对《概率论与数理统计》中两正态总体均值的假设检验问题的学习,可提出以下几个问题让学生去探索和思考:
1.当σ■■≠σ■■且都未知时,是否可以构造类似的t检验统计量:T=■.如果可以,在原假设成立时,检验统计量的分布是否仍然可以用t分布逼近,t分布的自由度是多少?该问题是著名的“Behrens-Fisher”问题(参见文献[7])。
2.当σ■■已知,σ■■未知的情况在分析实际问题的时候会遇到,如旧药与新药疗效的比较,通过先前的认知我们知道旧药的方差信息,但是新药的方差信息是完全不知道的,一个自然的想法就是用样本方差代替,构造如下检验统计量:T=■该检验统计量在原假设成立时的分布如何?
3.在解决实际问题时,常会遇到两非正态总体均值的比较,对该类假设检验问题如何构造检验统计量以及在原假设成立的时候,构造的检验统计量的分布如何?通过以上的问题,可以激发学生去探索解决问题的方法。在思考和探索的过程中,提高学生的创新能力。
参考文献:
[1]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2006.
[2]王星.非参数统计[M].北京:清华大学出版社,2010.
[3]程新,魏赛金,江莉.统计软件R及其在《生物统计学》实验教学中的应用[J].统计教育,2008,4(103):29-31.
[4]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[5]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
[6]黄志碧,梁秋萍.两样本均数比较的假设检验方法[J].广西医学,1998,20(5):831-837.
[7]Scheffe,H.Practical solution of the Behrens-Fisher Problem[J].Journal of the American Statistical Association,1970,65:1501-1508.
[两样本均值的假设检验及其R软件实现]相关文章
- 上一篇:硒:人体中神奇的微量元素
- 下一篇:说东道“硒”