假设检验是推断统计的一项重要内容,现实生活中有大量的事例可以归结为假设检验问题。

一个例子

由统计资料得知,1989年某地新生儿平均体重为3190克,现从1990年新生儿中随机抽取100个,测得其平均体重为3210克,问1990年的新生儿与1989年相比,体重有无显著差异?

从调查结果看,1990年的新生儿的平均体重比1989年新生儿的平均体重增加了20g,但是这20g的差异可能是由于抽样的随机性造成的,也可能是1990年新生儿体重确实比1989年新生儿体重有所增加。

下面采取假设检验的方式来解决这个问题。

假设1989年和1990年新生儿的体重没有显著差异,再利用1990年新生儿体重的信息检验该假设是否成立,如果成立,说明这两年新生儿的体重没有显著差异,反之,说明1990年新生儿的体重确实比1989年有显著增加。

假设检验基本原理

1、假设表达式

在统计学中,采用一个等式或不等式表示问题的原假设。在新生儿体重这个例子中,原假设为:

备择假设:如果原假设不成立,就要拒绝原假设,在另一个假设中做出选择,这个假设称为备择假设。在新生儿体重这个例子中,备择假设为:

说明:

  • 原假设一般用H_0表示,备择假设用H_1表示。
  • 原假设与备择假设互斥,接受原假设,就意味着放弃备择假设,拒绝原假设,则表示接受原假设。
  • 在某些文献中,备择假设(alternative hypothesis)也成为替换假设。

2、两类错误

对于原假设提出的命题,需要做判断,如果原假设正确,则接受原假设,反之,则拒绝原假设,当然,这是依据样本的信息做出的判断,实际情况并非如此,所以判断有可能正确,也可能不正确。

我们可能犯的错误有两种类型:

第I类错误:原假设为真,却被我们拒绝,犯这种错误的概率用a表示。

第II类错误:原假设为假,我们却没有拒绝,犯这种错误的概率用β表示。

假设检验中各种可能性结果的概率如下。

假设检验的流程

1、提出假设:原假设和备择假设

2、确定适当的检验统计量

3、根据显著性水平,进行统计决策

例如,针对上述新生儿体重问题:

1、提出假设:原假设和备择假设

原假设:

即1989年和1990年新生儿体重没有显著差异

备择假设:

即1989年和1990年新生儿体重有显著差异

2、确定适当的检验统计量

确定检验统计量主要根据2点:样本量的大小和总体标准差是否已知。

这里100个新生儿,属于大样本,应该使用z统计量。

说明:统计学中,一般样本量大于30,即可认为是大样本。

3、根据显著性水平,进行统计决策

这里假设显著性水平为0.05,总体标准差为80。

这里提到的显著性水平,其实就是上面提到的两种错误中的第I类错误。

经过计算,z值为2.5,临界值为1.96。

可以看出,z值大于临界值,所以z值落入拒绝域,所以拒绝原假设,即认为1989年和1990年新生儿体重有显著差异。

关于z值及临界值计算的说明:

z值根据公式计算即可,在Excel输入公式:=(3210-3190)/(80/10)

临界值:=NORM.S.INV(1-0.05/2)

假设检验的方向性

1、双侧检验

上面提到的新生儿问题,原假设表示等于,备择假设表示不等于,这种属于双侧检验。

2、单侧检验

还有一些假设问题,带有方向性,根据方向分为两种:左单侧检验右单侧检验

  • 例如,灯泡的使用寿命、轮胎行驶的里程数,所考察的数值越大越好,这种属于左单侧检验
  • 例如,废品率、生产成本,所考察的数值越小越好,这种属于右单侧检验

对于单侧检验,假设表达式可能会有大于或者小于的情况:

统计学中,我们关心的统计量一般有三个:均值、比例和方差,把问题分成两类。

一个总体参数的假设检验

一个总体参数的假设检验有三种类型。

1、总体均值的检验

2、总体比例的检验

3、总体方差的检验

这三种类型的假设检验对应的统计量及公式如下。

一个关于总体均值的假设检验问题:

例题:某批发商欲从厂家购进一批灯泡,根据合同规定灯泡的使用寿命平均不能低于1000小时。已知灯泡燃烧寿命服从正态分布, 标准差为200小时。在总体中随机抽取了100个灯泡, 得知样本均值为960小时, 批发商是否应该购买这批灯泡?

1、提出假设:原假设和备择假设

H0:μ≥1000

H1:μ<1000

2、确定适当的检验统计量

这里100个灯泡,属于大样本,选择z统计量。

3、根据显著性水平,进行统计决策

这里假设显著性水平为0.05,根据公式计算z值为-2。

计算临界值为,1.64。

|-2|>1.64,所以z值落入拒绝域,拒绝原假设,即批发商不应该购买这批灯泡。

关于z值及临界值计算的说明:

z值根据公式计算即可,在Excel输入公式:=(960-1000)/(200/10)

临界值:=NORM.S.INV(1-0.05)

这里需要注意:

单侧检验,临界值计算公式为:

=NORM.S.INV(1-0.05);

双侧检验,临界值计算公式为:

=NORM.S.INV(1-0.05/2)(之前的新生儿体重问题属于双侧检验,所以用这个公式计算临界值)。

两个总体参数的假设检验

有时候,我们可能需要比较两个总体的参数,例如,在相同年龄的情况下,学历对职工的收入是否有显著的差异。

两个总体参数的检验也有三种类型。

1、两个总体均值之差的检验

2、两个总体比例之差的检验

3、两个总体方差比的检验

这三种类型的假设检验对应的统计量及公式如下。

一个关于两个总体均值之差的假设检验问题:

尽管存在争议,但大多数科学家认为,食用含有高纤维的谷类食物有助于降低癌症发生的可能性。然而有一个科学家提出,如果人们在早餐中食用高纤维的谷类食物,那么平均而言,与早餐没有食用谷物的人群相比,食用谷物者在午餐中摄取的热量(大卡)将会减少(Toronto Star, 1991)。如果这个观点成立,谷物食品的生产商又将获得一个很好的机会,他们会宣传说:“多吃谷物吧,早上也吃,这样将有助于减肥。”为了验证这个假设,随机抽取了35人,询问他们早餐和午餐的通常食谱,根据他们的食谱,将其分为两类,一类为经常的谷类食用者(总体1),一类为非经常阅类食用者(总体2)。然后测度每人午餐的大卡摄取量。经过一段时间的实验,得到的结果如表8—3所示。

试以α=0.05的显著性水平检验。

本题要检验的命题:早餐食用较多的谷类食物有助于减少午餐中热量的摄取。

1、提出假设:原假设和备择假设

H0:μ_1-μ_2≥0

H1:μ_1-μ_2<0

2、确定适当的检验统计量

这里是小样本,而且总体标准差未知,所以选择t统计量。

3、根据显著性水平,进行统计决策

这个问题属于双样本异方差的情况(题目中没有明确说方差相等,所以认为方差不等),选择对应的公式计算即可。

在Excel中,通过公式计算如下。

从分析结果看到,t值大于临界值,落入拒绝域,所以拒绝原假设,即早餐食用较多的谷类食物有助于减少午餐中热量的摄取。

利用Excel做假设检验

Excel也提供了假设检验分析库。

针对上述谷类食物的问题,在Excel可以这样做:

由于Excel中的分析工具要求数据为一列或者一行,所以首先把数据粘贴为一行。

然后选择“t-检验:双样本异方差假设”,得出分析结果,如下。

说明:上面的分析结果既有单侧检验的结论,也有双侧检验的结论,因为Excel中无法设定假设的方向,所以两种结论都有,我们根据实际情况选择对应的结论就行。

你是否接触过假设检验?又是通过什么工具来做的呢?欢迎留言评论!