在实际生活中,通常需要对对多个总体的均值进行比较,分析均值之间是否存在差异,方差分析原理:是研究自变量和因变量是否有关系,或者关系强度的分析方法,其实质是将所有测量值之间的与总变异之间的离均差平方和及自由度,按照其变异的来源分解为多个部分,之后求相应部分的变异,在用各部分的变异与总类变异进行比较,得出F值和P值,与显著性进行比较。
首先,介绍方差分析中的三个概念:①因素:只影响观测量变化的条件;②水平:因素变量不同级别或类别;③:观测变量即为得到的样本数据;如:研究冰箱销售量受三个等级价格的影响程度,其中,冰箱销售量为观测值,商品价格为因素,商品价格的三个等级就是水平。
应用方差分析之前,需要满足三个基本假设:
①数据总体服从正态分布;②各个总体的方差相等(方差齐性);③每个组的观测值之间是独立的。
方差分析的基本步骤:
①提出假设检验:假设因素有N个水平,每个水平的均值用U1、U2、...、Un表示,检验N个水平的均值是否相等,提出零假设:N个水平的均值是相等
②构建一个F统计量;
③指定显著性水平α,一般为0.05或0.01;
④通过统计量F计算出概率P值,
⑤概率P值与显著性水平进行比较,如果P值小于显著性水平,拒绝原假设,认为各总体的均值之间是存在显著差异;如果P值大于显著性水平,不能拒绝原假设,认为各总体的均值之间是不存在显著差异。
下面先学习第一种:单因素方差分析
话不多说,直接上操纵。
原始数据
原始数据
问题:多个区域的土壤含水量是否有显著差异
操作:分析→比较均值→单因素ANOVA
单因素ANOVA
因变量列表:土壤含水量;
因子:区域
对比:
多项式:用于趋势检验,勾选之后,度:线性、二次项、立方、四次项、五次项
1的对比1:用于先验对比实验,以T检验进行验证,在系数部分输入数值,添加;系数顺序对应因变量的水平值,保证系数之和为0,比如:要比较1和3水平的均值,那么可以将2和4水平的系数指定为0,若要进行多组比较,可以点击上一页、下一页进行添加。
勾选:多项式,默认:线性
对比
事后多重比较:
用来实现方差分析结果的多重比较,例如四组区域方差分析结果是具有显著差异,但是未知哪两组之间是差异显著,这时可以进行事后多重比较。
假定方差齐性:
LSD:最小显著性差异法,本质上是用T检验完成各组间的配对比较,检验敏感度高,只要两组之间有一定的微小差异,均可检验出来,该方法适用于总体方差相等的情况下,缺点是没有对第一类错误的问题加以有效控制和调整;
S-N-K:采用极差在均值间的配对比较,是一种有效划分相似性子集的方法,适用于各水平观测值个数相等的情况;
Tukey:采用的是Student-range检验统计量进行所有组间均值的配对比较,所有配对比较的误差率作为实验误差率,适用于各水平下,观测值个数相等的条件下,与LSD相比,该方法对范一类错误的概率可以较为有效的处理;
Duncan:指定一系列的range值逐步计算比较得出的结论。
未假定方差齐性:说明在方差不齐性的条件下,在进行比较;
显著性水平:一般用0.05或0.01
勾选:LSD
两两比较
选项
统计量:
描述性:输出每个组的基本描述统计量,包括:个案数、平均值、标准差、最小值、最大值95%的置信区间;
固定和随机效果:固定效应的标准差、标准误差、95%的置信区间以及随机效应模型的标准误差等;
方差同质性检验:方差齐性检验,该检验方法是不依赖与正态分布的假设;
Brown-Forsythe:检验各组均值是否相等的统计量,不能确定方差齐性假设时,该统计量比F统计量更有优势;
Welch:跟上述的Brown-Forsythe意义相等。
平均值图
缺失值
按分析顺序排除个案:给定分析中的因变量或因素变量的缺失值的个案,不参与该分析,不使用超过因素变量范围指定的个案;
按列表排除个案:只排除因素变量有缺失值的个案,或在主对话框中因变量列表的任何因变量值,需要注意的是,当未指定多个因变量时,该选项不起作用
勾选:描述性、方差同质性检验、平均值图
选项
输出结果
描述 | ||||||||
土壤含水量 | ||||||||
N | 均值 | 标准差 | 标准误 | 均值的 95% 置信区间 | 极小值 | 极大值 | ||
下限 | 上限 | |||||||
公园A区 | 3 | 24.7767 | 2.94419 | 1.69983 | 17.4629 | 32.0904 | 21.68 | 27.54 |
公园B区 | 3 | 18.8533 | 3.40306 | 1.96476 | 10.3997 | 27.3070 | 16.62 | 22.77 |
公园C区 | 3 | 22.7900 | 9.96218 | 5.75167 | -1.9574 | 47.5374 | 11.40 | 29.88 |
公园D区 | 3 | 27.3567 | 2.34504 | 1.35391 | 21.5313 | 33.1821 | 25.02 | 29.71 |
总数 | 12 | 23.4442 | 5.76626 | 1.66458 | 19.7805 | 27.1079 | 11.40 | 29.88 |
方差齐性检验 | |||
土壤含水量 | |||
Levene 统计量 | df1 | df2 | 显著性 |
5.129 | 3 | 8 | .029 |
上表方差齐性检验,显著性的值为0.029小于0.05,说明总体方差是不相等的,也就是方差不是齐性的,不满足方差齐性条件。(注:满足方差齐性后面的多重比较才有意义)
单因素方差分析 | |||||||
土壤含水量 | |||||||
平方和 | df | 均方 | F | 显著性 | |||
组间 | (组合) | 115.761 | 3 | 38.587 | 1.235 | .359 | |
线性项 | 对比 | 20.452 | 1 | 20.452 | .654 | .442 | |
偏差 | 95.309 | 2 | 47.655 | 1.525 | .275 | ||
组内 | 249.987 | 8 | 31.248 | ||||
总数 | 365.747 | 11 |
上表可知,总的离差平方和为365.747,组间离差平方和为115.761,组内离差平方和为249.987,组间被线性解释的部分为20.452,组间F值为1.235,显著性为0.359大于0.05,认为四组数据中,ABCD四个区域没有一组数据与另一组数据是存在显著差异的(若显著性小于0.05,认为四组数据中,ABCD四个区域至少有一组数据与另一组数据是存在显著差异的)
多重比较 | ||||||
因变量: 土壤含水量 LSD | ||||||
(I) 区域 | (J) 区域 | 均值差 (I-J) | 标准误 | 显著性 | 95% 置信区间 | |
下限 | 上限 | |||||
公园A区 | 公园B区 | 5.92333 | 4.56423 | .231 | -4.6018 | 16.4485 |
公园C区 | 1.98667 | 4.56423 | .675 | -8.5385 | 12.5118 | |
公园D区 | -2.58000 | 4.56423 | .587 | -13.1051 | 7.9451 | |
公园B区 | 公园A区 | -5.92333 | 4.56423 | .231 | -16.4485 | 4.6018 |
公园C区 | -3.93667 | 4.56423 | .414 | -14.4618 | 6.5885 | |
公园D区 | -8.50333 | 4.56423 | .099 | -19.0285 | 2.0218 | |
公园C区 | 公园A区 | -1.98667 | 4.56423 | .675 | -12.5118 | 8.5385 |
公园B区 | 3.93667 | 4.56423 | .414 | -6.5885 | 14.4618 | |
公园D区 | -4.56667 | 4.56423 | .346 | -15.0918 | 5.9585 | |
公园D区 | 公园A区 | 2.58000 | 4.56423 | .587 | -7.9451 | 13.1051 |
公园B区 | 8.50333 | 4.56423 | .099 | -2.0218 | 19.0285 | |
公园C区 | 4.56667 | 4.56423 | .346 | -5.9585 | 15.0918 |
上表是多重比较,可以看出各组之间的显著性都是大于0.05,都是不存在显著差异的。
均值图
今天的数据分析就学习到这里,有任何问题可以评论留言,如有想看的操作讲解,可以私信我。谢谢大家的点赞、关注和转发。