卡方检验(Chi-Square Test)是由Pearson提出的一种统计方法,在一定的置信水平和自由度下,通过比较卡方统计量和卡方分布函数概率值,判断实际概率与期望概率是否吻合,通过比较理论概率和实际概率的吻合程度,可检验两个分类变量的相关性。用户可利用SPSS软件方便的完成卡方检验,在SPSS软件中,默认H0成立,即观察频数和实际频数无差别,即两组变量相互不产生影响,两组变量不相关,如果检验P值很高,则假设检验通过;如果检验P值很低,则检验不通过,观察频数和实际频数有差别,两组变量相关。SPSS数据检验具有很强的科学性和完备性,因此给出的报告也较复杂,下面就来进行SPSS卡方检验结果解读。
1.利用SPSS进行卡方检验
例如调查某地某种疾病发病率与性别是否相关,样本如下图所示:
打开SPSS软件,按图2所示输入数据,其中第一列1代表男,2代表女,第二列1代表发病,2代表不发病,3列为各项的人数,由于人数为频次,因此需要对此列数据进行加权,操作方式见图3。
图3显示了加权的步骤,在数据中选择个案加权,然后在弹出的对话框中,选中VAR00003将其设置为频率变量。加权指定频率变量,是进行卡方检验的必要步骤。
加权完毕后,就可以进行卡方检验了,操作步骤如图4所示,在分析中选择描述统计,交叉表,将第一列数据指定行,将第二列数据指定为列,然后在统计中选择卡方,最后点击确定,软件将进行卡方检验。
2.卡方检验结果解读
卡方检验结果如图5所示,个案处理摘要显示了有效数据和无效数据的数量。VAR00001*VAR00002交叉表显示各变量对应的频数,观察不难发现,这个交叉表与图1中结构完全相同,用户可通过这个表核对录入数据情况。
卡方检验结论是我们介绍的重点,首先在本例中,行列变量为各为二组,自由度为(2-1)×(2-1)=1,Pearson χ2值为22.475,显著性数值为0.000小于0.05,有显著性差异,不能接受无关假设,即疾病发病与性别明显相关。
细心的读者会发现,下面还有连续性修正,似然比,费希尔精确检验三个统计结果。
卡方检验在运算过程中使用了离散型统计量代替了连续性的统计量,所以在频数较低时会产生一定的偏斜,需要进行一定的修正,但是在数据量很大(>40),频数均大于5时,没有必要进行修正,连续性修正结果仅仅适用于四格表,且频数均小于5时。本例中样本量大,因此连续性修正结果与Pearson值差别不大。
似然比结果与卡方检验差别不大。费舍尔精确检验适用于样本数量<40,且存在期望频数<1的情况,其原因是,费舍尔精确检验方法来源于超几何分布,这种计算方法在样本数量较低时对于期望的估计是优于Pearson卡方检验的,所以在样本数量较低时应参考此值。
卡方检验可以有效的分析变量相关关系,但是也存在一定的限制条件,样本量足够大,并且期望频数也要足够大,在数据量较少,频数较低时要选择连续性修正和费舍尔精确检验结果,因此进行统计分析时一定要注意选择合适的统计方法,避免产生错误。