在各行业的统计工作中,经常会在不同的维度上对因变量和自变量的关系进行研究分析。比如我们要统计上海和北京在不同的时间维度上(上午、下午、晚上)的车流量,这种研究,它们之间的数据是非独立的,彼此之间具有一定的关系。
针对这种数据的研究,我们就不可采用普通的线性回归、逻辑回归,而需要使用广义估算方程来进行其他模型的拟合计算,下面使用SPSS软件来为大家演示如何针对此情况进行统计分析。
一、流程步骤
本文中演示的数据如图1,第一列表示街道ID;第二列表示车流量;第三列表示是否堵塞(1表示堵塞,0表示不堵塞);第四列表示天气(0表示天气下雨;1表示天气良好或晴朗);第五列表示城市(1为上海,2为北京)。
第一步:点击【分析】--【广义线性模型】--【广义估算方程】,在“重复”项中,输入主体变量(选择街道ID)和主体内变量(选择车流量),然后在下方的工作相关性矩阵中,本演示数据中需选择“可交换”。
工作相关性矩阵可选项有5个,其中“自变量”表示各数据间相互独立;“AR(1)”表示自相关,相邻数据间时间相距越大,则相关性越小;“可交换”表示等相关,相邻数据间的相关性是相等的;“M相关”表示相邻相关,即相邻的M+1个数据有相关性,其他数据没有相关性;“非结构化”表示不限定相关结构。
第二步:由于本演示数据是二分类数据,因此接下来我们在“模型类型”中,选择“二元Logistic”。
第三步:在“响应”菜单中,输入因变量为“是否堵塞”,再点击“参考类别”按钮,设定参考类别为“第一个值”,表示设定不堵塞这个分类为参考分类。
第四步:在“预测变量”菜单的“协变量”中,填入“天气”和“城市”作为模型的协变量,如图6。
第五步:在“模型”菜单中,指定“天气”和“城市”为模型效应,如图7。
第六步:在“统计”菜单中,除了SPSS默认帮我们勾选的项目外,我们还需要再勾选上“包括指数参数估算值”这一项。最后点击“确定”,生成统计结果。
二、结果分析
结果得到的多个表格,我们直接看“参数估算值”表格即可,见图9,我们主要关注显著性一列和Exp(B)一列,Exp(B)即上述我们勾选的“指数参数估算值”,也就是通常所说的OR值(比值比)。
在天气这行中我们可以看到,显著性为0.046,Exp(B)为0.341,这说明天气晴朗造成堵塞的概率是天气下雨造成堵塞的概率的0.341倍,且显著性低于0.05,说明结论具有统计学意义;另外在城市一行中,我们可以看到显著性为0.531,这说明城市这一自变量在此演示数据中不具有统计学意义。
通过上述IBM SPSS Statistics的讲解,我们就完成了使用广义估算方程,对非独立的相关数据进行统计分析的目的,分析的结果也相对准确。对本模型感兴趣的小伙伴们,可以自己动动手在SPSS软件中进行尝试哦。