我们在使用IBM SPSS Statistics来进行数据分析的时候,难免会遇上这种情况:变量非常多,多到我们不能对其一一控制的地步,但每个变量都有分析的价值,同时又彼此重叠。这个时候最直接的方法就是把所有变量按照一定的标准来进行分类,今天要介绍的距离分析,便可以提供这一标准。距离,意思是对变量之间的相似度或非相似度的一种测量方式。
距离分析可以分为相似度测量与非相似度测量两大类,相似度测量主要分析变量的相似程度,而不相似度测量则相反,测量变量的不相似程度。
今天要给大家示范的是,以我国各省农产品种植面积为例 ,对7个变量进行距离分析的具体步骤。接下就来让我们来看一看,在Windows10操作系统上,IBM SPSS Statistics是如何进行距离分析的吧。
进行距离分析
如图1所示,打开SPSS的界面,在菜单栏中依次找到【分析】- - 【相关】- - 【距离】。
首先我们要选择进行距离分析的变量,这里要注意的一点是:在变量列表框里我们应该至少写入两个变量。如图2所示,为了详细分析图中的数据,这里我们要写入全部7个变量。
写入了变量,接着就要写入个案标注依据,在今天的这个例子中,个案标注依据是【地区】。变量和标注依据都填好了后,就该配置距离分析的各种参数了。在个案标注依据下面的是计算距离选项框,分别有个案间和变量间两个选项,如果在此处勾选【个案间】,我们的输出结果就会是个案之间的距离,如果勾选的是【变量间】,我们的输出结果就会是变量之间的距离。因为前一步加入了7个变量,这里需要选择【变量间】选项。接下来在测量选项卡里有相似性与非相似性两个选项,我们选择【相似性】选项,如图3所示。
然后在测量选项卡中点击“测量”进行进一步配置,在【区间】- - 【测量】下拉框中选择皮尔逊相关性,接着在【转换值】- - 【标准化】下拉框中选择Z得分并勾选【按变量】,设置完了单击继续,如图4所示。
设定好后单击确定,我们就得到了SPSS的输出结果,如图5所示。
对输出结果的分析
在相似性矩阵中的数值越接近1,变量间的相似性就越高,说明越相似。在图中相似度最高的一组变量是瓜果和蔬菜,距离为0.627,从图中我们可以看出有的数值是1,这表示完全相同。
如果在【测量】选项卡中选择非相似性,则最后得到的结果为非相似性矩阵,它与相似性矩阵相反,也就是说距离越接近0相似性越大,非相似性数值越大,说明越不相似。
通过距离分析我们可以得到变量间的相似系数,大家下次再遇到多个彼此重叠的变量时,不妨用SPSS的距离分析功能来试一试。