欧氏距离是距离分析中比较容易理解的、也是较为常用到的距离计算方法,其度量的是欧氏空间中两个点之间的距离。
在IBM SPSS Statistics的距离分析中,可运用欧氏距离分析个案或变量间的“距离”,以确定不同个案或变量间的相似性。
一、数据准备
我们以一组购买金额、购买数量与浏览页面数的数据为例,运用欧氏距离分析数据个案(不同编号个案)、变量间(购买金额、购买数量、浏览页面数)的相似性。
欧氏距离分析是SPSS距离相关分析的一种,因此,我们需先开启距离分析。
二、距离分析设置
如图3所示,距离分析包含变量、个案标注依据、计算距离与测量四个部分。
我们先做一个个案间的分析,将购买金额、购买数量、浏览页面数添加到变量。
将个案的编号添加为个案标注依据,但需注意的是,如果编号是数值变量的话,需先将其设置为字符串变量后,才可添加为个案标注依据。
设置字符串变量的操作方法如下:
1. 打开数据的变量视图
2. 单击编号变量的类型单元格
3. 在弹出的变量类型中选择“字符串”
完成编号的字符串变量设置后,即可将其添加到个案标注依据。
接着,进行计算距离与测量的设置。由于当前分析的是不同个案的相似性,因此,需在计算距离中选择“个案间”。而测量可根据需要选择相似或非相似性,本例选择“非相似性”。
SPSS距离分析默认使用欧氏距离,如需更改,也可单击“测量”按钮更改距离的计算方式。
SPSS提供了区间、计数、二元的测量方式,针对不同的测量方式会有对应的距离计算方法。本例选择默认的区间欧氏距离计算方法,即在限定范围内进行欧氏距离计算。
三、数据解读
分析结果如下,本分析包含了5个个案数,采用了非相似性矩阵的分析结果。
从非相似性矩阵得出,5个个案的非相似性矩阵数值高,相似性低;而个案1与个案4存在着稍微高一些的相似性。
个案间的相似性低,那么,变量间的相似性如何?
如图10所示,我们将计算距离调整为“变量间”、将测量设为“相似性”。
其分析结果如图11所示,其相似性矩阵数值越接近于1,其相似性越高。可以看到,购买金额与购买数量之间的相似性较高,但浏览页面数与购买金额之间似乎存在着负相似性(相似性数值只有0.478),也就是说,浏览越多页面,购买金额越低。
四、小结
综上所述,SPSS欧氏距离分析是距离分析中的一种计算方法,可测量个案或变量间的相似性。在本例中,我们使用欧氏距离分析得出购买金额与购买数量间存在相似性,而购买金额与浏览页面间似乎存在着负相似性,但仍需深入分析。