spss k均值聚类分析步骤,spss k均值聚类分析需事先指定聚类数目k,然后再依照该聚类数目进行迭代运算,本文会应用例子演示分析步骤,同时也会进行spss k均值聚类分析结果解读,以加深理解。
一、spss k均值聚类分析步骤
spss k均值聚类分析,与系统聚类、二阶聚类等同属spss的分类分析,目的是将相似的个案归纳总结、分类,以找到个案间的相似点。spss k均值聚类是一种确定性的聚类分析,需事先指定聚类的数量,适用于有指定分类、分类数目固定的情况。
以一组店铺数据为例,目的是应用一些标准指标对店铺进行分类,需要注意的是,k均值聚类只能分析数值型变量,对于字符串变量需重新编码成数值。
打开spss的分析菜单,选择分类中的“K-均值聚类分析”功能。
第一步:设置变量
本例将会使用标准a、标准b与标准e三个指标进行聚类分析,其中原字符串变量“标准e”已重新编码为数值型变量。
将标准a、标准b与标准e三个变量选入“变量”列表框,将“店铺编码”选入个案标注依据,以区别不同的个案。
第二步:设置聚类数
在左侧变量下方进行“聚类数”设置,该数值需要分析者自定,无固定规则。本例设为2,即运算得出2个聚类。
其他方法、聚类中心等,如无特殊需求,可保持默认设置。
第三步:设置保存新变量
“聚类成员”,是在聚类数目事先设定的情况下(本例为2个聚类),运算每个聚类所包含的个案,而从“与聚类中心的距离”,可看出聚类间的相似度,距离越远就越不相似。
第四步:设置统计量
可选择“初始聚类中心”、“每个个案的聚类信息(所属分类、与中心的距离)”,了解初始聚类与最终聚类的差别(如有的话)。
二、spss k均值聚类分析结果解读
完成以上设置后进行spss运算分析,并进行最后的步骤,解读数据。
如图6所示,根据初始聚类中心与迭代历史记录,以及实现设定的聚类数据2,数据在第二次迭代后,聚类中心不再变动,以此确认2次迭代。
在聚类数目为2的情况下,可将店铺个案归类为图7的“聚类成员”列表。
最终运算后,确定最终聚类中心为2,并得到最终聚类中心之间的距离。
其中,聚类1中包含了15个个案,聚类2中包含了7个个案。
三、spss k均值聚类分析的优缺点
spss k均值聚类分析是一种确定性强的聚类分析方法,相对于系统聚类的模糊性,k均值聚类可在指定聚类数目k基础上进行聚类分析,因此可提供确定性的分类信息,但这也决定了k均值聚类不太适合用于模糊性的研究问题。
spss k均值聚类分析优缺点如下:
优点:
1.运算快速、简单
2.可处理大量的个案,相对于系统聚类来说,运算更有效率
3.有确定的聚类数目,结果清晰,无须分析者自行判断
缺点:
1.需要事先设定聚类数目,不适合模糊性研究问题
2.容易受到初值和离群点的影响,可能会造成大量个案归属同一类,而少量极端值归属同一类的情况
3.聚类结果可能无法解释,无法运用分析者经验修正结果
四、小结
以上就是关于spss k均值聚类分析步骤,spss k均值聚类分析结果解读的相关内容。spss k均值聚类分析适用于确定性分类结果的研究问题,如果是模糊性的研究问题,可采用spss的系统聚类分析,进行探索性的聚类分析。无论是确定性分类,还是模糊性分类,spss都能进行有效地分析。