判别分析是根据对象属性进行对象分类的一种方法,过程是根据已知对象属性训练出能够判定对象分类的函数,后续输入对象属性后,函数自动对该对象进行判别分类。判别分析通常借助专业的统计分析软件进行,如IBM SPSS Statistics,SPSS线性判别和非线性判别步骤是什么,SPSS线性判别和非线性判别区别是什么,本文简单向大家说明。
一、SPSS线性判别和非线性判别
在SPSS中,我们一般使用的是线性判别,此方法由Fisher提出,开始时是根据iris花的几个形态特点,对150组iris花进行分类。这150组iris花形态数据是非常经典的数据,无论使用软件进行线性判别,或者进行机器学习,都会引用这组数据进行验证。
这里我们仍然以这一组经典数据为例,向大家介绍SPSS线性判别的步骤,首先录入数据如图1所示。其中Species为iris花的种类,已知有三个种类, Sepal.Length, Sepal.Width,Petal.Length,Petal.Width分别为花的形态特点,对应的是测量的统计数据,我们目的在于根据已有的数据,建立合适的判别函数,当我们再遇到一种新的iris花时,我们仅仅需要录入花的形态特点,就能实现自动判别该iris花属于哪个种类。
我们依次点击分析,分类,判别式,如图2所示。
然后将花形态变量录入自变量,将分组号录入分组变量,然后点击定义范围,由于最多有三个组,所以最小值为1,最大值为3。
点击统计,勾选博克斯,未标准化选项,点击继续。
点击分类,勾选摘要表和合并组选项,点击继续,然后点击确定,SPSS将进行线性判别分析,我们将在第三小节中介绍如何解读判别结果。
二、SPSS线性判别和非线性判别区别
对于复杂的分类问题,我们可能会用到非线性判别函数,如下图中,A1,A2,A3为三个集,分布位置比较特别,此时使用线性判别函数无法精确地完成分类工作,直线总会与三个集有交点,借助于分段判别函数和二次判别函数,则可以解决判别问题,这就是线性判别和非线性判别的区别。
实际情况下,上述问题非常少见,我们一般借助线性判别就可以解决问题。SPSS中的函数系数也为Fisher线性判别函数。
三、SPSS线性判别结果解读
首先我们查看分组图,可见第一类setosa和第二类versic,第三类virgin分类较好,第二类和第三类略有重叠。
有了直观认识以后,我们查看分类结果,显示对98%的数据进行了较好的分类,2类和3类略有重叠,结果可以接受。
然后我们查看威尔克Lambda表,判别函数1和判别函数2显著性均小于0.05,有统计学意义。
综合来看,判别函数有统计学意义,分组结果准确性可以接受,Fisher线性判别方法可以很好地解决iris花分类问题。
以上就是SPSS线性判别和非线性判别,SPSS线性判别和非线性判别区别的相关内容了。SPSS线性判别和非线性判别哪个为首选方法,一般首选线性判别,可解决大多数问题,SPSS线性判别和非线性判别在于对于某些集合,使用线性判别可能互有重叠,可借助非线性判别中分段线性和二次判别函数进行。