随机计算能力的提高,对数据信息的需求也不断增长,同时收集数据越来越多,这就导致出现更多的数据输入错误。如果使用这些错误数据用于SPSS软件的预测模型来获取预测结果,会导致预测结果出现较大偏差,因此用于预测的数据需要保持干净。如果使用传统方法手动对预测数据进行验证,庞大的数据已经超人力所能处理的能力,SPSS软件就能实现自动化的数据验证,极大节省了人力物力。
一、验证规则
数据验证规则作用是确定个案是否有效,SPSS软件中有两种类型的验证规则:单变量规则、交叉变量规则。验证规则保存在数据文件的数据字典中,可以达到一次规则多次复用的效果。
1、单变量规则的名称必须是唯一的,适用于数值、字符串和日期变量类型,是用户自定义的规则,但是仅用于单个变量。
2、交叉变量规则是用户自定义的规则,不仅可以用于单个变量,而且还可用于组合变量。
载入预定义规则是通过从安装中所包括的外部数据文件载入预定义规则,这样可以达到快速获取一组可供使用的验证规则。
二、数据验证
数据验证是指对活动那个数据集中存在可疑的和无效的个案、变量以及数据值进行验证。点击SPSS顶部菜单栏“数据”-“验证”-“验证数据”,即可打开验证数据窗口。然后点击顶部“基本检查”菜单,该菜单包括三个模块:分析变量、个案标识。
1、分析变量。如果在“变量”菜单选择了任何分析变量,则可选择最大缺失值百分比、单个变量中个案所占的最大百分比、技术为1的类别的最大百分比、最小变异系数、最小标准差。
2、个案标识。如果在“变量”菜单栏选择了任何个案标识变量,则可以选择标记不完整的标识、标记重复标识。
点击单变量规则菜单,可以自定义单变量规则、重新扫描。定义规则可以选择所有变量、数值变量、字符串变量和日期变量设置规则。重新扫描用于更新新分布摘要。
点击交叉变量规则,可以自定义逻辑表达式定义规则,表达式可以通过变量、函数和特殊变量、符号进行定义。
输出是指输出违反规则个案数据的报告。保存将违规的变量保存到活动数据集。
三、结果解析
通过数据验证的设置,并且将演示数据集运行,得到如下结果。可以看到验证数据包括标识检查、个案检查。标识检查中包括不完整的标识、重复的标识。
四、小结
上面是给大家讲解了利用SPSS软件进行数据验证,重点讲解了数据验证的基本检查、单变量规则、交叉变量规则等。并且通过设置数据验证参数,展示了数据分析结果。