1. SPSS数据挖掘技术在医疗领域中的应用
用于医学数据挖掘的数据虽然具有一定的特殊性,但仍遵循一般的知识发现过程,用于医学的数据挖掘不仅能对过去的数据进行查询和遍历,并能够找出过去数据之间的潜在联系,从中提取辅助决策的关键性信息。用于医学的数据挖掘的步骤如下:
⑴确定挖掘目标理解医学领域及相关的经验知识,定义需要解决的问题,确定医学数据挖掘的目标和结论的评估标准。
⑵理解数据根据数据挖掘的需要,搜索所有与医院对象有关的内容和外部的数据信息,完成数据的初步收集,对原始数据进行抽样分析,列出数据属性。
⑶准备数据由于医学数据的冗余性和多样性特征,需要对原始数据进行审核与整理,并针对各种类型的数据采取相应的数据预处理方法,并根据数据挖掘方法的目标和数据的特征,选择合适的模型,实现数据的转换。
⑷数据挖掘使用合适的数据挖掘算法完成数据分析,这是医学知识发现过程中的一个关键性步骤。实现数据挖掘的方法包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析和偏差分析等。挖掘结果在实际运用中需要反复求证,以检验其合理性。
⑸结果分析对发现的知识进行医学解释,并与最初的研究目标相比较,其结论对使用者来说必须是可理解的。
⑹知识同化及应用将挖掘结果集成到实际医学过程中,并有计划地实施和控制。
1.1. SPSS在医院信息系统的统计分析与决策中的应用
医院信息系统(HIS)经过多年的使用,累积了大量的历史信息,其容量呈几何级数增长,这些信息除了在医院的日常业务中发挥重要作用之外,它还是医院的宝贵财富。如何对大量的历史数据进行深层次地挖掘,通过信息的分类、整理、分析,从中发现医疗业务和经营的内在规律,从而为管理人员的决策提供支持,已成为现代HIS系统的发展目标。因为以病人为中心的HIS系统,除了能协助医院开展高效的医疗服务之外,还能辅助医院发现医疗业务和管理中的深层次的、潜在的问题,并通过问题的解决,不断提高医院的医疗水平和管理水平,实现技术、信息和人的全面集成,提高医院整体水平。
运用数据仓库和数据挖掘技术,在源数据库和医院联机事务处理(OLTP)系统的基础上,根据医院管理要求,HIS中的数据挖掘与统计分析功能主要完成医院管理、医疗服务、经济运行等各种统计信息查询,以便及时了解医院资源的规划和配置情况、医疗质量信息及经营状况,最终为医院决策提供第一手信息和科学化根据。
1.1.1. 统计汇总
定期和不定期地对历史数据进行加工汇总。根据统计需要,统计汇总包括单项统计、复合统计。
⑴单项统计医院单项统计主要指标已达几十种,涉及医疗工作数量、工作效率、工作质量、经济活动等方面。主要包括:医疗工作质量分析指标、医院工作效率分析指标等。医院单项统计主要采用描述统计方法,它只对所收集数据某些现象的内容做出统计加工。具体的描述统计主要有:平均数和变异程度、比和率。平均数是描述一组计量资料的集中趋势,也称平均水平。在应用中应根据资料的分布特点选择适当的平均数计算方法。一组计量资料除描述集中趋势外,还应说明其变异程度,也称离散趋势。只有将平均数及变异程度结合才能全面了解资料的分布情况及特点。最常用的变异指标有:方差、标准差和变异系数等。比和率虽然都是由两个相互关联的统计量的比值来表示,但比和率是不同质的两个指标。
⑵复合统计复合统计指标使指标功能得到增强。它可以采用综合法和平均法。复合指标与单项指标相比,具有以下几个特点:①较单项指标更为全面、更加综合,增强了指标的功能,具有对比分析的作用。如床位利用指数、床位疗效指数等。②部分复合指标可直接用来评价医院工作,用于不同医院之间及同一医院不同时期的综合比较与分析。如综合指标数、治愈指数、诊断指数等。
1.1.2. 统计分析
实现对资料的多导向、多因素、多层次的统计分析。统计分析包括统计描述和统计推断两大部分。统计描述是用统计指标、统计表和统计图描述资料的分析规律及其数量特征;统计推断是以概率论为基础,把数理解析过程作为主要内容的统计方法,它包括总体参数估计和假设检验两个内容。参数估计是用样本统计量估计总体参数所在范围;假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否成立。
医院要面临自负盈亏,实现价值补偿和价值增值,以取得最佳的经济效益为保障。医院社会效益和经济效益的评价是建立在大量统计信息基础上的综合指标评价体系,该体系包括:病人主要疾病疗效分析、门诊和住院工作量分析、床位和设备利用率分析、病人负担程度分析、手术情况及手术并发症发生情况工作分析、医疗服务质量分析、职工业绩分析、医院规模分析、医疗管理分析等。
1.1.3. 预测和决策
运用现代数学模型和决策方法,提供多方式的预测和决策。面向医院的预测和决策模型主要采用时间序列预测法。该法是将历史数据按时间顺序排列,构成时间序列,并以此为依据,推算现象的未来发展状况和结果。在面向医院的预测过程中,常用的方法有:利用趋势推测法进行预测、利用趋势和季节成分进行预测。利用该方法,可用来预测医院总收入、门诊人次、住院人数等。
1.1.4. 数据挖掘
医院数据仓库是一个复杂的数据集,它包括电子病历、医学影像、病理参数、化验结果等数据。因此,需要结合医学信息自身具有的特殊性和复杂性,确定挖掘过程中所需要的技术。
利用聚类分析方法,可以进行医疗费用的分析。采用神经网络模型可以对出院病例的医疗费用进行统计学分析。利用数据关联分析方法,可以对HIS中相关信息进行分析、挖掘,对药物的用量、耐药性、联合用药、疗程、预防用药、用药途径及治疗效果等指标实行自动监控,从而实时、有效地监测药物使用情况。利用决策树分析法可以形成恶意配药训练模型,用此模型在线监测医保人员配药情况,并将监测结果输出给医院药房配药人员,使药房配药人员能够及时发现、制止恶意配药行为的发生。
利用CHAID方法,可从病例自动提取诊断规则,以辅助疾病的诊断和研究。采用ARIMA模型、BP神经网络模型、GM(1,1)模型对某些发病率进行预测分析。利用数据挖掘技术中的聚类和孤立点等分析方法分析医生用药的不合理性和其它目的。利用人工神经网络方法可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务,从而能够找出某些药物与疾病发作的关系。Apriori关联分析模型可以作为医生的辅助工具,揭示两种疾病之间的真正关系,利用该算法还可以对医院门诊病人并发症的挖掘。基于粗糙集理论的规则产生模型可以自动发现临床数据库中的正例和反例知识。利用进化算法从任一初始的群体出发,通过随机选择、交叉和变异等过程,使群体进化到搜索空间中越来越好的区域,从而实现对某些症状疾病进行诊断和分类。
2. SPSS药品不良反应监测案例
药品是用于防病治病、康复保健的特殊商品。药品犹如双刃剑,既可以治疗疾病,也会导致药源性疾病。药品的使用直接关系到公众的生命安全和身体健康,与每一个人的切身利益息息相关,所以加强药品的风险管理具有及其重要的意义。
2.1. 数据挖掘定性分析方法描述
定性研究(qualitativeresearch)的定义常以定量研究(quantitativeresearch)的定义作为参考对比,它所使用的方法也常被看作是与定量研究方法或统计学方法的对立。定性研究被用来挖掘人们对事物现象的主观理解,定性研究的方法不是用来寻求量化与数理化,更不是用来精确测量。定性研究常常是对话语和文字而非数字来进行研究。定性研究有助于快速发现问题,了解哪些属性之间存在一定的关联度,从而可以有的放矢的开展定量研究。下面是以模拟的病例报告数据为基础的有关定性研究过程
ADR数据表
1)ADR数据属性的选取:药品通用名称,生产企业名称,给药途径,患者性别,年龄组,
ADR名称,评价结论。
2)药品类别:以”抗感染药物类”中”头孢菌素类”的药品头孢拉定为例。
3)挖掘工具:IBMSPSSmodeler软件。
其数据项表达的关键要素为:药品名称,企业名称,给药途径,患者性别,年龄组,ADR名称,价结论等。
挖掘过程
利用IBMSPSSModeler软件中的功能,对选取的关键数据要素进行定性分析,通过这个组件来发现表格中各数据要素之间的关联关系,并以Web图形的方式输出结果,工作流程见图1。
结果展示
结果展示见图2。Web图的特点是直观易见,关联强度定性结果分类清楚,容易理解。体现了定性分析的直观效果,即线条的粗细程度表明了各个数据要素之间关联强度的大小。右侧的列表也表明了其中的关系。
分析与讨论
从图形中显示的关联规则,可以发现一些定性的结论:
1)“头孢拉定注射液“与“很可能”具有很强的关系;
2)“静脉滴注”与“很可能”具有很强的关系;
3)“头孢拉定注射液”与“皮疹”具有较强的关系;
4)“成年”与“很可能”具有较强的关系;
5)“老年”与“很可能”具有较强的关系;
6)“静脉滴注”与“皮疹”具有较强的关系;
7)“男”与“皮疹”具有较强的关系;
8)“女”与“恶心”具有较强的关系;
由此可以看出:
1)使用“头孢拉定注射液“发生ADR“很可能”的记录在数据库中最多,说明在所有剂型(注射剂、胶囊剂、片剂)当中,注射剂产生ADR的记录最多;
2)在给药途径(口服、静脉注射、静脉滴注、肌内注射)当中,“静脉滴注”使得ADR“很可能”发生的记录最多;
3)“头孢拉定注射液”引起“皮疹”的记录较多;
4)“成年人”和“老年人”ADR“很可能”发生的记录较多;
5)“静脉滴注”引起“皮疹”的记录较多;
6)“男性”患者ADR以“皮疹”的记录为多;
7)“女性”&患者ADR以“恶心”的记录为多;
以上是定性分析的部分结果,从中可以直观的发现一些有价值的问题,能够说明哪些属性之间存在关联度,说明药品与某些具体ADR之间的关联性;生产企业与ADR之间的关联性;评价结论(可能、很可能、肯定)与报告内容(药品名称、ADR等)之间的关联性,能够为进一步的定量研究打下基础,从而有针对性的开展相关的定量研究,加强重点监测。
2.2. 数据挖掘方法的作用
药品的风险管理贯穿于药品的整个生命周期,在药品的研发、生产、流通、使用等各个环节都要加强监督管理,都需要采取有效的技术手段,进行定性研究、分析,及时发现问题,并在此基础上,进行定量研究和分析,得出量化结果。
数据挖掘技术具有强大的功能和实际应用效果,有助于加强药品安全性监测,主要表现在以下几个方面:
药品研究与开发
利用数据挖掘技术,能够及时发现药品各个相关属性与ADR之间的关联性,有助于药品研究部门在研制、合成新药时,注重关键因素,减少药品的毒副作用,能够更好的提高药品的有效性和安全性,降低危害。
药品生产
通过技术手段,及时发现某种ADR与某个生产企业的关联度,为监督管理部门迅速发现问题、及时采取控制措施提供可靠依据。作为生产企业可尽早发现自身的问题,增强责任意识,从药品原材料、生产工艺、质量标准、质量检验、药品运输等环节加强监督和管理,提升本企业药品的安全性,减少ADR发生,从而增强企业的社会效益和经济效益,提升企业信誉。
药品销售
利用技术手段,发现某类药品或某企业的药品与ADR存在的关联性,可指导采购供应和销售部门调整进货渠道,更换药品品种,加强仓库存储管理,防止危害的进一步发生。
药品使用
医生处方至关重要,通过引用数据挖掘的技术方法,可辅助医生进行临床处方决策,及时发现处方中的药品在特定环境下使用时可能发生的ADR情况,在一定程度上降低ADR发生率,保障患者生命安全。有助于提高临床工作效率,提升医疗水平,降低医疗成本。
药品监督管理
药品监督管理部门可根据技术方法得出的结论有针对性的开展监督管理工作,增强预见性,及时发现安全隐患,加强重点预防与控制;有指导性的制定管理制度,实施管理手段。
公众
提醒公众加强自我防范意识,了解一定的用药安全知识,了解药品的配伍禁忌、药品与食品的配伍禁忌,更加安全合理的使用药品。