1. 预测分析在制造业中有着广泛应用
今天,中国已成为制造大国,标注“中国制造”的产品已经成为全球一道独特的风景线,出口遍及世界各地。但是,中国还不是制造强国,质量整体水平的提高滞后于经济规模的增长。一直以来,制造业面临的最大挑战就是:如何从制造到“智造”,如何从设计源头提升产品质量,如何实现从生产向服务的转型,占据价值链高端?要实现所有这些,都要用大数据分析的手段,实现企业资源利用的最优化。
以产品质量问题为例。
产品质量是一个公司竞争的核心竞争力,在制造环节,制造流程中可能因多种因素(例如供应商,原材料,批次,工艺,流程,人员等)发生变化而出现缺陷。产生的低质量产品会直接影响销售,并造成缺陷产品的严重库存积压,进而导致检查工作量上升。
质量管理面对的问题主要有:
√ 大量缺陷产品的库存会产生很高的报废成本。
√ 将大量缺陷产品发运给经销渠道或客户会产生很高的运营费用。
√ 大量质量或可靠性问题有损品牌价值。
√ 供应受约束的物料或组件的生产出现问题将无法按时发货。
√ 制造周期很长的产品的生产出现问题会导致发货延迟。
面对着产品竞争环境越来越激烈,控制产品质量、减少次品率、减少产品返修成本带来的巨大财务压力、优化备件库存,正成为企业管理层、质量经理、客服部门、售后部门、采购部门等专业人士面临的巨大挑战。
具体来说,制造业企业都希望在质量管理方面实现如下改进:
√ 及早检测到故障率中的细微变化,这些变化显示新出现的潜在质量问题。及早检测意味着更快识别问题、更快解决问题,并降低总成本。
√ 质量管理人员需要更少的工作量就能得到更明确的质量预警结果,及时发现,及时处置;
√ 确定产生质量问题的根本影响因素
而数据挖掘无疑能在这些方面帮助很多,这也是这个项目之所以要做的最重要原因。并且许多业界领先企业已经在这样做了。
韩国某大型钢铁制造公司
在实施预测性维护和质量管理项目前,此公司就推断过去三年65%的设备故障都可以通过统计分析的方法进行预防,但是限于数据分析手段的缺乏而无法真正做到预测性维护从而降低设备故障的发生。
通过使用IBM预测性维护和质量管理解决方案,能够实现准实时数据分析,及时发现设备异常,并挖掘出设备异常的根本原因,为维修人员提供充足的时间和依据进行设备的预测性维护,将非计划维护时间降低了45.5%。
现场级客户服务的预测性维护和质量管理案例
某欧洲汽车制造商在索赔过程中实施了预测性维护和质量管理功能后,将其保修案从1.1减少到0.85,保修案件总数减少了5%。总体而言,预防性维护解决方案可帮助该公司每年节省3千万欧元。
Sikorsky航空公司——机械设备维护保障预测性分析
Sikorsky航空公司是一家世界领先的直升机设计、制造和服务公司。Sikorsky的业务覆盖商业、工业级军事行业,美国空军有5所分支机构、世界上有40多个国家的军事及商业机构选择了Sikorsky公司的直升机。
面临的问题:
- 如何预测机器零件损耗并及时更新以保证安全生产?
- 如何管理机器设备库存,以保证及时供货的同时使管理成本降到最低?
- 如何降低机器设备的损耗,延长机器设备使用寿命的同时保证安全生产?
- 如何清晰了解机器设备使用的各种成本,以进行成本管理和降低成本?
- 如何充分挖掘和分析现有数据(包括结构化数据及非结构化数),进行预测性分析?
解决方案及客户收益:
Sikorsky公司选择使用SPSS预测性分析软件及解决方案,通过积极主动地预测直升机客户的预期需求,预先性的保障了客户飞机的安全,降低了零部件的损耗,合理地控制了成本,极大提高了客户的满意度和忠诚度。方案产品包括:- SPSS
客户感言
“吸收IBM公司的产品和方案进行我们的客户维护保障项目有助于我们一直致力于成为全球第一直升机公司目标的实现,为我们的客户提供一对一的特别服务”
——TedKell,Sikorsky飞机公司物流部技术经理
2. SPSS预测分析技术方案
2.1. SPSS产品方案
IBMSPSS充分考虑到了对大数据的处理。以数据挖掘平台而言,IBMModelerServer通过充分挖掘数据库管理系统(DatabaseManagementSystem,DBMS)自身的数据挖掘能力,如数据库索引和优化等操作,并结合自身的处理能力,使数据挖掘能力最大化。
这种联合数据库的IBMModelerServer服务器结构有三个端口:DBMS端口、应用服务器端和客户端。
从图中可见数据挖掘过程的一般步骤:IBMModelerServer接受来自客户端的服务请求,其中部分请求被转移到DBMS中,通过SQL查询可以完成一部分数据处理;那些不能由DBMS完成的服务请求则在功能更强大的服务器端执行,最后统一由IBMModelerServer将处理结果返回给客户端。这种方法充分利用了DBMS的处理能力,从而提高了IBMModelerServer的整体性能水平。
当一个数据挖掘请求被激活时,我们可以从客户端看到该请求的处理进程,如图所示。如果某些处理步骤是在数据库内执行,代表此步骤的节点会变成紫色,而其余蓝色节点代表的是该步骤在服务器端执行。因为数据库的处理速度要远远高于服务器的处理速度,所以数据库执行的操作越多越好,即紫色的节点越多说明执行的效率越高。
上图是一个数据挖掘请求的处理过程,紫色节点代表该操作是在数据库中完成的,蓝色节点代表该操作是在服务器端完成的。
IBM Modeler Server的三层结构将数据处理工作分配到DBMS和服务器端分别执行,而客户端只用于观察。
上图是一个更详尽的各个模块的主要功能示意图。从中可以看到数据库端可以完成的工作不仅包括核心的数据处理过程,还可以完成部分数据的可视化工作;服务器端是在充分考虑数据库处理能力的基础上,将其不能完成的工作在本端口完成,两者协同工作可以极大提高效率、性能。而客户端在发出服务请求之后只需要等待,直至结果统一地由服务器端返回。
2.2. 预测分析主题实施方法论
数据挖掘标准规范遵循数据挖掘方法论CRISP-DM,以保证项目的进度和质量。IBMSPSS内置的支持CRISP-DM方法论。
CRISP-DM是CRoss-IndustryStandardProcessforDataMining的头字母缩写,意思是跨行业数据挖掘标准流程。这一标准于1996年由SPSS、NCR和Daimler-Benz共同提出,并不断改进总结,于2000年推出了CRISP-DM1.0版。
该标准紧密结合数据挖掘项目的全过程,把数据挖掘分为6个阶段,即:
商业理解(BusinessUnderstanding)
该阶段主要完成对商业问题的界定,以及企业内外部资源的评估和组织。将产生如下的主要文档(结果):
a) 确定商业目标。包括商业背景、商业目标和成功标准等;
b) 形势评估。包括企业拥有资源、需求、假定和限制、风险偶然性、专业术语和成本收益等;
c) 确定数据挖掘目标。包括数据挖掘目标和数据挖掘成功标准等;
d) 制定项目计划。包括项目计划、工具方法评估等。
数据理解(DataUnderstanding)
该阶段主要完成对企业数据资源的初步认识和清理。将产生如下的主要文档(结果):
a) 收集原始数据,产生数据收集报告;
b) 数据描述,产生数据描述报告;
c) 数据探索性分析,产生探索性数据分析报告;
d) 数据质量描述,产生数据质量报告。
数据准备(DataPreparation)
该阶段主要完成建立数据挖掘模型之前的数据的最后准备工作,数据挖掘模型要求的数据将是一张二维表,而在现实的企业中,数据往往被存储在不同的部门、不同的数据库或者数据库中的不同的表单中。这一步骤将把这些数据集整合在一起,生成可以建立数据挖掘模型的数据集和数据集描述。在这一阶段将产生如下的文档(结果):
a) 选择数据。并不是所有数据都适合数据挖掘的,在数据准备阶段我们应该确定数据挖掘应该包含/剔除的数据;
b) 数据清理。在建立模型之前,必须对数据进行适当的清理工作,对不符合实际情况的数据进行调整或者剔除并生成数据清理报告;
c) 数据重构。生成新的字段和记录。
d) 整合数据。对相关的数据进行合并处理。
e) 格式化数据,使之适合数据挖掘的需要。
建立模型(Modeling)
建立模型是数据挖掘工作的核心阶段,按照大类来分,数据挖掘模型可以分为数据描述和汇总(Datadescriptionandsummarization)、细分(Segmentation)、概念描述(Conceptdescriptions)、分类(Classification)、预测(Prediction)和相关性分析(Dependencyanalysis)等。这一步骤具体产生如下的文档(结果):
a) 选择建模技术。对模型技术的评估以及模型的假定和要求;
b) 产生检验设计。从技术角度分析如何对模型效果进行检验;
c) 建立模型。完成模型参数的设定,建立模型以及对模型适用性的概述;
d) 模型评价。对模型使用的评价以及参数设定的调整。
模型评价(Evaluation)
模型评价是数据挖掘整个流程中非常重要的一环,在这一步将将直接决定模型是否达到了预期的效果,模型是否可以发布应用,还是必须重新进行调整。模型评价可以分为两个部分,一个是技术层面的,主要由建模人员从技术角度对模型效果进行评价;一个是商业层面的,主要由业务人员对模型在现实的商业环境中的适用性进行评估。这一阶段具体产生如下的文档(结果):
a) 结果评估。评估产生的数据挖掘模型,得出被认可的数据挖掘模型;
b) 数据挖掘过程回顾。查找是否有疏忽和遗漏之处;
c) 确定下一步的工作内容。列出所有可能的行动方案,进行决策。
模型发布(Deployment)
模型发布阶段是运用数据挖掘结果解决现实中商业问题的过程,这一阶段将实现数据挖掘的价值。具体产生如下的文档(结果):
a) 发布结果计划;
b) 监测和维护模型计划。随着商业环境的变化,模型的适用性和效果也可能发生改变,必须建立对模型进行监测和维护的机制;
c) 生成最终的数据挖掘报告;
d) 项目回顾。总结项目中的经验教训,为以后的数据挖掘项目进行必要的积累。
管控流程
针对于管控的标准规范,每个阶段中均包含检测点及检测内容,来对流程进行全面管控。以下列举各阶段中进行管控的主要内容:
商业理解阶段。成功的商业理解需要对以下内容进行落实:确定的商业目标;数据挖掘技术目标;项目实施的要求和假定;项目成功标准;数据挖掘的实现方法;项目实施所需的人力、硬件、软件、环境、数据等资源;项目实施风险;项目计划。
数据理解阶段。需要对数据进行详细的业务分析和理解。包括数据的业务逻辑理解、和数据准备策略和规划。
数据准备阶段。完成对数据的清洗和转换,包括数据选择过程;数据清洗过程;数据构建过程;最终生成数据集的特征。
建立模型阶段。需要对建模的过程进行记录和说明,通过模型的构建文档来进行管控。文档一般包含数据检验设计过程;、建立模型的过程;、模型的技术评价。
模型评估阶段。对模型的效能进行评价,通过评价文档进行管控,文档包含项目回顾;数据结果的业务应用方法简述;模型的业务评价(业务专家提供)等。
模型发布阶段。以模型的部署符合业务要求来目标。
数据挖掘实施策略
与大多数业务方面的工作一样,如果以一种有计划的、系统的方式进行数据挖掘,其效率会高很多。即使对于最前沿的数据挖掘工具IBMSPSS,数据挖掘中的大部分工作也需要一位具有深入知识的业务分析人员来跟踪该过程。为了实现最终的业务模型,数据挖掘的实施过程需要回答下列问题:
·您要解决的实质问题是什么?
·哪些数据源可用,数据的哪些部分与当前问题相关?
·开始挖掘数据之前,您需要进行哪些类型的预处理和数据清理?
·您要使用哪些数据挖掘技术?
·您将如何评估数据挖掘分析的结果?
·您如何从数据挖掘获得的信息中得到最多的益处?
典型的数据挖掘过程可能很快就会变得非常复杂。有很多内容都需要进行跟踪,如复杂的业务问题、多个数据源、数据源中不同的数据质量、一组数据挖掘技术,以及多种用来度量数据挖掘成功与否的方式等等。
一直保持跟踪将有助于针对数据挖掘拥有一个明确定义的过程模型。该过程模型会指导您完成上面列出的重要问题,并确保解决要点。它的作用就是一个数据挖掘路线图,使您深陷在挖掘数据的复杂性时不会迷路。
此过程模型中有一些关键点。首先,尽管该过程基本上都应该按顺序完成上面列出的步骤,但也有一些地方,各个阶段会以一种非线性的方式互相影响。例如,数据准备通常在建模之前进行。但在建模阶段所作的决策以及所收集的信息通常可以引导您重新考虑数据准备阶段的部分,如此一来可能会出现新的建模问题。这两个阶段互相反馈,直到两个阶段都得以充分解决。与之相似,评估过程可能会引导您重新评估最初的商业理解,并且您可能认为曾经尝试回答的是一个错误的问题。此时,您可以修正商业理解,制订一个更好的目标,然后重新进行该过程的其余部分。
第二个关键点是数据挖掘的迭代特性。下面的情况很少甚至根本不会发生:您简单地规划了一个数据挖掘工程,执行该工程,然后对数据进行打包,回家。然而,数据挖掘专注于解决客户需求,因此这是一项需要不断完善的工作。从一个数据挖掘循环获得的知识几乎无所例外地会导致新的问题、新的争论以及新的机会来识别和满足客户的需求。这些新问题、新争论和新机会通常可以通过再次挖掘您的数据得以解决。这个挖掘和识别新机会的过程不仅应该成为您考虑业务的方式的组成部分,还应该成为整个业务策略的基石。