项目中的文档提到CRISP-DM,查到这篇blog,觉得对于理解常规跨业务领域的数据挖掘的流程会有一定的帮助。
原文链接:http://www.dataminingtechniques.net/data-mining-tutorial/data-mining-processes/
数据挖掘流程介绍
数据挖掘是一项前途光明的新兴技术,它可以被定义为一组流程,即通过用各种不同的技术手段——如机器学习、人工智能、统计学等,分析存储于数据库或数据仓库中的海量数据,从而发掘出隐藏其中有价值的知识。包括制造业、市场营销、化工产业、乃至航空领域在内,已有诸多企业着手实施数据挖掘,从而增加自身在各自领域的竞争力。对数据挖掘标准的需要空前高涨。无论是对于专业人士,还是对没有数据挖掘北京的业务人员,数据挖掘流程必须是可靠和可重复利用的。1990年,经历了无数次研讨,在超过300个组织的共同努力下,一个针对数据挖掘的跨行业标准首次公诸于世。下面就来看看该标准吧。
数据挖掘跨行业标准(CRISP-DM)
数据挖掘跨行业标准(Cross-Industry Standard Process for Data Mining,简称CRISP-DM)在一个周期中包括六个阶段,如下图所示:

1. 理解业务(Business Understanding)——首先,必须清晰地理解业务目标,并且确保已经找到了客户真正想达到的目的。接下来我们还要通过寻找资源、假设、限制以及应该纳入参考的其他重要元素,来评估当前的情况。然后再创造可以利用当前条件来达到业务目标的数据挖掘目标。最后,要建立一个数据挖掘计划,以明确达到业务目标和数据挖掘目标的方法。该计划需要尽可能详细,甚至要详尽到能在项目中一步一步执行的程度,包括初期数据挖掘技术与工具的选择。
2. 理解数据(Data Understanding)——理解数据的第一步是采集数据——从可用的数据源中搜集数据、熟悉数据。包括数据装载、数据整合在内的诸多活动都在此进行,以保障数据采集的成功。接着,要审慎地检查数据的“总量”和一些“表象”属性(即数据剖析,译者注)。然后要探索数据内容,可以通过查询、报表和可视化手段来着手处理。最后,要回答诸如“这些数据够了吗?”“数据中有没有缺失的值”这样的问题,以检验数据质量。
3. 准备数据(Data Preparation)——这一步往往要消耗90%的时间。此步骤结果是一个最终的数据集合。一旦确定了数据源的可用性,就要对其进行选择、清洗、构建需要的格式。更深层次的数据探索在这一步中就要开展,以注意到那些基于业务理解的模式(pattern)。
4. 建模(Modeling)——首先要为准备好的数据集选择恰当的建模技术。接着要生成测试场景,来检验模型的质量和有效性。然后在建模工具中对数据集构建一个或者多个模型。最后——但不是最不重要的——要谨慎评估模型,将利益相关者(stakeholder)都邀请来进行评估,确定模型符合最初的业务要求。
5. 评估(Evaluation)——模型结果要拿到第一阶段所确定的业务目标上下文中进行评估。在这一阶段,可能会有新的业务需求提出,这取决于模型所发掘出的模式或者其他什么因素。理解业务是数据挖掘迭代过程的第一步。是进入部署阶段,还是重新理解业务进入新一轮迭代,都要在这一步中决定。
6. 部署(Deployment)——通过数据挖掘流程所获取的信息或知识,最终都要呈献给利益相关者们,使他们能够在想用的时候用到。基于业务需求的不同,部署可以是简单的发布一个报表,抑或复杂到为企业构架一个可重用的数据挖掘流程。在这个阶段,部署、维护和监控计划要得以创建。从项目的角度来看,要总结项目经验,重新审视整个项目中的优劣。
CRISP-DM为文档化和指导方针提供了一个统一的框架。CRISP-DM也可以有针对性地适用于不同的业务领域。
——————————-
译者附:




