11
五 12

[译] 数据挖掘流程

项目中的文档提到CRISP-DM,查到这篇blog,觉得对于理解常规跨业务领域的数据挖掘的流程会有一定的帮助。

原文链接:http://www.dataminingtechniques.net/data-mining-tutorial/data-mining-processes/

数据挖掘流程介绍

数据挖掘是一项前途光明的新兴技术,它可以被定义为一组流程,即通过用各种不同的技术手段——如机器学习、人工智能、统计学等,分析存储于数据库或数据仓库中的海量数据,从而发掘出隐藏其中有价值的知识。包括制造业、市场营销、化工产业、乃至航空领域在内,已有诸多企业着手实施数据挖掘,从而增加自身在各自领域的竞争力。对数据挖掘标准的需要空前高涨。无论是对于专业人士,还是对没有数据挖掘北京的业务人员,数据挖掘流程必须是可靠和可重复利用的。1990年,经历了无数次研讨,在超过300个组织的共同努力下,一个针对数据挖掘的跨行业标准首次公诸于世。下面就来看看该标准吧。

数据挖掘跨行业标准(CRISP-DM)

数据挖掘跨行业标准(Cross-Industry Standard Process for Data Mining,简称CRISP-DM)在一个周期中包括六个阶段,如下图所示:

 

1. 理解业务(Business Understanding)——首先,必须清晰地理解业务目标,并且确保已经找到了客户真正想达到的目的。接下来我们还要通过寻找资源、假设、限制以及应该纳入参考的其他重要元素,来评估当前的情况。然后再创造可以利用当前条件来达到业务目标的数据挖掘目标。最后,要建立一个数据挖掘计划,以明确达到业务目标和数据挖掘目标的方法。该计划需要尽可能详细,甚至要详尽到能在项目中一步一步执行的程度,包括初期数据挖掘技术与工具的选择。

2. 理解数据(Data Understanding)——理解数据的第一步是采集数据——从可用的数据源中搜集数据、熟悉数据。包括数据装载、数据整合在内的诸多活动都在此进行,以保障数据采集的成功。接着,要审慎地检查数据的“总量”和一些“表象”属性(即数据剖析,译者注)。然后要探索数据内容,可以通过查询、报表和可视化手段来着手处理。最后,要回答诸如“这些数据够了吗?”“数据中有没有缺失的值”这样的问题,以检验数据质量。

3. 准备数据(Data Preparation)——这一步往往要消耗90%的时间。此步骤结果是一个最终的数据集合。一旦确定了数据源的可用性,就要对其进行选择、清洗、构建需要的格式。更深层次的数据探索在这一步中就要开展,以注意到那些基于业务理解的模式(pattern)。

4. 建模(Modeling)——首先要为准备好的数据集选择恰当的建模技术。接着要生成测试场景,来检验模型的质量和有效性。然后在建模工具中对数据集构建一个或者多个模型。最后——但不是最不重要的——要谨慎评估模型,将利益相关者(stakeholder)都邀请来进行评估,确定模型符合最初的业务要求。

5. 评估(Evaluation)——模型结果要拿到第一阶段所确定的业务目标上下文中进行评估。在这一阶段,可能会有新的业务需求提出,这取决于模型所发掘出的模式或者其他什么因素。理解业务是数据挖掘迭代过程的第一步。是进入部署阶段,还是重新理解业务进入新一轮迭代,都要在这一步中决定。

6. 部署(Deployment)——通过数据挖掘流程所获取的信息或知识,最终都要呈献给利益相关者们,使他们能够在想用的时候用到。基于业务需求的不同,部署可以是简单的发布一个报表,抑或复杂到为企业构架一个可重用的数据挖掘流程。在这个阶段,部署、维护和监控计划要得以创建。从项目的角度来看,要总结项目经验,重新审视整个项目中的优劣。

CRISP-DM为文档化和指导方针提供了一个统一的框架。CRISP-DM也可以有针对性地适用于不同的业务领域。

——————————-

译者附:


03
五 12

Cognos Tips两则

  1. 在Cognos 10中,默认的Charting是和8.4版本一样的,如图1。但是可以通过设置Report Studio中的选项来启用最新的版本(图2)。

    打开Report Studio,选择Tools选项中的Options,在Advanced标签下,将“Use Legacy Chart authoring”前的选择勾去即可,之后再创建Chart就是新版本了。
  2. Cognos本身提供了选项将Report转换成Template(Report Studio,File -> Convert to Template),但并没有直接的选项将Template转为Report。可以通过修改Report Specification的方法来做。即
    1) Tools -> Show Specification,将报表定义复制出来,粘贴到一个文本编辑器
    2) 在编辑器中将第一行中“template=’true’” 修改为false,然后复制全部内容到剪贴板
    3) 打开Report Studio, 通过Tools -> Open report from clipboard来打开报表,即为Report类型

11
四 12

ArcGIS服务器的feature图层限制

ArcGIS的feature图层(在JavaScript API中为esri.layers.FeatureLayer),在浏览器中进行显示时是有一定限制的。比如一个名为traffic的feature图层,该图层记录了该地区所有交通事故的发生地,其feature数量可想而知非常巨大。在浏览器中创建该图层的时候就要为其选定“模式”。如

var traffic = new esri.layers.FeatureLayer(trafficServiceURL, {
              displayOnPan : true,
              mode : esri.layers.FeatureLayer.MODE_ONDEMAND,
              opacity : 0.8,
              infoTemplate : infoTemplate,
              outFields : [*]
});
第二个参数mode就是模式。ArcGIS JavaScript API提供了三种模式,分别是
  • MODE_ONDEMAND:按需加载feature
  • MODE_SELECTION:初始不加载,只有当客户端选择的时候才加载feature
  • MODE_SNAPSHOT:一开始就将“全部”feature从服务器端取回并加载
值得注意的是,MODE_SNAPSHOT中的“全部”是有限制的,根据官方文档,在ArcGIS Server 9.3.1中默认是500个,在版本10的时候默认为1000。这个限制是可以在ArcCatalog中进行修改的。在GIS Servers中连到服务器,并停止该feature图层的服务,右键选择Service Properties,在Parameters选项卡下可以设置“Maximum Number of Records Returned by Server”。然后重启图层服务,并且在REST服务的管理界面清理一下缓存就可以了。
需要注意的是,该参数并非设置得越大越好,它会对地图在浏览器端的加载产生比较大的影响,如果设置的过大,不仅仅会导致加载缓慢,更有可能出现浏览器挂掉等不良体验。对于feature图层模式的选择,如果feature数量较小(比如小于Server默认的限制数量),那么选择MODE_SNAPSHOT一次性加载最好,并且要在初始化的时候为图层添加适当的过滤条件,如setDefinitionExpression和setTimeDefinition对feature属性、时间进行相应过滤,不至于初始加载阶段有过多的feature造成浏览器崩溃。