磨刀不误砍柴工——数据准备的过程与实践
众所周知,我们常用“磨刀不误砍柴工”来比喻要办成一件时,不一定要立即着手干活,而是先要进行一些筹划和安排,充分做好准备工作,创造出有利条件,这样不但不会浪费时间,反而会大大提高整体的办事效率。这个道理在我们做数据分析时也是适用的。在当今信息技术高度发达的社会很多企业往往不愁没有数据,但是唾手可得的数据却不一定可以直接拿来分析,生搬硬套的分析往往失之毫厘谬以千里。西方人所说的“Rubbish in, rubbish out.”反映的也是同样的现象。 总之,没有高质量的数据,就不能保证有高质量的数据分析结果。对与统计质量管理而言,如果被分析的数据本身不可靠,很可能就会得到错误的分析结果和无效的质量改进方案,不仅会使质量改进工作无功而返,而且还极有可能伤害原有的质量管理水平。如果把数据分析看作砍柴的话,那么磨刀指的就是数据准备了。越来越多的专业人士已经开始意识到数据准备的重要性,现在的问题已经不是数据准备要不要做,而是数据准备应当如何做。 那么,数据准备究竟应当如何做呢?总的来说,可以遵循如图一所示的五步循环法来进行。接下来,我们将逐一解释每个步骤的含义,具体的实例将借助高端统计质量管理及六西格玛软件JMP来实现。 第一步,获取数据。 数据是进行分析工作的原材料,获取数据是数据准备工作的第一步。一般来说,企业常用的数据来源可以有四类。以JMP为例,一是通过手工输入和创建原创数据文件,这往往在新建数据文件时采用。二是从外部读取,比如读取Excel、MS Access、dBase、Text、SAS以及其他一些格式的现有数据源,这也是一种常见的方式。三是从大型数据库获取,如JMP可以通过ODBC访问现有的大型数据库文件,如Oracle、DB2、Sybase、SQL Server等等,必要时还能调用SQL命令构建查询条件,这在信息化建设比较成熟的企业中应用较多(参见图二)。四则是直接访问含有数据表格的互联网主页来获取数据。 第二步,整合数据。 有时候,需要分析的数据保存在不同的数据文件中。例如:我们在需要分析今年第三季度的生产数据时,很有可能会发现七月、八月和九月的生产数据分别保存在三个不同的文件中;或者需要对产品的两个质量特性进行关联性分析时,却发现这两个质量特性分别保存在两个不同的文件中。这时候,我们就有需要做数据整合了。数据整合的方法很多,如连接、合并、
posted @ 2010-12-24 10:33 rabbit123 | 阅读(510) | 收藏(0) | 评论 (0) ||收藏
posted @ 2010-12-21 13:46 rabbit123 | 阅读(446) | 收藏(0) | 评论 (0) ||收藏
posted @ 2010-12-16 14:11 rabbit123 | 阅读(329) | 收藏(0) | 评论 (0) ||收藏