Home >Database >Mysql Tutorial > 数据挖掘的咽喉(上)数据处理 被人忽视的核心环节
(作者:明博智创(北京)软件技术有限公司分析师宫艳琢)(一)闲谈时间好快,毕业正两年有余,依稀记得2012年春节时在火车站买票时候的挣扎情景,我运气不佳,
2 也要让前两名和其他名次间拉开差距。
第一种方法:
按照以上两个要求来看,第一种方法绝对不可取,因为这和直接计算成绩是没太大差异的,在这里面体现不出来博尔特的9.58S有多么神奇,博尔特和盖伊相差0.13S,盖伊和鲍威尔也相差0.13S,那么这两个0.13S在数据处理后是否会是同样的差异呢?绝对不可以,前一个0.13S的差距更大,在接近极限的时候,哪怕破纪录0.01S都是很大的成就,所以方法一不满足条件,无法反应出博尔特的超群实力。
第二种方法:
同样的问题,这种方法仍然是线性的,缺点和第一种相同
第三种方法:
满足了第二个条件,至于第一个条件,我认为勉强满足,这个评分没有反映出两个0.13S之间的巨大差别。而且和第二种一样,评分有负值。但是仍然不失为合格的评分方法。
第四种方法:
满足两个条件,较好地将成绩分为三档,从评分可以看出博尔特自己一个档次,而且优势巨大,盖伊和博尔特差距不小,但是领先别人也很多,至于其他人,完全和其他田径比赛的100m没有差异,理当归为一个档次。
自定义评分方法缺点:这种一般会达到执行人的目的,但是公式是主观的,容易受到别人质疑和挑战,这些问题往往在技术上不能回答,需要你在业务用超强的解释能力让别人接受这公式,我试过,不容易被接受。
(三)总结
上面针对一个田径比赛的成绩做了成绩的评价,来反映成绩数字背后显示的运动员的竞技水平,我想说,其实数字是一种工具,我们要想好好利用,就一定要结合实际,要想让数据创造更大的价值,就要对数据处理方法精益求精。同样的数据如果是用于别的分析,可能数据处理会完全不同,所以数据处理方法是字段含义和数值共同决定的。
现在每个企业都知道数据挖掘的意义,而更多地企业开始对挖掘软件和挖掘算法着迷,很少有企业对自身数据的完备性、完整度等进行过考虑,数据挖掘是有效的,但是这是建立在良好的数据质量基础上的。
这里有一个比喻可以帮助大家理解各环节的利害关系。
l比喻 数据挖掘就像做菜
数据库就是菜市场:
当然菜市场有好有坏,有的数据库是杂乱无章的,那么这对数据的抽取和数据检验就增加了难度,而如果想成为优秀的数据库,那么必须要模仿井然有序、菜品罗列清楚的菜市场。
数据处理就是洗菜、切菜
在通常看来,做菜最重要的一步无疑是在最后一步的炒菜,但是当菜量变得不同后,情况就有改变,想象一下在10000人吃饭的食堂里,每天的洗菜和切菜就变得尤为重要。这一步骤也直接决定了最后这道菜评价的上限,如果工作出色,那么下一步的工作会有发挥的余地,如果这一步骤完成的差,那么下一步就会受极大影响,很多名厨在做菜的时候一般都自己来亲自切菜也是这个道理。
再说一个事实,,各位就会轻易地理解洗菜、切菜多么地重要了,一般情况下集体食堂的菜都做的不好吃,特别是就连一般的宫保鸡丁、地三鲜也做得不好吃,你真的认为厨师差到那个程度,有人注意到大学食堂里面每道菜都有那么多的胡萝卜和黄瓜吗?事实就是一般的大型集体食堂无法完成比较高质量的切菜、洗菜工作。
挖掘算法就是炒菜
在如今的大数据背景下,人们越来越关注挖掘算法,好奇这些被天才们创造出来的巧夺天工的算法究竟会给企业带来什么革命性的创新。但是这一步骤也是全局中对执行人要求最高的,并非谁都能胜任,也因为大家无法胜任,所以对这一部分充满了好奇,充满了期望。
在前面的步骤封装后,其实挖掘算法的选择能够体现分析师的水平和战略眼光。首先我给出近今年最受欢迎的十大数据挖掘算法,感兴趣的同学可以自行查找资料,我在下一期将会抽选几个讲一下算法的适用环境和优缺点。
【*关于数据处理举例*】
这是一个开放式的方法举例,感兴趣的同学可以在下面回复你认为更好的评价方式,切忌评价目的是:
体现出成绩的含金量(9.58和9.84那天差地别的区别要体现出来,9.71也是优秀的成绩。)
体现出前几名和后面选手的差异,总之,还是开放的,希望大家贴出自己的处理方式,也让我学习一下。
本文出自 “在数据中挖掘价值” 博客,请务必保留此出处