现在做个大数据分析累死了,整合数据库、清理、分析,没有一样省心的。我们打算做一个大数据分析平台,把数据整合、清理、大数据数据模型和分析报告做到一起,点点鼠标就一切齐活了。
现在的大数据分析的过程实在是太繁琐了:
1、先要把数据从大数据的数据库里面弄出来,这要写不少SQL把各种表连接起来。有的时候还遇到好几个不同的系统,数据库不一样,数据字典也不一样,还得做各种编码转换,光是SQL就得写一大堆。
2、大数据还要手工清理。好不容易把大数据都导出来了,各种信息缺失,默认值补齐,编码转换,还要筛掉各种异常记录,这又得折腾一大通。时间都用光了,还没有进入到大数据分析正题。数据量少的直接进Excel,大数据的还要再折腾SQL存到中间库中。
3、开始大数据分析了,这个相对来说是就轻松多了。我最爱用minitab,小巧耐用,先观察大数据的分布,对各个大数据信息项进行描述统计,然后观察散点图,猜测各个因素之间的因果关系,大数据拟合回归再用大数据测试一下模型的残差是不是能接受。
4、最悲催的是发现大数据模型准确度和精度难以接受。这个是最悲催的部分了,一般情况说明还有原因变量没有囊括进来,也就是数据集缺列。上面噩梦般的经历还要重来一遍。
我们打算做个在线版本的大数据分析平台,把数据整合、清理、大数据数据模型(尤其是机器学习的算法)和最终分析报告做到一起,用户点点鼠标就一切齐活了,人人都可以是大数据分析师。
你觉得我们的大数据分析平台能做出来么?
