大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。

 

  大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;

 

  与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。

 

  数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:

 

  第一类:从来源来看分为内部数据和外部数据;

 

  第二类:从结构来看分为非结构化数据和结构化数据;

 

  第三类:从可变性来看分为不可变可添加数据和可修改删除数据;

 

  第四类,从规模来看分为大量数据和小量数据。

 

  大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。

 

  从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。