目录

  • 一、数据分析与企业数据分析的方向
  • 1、数据是什么
  • 2、企业数据分析方向
  • 3、原因分析
  • 二、数据分析基本流程步骤
  • 概述
  • 步骤1 明确分析目的和思路
  • 步骤2 数据收集
  • 步骤3 数据处理
  • 步骤4 数据分析
  • 步骤5 数据展现
  • 步骤6 报告撰写
  • 三、大数据
  • 1、大数据5V特征
  • 2、应用场景
  • 三、分布式与集群概念


一、数据分析与企业数据分析的方向

1、数据是什么

  • 数据是指对客观事件进行记录并可以鉴别的符号
  • 它不仅指狭义上的数字,可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等

2、企业数据分析方向

  • 把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策
  • 数据分析在企业日常经营分析中主要有三大方向

hadoop大数据图谱 hadoop大数据分析入门_数据分析

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

3、原因分析

  • 离线分析(Batch Processing)
    面向过去,面向历史,分析已有的数据
    在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
  • hadoop大数据图谱 hadoop大数据分析入门_数据分析_02

  • 实时分析(Real Time Processing Streaming)
    面向当下,分析实时产生的数据;
    所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级
  • hadoop大数据图谱 hadoop大数据分析入门_big data_03

  • 机器学习(Machine Learning)
    基于历史数据和当下产生的实时数据预测未来发生的事情;
    侧重于数据算法的运用,如分类、聚类、关联、预测

二、数据分析基本流程步骤

概述

  • 数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
  • 张文霖在《数据分析六部曲》说,典型的数据分析应该包含以下几个步骤

hadoop大数据图谱 hadoop大数据分析入门_big data_04

步骤1 明确分析目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
  • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。

步骤2 数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

hadoop大数据图谱 hadoop大数据分析入门_big data_05

步骤3 数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据

步骤4 数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

步骤5 数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等

步骤6 报告撰写

  • 数据分析报告是对整个数据分析过程的一个总结和呈现
  • 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

三、大数据

1、大数据5V特征

hadoop大数据图谱 hadoop大数据分析入门_数据挖掘_06

2、应用场景

  • 电商领域
    精准广告位,个性化推荐,大数据杀熟
  • 传媒领域
    精准营销,猜你喜欢,交互推荐
  • 金融方面
    理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
  • 交通领域
    拥堵预测、智能红绿灯、导航最优规划
  • 传媒领域
    基站选址优化、舆情监控、客户用户画像
  • 安防领域
    犯罪预防、天网监控
  • 医疗领域
    智慧医疗、疾病预防、病源追踪

三、分布式与集群概念

hadoop大数据图谱 hadoop大数据分析入门_数据挖掘_07

hadoop大数据图谱 hadoop大数据分析入门_数据分析_08