数据分析的基本思路

明确分析目的和思路

  1. 做任何事情都要有明确的目的,目的在我们完成一件事情的过程中起到指导的作用,一切以解决问题为中心
  2. 当分析目的明确后,我们就要梳理分析思路,并搭建分析框架,把分析目的分解为若干个不同的分析要点,也就是如何开展数据分析,就能够使分析 结构化和体系化

结构体系化的方法

营销方面的理论模型有4p,用户使用行为,STP理论,SWOT,管理方面的理论模型有PEST,5W2H,时间管理,生命周期,逻辑树,金字塔,SMART,

收据收集

数据来源分为两种,第一种为公司内部数据,可以直接获取的,第二种为市场上的数据,需要使用技术手段和浏览相关的网站加工后使用的数据。现在流行的就是使用python编写爬虫去和本公司相近的私人网站或相关的国家公开的数据网站上去拉取有价值的数据 这部分技术上的支持我使用过hdfs和Kafka,使用Java编写程序将需要的数据导入到hdfs中进行存储,然后处理一下又导入到hive仓库中,形成离线数据。

数据处理

数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析必不可少的阶段。数据处理的基本目的是从大量的,杂乱无章,难以理解的数据中,抽取并推导出对解决问题有价值,有意义的数据。数据处理主要包括数据清洗,数据转化,数据提取,数据计算等方法。使用的技术手段,使用hive仓库,将原始表的字段抽取出来对本次数据分析有用的字段,然后形成一个新的数据表,主要使用SQL语句或者编写udf函数去处理

数据分析

数据分析是数据分析中最重要的一个环节,也是最难的一个部分,不仅仅需要学习数据分析的方法,还需要学习数据分析所使用的工具,这部分只是学习而已,现在也就是使用python去做分析了,其他的工具BI,excel,SPSS等这些专业的分析工具我没有去学习,主要重点我放在了分析的方法论和使用的重要指标!!!(方法论后续讲解)

数据展示

当我们把数据分析完以后,反映出来的只是一个个的数字,拿给老板看,老板只是认识1,2,3,4,等一系列的数字,那么要想将数字具有活性,看起来美观,大方,可爱,迷人,这时候就要进行数据展示了。技术上现在更多的使用的是matlab, 我做的流程是由于会Javaweb方面的知识,我们是将数据通过echarts展示在界面上,数据库使用的是msql数据库,将分析好的数据放入到数据库中web端调用展示出来

报告撰写

数据分析报告是对整个数据分析过程的一个总结与呈现,通过报告要将数据分析的起因,过程,结果及建议完整地呈现出来,供决策者使用。一份好的数据分析报告,首先需要一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然,另外数据分析报告要得出明确的结论,最后,好的分析报告要有建议和解决方案!!!
下面讲解数据分析法
基本的分析方法:对比分析法,分组分析法,交叉分析法,结构分析法,漏斗图分析法,综合评价分析法,因素分析法,矩阵关联分析法
高级的分析分析方法:相关分析法,回归分析法,聚类分析法,判别分析法,主成分分析法,因子分析法,对应分析法,时间序列

以上为数据分析的方法,在进行上诉方法的讲解的时候,我们先来讲解几个比较重要的数据分析的指标。

  1. 平均值:常用的为算术平均数,还有调和平均数和几何平均数
  2. 绝对数和相对数:绝对数是反应客观现象总体在一定时间,地点条件下的总规模,总水平的综合性指标,也是数据分析中常用的指标,如GDP,人口。相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算公式
  3. 百分比与百分点:百分比是相对数中的一种,它表示一个数是另一个数的百分之几。百分点是指不同时期以百分数的形式表示的相对指标的变化幅度
  4. 频数与频率:频数是指一组数据中个别数据重复出现的次数,频率是指每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度。
  5. 比例与比率:比例是总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比率是指不同类别数值的对比,它反映的不是部分和总体的关系,而是一个整体中各部分之间的关系。
  6. 倍数和番数:这里解释番数其指原来数量的2的N次方倍
  7. 同比与环比:同比是指与历史同时期进行比较得到的数值。环比是指与前一个统计时期进行比较得到的数值,这个指标主要反映的是事务逐期发展的情况。