数据分析广义上包含数据分析与数据挖掘。狭义的数据分析以商业理解为假设基础,通过观察数据,验证得出有价值的商业分析结论。数据挖掘以现有数据为基础,通过机器学习进行数学建模,从数据中寻找“知识规则”,并应用于预测或影响因素分析。

一、数据分析(狭义)

1.数据分析定义

数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

2.数据分析作用

现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。

3.数据分析结果

数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。

4.数据分析思维

对比思维:没有对比就没有结论。

拆分思维:通过对子因素的分析更好的解析核心指标。

降维思维:维度较多时,选择跟核心指标相关的进行分析。

增维思维:通过指标计算构建新的综合指标反映问题。

假设思维:从结果到原因,逆向推导导致现有结果的原因。

5.数据分析方法

细分分析法:通过细分能更好的寻找特点及原因,如:区域、渠道、时间、用户等。

对比分析法:通过对比研究变化趋势、渠道好坏等。

漏斗分析法:通过各个阶段的行为反映转化率。

AB测试法:通过A、B方案效果的比较,选择最优的方案。

类聚类分析法:通过用户行为、属性标签对用户进行分类画像分析。

6.数据分析过程

日常监控:

北极星指标:定义反映业务目标或特征的一两个指标。

指标拆解:拆解与北极星指标相关的各细项指标与维度。

指标监控:做成业务看板对指标进行监控。

异常定位:北极星指标变化异常时,通过各维度、各细拆指标寻找异常点。

分析专项:

明确目的、拆分逻辑、数据处理、给出结论

二、数据挖掘

1.数据挖掘定义

数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。

2.数据挖掘作用

数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;

3.数据挖掘结果

输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。

4.数据挖掘算法

有监督学习:回归、分类等;

无监督学习:聚类等;

5.数据挖掘一般过程:

数据采集:获取数据,如 后端数据、前端埋点数据、网络爬虫等

数据探索:了解数据,如 缺失值、离群值(箱线分析)、数据分布(直方图、透视表)等

数据处理:准备数据,如 补缺失值、离群值处理、变量归一化、标准化、鲁棒化等

数据划分:训练集与测试集的划分,如 留出法、交叉验证法、自助法等

特征提取:通过特征转换得到统计意义特征,如 分词词频、图像/音频处理等

特征降维:通过提取公因子,减少特征个数,得到一组不相关主变量的过程

特征选择:变量选择,选择相关特征子集用于模型构造的过程

模型构建:选取模型,如 回归、分类、聚类等

模型评估:分类模型评价标准,如 正确率、准确率、召回率、ROC曲线和AUC等;回归模型评价标准,如 平均绝对误差MAE、均方误差MSE、根均方误差PMSE、决定系数、Huber等

模型优化:参数调优,如 网格搜索、随机搜索