在建立模型之前,可以通过数据探索分析(exploratory data analysis,EDA)来获得关于数据的深刻认识。数据探索可以帮助我们了解数据的形状,数据的边界(最值),数值特性和散布程度,发现有问题的数据,缺失的数据,噪声,有偏的分布。数据集就是一个故事,我们需要把这个故事有效的还原为我们能够理解的形式。

数据探索分析是数据挖掘项目的核心步骤之一,通过探索分析得到的数据变量概括和可视化的图形结果构成我们对数据集的基本理解,并选定合适的变换或工具来进行进一步的分析。

Rattle的Explore标签提供了大量的探索数据工具。


下图是Rattle的 Explore的内容。




(1)汇总数据


Summary选项。





在这一项里,给出关于数据集的各种汇总和描述性的统计量,包括峰度,偏度,缺失值汇总和针对属性变量各因子水平的交叉列联表。



(2)分布探索


Distributions选项。






这个选项以可视化的方式,给出各个变量的分布特征。可以勾选相应的图形选项,按执行按钮绘图。对于数值型变量,可以画出四个图:箱形图,


直方图,累积分布图和benford图


这是weather数据集中,MinTemp变量的分布情况,以RainTomorrow为分组变量。





这个是benford图,此图来自所谓的Benford法则,给出数字首位数1~9在这些数字中的经验分布。(近似幂律)





对于属性变量,可以画3个图:条形图,点图和马赛克图。


windGustDir变量的分布情况,以RainTomorrow为分组变量: 


点图,给出的是属性数据因子各水平下得频数。




马赛克图:





马赛克图是表现多维列联表数据的一个工具。它的表现形式为与频数成比例的矩形块,整幅图形看起来就像是若干块马赛克放置在平面上。马赛克图背后的统计理论是对数线性模型(log-linear model)。Rattle中的马赛克图是某个属性变量各水平关于另一个变量(一般是目标变量)的图形。


在《R in Action》那本书中,用泰坦尼克遇难乘客的数据绘制了一张马赛克图,很好的说明了如何用可视化来讲数据的故事。




在分布这个选项中,如果不勾选任何图形,直接按执行按钮的话,会画出来一张散点图矩阵(这个图是包含所有变量的,但是变量数目太多的话,可能显示不出来),这个图对角线是各个变量的直方图。下侧是散点图,上侧是变量的相关系数。



如果在作图的时候需要改变分组变量,可以在Data标签的Target Data Type 选项进行修改。



本篇参考:

1 谢益辉 《现代统计图形》 。本书尚未正式出版,但是网上很容易找到本书的beta版 

2 Robert Kabacoff,R in Action 。