探索性数据分析特征工程探索性数据分析的步骤

转载

编程小达人 2024-07-28 11:53:29

文章标签 探索性数据分析特征工程数据挖掘机器学习 python 可视化 文章分类 数据分析人工智能

探索性数据分析特征工程探索性数据分析的步骤_探索性数据分析特征工程

数据分析概述

数据分析完整工作流程

关于数据分析的大体流程这里以图形的形式展现给大家，就不做过多的讲述。

探索性数据分析特征工程探索性数据分析的步骤_python_02

数据探索与相关性分析

这一部分是直接从数据分析工作流程中的数据整理与清洗开始。

数据探索，探索性数据分析（Exploratory Data Analysis），简称EDA。传统的统计方法是先假定数据服从某种分布，然后运用这种模型进行预测，以概率论为基础，做参数检验。而EDA则是强调数据，“抛开”概率的理论，从数据出发，主要手段是汇总统计，可视化。

在进行EDA时，我们可以分为三个阶段，分别是：

数据概况分析
单变量分析
多变量分析

用图形来展示如下：

探索性数据分析特征工程探索性数据分析的步骤_机器学习_03

接下来跟大家简单的分享一下数据探索性分析的流程，下面的所有过程都会使用到Python的pandas包。

数据概况分析

在数据概况分析阶段，我们主要了解数据整体的基本情况，比如数据的离散程度，数据的分布等，以及数据中是否存在异常值/缺失值。这里以二手车价格预测的数据来做个例子。(代码看不懂没关系，看结果就好，不妨碍理解)

#version:python3.6.5
#package:Pandas
#encoding=utf-8

import pandas as pd
#发现csv是以空格分割的
car=pd.read_csv('used_car.csv',sep=' ')
#查看数据维度，整体概况
print(car.shape,'\n','#'*100)
print(car.axes,'\n','#'*100)
print(car.info(),'\n','#'*100)

>>>结果：
(150000, 31) #数据维度，数据有15万行，31列（属性）
###############################################################################################
[RangeIndex(start=0, stop=150000, step=1), Index(['SaleID', 'name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType',
       'gearbox', 'power', 'kilometer', 'notRepairedDamage', 'regionCode',
       'seller', 'offerType', 'creatDate', 'price', 'v_0', 'v_1', 'v_2', 'v_3',
       'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
       'v_13', 'v_14'],
      dtype='object')] 
      #上面查看的是各属性的名称
 ###############################################################################################
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 31 columns):
SaleID               150000 non-null int64
name                 150000 non-null int64
regDate              150000 non-null int64
model                149999 non-null float64
brand                150000 non-null int64
bodyType             145494 non-null float64
fuelType             141320 non-null float64
gearbox              144019 non-null float64
power                150000 non-null int64
kilometer            150000 non-null float64
notRepairedDamage    150000 non-null object
regionCode           150000 non-null int64
seller               150000 non-null int64
offerType            150000 non-null int64
creatDate            150000 non-null int64
price                150000 non-null int64
v_0                  150000 non-null float64
v_1                  150000 non-null float64
v_2                  150000 non-null float64
v_3                  150000 non-null float64
v_4                  150000 non-null float64
v_5                  150000 non-null float64
v_6                  150000 non-null float64
v_7                  150000 non-null float64
v_8                  150000 non-null float64
v_9                  150000 non-null float64
v_10                 150000 non-null float64
v_11                 150000 non-null float64
v_12                 150000 non-null float64
v_13                 150000 non-null float64
v_14                 150000 non-null float64
dtypes: float64(20), int64(10), object(1)
memory usage: 35.5+ MB
None 
 
#上面查看的是各数值型的数据缺失情况和类型 ###############################################################################################

查看了数据的整体情况，接下来对数据进行描述性统计分析。

#查看数据整体分布情况
np.set_printoptions(suppress=True)
#supress:设置不显示科学记数法|
pd.set_option('display.float_format', lambda x: '%.2f' % x) 
car.describe()#用describe方法对整体数据进行描述统计分析

结果如下图所示。

探索性数据分析特征工程探索性数据分析的步骤_数据挖掘_04

count：该属性下数据的总数；
mean：平均数；
std：标准差，数据的偏离均值程度；
min~max：中间是四分位数，用于判断样本数据的分布情况和离群值等；

注：上面的描述统计针对的是数值型的变量，不包含类别型变量。

对于类别型的属性，首先查看一下这个属性有什么类别，如果类别数量不多的话，后面可以考虑将它转变为哑变量方便分析和建模。

类别型的统计描述与数值型的数据不一样，具体如下图所示。

探索性数据分析特征工程探索性数据分析的步骤_python_05

类别型数据描述统计的参数含义是：

unique: 唯一值数
top: 频数最高者
freq: 最高频数

单变量分析

连续型数值变量分析

这里我们拿二手车数据的price字段来举个例子，见下图。

探索性数据分析特征工程探索性数据分析的步骤_可视化_06

无论是单变量分析还是多变量分析阶段，都需要做大量的图对变量进行分析，因为通过图形的展示能够更加的直观看到问题所在。除了上面的直方图，我们还可以采用箱线图对数据进行可视化分析。

通过可视化分析后，如果数据存在离群值，我们可以看看它在数据中的占比，再酌情删除，避免其对后续的模型构建造成影响。

如果变量数据存在缺失值，我们会看看缺失值占比，如果占比不高，我们可以通过填充均值的方式（适用于数值型（连续型）变量）来对缺失值进行填充。

离散型变量分析

对于离散型变量，我们可以用value_counts()函数来统计各类别数量和占总数比，也可以用直方图来进行可视化分析，如下图所示，X轴即为离散型变量的值。

探索性数据分析特征工程探索性数据分析的步骤_可视化_07

如果离散型数据的类别过多，我们可以用先验知识查看各类别型数据，找到其区分点，对其进行一个特征衍生。

举个例子，如下，是邮箱属性下的类别数值。

df.xx.value_counts()

>>>结果：
邮箱                 总数
gmail.com           61738
hotmail.com         25657
anonymous.com       19115
yahoo.com            9563
aol.com              3538
outlook.com          2504
comcast.net          1701
icloud.com           1422
yahoo.com.mx         1235
msn.com               846
live.com.mx           710
live.com              682
sbcglobal.net         611
verizon.net           582
me.com                539
att.net               440
outlook.es            420
cox.net               395
hotmail.fr            374
bellsouth.net         373
hotmail.es            303
web.de                277
mail.com              219
mac.com               212
hotmail.co.uk         212
ymail.com             198
yahoo.fr              178
optonline.net         163
gmx.de                150
charter.net           136
gmail                 101
prodigy.net.mx         96
earthlink.net          91
hotmail.de             88
embarqmail.com         72
yahoo.co.jp            71
yahoo.es               67
yahoo.de               64
juno.com               58
frontier.com           58
rocketmail.com         57
windstream.net         57
live.fr                50
roadrunner.com         48
servicios-ta.com       45

假设通过先验知识，我们得知到某个邮箱类别是匿名的，那么我们就可以将这个邮箱属性里的类别分为两类，一类是无匿名的，一类是匿名的，经过处理后，便衍生除了一个新的特征——邮箱是否匿名，同时也方便了对值多的离散型变量的处理。