作为一名数据科学家,数据探索(EDA) 是我们的日常工作。对于数据科学家来说,没有比数据探索技能更重要的了。虽然这很重要,但我们知道这个过程很麻烦,有时也非常浪费时间。此外,很多时候,我们不知道从哪里开始探索数据。
下面以 mpg 数据集为例进行分析:
import pandas as pd
import seaborn as sns
mpg = pd.read_csv('seaborn-data-master/mpg.csv')
mpg.head()
我们知道 Python 中有 Pandas Profiling、PandasGUI 这样的数据探索工具包,但论实用性方面,我更推荐使用 Lux 这款工具!
Lux
Lux 是 Python 中的开源包,它通过自动化数据探索过程使数据科学更加容易,帮助我们更智能地利用它们的建议来探索数据。
让我们从安装包开始。
pip install lux-api
安装完软件包后,我们需要在 jupyter notebook 中启用 lux 小部件。
jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget
现在,让我们尝试使用 Lux 包来浏览我们的数据。首先需要导入包以在 notebook 中自动设置小部件。我们使用上面所讲述的 mpg 数据集。
import lux
mpg
使用 Lux 包,我们可以看到一个新的按钮称为"pandas/Lux",我们可以尝试按下该按钮。
Lux 基本可视化
Lux 会自动根据数据集创建一组可视化效果。默认情况下,创建三个可视化类别:相关性、分布和发生。
"相关性"选项卡包含两个变量之间的所有数值关系,这些变量由散点图可视化。你可以在上面的图片中看到示例。
"分布"选项卡显示一个数字变量,其中变量使用直方图图进行可视化。
"发生"选项卡显示分类变量的计数图。它显示分类变量中的每个类频率,如下图所示。
基于 Lux 推荐的可视化
除了数据框可视化之外,我们还可以在 Lux 中指定我们感兴趣的 Lux 属性和值,以指导数据探索的潜在下一步。
如果我对 “mpg” 和"horsepower" 属性都感兴趣。我们可以在 Lux 包中指定它,以指导我们使用该方法。
mpg.intent = ['mpg', 'horsepower']
Lux 为我们提供了可视化建议。我们可以看到三种不同的选项:增强、筛选和概括。
"增强"选项卡通过将附加变量添加到当前意图中来显示可视化建议。
"筛选"选项卡将筛选器添加到已设置的当前意图中;"筛选"选项卡将"筛选"添加到已设置的当前意图中。在固定属性(X 轴和 Y 轴上)时完成此设置。该建议将向我们显示从另一个变量筛选的变量之间的关系。从下图中可以看到散点图由列具有的每个 model_year 变量筛选。
"概括"选项卡将删除属性以显示更通用的趋势,显示属性的分布。目的是关注我们感兴趣的当前属性。
Lux 导出可视化效果
上图中我给出一个红色圆圈。有了这个,我们已经成功地导出了图表。
结论
Lux是一个基于推荐的系统 EDA,可帮助我们快速访问数据。该包帮助我们提供所有可能的数据组合,并基于我们自己的意图探索数据。如果你对lux非常感兴趣,可以阅读如下链接:
https://github.com/lux-org/lux#
技术交流
欢迎转载、收藏本文,码字不易,有所收获点赞支持一下!
为方便进行学习交流,本号开通了技术交流群,添加方式如下: