作为一名数据科学家,数据探索(EDA) 是我们的日常工作。对于数据科学家来说,没有比数据探索技能更重要的了。虽然这很重要,但我们知道这个过程很麻烦,有时也非常浪费时间。此外,很多时候,我们不知道从哪里开始探索数据。

下面以 mpg 数据集为例进行分析:

import pandas as pd
import seaborn as sns
mpg = pd.read_csv('seaborn-data-master/mpg.csv')
mpg.head()

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据探索

我们知道 Python 中有 Pandas ProfilingPandasGUI 这样的数据探索工具包,但论实用性方面,我更推荐使用 Lux 这款工具!

Lux

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据探索_02

Lux 是 Python 中的开源包,它通过自动化数据探索过程使数据科学更加容易,帮助我们更智能地利用它们的建议来探索数据。

让我们从安装包开始。

pip install lux-api

安装完软件包后,我们需要在 jupyter notebook 中启用 lux 小部件。

jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget

现在,让我们尝试使用 Lux 包来浏览我们的数据。首先需要导入包以在 notebook 中自动设置小部件。我们使用上面所讲述的 mpg 数据集。

import lux
mpg

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据分析_03

使用 Lux 包,我们可以看到一个新的按钮称为"pandas/Lux",我们可以尝试按下该按钮。

Lux 基本可视化

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_EDA_04

Lux 会自动根据数据集创建一组可视化效果。默认情况下,创建三个可视化类别:相关性分布发生

"相关性"选项卡包含两个变量之间的所有数值关系,这些变量由散点图可视化。你可以在上面的图片中看到示例。

"分布"选项卡显示一个数字变量,其中变量使用直方图图进行可视化。

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据探索_05

"发生"选项卡显示分类变量的计数图。它显示分类变量中的每个类频率,如下图所示。

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据分析_06

基于 Lux 推荐的可视化

除了数据框可视化之外,我们还可以在 Lux 中指定我们感兴趣的 Lux 属性和值,以指导数据探索的潜在下一步。

如果我对 “mpg” 和"horsepower" 属性都感兴趣。我们可以在 Lux 包中指定它,以指导我们使用该方法。

mpg.intent = ['mpg', 'horsepower']

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据_07

Lux 为我们提供了可视化建议。我们可以看到三种不同的选项:增强筛选概括

"增强"选项卡通过将附加变量添加到当前意图中来显示可视化建议。

"筛选"选项卡将筛选器添加到已设置的当前意图中;"筛选"选项卡将"筛选"添加到已设置的当前意图中。在固定属性(X 轴和 Y 轴上)时完成此设置。该建议将向我们显示从另一个变量筛选的变量之间的关系。从下图中可以看到散点图由列具有的每个 model_year 变量筛选。

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据_08

"概括"选项卡将删除属性以显示更通用的趋势,显示属性的分布。目的是关注我们感兴趣的当前属性。

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_EDA_09

Lux 导出可视化效果

太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据分析_10

上图中我给出一个红色圆圈。有了这个,我们已经成功地导出了图表。

结论

Lux是一个基于推荐的系统 EDA,可帮助我们快速访问数据。该包帮助我们提供所有可能的数据组合,并基于我们自己的意图探索数据。如果你对lux非常感兴趣,可以阅读如下链接:

https://github.com/lux-org/lux#

技术交流

欢迎转载、收藏本文,码字不易,有所收获点赞支持一下!

为方便进行学习交流,本号开通了技术交流群,添加方式如下:


太爱了!一款基于智能推荐的Python数据探索(EDA)工具来了!_数据_11