什么是数据分析?
数据分析可以描述为清理、转换和处理原始数据以提取可操作的相关信息以帮助企业做出明智决策的过程。数据分析过程提供了有用的见解和统计数据,可以以表格、图表和图形的形式呈现。
在本文中,您将了解如何通过运行 SQL 查询从数据集合中获取有用的信息。此外,您还将学习如何使用图形和图表来呈现该信息。我将使用超市公司不同商店的数据集、PostgreSQL 和 Arctype SQL 客户端。
什么是 PostgreSQL 和 Arctype?
PostgreSQL,也称为 Postgres,是一个免费的开源关系数据库管理系统。Arctype 是一种快速且易于使用的数据库管理工具,用于编写 SQL 查询、构建仪表板以及与您的团队共享数据。
设置 PostgreSQL
要在本教程中使用 Postgres,请导航至Postgres 下载页面并为您的操作系统下载它。它适用于 Linux、macOS 和 Windows。
在您的计算机上安装 Postgres 后,运行以下命令以确认安装。
psql --version
您应该能够看到系统中安装的 Postgres 版本。现在运行如下所示的命令以打开 Postgres 提示符。
sudo -u postgres psql postgres
在命令行上打开 Postgres 后,运行以下命令为 Postgres 设置密码。
\password postgres
要退出 Postgres 提示符,请运行如下所示的命令。
\q
现在让我们在 PostgreSQL 中创建一个名为“超市”的数据库,该数据库将用于存储超市商店 CSV 文件中的数据。我们运行下面的命令。
CREATE DATABASE supermarket;
然后运行如下所示的命令,查看您创建的数据库是否在 Postgres 的数据库列表中。
\l
从下面的屏幕截图可以看出,超市数据库是在 PostgreSQL 中创建的。
Arctype SQL 客户端
要使用 Arctype,请导航至主页并在您的计算机上下载该应用程序。该应用程序可在 Windows、MacOS 和 Linux 上使用。
安装应用程序后,打开它,系统将提示您创建一个帐户,如下所示。
将 Arctype SQL 客户端与 Postgres 集成
创建帐户后,系统将提示您选择数据库。在本例中,选择 Postgres。
下一步是添加 Postgres 凭据以将 Arctype 连接到您的 Postgres 数据库。
根据下面显示的示例填写字段。
- 名称:超市数据集
- 主机:127.0.0.1
- 端口:5432
- 用户:postgres
- 密码:*postgres密码*
- 数据库:超市
注意:使用您在 Postgres 提示符下创建数据库时创建的凭据。
输入 Postgres 凭据后,单击底部的“测试连接”按钮以确保凭据正确。如果凭据正确,点击“测试连接”按钮右侧的“保存”按钮,完成Postgres和Arctype SQL客户端集成,如下图。
使用 Arctype 将 CSV 文件导入 Postgres
我们将导入超市的商店数据集 CSV 文件,您可以通过导航到此Kaggle 网页下载该文件,如下所示。
要使用 Arctype 将 CSV 文件导入 Postgres,请导航至“表”视图。单击表搜索字段旁边的三个点。然后选择“将 CSV 导入表”,如下所示。
接下来,使用出现的文件选择窗口选择您下载的 CSV 文件。选择您的文件并单击“打开”按钮,如下所示。
选择并打开 CSV 文件后,Arctype 将显示 CSV 文件数据的前十行以供预览。如果一切正常,请单击“接受”按钮,如下所示。
单击“接受”按钮后,您将被重定向到配置窗口,如下所示。该窗口允许您确定要将数据存储在何处并选择模式。
如果一切正常,请单击“导入 CSV”按钮开始导入 CSV 文件。打开表数据导入成功;一切都应如下所示。
使用 Arctype 运行 SQL 查询
SQL 查询允许您显示或修改数据库中的数据。在本节中,我将向您展示一些查询,您可以运行这些查询来创建表格、图表或图形来可视化超市的数据。
假设您是超市的老板。您可能想知道有趣的统计数据,例如销售额排名前 10 位的商店。要获得此类见解,您可以运行一个 SQL 查询来创建一个包含前 10 个表现商店的表。然后,您可以通过创建图形或图表来可视化数据。
要使用 Arctype 运行 SQL 查询,请单击 Arctype 窗口右上角的“创建查询”按钮。然后将出现一个屏幕,您可以在其中运行查询,如下所示。
为您的查询指定一个描述性名称,例如“销售额排名前 10 位的商店”。然后编写以下 SQL 查询,根据商店数据确定销售额排名前 10 的商店。
SELECT store_area, store_sales AS Sales FROM stores GROUP BY store_id, store_sales ORDER BY store_sales DESC LIMIT 10;
该查询从商店的表中选择列store_area和store_sales中的数据,其中store_sales已重命名为 Sales。然后数据按名为store_id和store_sales(销售额)的列分组。之后,数据按store_sales 排序,其中销售额从高到低排列。查询将结果限制为前 10 个销售商店区域。