爱数科平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。



本案例根据每种汽车的参数,利用K-Means聚类算法来进行聚类,识别出相似的汽车。


爱数科案例 | 汽车款式聚类_数据分析

1. 读数据表

首先,我们读取原始数据。

爱数科案例 | 汽车款式聚类_大数据_02

2. Z-Score标准化

对连续变量mpg,displacement,horsepower,weight,acceleration使用Z-score标准化。

爱数科案例 | 汽车款式聚类_数据分析_03

爱数科案例 | 汽车款式聚类_数据分析_04

3. 对类别变量进行哑变量编码

对类别变量cylinders,year,origin进行哑变量编码。

爱数科案例 | 汽车款式聚类_数据分析_05

4. K-Means聚类

最后我们使用K-Means进行聚类。

爱数科案例 | 汽车款式聚类_聚类_06

5. 柱状图

画出聚类后每个簇样本数的柱状图。


爱数科案例 | 汽车款式聚类_聚类_07

6. 无监督聚类评估

最后进行模型评估,输出Calinski-Harabasz指数、Davies-Bouldin指数和轮廓系数。

爱数科案例 | 汽车款式聚类_大数据_08