最流行的4个机器学习数据集
作者 紫松 已关注
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
Iris
花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
数据集特征: | 多变量 | 记录数: | 150 | 领域: | 生活 |
属性特征: |
| 属性数目: |
| 捐赠日期 |
|
相关应用: |
| 缺失值? |
| 网站点击数: |
|
Adult
50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
数据集特征: | 多变量 | 记录数: | 48842 | 领域: | 社会 |
属性特征: |
| 属性数目: |
| 捐赠日期 |
|
相关应用: |
| 缺失值? |
| 网站点击数: |
|
Wine
葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征: | 多变量 | 记录数: | 178 | 领域: | 物理 |
属性特征: |
| 属性数目: |
| 捐赠日期 |
|
相关应用: |
| 缺失值? |
| 网站点击数: |
|
Car Evaluation
汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
数据集特征: | 多变量 | 记录数: | 1728 | 领域: | N/A |
属性特征: |
| 属性数目: |
| 捐赠日期 |
|
相关应用: |
| 缺失值? |
| 网站点击数: |
|
小结
Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址:http://archive.ics.uci.edu/ml/