泰坦尼克号spark数据处理泰坦尼克号数据集

转载

mob6454cc782a8c 2024-08-26 09:34:22

文章标签 泰坦尼克号spark数据处理泰坦尼克号 iris 决策树随机森林 文章分类 Spark 大数据

Sklearn实现决策树详解
Sklearn实现了以下四种类型的树
1）tree.DecisionTreeClassifier([criterion, …]) 决策树分类器.

2）tree.DecisionTreeRegressor([criterion, …]) 回归树.

3）tree.ExtraTreeClassifier([criterion, …]) 一种非常随机的树分类器.

4）tree.ExtraTreeRegressor([criterion, …]) 一种非常随机的树回归器

tree.export_graphviz(decision_tree[, …]) 以点的格式导出树
--------------------1) sklearn.tree.DecisionTreeClassifier----------------------------------
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

参数：

criterion：字符型，可选，规定了该决策树所采用的的最佳分割属性的判决方法，有两种：“gini”，“entropy”，默认为’gini’，

splitter：字符型，可选(默认=“best”)用于在每个节点选择分割的策略，可填‘best’或’random’，前者在特征的所有划分点中找出最优的划分点。后者是随机的在部分划分点中找局部最优的划分点。默认的"best"适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐"random"

max_depth: int型或None，可选(默认=None)树的最大深度，对于防止过拟合非常有用。如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。

min_samples_split: int型float型，可选(默认值=2)分割内部节点所需的最小样本数量；如果是int型，则min_samples_split为最小样本数量。如果是float型，则min_samples_split是分数，ceil(min_samples_split * n_samples)是每个分割的最小样本数。

min_samples_leaf: int型float型，可选(默认值=1)叶节点上所需的最小样本数。如果是int类型，则将min_samples_leaf作为最小值。若是float，那么min_samples_leaf是分数，ceil(min_samples_leaf * n_samples)是每个节点的最小样本数。

min_weight_fraction_leaf：浮点型，可选(默认=0)。叶节点上(所有输入样本的)权值之和的最小加权分数。当没有提供 sample_weight时，样品的重量相等。

max_features: int, float, string or None, 可选(默认=None)，在寻找最佳分割时需要考虑的特性数量；如果是int类型，则考虑每个分割处的max_features特性。如果是float，那么max_features是一个分数，并且在每个分割中都考虑int(max_features * n_features)特性。如果“auto”，则max_features=sqrt(n_features)。如果“sqrt”，则max_features=sqrt(n_features)。如果“log2”，则max_features=log2(n_features)。如果没有，则max_features=n_features。

class_weight: 指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多，导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，或者用“balanced”，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。当然，如果你的样本类别分布没有明显的偏倚，则可以不管这个参数，选择默认的"None"

random_state: int型RandomState实例或None，可选(默认=None)如果是int, random_state是随机数生成器使用的种子;如果是RandomState实例，random_state是随机数生成器;如果没有，随机数生成器是np.random使用的RandomState实例。

一.本文首先采用基于IRIS（鸢尾花）数据集实现决策树：
由Fisher在1936年整理，包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））。

#coding:utf-8
from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np
from sklearn import tree
from sklearn.cross_validation import train_test_split
"""
Iris数据集是常用的分类实验数据集，

由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，

是一类多重变量分析的数据集。数据集包含150个数据集，

分为3类，每类50个数据，每个数据包含4个属性。

可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

"""
#载入数据集
iris = datasets.load_iris()
# print(iris)
iris_data = iris["data"]
# print(iris_data )
iris_label = iris["target"]
# print(iris_label)
iris_target_name = iris['target_names']
# print(iris_target_name)

X = np.array(iris_data)
Y = np.array(iris_label)
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.25,random_state=1)

# print(Y_train)
# print(Y_test)

#训练
clf = tree.DecisionTreeClassifier(max_depth=3)
clf.fit(X_train,Y_train)
predict = clf.predict(X_test)
sum = 0
for i in range(len(Y_test)):
    if predict[i]==Y_test[i]:
        sum +=1
print("sum:%s,len(Y_test):%s"%(sum,len(Y_test)))
print("预测率：%s"%(sum/len(Y_test)))
#这里预测当前输入的值的所属分类
print("类别是",iris_target_name[clf.predict([[7,1,1,1]])[0]])

结果：

sum:37,len(Y_test):38
预测率：0.9736842105263158
类别是 versicolor

如果需要对数据进行归一化，则在iris_data = iris[“data”]前加上这句

#数据预处理--归一化
from sklearn.preprocessing import Normalizer
iris.data=Normalizer().fit_transform(iris.data)

二.采用泰坦尼克号数据集实现决策树：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql 子查询的结果作为主查询 mysql子查询语句举例

下一篇：调画布大小python python画布尺寸怎么设置

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

泰坦尼克号spark数据处理 泰坦尼克号数据集

泰坦尼克号spark数据处理 泰坦尼克号数据集

51CTO博客

泰坦尼克号spark数据处理泰坦尼克号数据集

泰坦尼克号spark数据处理泰坦尼克号数据集