随机森林k折随机森林实战

转载

小咪咪 2024-03-11 14:18:12

文章标签 随机森林k折随机森林鸢尾花数据集分类泰坦尼克号生存预测数据 文章分类 机器学习人工智能

文章目录

1. 鸢尾花数据集分类

使用袋外数据作为测试集

2.泰坦尼克号

1. 鸢尾花数据集分类

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
np.random.seed(42)

# 特征
iris_feature = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'

if __name__ == '__main__':
    mpl.rcParams['font.sans-serif'] = ['SimHei']
    mpl.rcParams['axes.unicode_minus'] = False

    try:
        data = pd.read_parquet('iris.parquet')
    except:
        data = pd.read_csv('DATA/iris.data')
        data.to_parquet('iris.parquet')

    X = data.iloc[:, :4]
    y = pd.Categorical(data.iloc[:, 4]).codes

    # 特征组合-共6个
    feature_iris = [[0, 1], [0, 2], [0, 3], [1, 2], [1, 3], [2, 3]]

    plt.figure(facecolor='#FFFFFF', figsize=(10, 9))
    for i, pair in enumerate(feature_iris):
        X_pair = X.iloc[:, pair]

        # 随机森林
        clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=3)
        clf.fit(X_pair, y)

        # 预测
        y_hat = clf.predict(X_pair)
        # 统计结果
        c = np.count_nonzero(y_hat == y)
        print('特征 :', iris_feature[pair[0]], '+', iris_feature[pair[1]])
        print('\t预测正确的数目为:', c)
        print('\t预测准确率为:%.2f%%' % (100 * (float(c) / float(len(y)))))

        # 画决策边界图
        M, N = 50, 50
        x1_min, x1_max = min(X_pair.iloc[:, 0]) - 0.05, max(X_pair.iloc[:, 0]) + 0.05
        x2_min, x2_max = min(X_pair.iloc[:, 1]) - 0.05, max(X_pair.iloc[:, 1]) + 0.05
        t1 = np.linspace(x1_min, x1_max, M)
        t2 = np.linspace(x2_min, x2_max, N)
        # 生成网格点坐标矩阵
        x1, x2 = np.meshgrid(t1, t2)
        # 测试点
        x_test = np.stack((x1.flat, x2.flat), axis=1)
        y_test = clf.predict(x_test).reshape(x1.shape)
        cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
        cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])

        plt.subplot(2, 3, i + 1)
        plt.pcolormesh(x1,x2,y_test,shading='auto',cmap=cm_light)
        # 画样本点
        plt.scatter(X_pair.iloc[:, 0],X_pair.iloc[:,1],c=y,cmap=cm_dark,edgecolors='k')
        plt.xlabel(iris_feature[pair[0]],fontsize=14)
        plt.xlabel(iris_feature[pair[1]],fontsize=14)
        plt.xlim(x1_min,x1_max)
        plt.ylim(x2_min,x2_max)
        plt.grid(b=True)
    plt.tight_layout()
    plt.suptitle('随机森林对鸢尾花数据集的特征组合的分类结果',fontsize=18)
    plt.show()

运行结果

特征 : 花萼长度 + 花萼宽度
	预测正确的数目为: 122
	预测准确率为:81.88%
特征 : 花萼长度 + 花瓣长度
	预测正确的数目为: 142
	预测准确率为:95.30%
特征 : 花萼长度 + 花瓣宽度
	预测正确的数目为: 144
	预测准确率为:96.64%
特征 : 花萼宽度 + 花瓣长度
	预测正确的数目为: 142
	预测准确率为:95.30%
特征 : 花萼宽度 + 花瓣宽度
	预测正确的数目为: 143
	预测准确率为:95.97%
特征 : 花瓣长度 + 花瓣宽度
	预测正确的数目为: 144
	预测准确率为:96.64%

随机森林k折随机森林实战_泰坦尼克号生存预测

使用袋外数据作为测试集

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
np.random.seed(42)

# 特征
iris_feature = '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'

if __name__ == '__main__':
    mpl.rcParams['font.sans-serif'] = ['SimHei']
    mpl.rcParams['axes.unicode_minus'] = False

    try:
        data = pd.read_parquet('iris.parquet')
    except:
        data = pd.read_csv('DATA/iris.data')
        data.to_parquet('iris.parquet')

    X = data.iloc[:, :4]
    y = pd.Categorical(data.iloc[:, 4]).codes

    # 特征组合-共6个
    feature_iris = [[0, 1], [0, 2], [0, 3], [1, 2], [1, 3], [2, 3]]

    plt.figure(facecolor='#FFFFFF', figsize=(10, 9))
    for i, pair in enumerate(feature_iris):
        X_pair = X.iloc[:, pair]

        # 随机森林
        clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=3,oob_score=True)
        clf.fit(X_pair, y)
        print(clf.oob_score_,end='\t')
        # 预测
        y_hat = clf.predict(X_pair)
        # 统计结果
        c = np.count_nonzero(y_hat == y)
        print('特征 :', iris_feature[pair[0]], '+', iris_feature[pair[1]],end='\t')
        print('预测正确的数目为:', c,end='\t')
        print('预测准确率为:%.2f%%' % (100 * (float(c) / float(len(y)))))

        # 画决策边界图
        M, N = 50, 50
        x1_min, x1_max = min(X_pair.iloc[:, 0]) - 0.05, max(X_pair.iloc[:, 0]) + 0.05
        x2_min, x2_max = min(X_pair.iloc[:, 1]) - 0.05, max(X_pair.iloc[:, 1]) + 0.05
        t1 = np.linspace(x1_min, x1_max, M)
        t2 = np.linspace(x2_min, x2_max, N)
        # 生成网格点坐标矩阵
        x1, x2 = np.meshgrid(t1, t2)
        # 测试点
        x_test = np.stack((x1.flat, x2.flat), axis=1)
        y_test = clf.predict(x_test).reshape(x1.shape)
        cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
        cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])

        plt.subplot(2, 3, i + 1)
        plt.pcolormesh(x1,x2,y_test,shading='auto',cmap=cm_light)
        # 画样本点
        plt.scatter(X_pair.iloc[:, 0],X_pair.iloc[:,1],c=y,cmap=cm_dark,edgecolors='k')
        plt.xlabel(iris_feature[pair[0]],fontsize=14)
        plt.xlabel(iris_feature[pair[1]],fontsize=14)
        plt.xlim(x1_min,x1_max)
        plt.ylim(x2_min,x2_max)
        plt.grid(b=True)
    plt.tight_layout()
    plt.suptitle('随机森林对鸢尾花数据集的特征组合的分类结果',fontsize=18)
    plt.show()

0.7583892617449665	特征 : 花萼长度 + 花萼宽度	预测正确的数目为: 122	预测准确率为:81.88%
0.9261744966442953	特征 : 花萼长度 + 花瓣长度	预测正确的数目为: 142	预测准确率为:95.30%
0.9530201342281879	特征 : 花萼长度 + 花瓣宽度	预测正确的数目为: 144	预测准确率为:96.64%
0.9261744966442953	特征 : 花萼宽度 + 花瓣长度	预测正确的数目为: 142	预测准确率为:95.30%
0.9463087248322147	特征 : 花萼宽度 + 花瓣宽度	预测正确的数目为: 143	预测准确率为:95.97%
0.959731543624161	特征 : 花瓣长度 + 花瓣宽度	预测正确的数目为: 144	预测准确率为:96.64%

当max_depth=10时，出现过拟合

0.7046979865771812	特征 : 花萼长度 + 花萼宽度	预测正确的数目为: 138	预测准确率为:92.62%
0.9395973154362416	特征 : 花萼长度 + 花瓣长度	预测正确的数目为: 148	预测准确率为:99.33%
0.9261744966442953	特征 : 花萼长度 + 花瓣宽度	预测正确的数目为: 145	预测准确率为:97.32%
0.9395973154362416	特征 : 花萼宽度 + 花瓣长度	预测正确的数目为: 147	预测准确率为:98.66%
0.9194630872483222	特征 : 花萼宽度 + 花瓣宽度	预测正确的数目为: 146	预测准确率为:97.99%
0.9463087248322147	特征 : 花瓣长度 + 花瓣宽度	预测正确的数目为: 148	预测准确率为:99.33%

2.泰坦尼克号

数据集下载-提取码：foib 变量说明

survival : 是否活着 (0 = No; 1 = Yes)
pclass ： Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)
name ：名字
sex ：性别
age ：年龄
sibsp ：配偶的人数
parch：父母子女人数
ticket：机票编号
fare ：乘客票价
cabin：船舱
embarked：登船的港口（C =瑟堡; Q =皇后镇; S =南安普敦）
特别说明：
Pclass是社会经济地位（SES）状态
1st〜上层； 2nd〜中间； 3〜下
年龄以年为单位；如果年龄小于一（1），则为分数

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: admin
@file: 泰坦尼克号.py
@time: 2021/01/25
@desc:
"""
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import csv
import xgboost as xgb


# 读取数据，并数据处理
def loaddata(filename, is_train):
    # 输出显示设置
    pd.set_option('display.width', 200)
    # 加载数据
    data = pd.read_csv(filename, header=0, index_col=0)
    # 查看数据前几行
    print(data.head())
    # 显示数据整体情况-数据快速统计摘要
    print('data.describe =\n', data.describe())
    # 将空格转换为空值
    data.replace(to_replace=' ', value=np.NAN, inplace=True)
    # 数据的空值统计
    print(data.isnull().sum())

    # 将类别数据转换成数值数据-字典映射
    data['Sex'] = data['Sex'].map({'female': 0, 'male': 1}).astype(int)

    # 补充船票价格缺失值
    # print(len(data['Fare'][data['Fare'] == 0])) # 15
    if len(data.Fare[data['Fare'] == 0]) > 0:
        fare = np.zeros(3)
        for i in range(0, 3):
            fare[i] = data[data.Pclass == i + 1]['Fare'].dropna().median()
        print(fare)

        # 填充对应等级船票价格
        for i in range(0, 3):
            data.loc[(data.Fare.isnull()) & (data.Pclass == i + 1), 'Fare'] = fare[i]

    # 年龄处理
    # 一种是常见的用均值代替缺失值
    # mean_age = data['Age'].dropna().mean()
    # data['Age'].fillna(mean_age, inplace=True)

    # 使用随机森林预测年龄
    if is_train:
        print('随机森林开始预测年龄')
        data_for_age = data[['Age', 'Survived', 'Fare', 'Parch', 'SibSp', 'Pclass']]
        age_exist = data_for_age.loc[(data.Age.notnull())]
        age_null = data_for_age.loc[(data.Age.isnull())]
        print(age_exist)
        print(age_null)
        x = age_exist.iloc[:, 1:]
        y = age_exist.iloc[:, 0]
        clf = RandomForestRegressor(n_estimators=1000)
        clf.fit(x, y)
        age_hat = clf.predict(age_null.values[:, 1:])
        # print(age_hat)
        #  把预测的数据填充到Age列的空的那些行中
        data.loc[(data.Age.isnull()), 'Age'] = age_hat
        print('随机森林预测缺失年龄：--over--')
    else:
        # 如果是测试数据,则没有Survived这一项,
        # 所以前面加一个is_train用来判段是测试数据还是训练数据
        print('随机森林预测缺失年龄2：--start--')
        data_for_age = data[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']]
        age_exist = data_for_age.loc[(data.Age.notnull())]  # 年龄不缺失的数据
        age_null = data_for_age.loc[(data.Age.isnull())]
        print(age_exist.isnull().sum())
        x = age_exist.values[:, 1:]
        y = age_exist.values[:, 0]
        rfr = RandomForestRegressor(n_estimators=1000)
        rfr.fit(x, y)
        age_hat = rfr.predict(age_null.values[:, 1:])
        # print age_hat
        data.loc[(data.Age.isnull()), 'Age'] = age_hat
        print('随机森林预测缺失年龄2：--over--')

    # 起始城市
    data.loc[(data.Embarked.isnull()), 'Embarked'] = 'S'  # 保留缺失出发城市
    # data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2, 'U': 0}).astype(int)
    # print(data['Embarked'])

    # 取出Embarked这一列的数据,pd.get_dummies表示获得出发城市的哑元，就是有什么值
    embarked_data = pd.get_dummies(data.Embarked)
    print('embarked_data = \n', embarked_data)
    # 把所有出发城市拿出来,加上后缀,形成三个特征
    embarked_data = embarked_data.rename(columns=lambda x: 'Embarked_' + str(x))
    # 数据和这个新的特征组合在一起,形成新的数据
    data = pd.concat([data, embarked_data], axis=1)
    print(data.describe())
    # 保存数据
    data.to_csv('New_Data.csv')

    # 把清洗后的数据提取出来作为x
    x = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_C', 'Embarked_Q', 'Embarked_S']]
    y = None
    # 如果是训练集,提取y
    if 'Survived' in data:
        y = data['Survived']

    # 转成对应的矩阵
    x = np.array(x)
    y = np.array(y)

    # 平铺五行,让测试数据变得更多
    # 可以显著提高准确率
    x = np.tile(x, (5, 1))
    y = np.tile(y, (5,))
    if is_train:
        return x, y
    # print(data.index)
    return x, data.index


# 输出结果
def write_result(c, c_type):
    file_name = 'Titanic.test.csv'
    x, passenger_id = loaddata(file_name, False)

    if c_type == 3:
        x = xgb.DMatrix(x)
    y = c.predict(x)
    y[y > 0.5] = 1
    y[~(y > 0.5)] = 0

    predictions_file = open("Prediction_%d.csv" % c_type, "w")
    open_file_object = csv.writer(predictions_file)
    open_file_object.writerow(["PassengerId", "Survived"])
    open_file_object.writerows(zip(passenger_id, y))
    predictions_file.close()


if __name__ == "__main__":
    # 读取数据
    x, y = loaddata('Titanic.train.csv', True)
    # 数据集的分割，这里的test其实是验证数据
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=1)

    # 逻辑回归
    lr = LogisticRegression(penalty='l2')
    lr.fit(x_train, y_train)
    y_hat = lr.predict(x_test)
    lr_acc = accuracy_score(y_test, y_hat)
    write_result(lr, 1)

    # 随机森林
    rfc = RandomForestClassifier(n_estimators=100)
    rfc.fit(x_train, y_train)
    y_hat = rfc.predict(x_test)
    rfc_acc = accuracy_score(y_test, y_hat)
    write_result(rfc, 2)

    # XGBoost
    data_train = xgb.DMatrix(x_train, label=y_train)
    data_test = xgb.DMatrix(x_test, label=y_test)
    watch_list = [(data_test, 'eval'), (data_train, 'train')]
    param = {'max_depth': 6, 'eta': 0.8, 'silent': 1, 'objective': 'binary:logistic'}
    # 'subsample': 1, 'alpha': 0, 'lambda': 0, 'min_child_weight': 1}
    bst = xgb.train(param, data_train, num_boost_round=100, evals=watch_list,
                    early_stopping_rounds=30, verbose_eval=True)
    y_hat = bst.predict(data_test, ntree_limit=bst.best_ntree_limit)
    write_result(bst, 3)
    y_hat[y_hat > 0.5] = 1
    y_hat[~(y_hat > 0.5)] = 0
    xgb_acc = accuracy_score(y_test, y_hat)

    print('Logistic回归：%.3f%%' % lr_acc)
    print('随机森林：%.3f%%' % rfc_acc)
    print('XGBoost：%.3f%%' % xgb_acc)

Logistic回归：0.797%
随机森林：0.983%
XGBoost：0.983%

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java日期区间怎么处理月份 java 日期操作

下一篇：mysql 指定约束为主键的语句 mysql约束名

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

随机森林k折 随机森林实战

随机森林k折 随机森林实战

文章目录

1. 鸢尾花数据集分类

使用袋外数据作为测试集

2.泰坦尼克号

51CTO博客

随机森林k折随机森林实战

随机森林k折随机森林实战