文章目录解决思路二、处理过程第一步:加载源数据集第二步:数据清洗第三步:进行特征构建(二)构建新的字段,基于scikit-learn中的LabelEncoder()(3)通过Pandas中的get_dummies() 进行编码获取训练集和测试集随机森林算法实现(1)对特征一进行训练 # 列的名称,tolist()完整展示列表里的内容 data_raw.columns.tolist()解决思路二、
下面我们再来看看各种舱级别情况下各性别的获救情况1 fig = plt.figure() 2 fig.set(alpha=0.5) 3 plt.title(u"根据舱等级和性别的获救情况",fontproperties=getChineseFont()) 4 5 ax1 = fig.add_subplot(141) 6 data_train.Survived[data_train.Se
一、任务描述背景故事:泰坦尼克(RMS Titanic),又译作铁达尼,是英国白星航运公司下辖的一艘奥林匹克级游轮,排水量46000吨,于1909年3月31日在北爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克便遭厄
目录前言: 【一】数据清洗及可视化介绍知识点环境准备数据特征介绍检查数据相关系数缺失值偏态分布数值化和标准化离群点实验总结一【二】分类模型训练及评价介绍环境准备模型评估模型选择性能度量实验总结二【三】随机森林分类器及其参数调节介绍知识点实验原理决策树集成学习随机森林Python sklearn 参数调节交叉验证法调参scikit-learn 自动调参函数 GridSearchCV实验总结
sklearn的随机森林实现泰坦尼克旅客生存预测介绍数据集介绍算法学习器分类器实现数据下载与导入预处理建立模型评估,预测结果代码 介绍数据集介绍 boat(船),body(身体),home(家庭地址)看起来没什么用,删去。算法随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试
泰坦尼克生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
本文主要用kaggle网站上的泰坦尼克生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在尼克中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信
1. one hot encoder one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码: >>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> enc.fit([
文章目录数据集数据清理特征工程分类结果 Xgboost为一个十分有效的机器学习模型,在各种竞赛中均可以看到它的身影,同时Xgboost在工业届也有着广泛的应用,本文以Titanic数据集为研究对象,简单地探究Xgboost模型建模过程,同时对数据清理以及特征工程的内容作简单的介绍,以此作为Xgboost模型的学习笔记,错误和不足之处还请各位看官指出。数据集本文数据集源自于竞赛Titanic: M
决策树与随机森林算法决策树和随机森林都是用于分类和回归的的算法。决策树的原理是通过一系列的问题进行if、else的推导。随机森林是集合学习算法,即把很多的机器学习算法综合在一起组成一个更大的模型。决策树的优劣势:处理容易,不需要对数据进行转化、预处理。容易出现过拟合。随机森林的优劣势:最广泛的使用算法之一,不需要对数据进行预处理,不需要对参数调节,可以并行处理。集成了决策树所有的优点并且弥补了决
转载 2023-11-23 12:34:56
42阅读
一、任务基础泰坦尼克沉没是历史上最著名的沉船事故之一。1912年4月15日,在她的处女航中,泰坦尼克在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。在这个案例中我们将运用机器
# 使用随机森林模型分析泰坦尼克号数据集 ## 引言 泰坦尼克是历史上最著名的邮轮之一,它于1912年4月10日从英国出发,在冰冷的北大西洋碰撞冰山,并于当晚沉没。此次事件造成了众多乘客的伤亡,这引发了对生存与死亡因素的广泛研究。使用机器学习的方法可以分析和预测乘客在这次悲惨事件中存活的可能性。本文将使用Python中的随机森林模型来分析泰坦尼克乘客的数据,帮助理解影响生存率的因素。 #
数据集下载链接:https://pan.baidu.com/s/1f6x0ZHlAdwch52rHKDYBgA 提取码:9hgz数据集简介PassengerId: 乘客ID Survived: 是否生存,0代表遇难,1代表还活着 Pclass: 船舱等级:1Upper,2Middle,3Lower Name: 姓名 Sex:性别 Age: 年龄 SibSp: 兄弟姐妹及配偶个数 Parch:父母或
决策树算法介绍以对世界杯球队冠军预测为例,若有32只队伍,如果采用二分法进行预测,最多需要5次才可以得出冠军队伍32支球队,log32=5比特 64支球队,log64=6比特信息熵“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:H = -(p1logp1 + p2logp2 + ... + p32log32)H的专业术语称之为信息熵,单位为比特。 公式: 当这32支球队夺
**泰坦尼克号数据分析**简介:在csdn看了四五篇泰坦尼克号数据分析后,我也想做个分析,主要分为三个部分:描述性分析,建立逻辑回归模型预测生存率,建立决策树预测结果。 也不知道我这个算不算数据分析,我看那些公司招聘的都要用excel,但我没学,只会基本的操作。 工具:R软件 代码直接运行可能有错,因为我是边写边做的。第一次发文章,如果写的不好还请多多包涵。。。。。。分析:首先,我的数据不是从ka
一、概述本文分析了泰坦尼克船员获救的数据集合。数据集包括船员的一些信息(年龄、船舱等级、名字等等)和 是否获救的数据PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked游客ID 是否被救 船舱等级 名字 性别 年龄 兄弟姐妹数 老人孩子数 票编号 票价 座位 哪个站登船的注意:兄弟姐妹数、
【编者按】大家熟知的电影《泰坦尼克》,是一部经典的奥斯卡电影,也是一部以真实故事改编而拍的电影。真实故事中,1912年4月14日,这艘当时世界上体积最庞大、内部设施最豪华的客运轮船泰坦尼克,与一座冰山相撞,2224名船员及乘客中,逾1500人丧生,其中仅333具罹难者遗体被寻回。时隔一个世纪之久,如果用编程的角度,来审视这场灾难,会有什么发现呢?今天的文章,正是用编程来研究泰坦尼克的生还者情
随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的第5章和第8章)。首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模
目录随机森林集成学习方法随机森林原理sklearn的API实例分析总结在机器学习入门研究(九)-决策树 知道决策树缺点在于容易出现多度拟合,在解决这个问题的时候有一种方案就是随机森林随机森林是一个集成学习方法。集成学习方法集成学习方法就是建立几个模型组合来解决单一预测问题。工作原理:生成多个分类器/模型,各自独立的学习和作出预测。这些预测最后组合成组合预测,因此优于任何一个单分类的作出
转载 2024-09-10 16:39:16
117阅读
P1 数据载入及初步观察1.1 数据载入# 1.1.1 导包 import numpy as np import pandas as pd ----------------------------------- #1.1.2 载入数据 df = pd.read_csv('train.csv') df = pd.read_csv('E:/pythonProject/jupyter/第一单元项目集合/
转载 2024-08-21 21:18:00
47阅读
  • 1
  • 2
  • 3
  • 4
  • 5