本文主要用kaggle网站上的泰坦尼克号生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在泰坦尼克号中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信
转载
2024-01-05 20:39:58
49阅读
泰坦尼克号生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克号上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
转载
2024-03-19 09:23:16
37阅读
【目录】kaggle介绍项目练手:泰坦尼克号收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出
转载
2023-11-04 13:12:48
294阅读
sklearn的随机森林实现泰坦尼克号旅客生存预测介绍数据集介绍算法学习器分类器实现数据下载与导入预处理建立模型评估,预测结果代码 介绍数据集介绍 boat(船),body(身体),home(家庭地址)看起来没什么用,删去。算法随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试
转载
2024-03-06 12:52:50
89阅读
目录前言: 【一】数据清洗及可视化介绍知识点环境准备数据特征介绍检查数据相关系数缺失值偏态分布数值化和标准化离群点实验总结一【二】分类模型训练及评价介绍环境准备模型评估模型选择性能度量实验总结二【三】随机森林分类器及其参数调节介绍知识点实验原理决策树集成学习随机森林Python sklearn 参数调节交叉验证法调参scikit-learn 自动调参函数 GridSearchCV实验总结
转载
2024-05-28 12:53:10
60阅读
# 机器学习与泰坦尼克号的生存预测
机器学习已经成为现代数据科学中最具影响力的工具之一。在这个领域中,泰坦尼克号的生存预测已成为经典的教学案例。本文将探讨如何运用机器学习来预测乘客在泰坦尼克号沉船事故中的生存几率,并展示相关的代码示例、饼状图和流程图。
## 数据准备
首先,我们需要获取泰坦尼克号的乘客数据集。数据集中包含的信息包括乘客的性别、年龄、舱位等。我们将使用这些特征来构建预测模型。
1. one hot encoder
one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:
>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit([
转载
2024-05-09 16:54:21
40阅读
■对原始平面素材进行处理,将活动影像数字化为计算机图像序列。如果原始素材画面上有字幕,则需使用图像处理软件,将字幕抹掉。■图像分割:通常是用计算机软件加人工绘制的方式将画面中每个物体单独分割开。分割的精细程度取决于要求的转换质量以及投入的时间和费用。■创建深度图:每个被分开的面都需要被分配一个深度信息。这些各自独立的深度信息组合成为画面的深度图。这是一个不断重复的过程,需要根据立体效果不断调整
转载
2024-01-28 08:27:39
63阅读
文章目录数据集数据清理特征工程分类结果 Xgboost为一个十分有效的机器学习模型,在各种竞赛中均可以看到它的身影,同时Xgboost在工业届也有着广泛的应用,本文以Titanic数据集为研究对象,简单地探究Xgboost模型建模过程,同时对数据清理以及特征工程的内容作简单的介绍,以此作为Xgboost模型的学习笔记,错误和不足之处还请各位看官指出。数据集本文数据集源自于竞赛Titanic: M
目录引言数据认识总结特征处理建模预测logistic分类模型随机森林SVMxgboost模型验证交叉验证学习曲线高偏差:高方差模型融合总结后记引言一直久闻kaggle大名,自己也陆陆续续学了一些机器学习方面的知识,想在kaggle上面尝试一下,但是因为各种烦杂的事情和课业拖累,一直没时间参加一次kaggle的比赛。这次我将用kaggle的入门赛:Titanic: Machine Learning
本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析环境win8, python3.7, jupyter notebook目录1. 项目背景2. 数据概览3. 特征分析4. 特征工程5. 构建模型正文1. 项目背景泰坦尼克号: 是当时世界上体积最庞大、内部设施最豪华的客运轮船, 于1909年3月31日动工建造, 
本文采用Kaggle中比较知名的数据集Titanic Machine Learning from Disaster作为分析数据源,该数据集被评为五大最适合数据分析练手项目之一。分析目的是根据训练集预测部分乘客在沉船事件中是否会存活?数据分析的整个流程如下: (1)数据清洗 (2)特征工程  
1912年4月15日凌晨2点20分,“永不沉没”的“泰坦尼克”走完了它短暂的航程,缓缓沉入大西洋这座安静冰冷的坟墓。
Titanix
欢迎你们说我幼稚荒诞,也欢迎你们继续成熟苍凉。说起来,titanic是我至今觉得最为美妙的爱情电影,如饮蜜酒,甘不可言。这是一份绚烂到极致,使得人类的大难做了背景,还妄想突破时间和生死直达永恒的爱情
转载
2024-07-10 07:04:53
36阅读
数据集下载链接:https://pan.baidu.com/s/1f6x0ZHlAdwch52rHKDYBgA 提取码:9hgz数据集简介PassengerId: 乘客ID
Survived: 是否生存,0代表遇难,1代表还活着
Pclass: 船舱等级:1Upper,2Middle,3Lower
Name: 姓名
Sex:性别
Age: 年龄
SibSp: 兄弟姐妹及配偶个数
Parch:父母或
转载
2024-02-24 11:34:31
83阅读
一、概述本文分析了泰坦尼克号船员获救的数据集合。数据集包括船员的一些信息(年龄、船舱等级、名字等等)和 是否获救的数据PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked游客ID 是否被救 船舱等级 名字 性别 年龄 兄弟姐妹数 老人孩子数 票编号 票价 座位号 哪个站登船的注意:兄弟姐妹数、
转载
2024-03-18 07:02:20
39阅读
【编者按】大家熟知的电影《泰坦尼克号》,是一部经典的奥斯卡电影,也是一部以真实故事改编而拍的电影。真实故事中,1912年4月14日,这艘当时世界上体积最庞大、内部设施最豪华的客运轮船泰坦尼克号,与一座冰山相撞,2224名船员及乘客中,逾1500人丧生,其中仅333具罹难者遗体被寻回。时隔一个世纪之久,如果用编程的角度,来审视这场灾难,会有什么发现呢?今天的文章,正是用编程来研究泰坦尼克号的生还者情
转载
2023-10-29 17:12:50
248阅读
翻译自:kagglehttps://www.kaggle.com/heroy12/titanic-advanced-feature-engineering-tutorial0. 简介我之所以决定编写此内核,是因为《泰坦尼克号:灾难机器学习》是我在Kaggle上最喜欢的比赛之一。这是一个初学者级内核,专注于探索性数据分析和功能工程。很多人从这场竞赛开始Kaggle,他们迷失在极长的教程内核中。与其他
转载
2024-01-23 15:26:46
55阅读
原标题:Kaggle Titanic 生存预测比赛超完整笔记(下)本文作者大树先生,首发于作者的知乎专栏《机器学习之路》, AI研习社获其授权发布。一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。总的来说收获
转载
2024-07-24 08:22:15
52阅读
kaggle泰坦尼克号生存预测(附代码、数据集和答案)之前总结的数据预处理方法: 先看一下数据集: 这次需要分类的标签被存储在了训练集的Survived列里,1表示生还,0表示遇难。显然这次的特征是有缺失值的,读入数据集,看一下训练集和测试集的长度及各特征的缺失情况:#看一下训练集和测试集的各特征的缺失情况:
for column in test_data.columns:
print(c
# 机器学习泰坦尼克号实验总结
## 引言
泰坦尼克号,是一艘历史上著名的豪华邮轮,其在1912年的沉没事件吸引了无数人的关注。随着机器学习技术的发展,众多爱好者和研究者利用这个悲惨事件的数据开启了对生存概率的分析与预测,开展了丰厚的机器学习实验。在这篇文章中,我们将探讨如何使用Python的机器学习库来处理泰坦尼克号数据,并总结这次实验的经验。
## 数据探究
泰坦尼克号数据集通常包含乘