介绍1 载入并检查数据特征工程1 名字分析2 家庭存活情况分析3 处理更多变量缺失数据处理1 合理值插补2 预测性插补3 特征工程第二阶段预测1 分离出训练数据和测试数据2 建立模型3 变量重要性分析4 开始预测结论 1 介绍这是我第一次尝试使用 Kaggle 脚本。经过一段时间在 Kaggle 上的浏览和阅读其他用户写的脚本后,我决定对泰坦尼克号事件情况数据集进行分析。在此期间我也将生成一些数
转载
2023-11-24 10:11:50
70阅读
目录1.导库2.导入数据集,探索数据4.提取标签和特征矩阵,分测试机和训练集5.导入模型,粗略跑一下查看结果6.在不同max_depth下观察模型的拟合状况7.网格搜索调参1.导库import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_
转载
2024-01-08 13:14:44
47阅读
文章目录前言步骤1. 导入库2. 使用pandas来读取csv文件3. 对csv文件的信息进行探索4. 数据的预处理4.1 将对训练模型无关的特征进行删除4.2 将所有非数字类型的特征转为数字类型的特征4.3 统一数据的数量5. 对数据集进行拆分,将数据特征和标签进行分离(survived结果和其余的数据进行分离)6. 对数据集进行训练集和测试集的划分7. 对划分的测试集和训练集进行序号的重新编
转载
2024-10-08 12:56:46
136阅读
你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。
对于测试集中的每个,您必须预测变量的0或1值。
比赛说明RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原
看到全部是英文,我的内心咯噔一声,瞬间没有想看的欲望了,但是,得努力跑完代码,我也只能努把力耐心地往下看。以下是我的学习之旅 第一步是导入数据。 kaggle网站里的代码是下面这样的# Load data
##### Load train a
转载
2024-01-08 00:01:16
40阅读
# Python与泰坦尼克号幸存者分析:数据科学的魅力
在数据科学的世界中,Python因为其易用性和丰富的库而受到广泛欢迎。数据分析师和科学家们常常使用Python来处理和可视化数据。本文将通过一个有趣的实例,即“泰坦尼克号幸存者分析”,来展示Python在数据分析中的应用。
## 1. 背景介绍
泰坦尼克号是历史上著名的邮轮,它于1912年在北大西洋沉没。此次悲剧导致1500多人遇难,因
原创
2024-09-28 04:00:03
85阅读
一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
转载
2024-04-27 14:35:02
461阅读
点赞
在本博文中,我们将详细介绍如何使用Python实现泰坦尼克号幸存者分类的项目。这是一个经典的数据科学项目,涉及逻辑回归和数据预处理等技术,旨在预测乘客的生存概率。接下来,我们会看到每一步的环境准备、集成步骤、配置详解、实战应用、排错指南和性能优化。
## 环境准备
为了顺利运行本项目,我们需要准备相应的技术栈,这些技术栈在数据处理、模型训练和评估方面相辅相成。
| 技术栈 | 版本
决策树 文章目录决策树1.概述1.1决策树是如何工作的2 DecisionTreeClassififier与红酒数据集2.1重要参数2.1.1 criterion2.1.2 random_state & splitter2.1.3 剪枝参数2.1.4 目标权重参数2.2 重要属性和接口3 DecisionTreeRegressor3.1 重要参数,属性及接口3.2 实例:一维回归的图像绘制
转载
2024-06-17 16:06:18
108阅读
今日锦囊特征锦囊:如何把“年龄”字段按照我们的阈值分段?我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类,18-30岁的作为一类,那么怎么用Python实现的呢?是的,我们还是用到我们的泰坦尼克号的数据集,对数据进行预处理操作,见下:# 导入相关库
import pandas as pd
import numpy a
转载
2023-11-07 13:14:56
104阅读
## 泰坦尼克号幸存者数据预处理指南
在数据科学和机器学习中,数据预处理是一个十分重要的步骤。针对泰坦尼克号幸存者数据,我们将通过几个步骤进行数据清洗和准备,以便后续分析或建模。下面是我们将执行的步骤列表。
### 数据预处理流程
| 步骤 | 描述 |
|----------------------
对泰坦尼克号的数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#将警告不显示
import warnings
warnings.filterwarnings('ignore')
#导入测试集和训练
转载
2023-09-15 15:37:48
214阅读
项目背景电影《泰坦尼克号》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!2.提出问题泰坦尼克号生存率预测 :具有什么特征的人在泰坦尼克号中更容易存活?特征工程(feature engineering)是指从原始数据中提取特征并将其转
数据集来源于kaggle经典竞赛数据集
一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
转载
2024-01-10 17:40:00
144阅读
仅作为学习记录例子:泰坦尼克号幸存者预测1.导入库和数据集2.探索数据,数据预处理data.info()data.head()#显示前xx行,括号不写默认前5行 筛选特征#筛选特征
#axis=0,1 0是行 1是列
data.drop(['Name','Cabin'],inplace=True,axis=1)#可以一次性删除多列,inplace=True:新表覆盖旧表
#或者data=data
转载
2024-09-22 15:11:26
110阅读
连续变量对获救情况的影响Age–> 连续值特征对结果的影响print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].m
转载
2023-12-10 10:00:05
250阅读
参考:https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanichttps://www.kaggle.com/goldens/classification-81-3-with-simple-model-nested-cv1. 问题描述泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912
转载
2024-04-02 15:34:37
68阅读
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死
# (二)数据准备:1 数据获取,载入训练集csv,测试集csv
# (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字)
# (四)数据重构:根据需要重新构造数据(重组数据,构建新特性)
#(五)数据分析:
1 描述性分析,画图,直观分析
2 探索性分析, 机器学习模型
# (六)成果输出
转载
2024-01-08 14:28:03
246阅读
泰坦尼克号乘客生存预测(XGBoost)1. 案例背景2. 步骤分析3. 代码实现 1. 案例背景泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些
转载
2024-01-11 11:02:42
60阅读
1、数据来源(1)数据来源train文档数据是用来分析和建模,包含有生存情况信息;test数据是用来最终预测其生存情况并生成结果文件。2、分析流程(1)不同变量跟生存情况的关系分析;(2)查看缺失值并对缺失值进行处理;(3)建立模型并预测;(4)提交预测结果,查看网站排名。3、数据分析载入文件:import pandas
#中文的话这样打开,不会出现Initializing from file f
转载
2024-07-29 18:31:51
141阅读