介绍1 载入并检查数据特征工程1 名字分析2 家庭存活情况分析3 处理更多变量缺失数据处理1 合理值插补2 预测性插补3 特征工程第二阶段预测1 分离出训练数据和测试数据2 建立模型3 变量重要性分析4 开始预测结论 1 介绍这是我第一次尝试使用 Kaggle 脚本。经过一段时间在 Kaggle 上的浏览和阅读其他用户写的脚本后,我决定对泰坦尼克号事件情况数据集进行分析。在此期间我也将生成一些数
转载
2023-11-24 10:11:50
70阅读
你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。
对于测试集中的每个,您必须预测变量的0或1值。
比赛说明RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原
目录1.导库2.导入数据集,探索数据4.提取标签和特征矩阵,分测试机和训练集5.导入模型,粗略跑一下查看结果6.在不同max_depth下观察模型的拟合状况7.网格搜索调参1.导库import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_
转载
2024-01-08 13:14:44
47阅读
文章目录前言步骤1. 导入库2. 使用pandas来读取csv文件3. 对csv文件的信息进行探索4. 数据的预处理4.1 将对训练模型无关的特征进行删除4.2 将所有非数字类型的特征转为数字类型的特征4.3 统一数据的数量5. 对数据集进行拆分,将数据特征和标签进行分离(survived结果和其余的数据进行分离)6. 对数据集进行训练集和测试集的划分7. 对划分的测试集和训练集进行序号的重新编
转载
2024-10-08 12:56:46
136阅读
一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
转载
2024-04-27 14:35:02
461阅读
点赞
看到全部是英文,我的内心咯噔一声,瞬间没有想看的欲望了,但是,得努力跑完代码,我也只能努把力耐心地往下看。以下是我的学习之旅 第一步是导入数据。 kaggle网站里的代码是下面这样的# Load data
##### Load train a
转载
2024-01-08 00:01:16
40阅读
# Python与泰坦尼克号幸存者分析:数据科学的魅力
在数据科学的世界中,Python因为其易用性和丰富的库而受到广泛欢迎。数据分析师和科学家们常常使用Python来处理和可视化数据。本文将通过一个有趣的实例,即“泰坦尼克号幸存者分析”,来展示Python在数据分析中的应用。
## 1. 背景介绍
泰坦尼克号是历史上著名的邮轮,它于1912年在北大西洋沉没。此次悲剧导致1500多人遇难,因
原创
2024-09-28 04:00:03
85阅读
决策树 文章目录决策树1.概述1.1决策树是如何工作的2 DecisionTreeClassififier与红酒数据集2.1重要参数2.1.1 criterion2.1.2 random_state & splitter2.1.3 剪枝参数2.1.4 目标权重参数2.2 重要属性和接口3 DecisionTreeRegressor3.1 重要参数,属性及接口3.2 实例:一维回归的图像绘制
转载
2024-06-17 16:06:18
108阅读
在本博文中,我们将详细介绍如何使用Python实现泰坦尼克号幸存者分类的项目。这是一个经典的数据科学项目,涉及逻辑回归和数据预处理等技术,旨在预测乘客的生存概率。接下来,我们会看到每一步的环境准备、集成步骤、配置详解、实战应用、排错指南和性能优化。
## 环境准备
为了顺利运行本项目,我们需要准备相应的技术栈,这些技术栈在数据处理、模型训练和评估方面相辅相成。
| 技术栈 | 版本
今日锦囊特征锦囊:如何把“年龄”字段按照我们的阈值分段?我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类,18-30岁的作为一类,那么怎么用Python实现的呢?是的,我们还是用到我们的泰坦尼克号的数据集,对数据进行预处理操作,见下:# 导入相关库
import pandas as pd
import numpy a
转载
2023-11-07 13:14:56
104阅读
## 泰坦尼克号幸存者数据预处理指南
在数据科学和机器学习中,数据预处理是一个十分重要的步骤。针对泰坦尼克号幸存者数据,我们将通过几个步骤进行数据清洗和准备,以便后续分析或建模。下面是我们将执行的步骤列表。
### 数据预处理流程
| 步骤 | 描述 |
|----------------------
对泰坦尼克号的数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#将警告不显示
import warnings
warnings.filterwarnings('ignore')
#导入测试集和训练
转载
2023-09-15 15:37:48
214阅读
项目背景电影《泰坦尼克号》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!2.提出问题泰坦尼克号生存率预测 :具有什么特征的人在泰坦尼克号中更容易存活?特征工程(feature engineering)是指从原始数据中提取特征并将其转
仅作为学习记录例子:泰坦尼克号幸存者预测1.导入库和数据集2.探索数据,数据预处理data.info()data.head()#显示前xx行,括号不写默认前5行 筛选特征#筛选特征
#axis=0,1 0是行 1是列
data.drop(['Name','Cabin'],inplace=True,axis=1)#可以一次性删除多列,inplace=True:新表覆盖旧表
#或者data=data
转载
2024-09-22 15:11:26
110阅读
本文是优达学城数据分析师 P2 项目的结课报告,主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# Read titanic
转载
2024-05-12 16:17:23
80阅读
前言 这个是Kaggle比赛中泰坦尼克号生存率的分析。强烈建议在做这个比赛的时候,再看一遍电源《泰坦尼克号》,可能会给你一些启发,比如妇女儿童先上船等。所以是否获救其实并非随机,而是基于一些背景有先后顺序的。1,背景介绍 1912年4月15日,载着1316号乘客和891名船员的豪华巨轮泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一
转载
2023-12-13 22:22:13
318阅读
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
转载
2023-12-28 10:01:12
320阅读
连续变量对获救情况的影响Age–> 连续值特征对结果的影响print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].m
转载
2023-12-10 10:00:05
250阅读
kaggle:泰坦尼克第一节:①数据载入及初步观察:题目1:每1000行为一个数据模块,逐块读取题目2:表头变中文,索引改为乘客ID题目3:输出前10行和后15行题目4:判断数据是否为空题目5:修改的数据集重新的放入在一个新的`csv`文件中②`pandas`基础:题目1:查看`DataFrame`数据的每列的名称题目2:查看`Cabin`这列的所有值题目3:删除多余的列题目4:隐藏列元素题目5
转载
2024-01-11 22:12:47
74阅读
参考:https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanichttps://www.kaggle.com/goldens/classification-81-3-with-simple-model-nested-cv1. 问题描述泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912
转载
2024-04-02 15:34:37
68阅读