参考:https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanichttps://www.kaggle.com/goldens/classification-81-3-with-simple-model-nested-cv1. 问题描述泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912
转载
2024-04-02 15:34:37
68阅读
目录1.导库2.导入数据集,探索数据4.提取标签和特征矩阵,分测试机和训练集5.导入模型,粗略跑一下查看结果6.在不同max_depth下观察模型的拟合状况7.网格搜索调参1.导库import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_
转载
2024-01-08 13:14:44
47阅读
介绍1 载入并检查数据特征工程1 名字分析2 家庭存活情况分析3 处理更多变量缺失数据处理1 合理值插补2 预测性插补3 特征工程第二阶段预测1 分离出训练数据和测试数据2 建立模型3 变量重要性分析4 开始预测结论 1 介绍这是我第一次尝试使用 Kaggle 脚本。经过一段时间在 Kaggle 上的浏览和阅读其他用户写的脚本后,我决定对泰坦尼克号事件情况数据集进行分析。在此期间我也将生成一些数
转载
2023-11-24 10:11:50
70阅读
看到全部是英文,我的内心咯噔一声,瞬间没有想看的欲望了,但是,得努力跑完代码,我也只能努把力耐心地往下看。以下是我的学习之旅 第一步是导入数据。 kaggle网站里的代码是下面这样的# Load data
##### Load train a
转载
2024-01-08 00:01:16
40阅读
# Python与泰坦尼克号幸存者分析:数据科学的魅力
在数据科学的世界中,Python因为其易用性和丰富的库而受到广泛欢迎。数据分析师和科学家们常常使用Python来处理和可视化数据。本文将通过一个有趣的实例,即“泰坦尼克号幸存者分析”,来展示Python在数据分析中的应用。
## 1. 背景介绍
泰坦尼克号是历史上著名的邮轮,它于1912年在北大西洋沉没。此次悲剧导致1500多人遇难,因
原创
2024-09-28 04:00:03
85阅读
泰坦尼克号乘客生存预测(XGBoost)1. 案例背景2. 步骤分析3. 代码实现 1. 案例背景泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些
转载
2024-01-11 11:02:42
60阅读
文章目录前言步骤1. 导入库2. 使用pandas来读取csv文件3. 对csv文件的信息进行探索4. 数据的预处理4.1 将对训练模型无关的特征进行删除4.2 将所有非数字类型的特征转为数字类型的特征4.3 统一数据的数量5. 对数据集进行拆分,将数据特征和标签进行分离(survived结果和其余的数据进行分离)6. 对数据集进行训练集和测试集的划分7. 对划分的测试集和训练集进行序号的重新编
转载
2024-10-08 12:56:46
136阅读
在本博文中,我们将详细介绍如何使用Python实现泰坦尼克号幸存者分类的项目。这是一个经典的数据科学项目,涉及逻辑回归和数据预处理等技术,旨在预测乘客的生存概率。接下来,我们会看到每一步的环境准备、集成步骤、配置详解、实战应用、排错指南和性能优化。
## 环境准备
为了顺利运行本项目,我们需要准备相应的技术栈,这些技术栈在数据处理、模型训练和评估方面相辅相成。
| 技术栈 | 版本
你的工作是预测一名乘客是否能够幸免于泰坦尼克号沉没。
对于测试集中的每个,您必须预测变量的0或1值。
比赛说明RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原
一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
转载
2024-04-27 14:35:02
461阅读
点赞
决策树 文章目录决策树1.概述1.1决策树是如何工作的2 DecisionTreeClassififier与红酒数据集2.1重要参数2.1.1 criterion2.1.2 random_state & splitter2.1.3 剪枝参数2.1.4 目标权重参数2.2 重要属性和接口3 DecisionTreeRegressor3.1 重要参数,属性及接口3.2 实例:一维回归的图像绘制
转载
2024-06-17 16:06:18
108阅读
今日锦囊特征锦囊:如何把“年龄”字段按照我们的阈值分段?我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类,18-30岁的作为一类,那么怎么用Python实现的呢?是的,我们还是用到我们的泰坦尼克号的数据集,对数据进行预处理操作,见下:# 导入相关库
import pandas as pd
import numpy a
转载
2023-11-07 13:14:56
104阅读
## 泰坦尼克号幸存者数据预处理指南
在数据科学和机器学习中,数据预处理是一个十分重要的步骤。针对泰坦尼克号幸存者数据,我们将通过几个步骤进行数据清洗和准备,以便后续分析或建模。下面是我们将执行的步骤列表。
### 数据预处理流程
| 步骤 | 描述 |
|----------------------
仅作为学习记录例子:泰坦尼克号幸存者预测1.导入库和数据集2.探索数据,数据预处理data.info()data.head()#显示前xx行,括号不写默认前5行 筛选特征#筛选特征
#axis=0,1 0是行 1是列
data.drop(['Name','Cabin'],inplace=True,axis=1)#可以一次性删除多列,inplace=True:新表覆盖旧表
#或者data=data
转载
2024-09-22 15:11:26
110阅读
对泰坦尼克号的数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#将警告不显示
import warnings
warnings.filterwarnings('ignore')
#导入测试集和训练
转载
2023-09-15 15:37:48
214阅读
项目背景电影《泰坦尼克号》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!2.提出问题泰坦尼克号生存率预测 :具有什么特征的人在泰坦尼克号中更容易存活?特征工程(feature engineering)是指从原始数据中提取特征并将其转
# 使用R语言分析泰坦尼克号数据
在这篇文章中,我们将学习如何使用R语言分析著名的泰坦尼克号数据集。通过几个简单的步骤,我们将能够加载数据,并进行基本的探索性数据分析。
## 整体流程
首先,让我们梳理一下整体的流程:
| 步骤 | 描述 |
|------|------|
| 1 | 安装并加载必要的R包 |
| 2 | 下载并加载泰坦尼克号数据集 |
| 3 | 数据
原创
2024-09-04 04:09:40
57阅读
泰坦尼克号幸存者预测是机器学习的经典案例,其涉及了众多机器学习会遇到的问题,回归难度也比较大。本次数据集来自kaggle,可从该地址https://www.kaggle.com/competitions/titanic/data自行下载。数据集格式为csv引入需要调取的库import pandas as pd
from sklearn.tree import DecisionTreeClassif
# 使用R语言分析泰坦尼克号数据:新手指南
在这篇文章中,我们将一起学习如何使用R语言分析关于泰坦尼克号的数据,特别是经典的“泰坦尼克号幸存者数据集”。这一项目适合初学者,借此机会,我们可以熟悉R语言的数据处理和可视化操作。我们将分为几个步骤进行讲解。
## 流程概述
首先,我们先看一下整个分析流程。下面是一个简单的步骤表:
| 步骤 | 描述 | 代码 |
|------|------|
对数似然回归(Logistic)对泰坦尼克号幸存者分类Logistic Regression 即为对数似然回归,它可以看做是一个最简单的人工神经网络。它是通过对数据进行拟合,从而选择一条线(超平面)将数据集分成两个部分,从而实现分类。文章目录对数似然回归(Logistic)对泰坦尼克号幸存者分类一、对数似然回归理论知识1. 定义超平面 (Hyper-Plane)2. 激活函数 (Active Function)3. 损失函数(Loss Function)4. 梯度下降 (Gradient Desce
原创
2021-08-31 13:41:39
578阅读