数据准备import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from __future__ import division
from scipy import stats
import seaborn as sns
import pand
转载
2024-01-25 17:30:16
121阅读
这是Kaggle的一道题,这里使用决策树完成预测,方便起见就直接在jupyter lab上来做这题了。1、首先导入需要的包#1、导包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score #交叉验证
from
转载
2024-01-12 22:19:01
104阅读
简介Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如下:PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket
转载
2023-11-16 20:32:36
74阅读
Kaggle入门之泰坦尼克号生还预测Kaggle网址:https://www.kaggle.com/ 数据集下载地址:https://github.com/Hujiang213/Kaggle-Titanic比赛说明RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲
转载
2023-10-19 09:05:50
135阅读
持续优化中~~~研究背景:泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
上一篇数据分析案例是回归问题,本次案例带来分类问题的 机器学习案例。这个数据集比上个案例更小、更简单,代码也不复杂,新手都可以学一学。1、背景分析预测乘客是否存活下来泰坦尼克号是数据科学机器学习领域很经典的数据集,在统计学里面也有很多案例,比如拟合优度检验,方差分析等等。其背景就是当年泰坦尼克号上那么多人,灾难发生后,有人生存有人死亡,而且每个人都有很多不同的特征,比如性别,年龄,船仓
转载
2024-08-26 09:18:55
152阅读
在这里主要展示数据的预处理过程,以及对于生还情况与各特征之间的关系。1.数据探索我们首先对样本数据集的结构,规律和质量进行了分析,从数据质量分析和数据特征分析等两个角度进行展开。1.1 数据质量分析训练集train.csv中样本共891个,包括以下12个特征:特征名含义PassengerID乘客IDSurvived是否生还Pclass船舱级别Name姓名Sex性别Age年龄SibSp兄弟姐妹与配偶
转载
2024-04-26 13:16:23
124阅读
在前面的几篇文章中,笔者陆续介绍了几种决策树的生成算法以及常见的集成模型。接下来在这篇文章中,笔者将以泰坦尼克号生还预测(分类)为例来进行实战演示;并且还会介绍相关的数据预处理方法,例如缺失值填充和类
原创
2021-12-28 16:34:55
427阅读
介绍泰坦尼克号是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克号灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善
转载
2024-07-22 11:15:44
65阅读
相应的数据集和可执行文件均可以在本文中获取。以下各段代码也均可在jupyter中运行,可以随时查看结果。题目描述: 1912年,泰坦尼克号在第一次航行中就与冰山相撞沉没,导致了大部分乘客和船员身亡。在这个项目中,我们将探索部分泰坦尼克号旅客名单,来确定哪些特征可以最好地预测一个人是否会生还。分析数据import numpy as np #导入包
import pandas as pd
# 加载数
转载
2023-10-23 09:05:40
237阅读
在前面的几篇文章中,笔者陆续介绍了几种决策树的生成算法以及常见的集成模型
原创
2022-01-25 10:14:48
335阅读
持续优化中~~~研究背景:泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
1 首先统计总的死亡人数和幸存人数对比 (柱状图和饼图)import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei'] # SimHei是黑体的意思
df = pd.read_csv(
转载
2024-01-08 22:30:08
481阅读
import pandas #ipython notebook
titanic = pandas.read_csv("titanic_train.csv")
titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age)
titanic.describe()
转载
2023-08-02 13:51:20
183阅读
【目录】kaggle介绍项目练手:泰坦尼克号收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出
转载
2023-11-04 13:12:48
304阅读
文章目录1. 数据维度介绍2.提出问题3.数据分析1.船员生存情况概览2.生存情况与性别之间的关系3.生存情况与乘客等级之间的关系4.年龄与乘客生存情况的关系5.年龄、性别、乘客等级与生存率之间的关系4.建模学习1.数据清洗2.哑变量处理3.划分数据,训练模型、模型预测5.总结 1. 数据维度介绍该数据集主要以下维度:PassengerId => 乘客IDSurvived=>是否生存
转载
2024-01-30 05:57:55
130阅读
# 用Python分析泰坦尼克号沉船数据
泰坦尼克号是一艘著名的豪华客轮,它在1912年首次航行时撞上了冰山,导致1500多名乘客和船员遇难。这个悲剧引发了人们对海上安全的广泛关注。同时,泰坦尼克号也成为了数据分析和机器学习领域的重要案例。在本文中,我们将使用Python分析泰坦尼克号的数据,并尝试预测乘客的生存机会。
## 数据集介绍
我们将使用Kaggle上提供的“泰坦尼克号”数据集。这
# 基于Python的“泰坦尼克号”项目指导
欢迎来到“泰坦尼克号Python”项目的学习之旅!这个项目旨在使用Python分析泰坦尼克号乘客数据,预测哪些乘客可能生还。下面的文章将指引你一步步完成这个项目。
## 项目流程
在开始我们的项目之前,让我们先概述一下整个流程。以下是完成泰坦尼克号项目的步骤表:
| 步骤 | 描述
前言 这个是Kaggle比赛中泰坦尼克号生存率的分析。强烈建议在做这个比赛的时候,再看一遍电源《泰坦尼克号》,可能会给你一些启发,比如妇女儿童先上船等。所以是否获救其实并非随机,而是基于一些背景有先后顺序的。1,背景介绍 1912年4月15日,载着1316号乘客和891名船员的豪华巨轮泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一
转载
2023-12-13 22:22:13
318阅读
python对titanic进行数据分析 一、数据描述 1、数据解释 • survival:这个人幸存下来了,这也是我们要预测的值 • pclass:就是这个人做的是不是头等仓, class 1 = 1st, 2 = 2nd, 3 = 3rd
转载
2021-06-18 16:38:00
269阅读