这是Kaggle的一道题,这里使用决策树完成预测,方便起见就直接在jupyter lab上来做这题了。1、首先导入需要的包#1、导包 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import cross_val_score #交叉验证 from
简介Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如下:PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket
转载 2023-11-16 20:32:36
72阅读
Kaggle入门之泰坦尼克生还预测Kaggle网址:https://www.kaggle.com/ 数据集下载地址:https://github.com/Hujiang213/Kaggle-Titanic比赛说明RMS泰坦尼克的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲
持续优化中~~~研究背景:泰坦尼克的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
持续优化中~~~研究背景:泰坦尼克的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
转载 1月前
583阅读
在前面的几篇文章中,笔者陆续介绍了几种决策树的生成算法以及常见的集成模型。接下来在这篇文章中,笔者将以泰坦尼克生还预测(分类)为例来进行实战演示;并且还会介绍相关的数据预处理方法,例如缺失值填充和类
原创 2021-12-28 16:34:55
427阅读
在前面的几篇文章中,笔者陆续介绍了几种决策树的生成算法以及常见的集成模型
原创 2022-01-25 10:14:48
335阅读
数据准备import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt from __future__ import division from scipy import stats import seaborn as sns import pand
 上一篇数据分析案例是回归问题,本次案例带来分类问题的 机器学习案例。这个数据集比上个案例更小、更简单,代码也不复杂,新手都可以学一学。1、背景分析预测乘客是否存活下来泰坦尼克是数据科学机器学习领域很经典的数据集,在统计学里面也有很多案例,比如拟合优度检验,方差分析等等。其背景就是当年泰坦尼克上那么多人,灾难发生后,有人生存有人死亡,而且每个人都有很多不同的特征,比如性别,年龄,船仓
在这里主要展示数据的预处理过程,以及对于生还情况与各特征之间的关系。1.数据探索我们首先对样本数据集的结构,规律和质量进行了分析,从数据质量分析和数据特征分析等两个角度进行展开。1.1 数据质量分析训练集train.csv中样本共891个,包括以下12个特征:特征名含义PassengerID乘客IDSurvived是否生还Pclass船舱级别Name姓名Sex性别Age年龄SibSp兄弟姐妹与配偶
转载 2024-04-26 13:16:23
124阅读
相应的数据集和可执行文件均可以在本文中获取。以下各段代码也均可在jupyter中运行,可以随时查看结果。题目描述: 1912年,泰坦尼克在第一次航行中就与冰山相撞沉没,导致了大部分乘客和船员身亡。在这个项目中,我们将探索部分泰坦尼克旅客名单,来确定哪些特征可以最好地预测一个人是否会生还。分析数据import numpy as np #导入包 import pandas as pd # 加载数
转载 2023-10-23 09:05:40
237阅读
数据集下载地址:https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv视频地址:http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&courseId=1003551009&nbs
1 首先统计总的死亡人数和幸存人数对比 (柱状图和饼图)import numpy as np import pandas as pd import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] # SimHei是黑体的意思 df = pd.read_csv(
  机器学习工程师纳米学位¶ 机器学习基础¶ 项目 0: 预测泰坦尼克乘客生还率¶ 1912年,泰坦尼克在第一次航行中就与冰山相撞沉没,导致了大部分乘客和船员身亡。在这个入门项目中,我们将探索部分泰坦尼克旅客名单,来确定哪些特征可以最好地预测一个人是否会生还。为了完成这个项目,你将需要实现几个基于条件的预测并回答下面的问题。我们将根据代码的完成度和对问题的解答来对你提交的
泰坦尼克幸存预测本次项目主要围绕Kaggle上的比赛题目: “给出泰坦尼克上的乘客的信息, 预测乘客是否幸存” 进行数据分析。内容主要是通过jupter notebook,利用numpy,pandas,matplotlib三个库对乘客信息与幸存情况之间的研究。目录1、项目背景2、数据概览3、特征分析4、特征工程5、构建模型1、项目背景泰坦尼克: 是当时世界上体积最庞大、内部设施最豪华的客运轮
文章目录数据引入和初步分析csv数据引入和概览初步探索分析PclassSexNameSibSpParchEmbarkedFare可视化分析AgeAge & SexPclass & AgePclass & Sex & EmbarkedEmbarked & Sex & Fare数据整理PassengerIdTitle将分类值转变为数值以便模型分析和预测
泰坦尼克号数据处理【1】 实验目录1 解释步骤2 处理数据3 数据可视化4 修改数据5 训练模型【2】 实验步骤1 解释步骤* 识别和定义问题 * 获取训练和测试数据 * 质疑,准备,清理数据 * 分析,识别模式并探索数据 * 建模,预测并解决问题 * 可视化,报告并提出问题解决步骤和最终解决方案 * 提供并提交结果首先了解一下问题的定义:在泰坦尼克沉船事 件中,有人幸存了就有人牺
本文主要用kaggle网站上的泰坦尼克生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在泰坦尼克中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信
Kaggle-入门比赛-泰坦尼克import pandas as pd import matplotlib.pyplot as plt train_data = pd.read_csv("data/train.csv") test_data = pd.read_csv("data/test.csv")数剧清洗# 检查缺失值 # 观察到有三个类的数据有缺失 train_data.isnull()
原标题:Kaggle Titanic 生存预测比赛超完整笔记(下)本文作者大树先生,首发于作者的知乎专栏《机器学习之路》, AI研习社获其授权发布。一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。总的来说收获
转载 2024-07-24 08:22:15
52阅读
  • 1
  • 2
  • 3
  • 4
  • 5