今天,拿Kaggle中的项目来实战演练下:泰坦尼克船员获救预测,先看下项目的基本描述:Competition Description项目描述The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her maiden voyage, th
持续优化中~~~研究背景:泰坦尼克的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
转载 1月前
583阅读
泰坦尼克幸存预测本次项目主要围绕Kaggle上的比赛题目: “给出泰坦尼克上的乘客的信息, 预测乘客是否幸存” 进行数据分析。内容主要是通过jupter notebook,利用numpy,pandas,matplotlib三个库对乘客信息与幸存情况之间的研究。目录1、项目背景2、数据概览3、特征分析4、特征工程5、构建模型1、项目背景泰坦尼克: 是当时世界上体积最庞大、内部设施最豪华的客运轮
缺失值分析处理可视化&数据分析代码importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsimportwarningswarnings.filterwarnings('ignore')train = pd.read_csv("train.csv")test =&n
原创 2022-10-23 21:57:21
454阅读
1评论
持续优化中~~~研究背景:泰坦尼克的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
上学期尝试着去做的一个python关于数据处理的项目,主要过程包括数据预处理、特征提取、特征选择、模型构建与求解,每一部分都有详细的分析和总结。由于时间原因,没有考虑文章的排版以及可能忽略了一些细节,欢迎大家一起学习交流~泰坦尼克生存预测通过数据堆叠、数据清洗、特征提取、特征选择、构建模型等方法,实现对泰坦尼克生存人数的预测。1、提出问题 已给的数据包含训练数据和测试数据,其中训练数据维度为
一、决策树简介1.1 什么是决策树?决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。举个例子说明 好多男生不理解的是为什么把年龄放在最上面判断???而不是长相呢?1.2 决策树的划分依据熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者
#导入2个Python常用数据分析的库import numpy as npimport pandas as pd#将数据源文件读取#注意Windows环境下,需要用r转义一下,不然读取不进来train = pd.read_csv(r"C:甥敳獲AdministratorDesktoprain.csv")test = pd.read_csv(r"C:甥敳獲AdministratorDesktopes
```markdown 在开发和分析“泰坦尼克生存预测Python”项目时,用户关注的是通过历史数据预测乘客的生存几率。本文将详细记录问题背景、错误现象、根因分析、解决方案、验证测试和预防优化的全过程。 ### 用户场景还原 在一个数据科学竞赛中,用户希望构建一个模型来预测泰坦尼克沉没事件中,乘客的生存几率。该项目通过分析乘客的性别、年龄、船舱等级等特征来实现。 关于计算相关的数学公
原创 6月前
49阅读
前段时间学习了吴恩达的机器学习课程,然后蠢蠢欲动想要有所体验机器学习,于是上kaggle来体验了一下入门比赛-泰坦尼克生存预测。在kaggle上下载了项目训练集,就可以开始动手啦本文仅仅是新手入门,hhh1.数据初探import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as
数据集下载链接:https://pan.baidu.com/s/1f6x0ZHlAdwch52rHKDYBgA 提取码:9hgz数据集简介PassengerId: 乘客ID Survived: 是否生存,0代表遇难,1代表还活着 Pclass: 船舱等级:1Upper,2Middle,3Lower Name: 姓名 Sex:性别 Age: 年龄 SibSp: 兄弟姐妹及配偶个数 Parch:父母或
边境的悍匪—Kaggle—泰坦尼克生还预测详细教程前言项目介绍前期准备加载数据初步分析数据清洗数据分析特征转换建模与调优模型训练与预测总结 前言最近在学习机器学习,想要把学习到的知识运用到实践中,找了很多地方终决定使用kaggle上的数据集。文章主要描述第一次加入到kaggle中完整的完成对泰坦尼克号数据挖掘、分析到预测,最后上传到平台获取分数的一个过程。该项目是博主的第一个kaggle项目,
承接上篇豆瓣数据分析本次主要是进行以下内容:1.泰坦尼克的数据分析,主要分析哪些特征影响了乘客的获救和遇难,是年龄?是性别?#泰坦尼克数据集导入titanic_df = sns.load_dateset("titanic")#查看前5行数据titanic_df.head()输出结果泰坦尼克数据前5行#查看列名titanic_df.columns.values.tolist()输出结果泰坦尼克数据
在第一节“Python-数据清洗与分析案例之泰坦尼克(一)”网址:https://www.lixdx.cn/archives/93 中进行了数据清洗与缺失值填充,接下来进行数据可视化分析,找到生存率的影响因素。注意:本章中年龄的缺失值为案例分析(一)中用年龄和舱位的中位数的值填充。提出问题:什么因素会影响乘客的生还率?影响乘客生还率的因素很多,这里只讨论乘客的性别、年龄以及舱位是否对生还率产生影
一、前序1. 数据介绍在Kaggle举行了很多数据分析比赛,其中比较著名的就有泰坦尼克乘客生还预测,主要分析在泰坦尼克事件中,存活下来的人主要特征是什么。该数据集共有数据量1309,其中训练集的大小为891,测试集大小为418。数据一共12个特征,如下所示: PassengerId: 乘客编号 Survived :存活情况(存活:1 ; 死亡:0) Pclass : 客舱等级 Name : 乘
泰坦尼克生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
泰坦尼克生存预测是Kaggle举办的一项数据挖掘比赛,目的是根据给定的乘客信息来预测该乘客最终是否可以存活下来。泰坦尼克生存预测是Kaggle竞赛的入门案例,同时也是机器学习的经典案例,今天我们用Python3结合机器学习库sklearn进行分析。导入用到的库import pandas as pd import numpy as np import matplotlib.pyplot as p
原创 lightcity 光城 2018-10-24泰坦尼克生存预测(2)0.说在前面1.数据预处理2.特征选择3.模型选择4.结果上传5.总结6.作者的话0.说在前面昨天写了一篇有关leetcode刷题的文章,今天接着上次的kaggle,进行特征选择,模型选择等的一系列步骤。关于进群交流的伙伴,可以点击公众右下角联系我,备注leetcode,进算法群;备注总群,进交流总群!这里放上上一节(
c++
转载 2021-03-18 13:47:08
345阅读
泰坦尼克生存预测(1) 0.说在前面1.数据预处理2.作者的话0.说在前面有几天没更新机器学习了,我终于来更新了,对的,你今天看到的就是机器学习系列内容!上...
在指定网址下载文件,并放到指定目录 import urllib.request import os url = "xxxxx" data_path = "D:/xxx" if not os.path.isfile(data_path): # 如果不存在文件 ret = urllib.request. ...
转载 2021-07-23 11:27:00
295阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5