介绍:通过逻辑回归算法,解决kaggle网站上的泰坦尼克生存情况预测问题,准确率在80%左右。一、提出问题什么样的人在泰坦尼克号中更容易存活?二、理解数据2.1 数据来源数据来自kaggle,为方便大家联习,已经上传至百度云,点击下载就即可。链接:https://pan.baidu.com/s/1N_rSAUxJRDm02wtWv4_jBQ 提取码:g474 2.2 导入数据 #忽
 最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。     数据挖掘的一般过程是:数据预览——>数据预处理(缺失值、离散值等)——>变量转换
具体详细可参考该篇博文:七、加载数据集①准备数据集以泰坦尼克数据集(titanic.csv)为例 下载完解压,将解压后得到的压缩包放到指定的路径下,我这边放到了我的jupyter里面了里面有一些文本信息,仅使用数字信息,由于age有点缺失,故也不能用 输入:PassengerId、Pclass、SibSp、Parch、Fare 输出:Survived;1存活,0嘎了使用Pandas对数据进行处理
数据集来源于kaggle经典竞赛数据集 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
案例:泰坦尼号数据分析背景:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。 海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。数据集描述
转载 2023-08-13 15:31:06
673阅读
泰坦尼克号(RMS Titanic),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在她的处女航中,泰坦尼克号便遭厄运——她从英国南安普敦出发,途经法国瑟堡-奥
数据挖掘实战 —— 泰坦尼克号一、数据指导二、数据源三、理解数据3.1 导包3.2 读取数据3.3 属性介绍四、 填充缺失数据4.1 处理age属性五、分析描述数据5.1 幸存比例5.2 幸存男女比例5.3 幸存年龄比例5.4 身份地位幸存比例5.5 家庭人数幸存比例5.6 特征相关 一、数据指导# 一、目的:根据已有数据预测未知旅客生死; # 二、数据准备:数据获取,载入train.csv;
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
1.提出问题什么样的人在泰坦尼克号中更容易存活?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目页面下载数据:Titanic: Machine Learning from Disaster2.2 导入数据 #导入处理数据包 import numpy as np import pandas as pd import matplotlib.pyplot as plt #训练数据
连续变量对获救情况的影响Age–> 连续值特征对结果的影响print('Oldest Passenger was of:',data['Age'].max(),'Years') print('Youngest Passenger was of:',data['Age'].min(),'Years') print('Average Age on the ship:',data['Age'].m
1.题目这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还。题目练习的要点是语言和数据分析的基础内容(比如python、numpy、pandas等)以及二分类算法。数据集包含3个文件:train.csv(训练数据)、test.csv(测
今天我们使用pandas进行泰坦尼克号幸存情况的分析,我们希望从掌握的数据中能发现一些规律性的东西,来解释什么样的旅客更容易活下来?¶import pandas as pddf=pd.read_csv("data/titanic_train.csv")df.head() 1 旅客幸存率的分析¶ 2 生存关键因素分析 从现有的数据型变量之间的相关性分
目录Titanic泰坦尼克数据集入门简介准备工作数据加载与探索数据清洗与处理特征工程与建模结果评估与优化总结Titanic泰坦尼克数据集入门1. 导入数据2. 数据清洗3. 数据分析和可视化4. 预测生还率Titanic泰坦尼克数据集入门简介泰坦尼克号是一艘英国豪华轮船,于1912年4月15日在首次航行时沉没。这场海难造成了非常多的生命损失,同时也引起了全球范围的轰动。Titanic数据集是一个广
在kaggle 上下载泰坦尼克数据,完成数据挖掘部分的作业。泰坦尼克号是许多数据科学和机器学习的新手比较喜欢选择的案例。 数据说明:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。 1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全规定。造成海难失事的原因之一是
虽然到处都是泰坦尼克号生存预测的案例,但是还是要再来一遍。哈哈哈。作为入门还是可以的。此篇文章为新手小白入门,大佬请指点。文章较长,下面进入正题。目录提出问题(Business Understanding )理解数据(Data Understanding)采集数据导入数据查看数据集信息3.数据清洗(Data Preparation )数据预处理特征工程(Feature Enginee
这里写自定义目录标题泰坦尼克号Titanic读入数据1、读取数据2、读入csv\excel\txt数据可视化分析数据分析1、数据处理—特征工程(feature engineering)2、线性回归3、逻辑回归4、随机森林 泰坦尼克号TitanicKaggle项目之泰坦尼克号titanic实践与相关知识点总结读入数据1、读取数据pandas是常用的python数据处理包 ,它能够把csv文件读入
接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解过拟合、交叉验证、TF-IDF、词向量等等术语,不断地加深对数据挖掘的认知,而本次泰坦尼克-数据挖掘项目,算是另一
泰坦尼克号1.前言本文是学习数据挖掘和机器学习模型的运用的一点笔记。2.数据阅读2.1 背景本题背景为泰坦尼克号,探索成功逃生的人和什么因素有关。2.2 特征数据分为:PassengerId: 编号 IDSurvived: 标签:是否存活Pclass: 座位阶级Name: 姓名Sex, Age: 性别年龄SibSp, Parch: 兄妹/父母小孩数Ticket: 船票信息 (应该没用)Fare:
泰坦尼克数据集描述:  案例数:1309  特征数:14个,包括年龄,性别,舱位等  总存活率:38%整个分析分为两部分:一是根据性别和舱位进行统计描述推断,二是对幸存进行预测统计描述部分只详细看仓位和性别这两个特征值,以及它们的联合起来对幸存率的影响,我们通过简单的三张统计表格就可以发现数据具有欺骗与真实的双面性。 从男女各自的总幸存率看,男女幸存比大约为1:2,单从这点看男女幸存的比
作者 | 刘早起翻译/编辑 | 早起Python很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。目录项目背
  • 1
  • 2
  • 3
  • 4
  • 5