机器学习实测 titanic 数据首先我们需要三个数据集 这里我放在了一个github里面。数据集地址 这里包含了三个csv文件。如下: ↓第一个包含部分 id 与存活,也就是我们要的test。第二个文件也是test第三个文件是我们需要的训练集 也就是train 我们需要从以上三个文件中分离出需要的一下数据。X_train,y_train X_test,y_test我们需要的步骤: 机器学习 对t
一、前序1. 数据介绍在Kaggle举行了很多数据分析比赛,其中比较著名的就有泰坦尼克乘客生还预测,主要分析在泰坦尼克事件中,存活下来的人主要特征是什么。该数据集共有数据量1309,其中训练集的大小为891,测试集大小为418。数据一共12个特征,如下所示: PassengerId: 乘客编号 Survived :存活情况(存活:1 ; 死亡:0) Pclass : 客舱等级 Name : 乘
承接上篇豆瓣数据分析本次主要是进行以下内容:1.泰坦尼克数据分析,主要分析哪些特征影响了乘客的获救和遇难,是年龄?是性别?#泰坦尼克数据集导入titanic_df = sns.load_dateset("titanic")#查看前5行数据titanic_df.head()输出结果泰坦尼克数据前5行#查看列名titanic_df.columns.values.tolist()输出结果泰坦尼克数据
泰坦尼克生存预测是Kaggle举办的一项数据挖掘比赛,目的是根据给定的乘客信息来预测该乘客最终是否可以存活下来。泰坦尼克生存预测是Kaggle竞赛的入门案例,同时也是机器学习的经典案例,今天我们用Python3结合机器学习库sklearn进行分析。导入用到的库import pandas as pd import numpy as np import matplotlib.pyplot as p
泰坦尼克数据可视化分析报告1. 提出问题泰坦尼克作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克项目界面下载数据:Kaggle泰坦尼克项目2.2 导入数据import numpy as npimport pandas as pdtrain = pd.r
前几节分享的内容都是基于图片数据进行了简单的分类工作,这节内容将应用keras对泰坦尼克旅客的文本数据进行预测,主要是做一个二分类的工作,根据官方提供的数据中的各项特征预测每个旅客生存的概率是多少。一.Titanic3数据集的下载1.导入相关使用到的库。这里的urllib库的作用主要是用于下载数据,os库用于判断文件是否存在,sklearn的preprocessing用于对文本数据进行预处理。im
最终目的:建立模型预测乘客是否生还import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 不用写plt.show() %matplotlib inline #路径根据自己的数据放置位置表示 titanic=pd.read_csv('H://data.csv')
泰坦尼克数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd import numpy as np import matplotlib.pyplot as plt #将警告不显示 import warnings warnings.filterwarnings('ignore') #导入测试集和训练
一、提出问题泰坦尼克是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克便遭厄运。本文准备预测泰坦尼克中乘客的生存概率。二、理解数据言归正传,首先登陆kaggle官网: Titanic: Machine Learning from Disasterwww.kaggle.com 该文中有项目的详细介绍,在这里可下载后面学习需要的
一、前言RMS泰坦尼克的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。这篇博客运用了机器学习的相
转载 2024-02-02 09:47:11
573阅读
1点赞
本文介绍Kaggle入门比赛Titanic泰坦尼克幸存预测的解题思路,使用的是神经网络和Tensorflow框架。基本思路为:导入数据集对数据预处理训练预测并输出结果一、入门介绍1. 比赛介绍        Kaggle是一个数据建模和数据分析竞赛平台。     &n
转载 2023-08-09 18:13:53
106阅读
1、问题什么样的人在泰坦尼克中更容易存活?2、理解数据从Kaggle泰坦尼克项目页面下载数据:https://www.kaggle.com/c/titanic# 忽略警告提示 import warnings warnings.filterwarnings('ignore') #导入处理数据包 import numpy as np import pandas as pd#导入数据 #训练数据
泰坦尼克生存率预测使用了CNN\RNN\LSTM\GRU版本:https://github.com/yingdajun/titanicDL
原创 2021-09-08 09:09:37
996阅读
概述1912年4月15日,泰坦尼克在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果。从kaggle泰坦尼克生存
泰坦尼克生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
kaggle项目初探,使用机器学习包sklearn 预测泰坦尼克乘客生存率生存率预测是分类问题,使用逻辑回归。提出问题(Business Understanding )理解数据(Data Understanding)数据清洗(Data Preparation )特征工程(Feature Engineering)获取相关系数(Correlation)构建模型(Modeling) 模
假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克乘客的存活情况。对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多。然后就是自己写的时候还看了下别人的做法,特别是国外的文章,写得很详细,逻辑特别清晰,还把不同算法的结果给你列出来,最后选择了最优算法。好佩服,希望自己以后也有这样的能力。我会把参考资料的网址放在需要查看的地方。train和test两个文件可以自己
上学期尝试着去做的一个python关于数据处理的项目,主要过程包括数据预处理、特征提取、特征选择、模型构建与求解,每一部分都有详细的分析和总结。由于时间原因,没有考虑文章的排版以及可能忽略了一些细节,欢迎大家一起学习交流~泰坦尼克生存率预测通过数据堆叠、数据清洗、特征提取、特征选择、构建模型等方法,实现对泰坦尼克生存人数的预测。1、提出问题 已给的数据包含训练数据和测试数据,其中训练数据维度为
泰坦尼克幸存预测本次项目主要围绕Kaggle上的比赛题目: “给出泰坦尼克上的乘客的信息, 预测乘客是否幸存” 进行数据分析。内容主要是通过jupter notebook,利用numpy,pandas,matplotlib三个库对乘客信息与幸存情况之间的研究。目录1、项目背景2、数据概览3、特征分析4、特征工程5、构建模型1、项目背景泰坦尼克: 是当时世界上体积最庞大、内部设施最豪华的客运轮
  • 1
  • 2
  • 3
  • 4
  • 5