机器学习实测 titanic 数据首先我们需要三个数据集 这里我放在了一个github里面。数据集地址 这里包含了三个csv文件。如下: ↓第一个包含部分 id 与存活,也就是我们要的test。第二个文件也是test第三个文件是我们需要的训练集 也就是train 我们需要从以上三个文件中分离出需要的一下数据。X_train,y_train
X_test,y_test我们需要的步骤:
机器学习 对t
转载
2023-12-03 09:01:36
71阅读
泰坦尼克号生存预测是Kaggle举办的一项数据挖掘比赛,目的是根据给定的乘客信息来预测该乘客最终是否可以存活下来。泰坦尼克号生存预测是Kaggle竞赛的入门案例,同时也是机器学习的经典案例,今天我们用Python3结合机器学习库sklearn进行分析。导入用到的库import pandas as pd
import numpy as np
import matplotlib.pyplot as p
转载
2023-12-22 20:06:50
375阅读
承接上篇豆瓣数据分析本次主要是进行以下内容:1.泰坦尼克号的数据分析,主要分析哪些特征影响了乘客的获救和遇难,是年龄?是性别?#泰坦尼克数据集导入titanic_df = sns.load_dateset("titanic")#查看前5行数据titanic_df.head()输出结果泰坦尼克数据前5行#查看列名titanic_df.columns.values.tolist()输出结果泰坦尼克数据
转载
2023-09-13 13:01:57
131阅读
一、前序1. 数据介绍在Kaggle举行了很多数据分析比赛,其中比较著名的就有泰坦尼克号乘客生还预测,主要分析在泰坦尼克号事件中,存活下来的人主要特征是什么。该数据集共有数据量1309,其中训练集的大小为891,测试集大小为418。数据一共12个特征,如下所示: PassengerId: 乘客编号 Survived :存活情况(存活:1 ; 死亡:0) Pclass : 客舱等级 Name : 乘
转载
2024-05-29 21:50:01
317阅读
最终目的:建立模型预测乘客是否生还import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# 不用写plt.show()
%matplotlib inline
#路径根据自己的数据放置位置表示
titanic=pd.read_csv('H://data.csv')
转载
2024-08-23 10:47:06
104阅读
对泰坦尼克号的数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#将警告不显示
import warnings
warnings.filterwarnings('ignore')
#导入测试集和训练
转载
2023-09-15 15:37:48
214阅读
前几节分享的内容都是基于图片数据进行了简单的分类工作,这节内容将应用keras对泰坦尼克旅客的文本数据进行预测,主要是做一个二分类的工作,根据官方提供的数据中的各项特征预测每个旅客生存的概率是多少。一.Titanic3数据集的下载1.导入相关使用到的库。这里的urllib库的作用主要是用于下载数据,os库用于判断文件是否存在,sklearn的preprocessing用于对文本数据进行预处理。im
转载
2024-07-30 10:23:52
108阅读
本文介绍Kaggle入门比赛Titanic泰坦尼克号幸存预测的解题思路,使用的是神经网络和Tensorflow框架。基本思路为:导入数据集对数据预处理训练预测并输出结果一、入门介绍1. 比赛介绍 Kaggle是一个数据建模和数据分析竞赛平台。 &n
转载
2023-08-09 18:13:53
106阅读
泰坦尼克号数据可视化分析报告1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据import numpy as npimport pandas as pdtrain = pd.r
转载
2023-06-06 20:30:46
199阅读
1、问题什么样的人在泰坦尼克号中更容易存活?2、理解数据从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic# 忽略警告提示
import warnings
warnings.filterwarnings('ignore')
#导入处理数据包
import numpy as np
import pandas as pd#导入数据
#训练数据集
转载
2024-02-25 10:10:02
105阅读
一、前言RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。这篇博客运用了机器学习的相
转载
2024-02-02 09:47:11
573阅读
点赞
泰坦尼克号生存率预测使用了CNN\RNN\LSTM\GRU版本:https://github.com/yingdajun/titanicDL
原创
2021-09-08 09:09:37
996阅读
泰坦尼克号幸存预测本次项目主要围绕Kaggle上的比赛题目: “给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存” 进行数据分析。内容主要是通过jupter notebook,利用numpy,pandas,matplotlib三个库对乘客信息与幸存情况之间的研究。目录1、项目背景2、数据概览3、特征分析4、特征工程5、构建模型1、项目背景泰坦尼克号: 是当时世界上体积最庞大、内部设施最豪华的客运轮
转载
2024-08-09 09:52:36
63阅读
缺失值分析处理可视化&数据分析代码importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsimportwarningswarnings.filterwarnings('ignore')train = pd.read_csv("train.csv")test =&n
原创
2022-10-23 21:57:21
454阅读
1评论
一、提出问题泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运。本文准备预测泰坦尼克号中乘客的生存概率。二、理解数据言归正传,首先登陆kaggle官网: Titanic: Machine Learning from Disasterwww.kaggle.com
该文中有项目的详细介绍,在这里可下载后面学习需要的
转载
2023-11-07 16:15:14
114阅读
持续优化中~~~研究背景:泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克号在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
一、题目https://www.kaggle.com/c/titanic二、编程环境准备(一)操作系统:Win 10(
原创
2022-10-10 21:14:22
403阅读
上学期尝试着去做的一个python关于数据处理的项目,主要过程包括数据预处理、特征提取、特征选择、模型构建与求解,每一部分都有详细的分析和总结。由于时间原因,没有考虑文章的排版以及可能忽略了一些细节,欢迎大家一起学习交流~泰坦尼克号生存率预测通过数据堆叠、数据清洗、特征提取、特征选择、构建模型等方法,实现对泰坦尼克号生存人数的预测。1、提出问题 已给的数据包含训练数据和测试数据,其中训练数据维度为
转载
2023-11-30 12:54:09
72阅读
一、决策树简介1.1 什么是决策树?决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。举个例子说明 好多男生不理解的是为什么把年龄放在最上面判断???而不是长相呢?1.2 决策树的划分依据熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者
文章目录一、探索性数据分析(1)创建一个模拟数据(2)排序(3)利用Pandas进行算术计算
一、探索性数据分析主要介绍利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。(1)创建一个模拟数据#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),