一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
泰坦尼克之灾案例是Kaggle入门的案例,本篇分析是参照https://github.com/Speedml/notebooks/blob/master/titanic/titanic-data-science-solutions-refactor.ipynb来写的,分析思路和代码很详细,本篇文章的代码地址https://github.com/LuLane/titanic;一:确定任务和目标首先先
Kaggle之泰坦尼克(1)问题: 1912 年 4 月 15 日,泰坦尼克沉没,船上的每个人都没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。虽然幸存下来有一些运气因素,但似乎有些人比其他人更有可能幸存下来。构建一个预测模型来回答这个问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)可用数据集:训练集(train.csv)测试集(te
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
转载 2023-12-28 10:01:12
320阅读
泰坦尼克代码简单分析流程分析 1、导入相关库和类 2、获取数据 3、数据处理 4、数据集划分 5、特征工程 6、决策树预估 7、模型评估内容介绍首先我们需要清楚我们的目标,就是通过船上乘客的信息分析和建模,预测哪些乘客得以生还。其次,我们在说明一下文件中各个英文单词的意思: PassengerId :乘客的id Survived :生存的标号,数值1表示这个人很幸运,生存了下来。数值0,则表示
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
 上一篇数据分析案例是回归问题,本次案例带来分类问题的 机器学习案例。这个数据集比上个案例更小、更简单,代码也不复杂,新手都可以学一学。1、背景分析预测乘客是否存活下来泰坦尼克是数据科学机器学习领域很经典的数据集,在统计学里面也有很多案例,比如拟合优度检验,方差分析等等。其背景就是当年泰坦尼克上那么多人,灾难发生后,有人生存有人死亡,而且每个人都有很多不同的特征,比如性别,年龄,船仓
【目录】kaggle介绍项目练手:泰坦尼克收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出
转载 2023-11-04 13:12:48
294阅读
# Python分析泰坦尼克沉船数据 泰坦尼克是一艘著名的豪华客轮,它在1912年首次航行时撞上了冰山,导致1500多名乘客和船员遇难。这个悲剧引发了人们对海上安全的广泛关注。同时,泰坦尼克也成为了数据分析和机器学习领域的重要案例。在本文中,我们将使用Python分析泰坦尼克的数据,并尝试预测乘客的生存机会。 ## 数据集介绍 我们将使用Kaggle上提供的“泰坦尼克”数据集。这
原创 9月前
135阅读
# 基于Python的“泰坦尼克”项目指导 欢迎来到“泰坦尼克Python”项目的学习之旅!这个项目旨在使用Python分析泰坦尼克乘客数据,预测哪些乘客可能生还。下面的文章将指引你一步步完成这个项目。 ## 项目流程 在开始我们的项目之前,让我们先概述一下整个流程。以下是完成泰坦尼克项目的步骤表: | 步骤 | 描述
原创 8月前
64阅读
介绍泰坦尼克是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善
连续变量对获救情况的影响Age–> 连续值特征对结果的影响print('Oldest Passenger was of:',data['Age'].max(),'Years') print('Youngest Passenger was of:',data['Age'].min(),'Years') print('Average Age on the ship:',data['Age'].m
Kaggle入门——Titanic(一)最近开始接触Kaggle,并且希望借此机会学习一下PyTorch,因此开坑一下这个系列,主要是借助PyTorch搭建模型来解决Kaggle的问题,由于PyTorch和Kaggle都是入门,所有错误在所难免,大家别当做什么入门宝典== 问题大致就是船倒了,旅客需要逃生,但是救生艇的数量是有限的,没有办法每个人都坐上救生艇,然后副船长说出了女士和小孩优先,由此可
泰坦尼克船员获救数据:    titanic_train.csvexcel打开数据集。显示如下:写在前边:np和pd.import pandas as pd #造pandas的别名为pd import numpy as np #造numpy的别名为np 一、读取数据import pandas as pd #造pandas的别名为pd i
转载 2024-04-23 08:38:11
88阅读
泰坦尼克号数据可视化分析报告1. 提出问题泰坦尼克作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克项目界面下载数据:Kaggle泰坦尼克项目2.2 导入数据import numpy as npimport pandas as pdtrain = pd.r
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
简介Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如下:PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket
转载 2023-11-16 20:32:36
72阅读
工作流程:在数据科学竞赛的解决问题的七个步骤:1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方案。(调参、优化)7.供应或提交结果。涉及相关算法:线性回归、逻辑回归、随机森林、模型融合。问题回顾:1
文章目录数据引入和初步分析csv数据引入和概览初步探索分析PclassSexNameSibSpParchEmbarkedFare可视化分析AgeAge & SexPclass & AgePclass & Sex & EmbarkedEmbarked & Sex & Fare数据整理PassengerIdTitle将分类值转变为数值以便模型分析和预测
数据集来源于kaggle经典竞赛数据集 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
  • 1
  • 2
  • 3
  • 4
  • 5