1. 引言0x1:故事背景泰坦尼克(RMS Titanic),又译作铁达尼,是英国白星航运公司下辖的一艘奥林匹克级邮轮,排水量46000吨,于1909年3月31日在北爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克便
一:题目解读1.1数据读取读取训练集的数据。data = pd.read_csv('data/train.csv') data.head()1.2字段解释PassengerId: 乘客ID Survived: 是否生存,0代表遇难,1代表还活着 Pclass: 船舱等级:1Upper,2Middle,3Lower Name: 姓名 Sex: 性别 Age: 年龄 SibSp: 兄弟姐妹及配偶个数
转载 2024-08-22 19:01:57
90阅读
【目录】kaggle介绍项目练手:泰坦尼克收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kaggle:kaggle是为了解决什么问题而被创造出
转载 2023-11-04 13:12:48
294阅读
数据集来源于kaggle经典竞赛数据集 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
泰坦尼克生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
一、决策树简介1.1 什么是决策树?决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。举个例子说明 好多男生不理解的是为什么把年龄放在最上面判断???而不是长相呢?1.2 决策树的划分依据熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
介绍泰坦尼克是一艘著名的豪华客轮,在其处女航中遭遇灾难,导致1500多名乘客和船员丧生。在这个项目中,我们将基于泰坦尼克号数据集探索一个基于机器学习的问题,该数据集包含有关乘客的信息,如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。本项目的目标是使用机器学习技术构建一个能够根据可用特征准确预测给定乘客是否在泰坦尼克灾难中幸存的模型。这个问题不仅对历史感兴趣,还具有实际应用,比如改善
# 用Python分析泰坦尼克沉船数据 泰坦尼克是一艘著名的豪华客轮,它在1912年首次航行时撞上了冰山,导致1500多名乘客和船员遇难。这个悲剧引发了人们对海上安全的广泛关注。同时,泰坦尼克也成为了数据分析和机器学习领域的重要案例。在本文中,我们将使用Python分析泰坦尼克的数据,并尝试预测乘客的生存机会。 ## 数据集介绍 我们将使用Kaggle上提供的“泰坦尼克”数据集。这
原创 9月前
135阅读
画图,可视化:简单来说就是把各个属性综合在一起,看作是一个x向量,x=(x1,x2,x3,……xn),其中的x1,x2,……表示各个属性,Y={0,1},表示Y的取值,Y=f(x)表示Y与属性之间的关系,找f的关系数据清洗:数据缺失处理 归一化:把不同的数值都放到同一个区间中,减小数据的影响线性回归:一次方程:一条直线 二次方程:一条曲线…… 生成一条线,建立一个普通的模型,一点一点的试欠拟合与
泰坦尼克船员获救数据:    titanic_train.csv用excel打开数据集。显示如下:写在前边:np和pd.import pandas as pd #造pandas的别名为pd import numpy as np #造numpy的别名为np 一、读取数据import pandas as pd #造pandas的别名为pd i
转载 2024-04-23 08:38:11
88阅读
Kaggle入门——Titanic(一)最近开始接触Kaggle,并且希望借此机会学习一下PyTorch,因此开坑一下这个系列,主要是借助PyTorch搭建模型来解决Kaggle的问题,由于PyTorch和Kaggle都是入门,所有错误在所难免,大家别当做什么入门宝典== 问题大致就是船倒了,旅客需要逃生,但是救生艇的数量是有限的,没有办法每个人都坐上救生艇,然后副船长说出了女士和小孩优先,由此可
持续优化中~~~研究背景:泰坦尼克的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克在处女航时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致更好的船舶安全法规。船难造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用。虽然在沉船事件中幸存下来是有运气因素的,但有些人比其他人更有可能存活下来。比如妇女、儿童和上层
转载 1月前
583阅读
            
转载 2009-07-27 15:44:17
361阅读
# 基于Python的“泰坦尼克”项目指导 欢迎来到“泰坦尼克Python”项目的学习之旅!这个项目旨在使用Python分析泰坦尼克乘客数据,预测哪些乘客可能生还。下面的文章将指引你一步步完成这个项目。 ## 项目流程 在开始我们的项目之前,让我们先概述一下整个流程。以下是完成泰坦尼克项目的步骤表: | 步骤 | 描述
原创 8月前
64阅读
Kaggle-入门比赛-泰坦尼克import pandas as pd import matplotlib.pyplot as plt train_data = pd.read_csv("data/train.csv") test_data = pd.read_csv("data/test.csv")数剧清洗# 检查缺失值 # 观察到有三个类的数据有缺失 train_data.isnull()
工作流程:在数据科学竞赛的解决问题的七个步骤:1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方案。(调参、优化)7.供应或提交结果。涉及相关算法:线性回归、逻辑回归、随机森林、模型融合。问题回顾:1
■对原始平面素材进行处理,将活动影像数字化为计算机图像序列。如果原始素材画面上有字幕,则需使用图像处理软件,将字幕抹掉。■图像分割:通常是用计算机软件加人工绘制的方式将画面中每个物体单独分割开。分割的精细程度取决于要求的转换质量以及投入的时间和费用。■创建深度图:每个被分开的面都需要被分配一个深度信息。这些各自独立的深度信息组合成为画面的深度图。这是一个不断重复的过程,需要根据立体效果不断调整
本文主要用kaggle网站上的泰坦尼克生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。一、提出问题什么样的人在泰坦尼克中更容易存活?二、理解数据1、数据来源2、导入数据测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。3、查看数据集信
数据准备import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt from __future__ import division from scipy import stats import seaborn as sns import pand
  • 1
  • 2
  • 3
  • 4
  • 5