泰坦尼克号(RMS Titanic),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在她的处女航中,泰坦尼克号便遭厄运——她从英国南安普敦出发,途经法国瑟堡-奥
问题初识这个题目的背景概况来讲就是基于泰坦尼克号这个事件,然后大量的人员不幸淹没在这个海难中,也有少部分人员在这次事件之中存活,然后这个问题提供了一些人员的信息如姓名、年龄、性别、票价,所在客舱等等一些信息,和是否获救,然后你建模分析,去预测另一批乘客的获救与否,然后得出的结果进行评价,预测率较高的,匹配率较好的分数就比较高。这个问题的数据集都可以在kaggle上面下下来。接下来就不多说了,开始摸
在本篇博文中,我们将探讨如何通过 Python 分析泰坦尼克号相关的数据问题,特别是如何利用网络协议分析和逆向工程的方法来解决这一问题。我们会从协议背景、抓包方法、报文结构、交互过程、工具链集成、逆向案例等方面详细阐述解决方案。在每一个部分中,结合合适的图表和代码展示,形成一个完整的解决思路。 ### 协议背景 在讨论泰坦尼克号的数据分析问题之前,我们首先必须了解相关的网络协议。这个过程通常
原创 7月前
23阅读
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
转载 2023-12-28 10:01:12
337阅读
这里记录一下通过这个案例掌握的之前不会的api(pandas) 1.数据的统计描述往往都df.decsribe()但是可以分数值型和对象型变量数值型# describe函数查看部分变量的分布 # 因为Survived是0-1变量,所以均值就是幸存人数的百分比,这个用法非常有用 titanic_df[["Survived","Age", "SibSp", "Parch"]].describ
泰坦尼克号生存预测是Kaggle举办的一项数据挖掘比赛,目的是根据给定的乘客信息来预测该乘客最终是否可以存活下来。泰坦尼克号生存预测是Kaggle竞赛的入门案例,同时也是机器学习的经典案例,今天我们用Python3结合机器学习库sklearn进行分析。导入用到的库import pandas as pd import numpy as np import matplotlib.pyplot as p
简介Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如下:PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket
转载 2023-11-16 20:32:36
74阅读
一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
?引言泰坦尼克号的沉没是历史上最惨痛的沉船事件之一。1912年4月15日,泰坦尼克号在其处女航中与冰山相撞后沉没,2224名乘客和船员中的1502人死亡。在这个数据分析项目中,我们需要完成对什么样的人有可能幸存的分析。特别是,我们需要你应用机器学习的工具来预测哪些乘客在悲剧中幸存下来。在本文中,我们就从数据的角度出发对泰坦尼克幸存者进行分析与预测,话不多说我们开始吧。?数据获取本项目数据基于Kag
泰坦尼克数据挖掘比赛是kaggle上的新手入门赛,作为一个基础还没打好的菜鸡强行敲了一波代码,但是大部分还是跟着别人的思路,看着别人的代码写的。因此代码就不放了,放了跟搬运没啥区别。单纯总结一下学习感悟吧。 做数据挖掘的第一步就是读取数据之后进行分析和预处理。所要用到的python 库有pandas,numpy,matplotlib,seaborn… 1.读取数据之后先统计一下缺失值情况。data
转载 10月前
32阅读
 最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。     数据挖掘的一般过程是:数据预览——>数据预处理(缺失值、离散值等)——>变量转换
决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。 我们利用 sklearn 工具中的决策树分类器解决一个实际的问题:泰坦尼克号乘客的生存预测。问题描述 泰坦尼克海难是著名的十大灾难之一,究竟多少人遇难,各方统计的结果不一。项目全部内容可以到我的github下载:https://gi
转载 2024-02-02 07:06:18
29阅读
泰坦尼克之灾案例是Kaggle入门的案例,本篇分析是参照https://github.com/Speedml/notebooks/blob/master/titanic/titanic-data-science-solutions-refactor.ipynb来写的,分析思路和代码很详细,本篇文章的代码地址https://github.com/LuLane/titanic;一:确定任务和目标首先先
机器学习步骤:(1)提出问题(2)理解数据(3)数据清洗(4)构建模型(5)模型评估(6)方案实施1. 提出问题本文通过使用Kaggle网站上的泰坦尼克生存数据信息,在Python中利用机器学习算法,来预测泰坦尼克号中不同乘客的存活率。2. 理解数据数据来源:Kaggle上面的泰坦尼克号项目 Titanic: Machine Learning from Disasterwww.kaggle.co
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。
转载 2021-10-19 21:26:00
491阅读
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
泰坦尼克号代码简单分析流程分析 1、导入相关库和类 2、获取数据 3、数据处理 4、数据集划分 5、特征工程 6、决策树预估 7、模型评估内容介绍首先我们需要清楚我们的目标,就是通过船上乘客的信息分析和建模,预测哪些乘客得以生还。其次,我们在说明一下文件中各个英文单词的意思: PassengerId :乘客的id号 Survived :生存的标号,数值1表示这个人很幸运,生存了下来。数值0,则表示
基于Titanic数据集的数据分析处理及乘客生还率预测全流程教程0.项目介绍1.使用数据集2.数据的基本统计分析3.数据的属性探查4.数据预处理5.数据的相关性分析6.特征工程7.数据模型构建8.交叉检验9.特征选择10.模型过拟合分析11.项目总结12.参考文献 0.项目介绍kaggle比赛中有一经典Titanic泰坦尼克号数据集,本数据集非常适合新手作为数据分析入门研究例程,本项目主要对Ti
泰坦尼克号乘客生存预测(XGBoost)1. 案例背景2. 步骤分析3. 代码实现 1. 案例背景泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些
  • 1
  • 2
  • 3
  • 4
  • 5