案例:泰坦号数据分析背景:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。 海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。数据集描述
转载 2023-08-13 15:31:06
673阅读
具体详细可参考该篇博文:七、加载数据集①准备数据集以泰坦尼克号数据集(titanic.csv)为例 下载完解压,将解压后得到的压缩包放到指定的路径下,我这边放到了我的jupyter里面了里面有一些文本信息,仅使用数字信息,由于age有点缺失,故也不能用 输入:PassengerId、Pclass、SibSp、Parch、Fare 输出:Survived;1存活,0嘎了使用Pandas对数据进行处理
接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解过拟合、交叉验证、TF-IDF、词向量等等术语,不断地加深对数据挖掘的认知,而本次泰坦尼克-数据挖掘项目,算是另一
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib。第二章:数据可视化开始之前,导入numpy、pandas以及matplotlib包和数据  【思考】最基本的可视化图案有哪些?分别
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。数据挖掘的一般过程是:数据预览——>数据预处理(缺失值、离散值等)——>变量转换(构造新的衍生变量)——>数据探索(提取特征)——&gt
参考资料:https://github.com/AaronJny/simple_titanichttps://zhuanlan.zhihu.com/p/30538352https://www.jianshu.com/p/9a5bce0de13f1. 查看数据集import pandas as pd # 读取数据集 train_data = pd.read_csv('Data/train.csv'
今天我们使用pandas进行泰坦尼克号幸存情况的分析,我们希望从掌握的数据中能发现一些规律性的东西,来解释什么样的旅客更容易活下来?¶import pandas as pddf=pd.read_csv("data/titanic_train.csv")df.head() 1 旅客幸存率的分析¶ 2 生存关键因素分析 从现有的数据型变量之间的相关性分
泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运。这次打算练练手,用刚学的机器学习预测kaggle上的预测泰坦尼克号生存率项目。先用xmind对流程进行了整理,让每个步骤更清晰。 1.提出问题拥有哪些特征的人在泰坦尼克号中更容易存活?2.理解数据数据采集数据来源: Titanic: Mac
这里写自定义目录标题泰坦尼克号Titanic读入数据1、读取数据2、读入csv\excel\txt数据可视化分析图数据分析1、数据处理—特征工程(feature engineering)2、线性回归3、逻辑回归4、随机森林 泰坦尼克号TitanicKaggle项目之泰坦尼克号titanic实践与相关知识点总结读入数据1、读取数据pandas是常用的python数据处理包 ,它能够把csv文件读入
 案例分析:利用pandas来做一个实际案例分析。背景:船要沉了,我们根据各种影响因素,判断什么因素对船上成员的存活率影响较大。先下载训练集名为train.csv,把该文件与程序文件放在同一个文件夹下。1.导包:import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
虽然到处都是泰坦尼克号生存预测的案例,但是还是要再来一遍。哈哈哈。作为入门还是可以的。此篇文章为新手小白入门,大佬请指点。文章较长,下面进入正题。目录提出问题(Business Understanding )理解数据(Data Understanding)采集数据导入数据查看数据集信息3.数据清洗(Data Preparation )数据预处理特征工程(Feature Enginee
数据集来源于kaggle经典竞赛数据集 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
写在前面:很就之前刚入门的时候写过关于kaggle比赛的泰坦尼克号获救预测,作为很多机器学习爱好者入门的一个经典项目,时隔半年再看,有了一些不一样的感悟,分享给大家,对自己也是一个激励学习的过程记录。 欢迎大家一起探讨。 (本文适用于有一定基础的朋友,我会尽量减少语言描述,最大可能的写注释) Ps:作者能力有限,文章仅供学习参考,欢迎交流。1:思路如果说之前是个菜鸡,现在就是一个强一点的菜鸡,针对
在kaggle 上下载泰坦尼克号数据,完成数据挖掘部分的作业。泰坦尼克号是许多数据科学和机器学习的新手比较喜欢选择的案例。 数据说明:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。 1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全规定。造成海难失事的原因之一是
泰坦尼克号数据可视化分析报告 1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据 import 2.3 查看数据集信息 print 由上面信息可看出,数据
# Python泰坦尼克号数据分析实现指南 ## 1. 简介 在本文中,我们将介绍如何使用Python语言进行泰坦尼克号数据分析。泰坦尼克号是一艘著名的沉船事件,我们将使用相关的乘客数据进行分析。本文将逐步指导您完成整个数据分析过程。 ## 2. 数据准备 首先,我们需要获取泰坦尼克号乘客数据。您可以在Kaggle网站( ## 3. 导入所需的库 在开始分析之前,我们需要导入一些常用的Pyt
原创 9月前
95阅读
作者 | 刘早起翻译/编辑 | 早起Python很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。目录项目背
泰坦尼克号生存预测这是kaggle上面比较入门的一个比赛。今天让我们来看看怎么做吧。kaggle传送门。首先报名,下载数据集。数据载入及概述首先导入从Kaggle上面下载的数据集,在导入的过程中就需要先导入一些必备的包了。import numpy as np import pandas as pd # 接着导入我们的训练数据 filename = 'titanic/train.csv' # 这
  • 1
  • 2
  • 3
  • 4
  • 5