这里写自定义目录标题泰坦尼克号Titanic读入数据1、读取数据2、读入csv\excel\txt数据可视化分析数据分析1、数据处理—特征工程(feature engineering)2、线性回归3、逻辑回归4、随机森林 泰坦尼克号TitanicKaggle项目之泰坦尼克号titanic实践与相关知识点总结读入数据1、读取数据pandas是常用的python数据处理包 ,它能够把csv文件读入
虽然到处都是泰坦尼克号生存预测的案例,但是还是要再来一遍。哈哈哈。作为入门还是可以的。此篇文章为新手小白入门,大佬请指点。文章较长,下面进入正题。目录提出问题(Business Understanding )理解数据(Data Understanding)采集数据导入数据查看数据集信息3.数据清洗(Data Preparation )数据预处理特征工程(Feature Enginee
泰坦尼克号获救问题(线性回归 / 逻辑回归 / 随机森林 求解思路)一. 预处理 数据表格首先分析表格中的数据,可以看到 Age 列中的数据是有缺失的,因此,需要补齐所有空缺的Age数据,用中位数。再看Sex列中的性别字符串转换成 数字,便于计算。将所有 male替换为 0, female 替换为1。同理, Embarked 列也要转换成数字,由于该列中依然有缺失,需要填充,那就填充出现
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
   文章目录前言 一、导入所需的文件包(前期准备)二、代码实现流程 1.获取数据 2.进行数据预处理三、对数据集进行划分四、建立特征工程五、建立模型(决策树预估器)六、模型评估分析总结  前言随着人工智能的不断发展,机器学习技术越来越重要,接下来为大家介绍机器学习经典案例--泰坦尼克号的代码流程分析。提示:以下是本篇文章正文内容,下面案例可供参考一、导入所
一、提出问题泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运。本文准备预测泰坦尼克号中乘客的生存概率。二、理解数据言归正传,首先登陆kaggle官网:Titanic: Machine Learning from Disasterwww.kaggle.com该文中有项目的详细介绍,在这里可下载后面学习需要的数据: #
本文基于Datawhale提供泰坦尼克号数据分析问题实例,对于程序解释均在代码后的注释中。均为本人理解,如有不足或错误地方欢迎补充批评指正,如有侵权,联系速删。数据的读取修改及存储import pandas as pd import numpy as np df = pd.read_csv('train.csv') # 读取train.csv文件,相对路径,当该文件处于该程序文件中可以使用
kaggle:泰坦尼克第一节:①数据载入及初步观察:题目1:每1000行为一个数据模块,逐块读取题目2:表头变中文,索引改为乘客ID题目3:输出前10行和后15行题目4:判断数据是否为空题目5:修改的数据集重新的放入在一个新的`csv`文件中②`pandas`基础:题目1:查看`DataFrame`数据的每列的名称题目2:查看`Cabin`这列的所有值题目3:删除多余的列题目4:隐藏列元素题目5
这是一个很经典的案例,很多博主都写过,对,就是它:泰坦尼克号生存率的分析,它是kaggle上的一道题,通过船上乘客的信息分析和建模,预测哪些乘客得以生还。我们就非常粗暴地拿这个数据集做一个简单的分析好了。使用工具:Excel(对,就是这么简单粗暴)数据源的获取可后台回复:泰坦尼克一、明确目的1912年泰坦尼克号撞上冰山沉没,船上2224名乘客和机组人员中有1502人遇难,幸存下来的人是出于运气还是
原创 2021-01-19 21:31:13
2305阅读
那些人士生还的可能性大?
原创 2021-09-07 14:20:32
2079阅读
泰坦尼克号数据集,是kaggle(Titanic: Machine Learning from Disaster)上入门机器学习(ML)的一个好的可选数据集,当然,也是不错的练习数据分析数据集。对 python ,在数据分析方面,作为一柄利器,涵盖了「数据获取→数据处理→数据分析数据可视化」这个流程中每个环节,这个项目作为新生练习最好不过了。探索的问题主要探寻坦尼克号上的生还率和各因素(客舱等
# Python泰坦尼克号数据分析 ## 引言 泰坦尼克号是一艘著名的客轮,于1912年首航途中遭遇冰山撞击沉没,造成了1502人的伤亡。这一事件引起了全世界的关注,并成为了历史上最为臭名昭著的船舶灾难之一。泰坦尼克号的沉没也成为了数据分析领域的一个经典案例,因为该事件的数据被广泛收集,并且可以用于分析乘客的生存率受到哪些因素的影响。 在本文中,我们将使用Python编程语言对泰坦尼克号的乘
原创 2023-08-14 17:55:45
324阅读
泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。
转载 2021-10-19 21:26:00
476阅读
案例:泰坦号数据分析背景:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。 海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。数据集描述
转载 2023-08-13 15:31:06
673阅读
今天我们使用pandas进行泰坦尼克号幸存情况的分析,我们希望从掌握的数据中能发现一些规律性的东西,来解释什么样的旅客更容易活下来?¶import pandas as pddf=pd.read_csv("data/titanic_train.csv")df.head() 1 旅客幸存率的分析¶ 2 生存关键因素分析 从现有的数据型变量之间的相关性分
a.前期准备:获取数据,导入数据分析包 #导入数据,忽略警告提示 import warnings warnings.filterwarnings('ignore') #导入处理数据包 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl #导入
写这篇博客,有两个目的:1. 我是一个kaggle新手,刚刚完成这个入门项目,想做一个总结。2. 给别的小伙伴讲讲这个项目,顺便提升自己的理解。如果文中有问题,请在 评论区一起讨论,谢谢。流程总结:1. 观察数据,通常使用data.head() 和data.columns.unique()来观察数据的大概情况和特征情况。2. 数据清洗3. 特征提取4. 建立模型5. 输出结果1. 项目说明:1.1
文章目录数据获取、结构分析如何获取seaborn提供数据源特征列分析缺失值与数据清洗年龄缺失值处理填充embarked删除不必要的列幸存者分析分析性别对存活率的影响分析年龄对存活率影响分析舱位等级与存活率影响数据获取、结构分析如何获取seaborn提供数据源在python中基本所有的核心库都提供了自己的数据源,例如:seaborn、sklearn、tensorflow… 而且这些数据源基本都托管在
泰坦尼克号数据可视化分析报告 1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据 import 2.3 查看数据集信息 print 由上面信息可看出,数据
泰坦尼克号数据分析 预测建模 准确率测算目录本文思路:1.搜集现有分析代码2.原文中代码存在不足,对相关库的引入及运行异常没有说明完善,因此,对原代码进行了完善。3.数据分析思路回顾及其他数据分析思路梳理a.对数据集的维度进行分析,初步了解其特征情况。b.可对数据情况进行各种分析c.对于已经被拆分为训练集和测试集的,可以通过合并再清洗的方式,简化工作(此处的数据清洗逻辑与上文的清洗逻辑相同,但代
  • 1
  • 2
  • 3
  • 4
  • 5