【目录】kaggle介绍项目练手:泰坦尼克收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kagglekaggle是为了解决什么问题而被创造出
转载 2023-11-04 13:12:48
294阅读
Kaggle入门——Titanic(一)最近开始接触Kaggle,并且希望借此机会学习一下PyTorch,因此开坑一下这个系列,主要是借助PyTorch搭建模型来解决Kaggle的问题,由于PyTorch和Kaggle都是入门,所有错误在所难免,大家别当做什么入门宝典== 问题大致就是船倒了,旅客需要逃生,但是救生艇的数量是有限的,没有办法每个人都坐上救生艇,然后副船长说出了女士和小孩优先,由此可
写这篇博客,有两个目的:1. 我是一个kaggle新手,刚刚完成这个入门项目,想做一个总结。2. 给别的小伙伴讲讲这个项目,顺便提升自己的理解。如果文中有问题,请在 评论区一起讨论,谢谢。流程总结:1. 观察数据,通常使用data.head() 和data.columns.unique()来观察数据的大概情况和特征情况。2. 数据清洗3. 特征提取4. 建立模型5. 输出结果1. 项目说明:1.1
工作流程:在数据科学竞赛的解决问题的七个步骤:1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方案。(调参、优化)7.供应或提交结果。涉及相关算法:线性回归、逻辑回归、随机森林、模型融合。问题回顾:1
Kaggle-入门比赛-泰坦尼克import pandas as pd import matplotlib.pyplot as plt train_data = pd.read_csv("data/train.csv") test_data = pd.read_csv("data/test.csv")数剧清洗# 检查缺失值 # 观察到有三个类的数据有缺失 train_data.isnull()
学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况#查看数据的统计信息 print(data_train.info()) #查看数据关于数值的统计信息 print(data_train.descri
1、数据来源(1)数据来源train文档数据是用来分析和建模,包含有生存情况信息;test数据是用来最终预测其生存情况并生成结果文件。2、分析流程(1)不同变量跟生存情况的关系分析;(2)查看缺失值并对缺失值进行处理;(3)建立模型并预测;(4)提交预测结果,查看网站排名。3、数据分析载入文件:import pandas #中文的话这样打开,不会出现Initializing from file f
泰坦里克预测生还人口问题 泰坦尼克问题背景 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基 于一些背景有rank先后的。 训练和测试
转载 2018-09-20 14:45:00
960阅读
kaggle案例之泰坦尼克(基于R)泰坦尼克案例数据预处理决策树模型建立 泰坦尼克案例泰坦尼克号数据集为1912年泰坦尼克撞击冰山沉没事件中一些乘客和船员的个人信息及是否幸存的状况。可利用该数据进行分析,挖掘数据中有用的信息。 <本文是学习《R语言统计分析与机器学习》后的学习笔记>数据预处理数据概况: 该数据集中,训练数据集包含891个样本,共有12个特征,测试数据集包含41
Kaggle泰坦尼克(1)问题: 1912 年 4 月 15 日,泰坦尼克沉没,船上的每个人都没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。虽然幸存下来有一些运气因素,但似乎有些人比其他人更有可能幸存下来。构建一个预测模型来回答这个问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)可用数据集:训练集(train.csv)测试集(te
文章目录前言一、数据集下载二、数据集建模1.引入库2.读入数据3.特征工程4.数据变换5.建模总结 前言萌新入坑机器学习,想在kaggle上找些项目来练练手,正好泰坦尼克好像非常适合入坑,就屁颠屁颠地跑去做了,没想到做一轮下来发现自己好像学了个寂寞,然后就只能疯狂抄代码了…菜鸟就是菜鸟,没办法,加油吧。一、数据集下载废话略过,kaggle泰坦尼克 直接在网站上下载,然后会得到三个文件: 第一
转载 2024-06-23 06:56:17
48阅读
在第一节“Python-数据清洗与分析案例之泰坦尼克(一)”网址:https://www.lixdx.cn/archives/93 中进行了数据清洗与缺失值填充,接下来进行数据可视化分析,找到生存率的影响因素。注意:本章中年龄的缺失值为案例分析(一)中用年龄和舱位的中位数的值填充。提出问题:什么因素会影响乘客的生还率?影响乘客生还率的因素很多,这里只讨论乘客的性别、年龄以及舱位是否对生还率产生影
kaggle泰坦尼克第一节:①数据载入及初步观察:题目1:每1000行为一个数据模块,逐块读取题目2:表头变中文,索引改为乘客ID题目3:输出前10行和后15行题目4:判断数据是否为空题目5:修改的数据集重新的放入在一个新的`csv`文件中②`pandas`基础:题目1:查看`DataFrame`数据的每列的名称题目2:查看`Cabin`这列的所有值题目3:删除多余的列题目4:隐藏列元素题目5
数据集来源于kaggle经典竞赛数据集 一、目的根据数据集中的信息,利用python机器学习对泰坦尼克乘客是否生还进行预测。二、数据集我的数据集有三个,test、train、genderclassmodel,都是csv格式test和train数据集中的字段: 从左到右依次是,乘客编号、是否生还、仓位、姓名、性别、年龄、船上同辈亲属的人数、乘客有父母或孩子的人数、船票号、旅费
泰坦尼克生存分析1.对数据进行大概浏览以及对缺失数据的处理2.描述性数据可视化3.随机森林模型分析1.进行最简单的随机森林模型测试2.各个特征的重要性3.和决策树进行对比4.对超参数进行调优 摘要:本次分析主要对泰坦尼克上的人员特征进行描述性统计分析,以及利 用随机森林出建立简单的预测模型。 1.对数据进行大概浏览以及对缺失数据的处理train_data = pd.read_csv("tra
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
Kaggle实战入门:泰坦尼克生还预测1. 加载数据2. 特征工程3. 模型训练4. 模型部署 Kaggle实战入门:泰坦尼克生还预测(基础版)对机器学习的全流程进行了总体介绍。本文继续以泰坦尼克生还预测为例,对机器学习中的特征工程、模型构建进行深入解读。数据集及代码下载1. 加载数据由于针对训练数据集、测试数据集均要做空值填充、编码转换、离散化、归一化等处理,因此可以加载训练数据集、测试
kaggle:第一节:题目1:对缺失值进行处理题目2:`dropna`与`fillna`的区别题目3:查看数据中的重复值① - `duplicated()`题目4:查看重复值② - `drop_duplicates()`题目5:保存数据为csv题目6:对年龄进行分箱(离散化)处理题目7:对文本变量进行转换第二节:题目1:使用concat方法:将数据train-left-up.csv和train-
作者:陈锴,中山大学,Datawhale成员全文如下:本文结合泰坦尼克生存预测,从1.数据探索(数据可视化),2.数据预处理,3.模型训练,4.模型调参这四个步骤进行了完整的梳理:![]( process=image/format,png)1. 数据概述与可视化1.1 数据概述首先我们导入我们的训练数据和测试数据:数据集包含train.csv和test.csv两个文件train_data = p
1. 引言0x1:故事背景泰坦尼克(RMS Titanic),又译作铁达尼,是英国白星航运公司下辖的一艘奥林匹克级邮轮,排水量46000吨,于1909年3月31日在北爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克便
  • 1
  • 2
  • 3
  • 4
  • 5