问题初识这个题目的背景概况来讲就是基于泰坦尼克号这个事件,然后大量的人员不幸淹没在这个海难中,也有少部分人员在这次事件之中存活,然后这个问题提供了一些人员的信息如姓名、年龄、性别、票价,所在客舱等等一些信息,和是否获救,然后你建模分析,去预测另一批乘客的获救与否,然后得出的结果进行评价,预测率较高的,匹配率较好的分数就比较高。这个问题的数据集都可以在kaggle上面下下来。接下来就不多说了,开始摸
决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。 我们利用 sklearn 工具中的决策树分类器解决一个实际的问题:泰坦尼克号乘客的生存预测。问题描述 泰坦尼克海难是著名的十大灾难之一,究竟多少人遇难,各方统计的结果不一。项目全部内容可以到我的github下载:https://gi
转载 2024-02-02 07:06:18
29阅读
写这篇博客,有两个目的:1. 我是一个kaggle新手,刚刚完成这个入门项目,想做一个总结。2. 给别的小伙伴讲讲这个项目,顺便提升自己的理解。如果文中有问题,请在 评论区一起讨论,谢谢。流程总结:1. 观察数据,通常使用data.head() 和data.columns.unique()来观察数据的大概情况和特征情况。2. 数据清洗3. 特征提取4. 建立模型5. 输出结果1. 项目说明:1.1
【目录】kaggle介绍项目练手:泰坦尼克号收获分享 一、kaggle介绍 kaggle是一个数据科学竞赛平台,创立于2010年,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。kaggle官方表示,该社区目前在全世界范围内已有超过80万注册用户。 以上是官方介绍,我们换个角度来理解kagglekaggle是为了解决什么问题而被创造出
转载 2023-11-04 13:12:48
304阅读
文章目录前言一、数据集下载二、数据集建模1.引入库2.读入数据3.特征工程4.数据变换5.建模总结 前言萌新入坑机器学习,想在kaggle上找些项目来练练手,正好泰坦尼克号好像非常适合入坑,就屁颠屁颠地跑去做了,没想到做一轮下来发现自己好像学了个寂寞,然后就只能疯狂抄代码了…菜鸟就是菜鸟,没办法,加油吧。一、数据集下载废话略过,kaggle泰坦尼克号 直接在网站上下载,然后会得到三个文件: 第一
转载 2024-06-23 06:56:17
48阅读
Kaggle入门——Titanic(一)最近开始接触Kaggle,并且希望借此机会学习一下PyTorch,因此开坑一下这个系列,主要是借助PyTorch搭建模型来解决Kaggle的问题,由于PyTorch和Kaggle都是入门,所有错误在所难免,大家别当做什么入门宝典== 问题大致就是船倒了,旅客需要逃生,但是救生艇的数量是有限的,没有办法每个人都坐上救生艇,然后副船长说出了女士和小孩优先,由此可
工作流程:在数据科学竞赛的解决问题的七个步骤:1.问题或问题的定义。(理解题目)2.获得培训和测试数据。(获取数据)3.争论,准备清理数据。(初步清洗数据)4.分析、识别模式,并探索数据。(特征工程)5.模型,预测和解决问题。(机器学习算法介入)6.可视化报告,并提出解决问题的步骤和最终的解决方案。(调参、优化)7.供应或提交结果。涉及相关算法:线性回归、逻辑回归、随机森林、模型融合。问题回顾:1
Kaggle-入门比赛-泰坦尼克号import pandas as pd import matplotlib.pyplot as plt train_data = pd.read_csv("data/train.csv") test_data = pd.read_csv("data/test.csv")数剧清洗# 检查缺失值 # 观察到有三个类的数据有缺失 train_data.isnull()
泰坦里克号预测生还人口问题 泰坦尼克号问题背景 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基 于一些背景有rank先后的。 训练和测试
转载 2018-09-20 14:45:00
960阅读
学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况#查看数据的统计信息 print(data_train.info()) #查看数据关于数值的统计信息 print(data_train.descri
1、数据来源(1)数据来源train文档数据是用来分析和建模,包含有生存情况信息;test数据是用来最终预测其生存情况并生成结果文件。2、分析流程(1)不同变量跟生存情况的关系分析;(2)查看缺失值并对缺失值进行处理;(3)建立模型并预测;(4)提交预测结果,查看网站排名。3、数据分析载入文件:import pandas #中文的话这样打开,不会出现Initializing from file f
泰坦尼克号(RMS Titanic),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在她的处女航中,泰坦尼克号便遭厄运——她从英国南安普敦出发,途经法国瑟堡-奥
kaggle泰坦尼克第一节:①数据载入及初步观察:题目1:每1000行为一个数据模块,逐块读取题目2:表头变中文,索引改为乘客ID题目3:输出前10行和后15行题目4:判断数据是否为空题目5:修改的数据集重新的放入在一个新的`csv`文件中②`pandas`基础:题目1:查看`DataFrame`数据的每列的名称题目2:查看`Cabin`这列的所有值题目3:删除多余的列题目4:隐藏列元素题目5
kaggle案例之泰坦尼克号(基于R)泰坦尼克号案例数据预处理决策树模型建立 泰坦尼克号案例泰坦尼克号数据集为1912年泰坦尼克号撞击冰山沉没事件中一些乘客和船员的个人信息及是否幸存的状况。可利用该数据进行分析,挖掘数据中有用的信息。 <本文是学习《R语言统计分析与机器学习》后的学习笔记>数据预处理数据概况: 该数据集中,训练数据集包含891个样本,共有12个特征,测试数据集包含41
Kaggle泰坦尼克号(1)问题: 1912 年 4 月 15 日,泰坦尼克号沉没,船上的每个人都没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。虽然幸存下来有一些运气因素,但似乎有些人比其他人更有可能幸存下来。构建一个预测模型来回答这个问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名、年龄、性别、社会经济阶层等)可用数据集:训练集(train.csv)测试集(te
博主最近开始在Kaggle上做项目,第一个项目就是最经典的项目泰坦尼克号。在尝试了几种模型,调整了很多次之后,终于将模型调到0.8的得分,给大家分享一下我的做法。Part1.数据导入和初步观察导入泰坦尼克号训练集和测试集的数据,这次我选择同时处理两份数据,所以直接将他们拼接起来import pandas as pd import numpy as np import matplotlib.pypl
转载 2023-11-06 16:59:39
132阅读
无意间在网易云课堂上找了一个Kaggle案例
Titanic 是kaggle上每个新手都要接触的第一个项目。机器学习在最开始创建模型的时候不要先想着做得完美,可以先做一个baseline出来,再慢慢挖掘数据的特征优化模型。 前人说过,对数据的特征分析比模型的建立还重要,因此打算用Titanic这个数据集,对特征分析(feature engineering) 作一个深入的了解。数据分析首先在拿到Titanic模型的train.csv和test.
转载 2024-08-01 21:34:03
351阅读
Kaggle实战入门:泰坦尼克号生还预测1. 加载数据2. 特征工程3. 模型训练4. 模型部署 Kaggle实战入门:泰坦尼克号生还预测(基础版)对机器学习的全流程进行了总体介绍。本文继续以泰坦尼克号生还预测为例,对机器学习中的特征工程、模型构建进行深入解读。数据集及代码下载1. 加载数据由于针对训练数据集、测试数据集均要做空值填充、编码转换、离散化、归一化等处理,因此可以加载训练数据集、测试
在本篇博文中,我们将探讨如何通过 Python 分析与泰坦尼克号相关的数据问题,特别是如何利用网络协议分析和逆向工程的方法来解决这一问题。我们会从协议背景、抓包方法、报文结构、交互过程、工具链集成、逆向案例等方面详细阐述解决方案。在每一个部分中,结合合适的图表和代码展示,形成一个完整的解决思路。 ### 协议背景 在讨论泰坦尼克号的数据分析问题之前,我们首先必须了解相关的网络协议。这个过程通常
原创 6月前
23阅读
  • 1
  • 2
  • 3
  • 4
  • 5