目录1.导库2.导入数据集,探索数据4.提取标签和特征矩阵,分测试机和训练集5.导入模型,粗略跑一下查看结果6.在不同max_depth下观察模型的拟合状况7.网格搜索调参1.导库import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_
# Python泰坦尼克幸存者分析:数据科学的魅力 在数据科学的世界中,Python因为其易用性和丰富的库而受到广泛欢迎。数据分析师和科学家们常常使用Python来处理和可视化数据。本文将通过一个有趣的实例,即“泰坦尼克幸存者分析”,来展示Python在数据分析中的应用。 ## 1. 背景介绍 泰坦尼克是历史上著名的邮轮,它于1912年在北大西洋沉没。此次悲剧导致1500多人遇难,因
原创 2024-09-28 04:00:03
85阅读
介绍1 载入并检查数据特征工程1 名字分析2 家庭存活情况分析3 处理更多变量缺失数据处理1 合理值插补2 预测性插补3 特征工程第二阶段预测1 分离出训练数据和测试数据2 建立模型3 变量重要性分析4 开始预测结论 1 介绍这是我第一次尝试使用 Kaggle 脚本。经过一段时间在 Kaggle 上的浏览和阅读其他用户写的脚本后,我决定对泰坦尼克事件情况数据集进行分析。在此期间我也将生成一些数
       看到全部是英文,我的内心咯噔一声,瞬间没有想看的欲望了,但是,得努力跑完代码,我也只能努把力耐心地往下看。以下是我的学习之旅       第一步是导入数据。       kaggle网站里的代码是下面这样的# Load data ##### Load train a
文章目录前言步骤1. 导入库2. 使用pandas来读取csv文件3. 对csv文件的信息进行探索4. 数据的预处理4.1 将对训练模型无关的特征进行删除4.2 将所有非数字类型的特征转为数字类型的特征4.3 统一数据的数量5. 对数据集进行拆分,将数据特征和标签进行分离(survived结果和其余的数据进行分离)6. 对数据集进行训练集和测试集的划分7. 对划分的测试集和训练集进行序号的重新编
在本博文中,我们将详细介绍如何使用Python实现泰坦尼克幸存者分类的项目。这是一个经典的数据科学项目,涉及逻辑回归和数据预处理等技术,旨在预测乘客的生存概率。接下来,我们会看到每一步的环境准备、集成步骤、配置详解、实战应用、排错指南和性能优化。 ## 环境准备 为了顺利运行本项目,我们需要准备相应的技术栈,这些技术栈在数据处理、模型训练和评估方面相辅相成。 | 技术栈 | 版本
原创 6月前
90阅读
今日锦囊特征锦囊:如何把“年龄”字段按照我们的阈值分段?我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类,18-30岁的作为一类,那么怎么用Python实现的呢?是的,我们还是用到我们的泰坦尼克的数据集,对数据进行预处理操作,见下:# 导入相关库 import pandas as pd import numpy a
泰坦尼克的数据 进行特征分析、数据清理、数据填充、处理分类特征、将连续特征转化为离散特征、合并特征、制作模型、模型预测import pandas as pd import numpy as np import matplotlib.pyplot as plt #将警告不显示 import warnings warnings.filterwarnings('ignore') #导入测试集和训练
你的工作是预测一名乘客是否能够幸免于泰坦尼克沉没。 对于测试集中的每个,您必须预测变量的0或1值。 比赛说明RMS泰坦尼克沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原
## 泰坦尼克幸存者数据预处理指南 在数据科学和机器学习中,数据预处理是一个十分重要的步骤。针对泰坦尼克幸存者数据,我们将通过几个步骤进行数据清洗和准备,以便后续分析或建模。下面是我们将执行的步骤列表。 ### 数据预处理流程 | 步骤 | 描述 | |----------------------
原创 8月前
30阅读
一、背景 Titanic: Machine Learning from Disaster-https://www.kaggle.com/c/titanic/data,必须先登录kaggle就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『 lady and kid first!』,所以是否获救其实并非随机,而是
决策树 文章目录决策树1.概述1.1决策树是如何工作的2 DecisionTreeClassififier与红酒数据集2.1重要参数2.1.1 criterion2.1.2 random_state & splitter2.1.3 剪枝参数2.1.4 目标权重参数2.2 重要属性和接口3 DecisionTreeRegressor3.1 重要参数,属性及接口3.2 实例:一维回归的图像绘制
转载 2024-06-17 16:06:18
108阅读
仅作为学习记录例子:泰坦尼克幸存者预测1.导入库和数据集2.探索数据,数据预处理data.info()data.head()#显示前xx行,括号不写默认前5行 筛选特征#筛选特征 #axis=0,1 0是行 1是列 data.drop(['Name','Cabin'],inplace=True,axis=1)#可以一次性删除多列,inplace=True:新表覆盖旧表 #或者data=data
项目背景电影《泰坦尼克》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!2.提出问题泰坦尼克生存率预测 :具有什么特征的人在泰坦尼克中更容易存活?特征工程(feature engineering)是指从原始数据中提取特征并将其转
参考:https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanichttps://www.kaggle.com/goldens/classification-81-3-with-simple-model-nested-cv1. 问题描述泰坦尼克的沉没是历史上最臭名昭著的沉船事件之一。1912
kaggle案例之泰坦尼克(基于R)泰坦尼克案例数据预处理决策树模型建立 泰坦尼克案例泰坦尼克号数据集为1912年泰坦尼克撞击冰山沉没事件中一些乘客和船员的个人信息及是否幸存的状况。可利用该数据进行分析,挖掘数据中有用的信息。 <本文是学习《R语言统计分析与机器学习》后的学习笔记>数据预处理数据概况: 该数据集中,训练数据集包含891个样本,共有12个特征,测试数据集包含41
泰坦尼克乘客生存预测(XGBoost)1. 案例背景2. 步骤分析3. 代码实现 1. 案例背景泰坦尼克沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些
泰坦尼克幸存者预测是机器学习的经典案例,其涉及了众多机器学习会遇到的问题,回归难度也比较大。本次数据集来自kaggle,可从该地址https://www.kaggle.com/competitions/titanic/data自行下载。数据集格式为csv引入需要调取的库import pandas as pd from sklearn.tree import DecisionTreeClassif
特征工程和数据清洗当我们得到一个具有特征的数据集时,是不是所有的特性都很重要?可能有许多冗余的特征应该被消除,我们还可以通过观察或从其他特征中提取信息来获得或添加新特性。年龄特征:正如我前面提到的,年龄是连续的特征,在机器学习模型中存在连续变量的问题。如果我说通过性别来组织或安排体育运动,我们可以很容易地把他们分成男女分开。如果我说按他们的年龄分组,你会怎么做?如果有30个人,可能有30个年龄值。
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
  • 1
  • 2
  • 3
  • 4
  • 5