3.处理Titanic数据其目的是根据乘客的年龄、性别、乘客阶层、乘坐地点等属性来预测乘客是否幸存。首先,登录Kaggle,去Titanic challenge网站下载train.csv和test.csv。保存到datasets/titanic目录。主要涉及到的内容有:数据处理(对空白数据进行填充:Imputer)、自定义转换器、pipeline的编写以及采用以及SVCRandomForestC
1. 写在前面: 本篇属于实战部分,更注重于算法在实际项目中的应用。如需对感知机算法本身有进一步的了解,可参考以下链接,在本人学习的过程中,起到了很大的帮助:统计学习方法 李航决策树算法原理  等共2篇 2. 数据数据地址:https://www.kaggle.com/c/titanicTitanic数据是Kaggle上参与人数最多的项目之一。数据本身简单小巧
转载 7月前
112阅读
  数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域(如语音识别)时,往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是,有很多机构将他们的成熟的数据公开出来,供我们学习、研究,TIMIT数据库就是其中之一。    TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,
文章目录数据描述导入数据变量含义数据清洗检查缺失值及重复值探索性分析钻石的形状钻石的重量分布每种切割类型、颜色、清晰度的钻石分别有多少个钻石的价格最昂贵的10只钻石的属性信息理想切割、颜色和清晰度最好的钻石的价格钻石各属性与价格的关系整体价格分布情况不同切割状态钻石的价格分布不同颜色钻石的价格分布不同透明度的价格分布钻石长宽深与价格之间的关系不同切割类型的钻石,价格是否具有显著性差异?价格分布的
kaggle没有notebook的文件夹系统让我很不满意,决定以后把自己练习的过程都搬上。目录1.引入库2.准备数据3.定义模型4.调用优化器和损失函数5.run 训练6.用训练的参数run 测试1.引入库import numpy as np import pandas as pd import torch from torch.utils.data impo
摘要本文以R语言为基础,利用数据预览,探索式数据分析,缺失值的填补,增加新特征以及去除相关特征等方法,并通过构建随机森林模型,参数调优的方式对kaggle上的泰坦尼克项目进行了生存预测,结果是得分为0.81818,前4%。一、项目介绍泰坦尼克生存预测是Kaggle上参赛人数较多的竞赛之一,对于数据爱好者来说是初入机器学习领域相对比较容易的比赛,属于入门级比赛项目。比赛的目的其实很简单
主要内容:一、 对数据缺失值进行处理在R语言中,处理数据缺失值是数据预处理的一个重要步骤,通常采用以下方法: 识别缺失值: 在R中,缺失值通常用NA表示。你可以使用函数is.na()或complete.cases()来检测缺失值。删除缺失值: 如果缺失值很少,你可以选择删除包含缺失值的行或列。# 检查整个数据框中的缺失值 is.na(your_data_frame) # 通过列查看缺失值 col
1 研究任务一介绍1.1 研究任务实验首先对Titanic数据进行数据分析和清理,然后分别采用Logistic Regression(逻辑回归)、Support Vector Machines(SVM,支持向量机)、Decision Tree Classifier(决策树分类器)、Random Forest Classifier(随机森林分类器)等机器学习算法预测哪些乘客在这场悲剧中幸
运行环境:Anaconda——Jupyter Notebook Python版本为:3.6.6数据:lense.txt 提取码:9wsp1.决策树决策树也是最经常使用的数据挖掘算法,长方形代表判断模块(decision block),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),它可以到达另一个判断模块
在上一篇【sklearn】1.分类决策树学习了sklearn决策树的一些接口后,现在利用kaggle上泰坦尼克号的数
原创 2022-08-23 17:17:30
585阅读
在机器学习中,将数据A分为训练(training set)B和测试(test set)C,在样本量不充足的情况下,为了充分利用数据对算法效果进行
原创 精选 7天前
212阅读
1点赞
初识决策树决策树是一个类似于人们决策过程的树结构,从根节点开始,每个分枝代表一个新的决策事件,会生成两个或多个分枝,每个叶子代表一个最终判定所属的类别。例如,如下是一个决策树,代表薪水大于30W的男性会买车。我们可以很容易的写出IF Else来实现决策树的判定。上述的决策树有两个特征区间,性别和年龄,最终的结果有两个类别,买和不买。决策树流程我们在实际的大数据分析中,一般对决策树分为四个步骤:生成
# 如何在R语言中引用titanic数据 ## 介绍 在R语言中,我们可以使用内置的数据来进行数据分析和建模。其中一个常见的数据titanic数据,它包含了泰坦尼克号上乘客的信息。本文将教你如何在R语言中引用titanic数据,以便你可以进行进一步的数据分析和建模。 ## 流程 下面是引用titanic数据的步骤: | 步骤 | 描述 | | --- | --- | | 步骤1
原创 8月前
65阅读
作者:丁点helper 上篇文章利用泰坦尼克号沉船事件中乘客的存活情况介绍了描述性数据分析,计算了不同舱位乘客的幸存率,今天我们来看看如何用图像来直观表达。我们先来简单复习一下titanic.csv的内容。 # 导入数据 titanic <- read.csv("//Users//Desktop//titanic.csv",header = TRUE) names(titanic
文章目录前言表格机器学习的4类特征text 特征组数据处理载入数据数据清洗分词删除低频词建模sklearnTF-IDFNMFTruncatedSVDgensimLDALSIRPHDP前言表格机器学习的4类特征最近在思考表格机器学习,或者说对表格数据、结构化数据的有监督机器学习的工作流。我认为在大部分场景下,大概有4类特征:categoricalnumericaldatetext...
原创 2021-08-04 09:56:16
242阅读
最近我们被客户要求撰写关于RStan的研究报告,包括一些图形和统计输出。Stan是一种用于指定统计模型的概率编程语言。Stan通过马尔可夫链蒙特卡罗方法(例如No-U-Turn采样器,一种汉密尔顿蒙特卡洛采样的自适应形式)为连续变量模型提供了完整的贝叶斯推断。可以通过R使用rstan 包来调用Stan,也可以 通过Python使用 pystan 包。这两个接
《精通机器学习:基于R 第二版》学习笔记1、集成模型简介集成学习的定义是:“有策略地建立多个模型(如分类器或专家系统)并将其组合在一起,解决特定计算智能问题的过程。”在随机森林和梯度提升模型中,我们将几百或几千棵树的“投票”结果组合起来进行预测。于是,根据集成学习的定义,这些模型就是集成学习模型。在机器学习中,这种方法的优点是可以将几种性能平平甚至很差的学习器的预测结果结合起来,从而提高整体准确率
第一章数据概览(1)三个数据1.1 uspop 数据为一组时间序列数据,从 1790 年至 1970 年,每隔 10 年取一个值1.2 Titanic 数据记录了泰坦尼克号沉船事件中乘客年龄,性别,船舱等级,以及是否存活 4 项信息。1.3 Women 数据是一张 15*12 的表格,相应存放着 15 个样本和 2 个变量的数据信息。参考 “数据” 是我们进行数据挖掘的起点。只要我们细心
泰坦尼克之灾是Kaggle上的一个入门级比赛项目,主要是利用监督式机器学习,对样本进行训练,建立分类模型,对未标记样本进行分类。 虽然这是一个“过时”的项目,但自己一步一步的做完,还是很有意义的。通过做项目,主要有3方面作用: 1.验证理论知识,加深对理论的理解。 2.掌握常用工具的使用,增加工具的熟练度。 3.了解项目完整流程,提高工程化思想。 我已经将代码放到了我的Github上,会持续更新,
转载 2019-07-10 06:38:00
138阅读
2评论
# 如何使用 Python 下载 Titanic 数据 ## 简介 在这篇文章中,我将向你介绍如何使用 Python 下载 Titanic 数据Titanic 数据是一个经典的机器学习数据,用于预测乘客在 Titanic 号船上的生存情况。本文将指导你从头开始,完成下载数据的整个过程。 ## 整体流程 下面是完成这个任务的整体流程,我们将使用 pandas 和 requests 这
原创 9月前
359阅读
  • 1
  • 2
  • 3
  • 4
  • 5