1. 写在前面: 本篇属于实战部分,更注重于算法在实际项目中的应用。如需对感知机算法本身有进一步的了解,可参考以下链接,在本人学习的过程中,起到了很大的帮助:统计学习方法 李航决策树算法原理  等共2篇 2. 数据集:数据集地址:https://www.kaggle.com/c/titanicTitanic数据集是Kaggle上参与人数最多的项目之一。数据本身简单小巧
转载 7月前
112阅读
# 如何使用 Python 下载 Titanic 数据集 ## 简介 在这篇文章中,我将向你介绍如何使用 Python 下载 Titanic 数据集。Titanic 数据集是一个经典的机器学习数据集,用于预测乘客在 Titanic 号船上的生存情况。本文将指导你从头开始,完成下载数据集的整个过程。 ## 整体流程 下面是完成这个任务的整体流程,我们将使用 pandas 和 requests 这
原创 9月前
359阅读
import time#插入time模块time.daylight:这个属性表示本地时间是否使用日光节约时间(夏令时间),1表示是,0表示否。以中国大陆时区为例,time.daylight的值是0。print(time.daylight)#输出为0time.timezone:这个属性表示本地时间和UTC时间相差多少秒(UTC,Coordinated Universal Time)它的时间标准比格林
import pandas as pd def read_dataset(fname): data=pd.read_csv(fname, index_col=0) data.drop([‘Name’,‘Ticket’,‘Cabin’],axis=1,inplace=True) data[‘Sex’]=(data[‘Sex’]==‘male’).astype(‘int’) labels=data[
泰坦尼克之灾是Kaggle上的一个入门级比赛项目,主要是利用监督式机器学习,对样本进行训练,建立分类模型,对未标记样本进行分类。 虽然这是一个“过时”的项目,但自己一步一步的做完,还是很有意义的。通过做项目,主要有3方面作用: 1.验证理论知识,加深对理论的理解。 2.掌握常用工具的使用,增加工具的熟练度。 3.了解项目完整流程,提高工程化思想。 我已经将代码放到了我的Github上,会持续更新,
转载 2019-07-10 06:38:00
138阅读
2评论
3.处理Titanic数据集其目的是根据乘客的年龄、性别、乘客阶层、乘坐地点等属性来预测乘客是否幸存。首先,登录Kaggle,去Titanic challenge网站下载train.csv和test.csv。保存到datasets/titanic目录。主要涉及到的内容有:数据处理(对空白数据进行填充:Imputer)、自定义转换器、pipeline的编写以及采用以及SVCRandomForestC
POJ_2354     这个题目本质就是应用一个求球面上两点间球面距离的公式,这个可以在网上搜到。但这个题输入比较恶心,而且最后和100比较的时候先要把算出来的结果四舍五入到百分位,然后再和100去比较。 #include<stdio.h>#include<string.h>#include<math.h>#define zero 1e-8const dou
转载 2012-02-17 20:07:00
63阅读
2评论
导入文档,输出前几条数据 import pandas as pd ttnk=pd.read_csv("titanic.csv") ttnk.head() ttnk.info() 观察一下前几行数据,可以发现,数据种类各异,数值型、类别型,甚至还有缺失数据,我们需要做数据预处理。 根据我们对这场事故的 ...
转载 2021-09-23 17:24:00
50阅读
2评论
  数据是大数据时代互联网巨头们傲视群雄的秘密武器。当我们想要接触一个数据驱动型的新领域(如语音识别)时,往往囿于没有足够成熟的数据做实验而举步维艰。幸运的是,有很多机构将他们的成熟的数据公开出来,供我们学习、研究,TIMIT数据库就是其中之一。    TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,
一.数据描述 1.1 数据加载 加载所需数据与所需的python库。 import statsmodels.api as smimport statsmodels.formula.api as smfimport statsmodels.graphics.api as smgimport patsy%matplotlib inlineimport matplotlib.pyplot as plt
转载 2021-06-19 13:09:02
369阅读
2评论
__.ipynb?sv=2015-12-11&sr=b&sig=KfDPSVmALrMN7XeJ3j9GesHBJ8DP4qilENQX0byejtE%3D&se=2016-12-18T21%3A06%3A09Z&sp=r注
原创 2022-12-08 11:47:01
88阅读
# 如何在R语言中引用titanic数据 ## 介绍 在R语言中,我们可以使用内置的数据集来进行数据分析和建模。其中一个常见的数据集是titanic数据集,它包含了泰坦尼克号上乘客的信息。本文将教你如何在R语言中引用titanic数据集,以便你可以进行进一步的数据分析和建模。 ## 流程 下面是引用titanic数据集的步骤: | 步骤 | 描述 | | --- | --- | | 步骤1
原创 8月前
65阅读
pythontitanic_data文件处理 python data structures
转载 2023-05-18 19:48:56
47阅读
kaggle没有notebook的文件夹系统让我很不满意,决定以后把自己练习的过程都搬上。目录1.引入库2.准备数据集3.定义模型4.调用优化器和损失函数5.run 训练集6.用训练集的参数run 测试集1.引入库import numpy as np import pandas as pd import torch from torch.utils.data impo
# kaggle Titanic # 导入需要的库 import pandas as pd import numpy as np import sys import sklearn import random import time from sklearn import ensemble from ...
转载 2021-10-10 21:33:00
120阅读
2评论
注:记录自己的第一次Kaggle文章目录ResultCode数据预览数据导入数据查看数据清洗删除多余特征缺失值填充数据挖掘家庭总人数身份
原创 2023-06-20 10:42:35
164阅读
1数据挖掘首先,我们来了解一下什么是数据挖掘?数据挖掘(分析)的具体步骤是什么?数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)一个不可缺少的一部分,知识发现就是将未加工的数据转换为有用信息的整个过程。在这个数据爆炸的时代,数据来源早已不限于数据库,音频、视频、图片、文本等等很多非结构化的数据都可以用于知识发现。图片来源:https://gith
原创 2021-01-01 16:33:17
1124阅读
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据,处理缺失值、异常值等 ①缺失值处理 删除记录、数据插补、不处理 常用插补方法 均值/中位数/众数 根据属性值类型,取均值、中位数、众数进行插补 使用固定值 将缺失属性用常量替代 最近邻插补法 在记录中找到与缺失样本最接近的样本的该属性值进行插补 回归方法 根据已有数据和与
 1 案例介绍泰坎尼克号遇难。已知部分船员的个人信息和是否幸存,来预测其他船上人的存活情况。1.1 数据分析我们所要做的第一步是观察和分析数据,这里使用Pandas 进行处理。 可以判断一共有12列,第一列是ID,第二列是分类标签,因此是十个特征,一个二分类标签。多个特征含有空值。Age列空值很多,且是重要属性;Cabin列空值很多,可能是非重要属性;Embarked 只有两个
前言 \quad 之前对Titanic做了一些数据清洗和简单的特征功能,并且使用了决策树,随机深林,AdaBoost,Xgboost,K邻近分类模型,并且做了基础的Ensemble也就是用投票数来判断最后的结果,但是很难受的是排名十分靠后,在TOP62%。所以成为了一块心
原创 2022-04-19 10:09:10
136阅读
  • 1
  • 2
  • 3
  • 4
  • 5