1数据挖掘首先,我们来了解一下什么是数据挖掘?数据挖掘(分析)的具体步骤是什么?数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)一个不可缺少的一部分,知识发现就是将未加工的数据转换为有用信息的整个过程。在这个数据爆炸的时代,数据来源早已不限于数据库,音频、视频、图片、文本等等很多非结构化的数据都可以用于知识发现。图片来源:https://gith
原创
2021-01-01 16:33:17
1135阅读
step1: 数据感知step2: 数据清洗step3: 构建模型step4: 模型评估step5: 对新数据进行预sion ...
原创
2022-07-21 09:32:43
65阅读
优化训练集—再次训练import numpy as npimport pandas as pdfrlearn.svm import SVC,Linea...
原创
2022-07-21 09:31:55
65阅读
决策树的工作原理是通过对数据集进行递归分割,将数据集划分为不同的子集,直到每个子集都属于同一类别或
1. 写在前面: 本篇属于实战部分,更注重于算法在实际项目中的应用。如需对感知机算法本身有进一步的了解,可参考以下链接,在本人学习的过程中,起到了很大的帮助:统计学习方法 李航决策树算法原理 等共2篇 2. 数据集:数据集地址:https://www.kaggle.com/c/titanicTitanic数据集是Kaggle上参与人数最多的项目之一。数据本身简单小巧
# 如何使用 Python 下载 Titanic 数据集
## 简介
在这篇文章中,我将向你介绍如何使用 Python 下载 Titanic 数据集。Titanic 数据集是一个经典的机器学习数据集,用于预测乘客在 Titanic 号船上的生存情况。本文将指导你从头开始,完成下载数据集的整个过程。
## 整体流程
下面是完成这个任务的整体流程,我们将使用 pandas 和 requests 这
泰坦尼克之灾是Kaggle上的一个入门级比赛项目,主要是利用监督式机器学习,对样本进行训练,建立分类模型,对未标记样本进行分类。
虽然这是一个“过时”的项目,但自己一步一步的做完,还是很有意义的。通过做项目,主要有3方面作用:
1.验证理论知识,加深对理论的理解。
2.掌握常用工具的使用,增加工具的熟练度。
3.了解项目完整流程,提高工程化思想。
我已经将代码放到了我的Github上,会持续更新,
转载
2019-07-10 06:38:00
138阅读
2评论
3.处理Titanic数据集其目的是根据乘客的年龄、性别、乘客阶层、乘坐地点等属性来预测乘客是否幸存。首先,登录Kaggle,去Titanic challenge网站下载train.csv和test.csv。保存到datasets/titanic目录。主要涉及到的内容有:数据处理(对空白数据进行填充:Imputer)、自定义转换器、pipeline的编写以及采用以及SVCRandomForestC
POJ_2354
这个题目本质就是应用一个求球面上两点间球面距离的公式,这个可以在网上搜到。但这个题输入比较恶心,而且最后和100比较的时候先要把算出来的结果四舍五入到百分位,然后再和100去比较。
#include<stdio.h>#include<string.h>#include<math.h>#define zero 1e-8const dou
转载
2012-02-17 20:07:00
63阅读
2评论
导入文档,输出前几条数据 import pandas as pd ttnk=pd.read_csv("titanic.csv") ttnk.head() ttnk.info() 观察一下前几行数据,可以发现,数据种类各异,数值型、类别型,甚至还有缺失数据,我们需要做数据预处理。 根据我们对这场事故的 ...
转载
2021-09-23 17:24:00
50阅读
2评论
1. 导入数据,数据集拆分2. 训练并预测3. 使用其它模型训练import nu
原创
2018-08-05 22:44:33
38阅读
__.ipynb?sv=2015-12-11&sr=b&sig=KfDPSVmALrMN7XeJ3j9GesHBJ8DP4qilENQX0byejtE%3D&se=2016-12-18T21%3A06%3A09Z&sp=r注
原创
2022-12-08 11:47:01
93阅读
# 如何在R语言中引用titanic数据
## 介绍
在R语言中,我们可以使用内置的数据集来进行数据分析和建模。其中一个常见的数据集是titanic数据集,它包含了泰坦尼克号上乘客的信息。本文将教你如何在R语言中引用titanic数据集,以便你可以进行进一步的数据分析和建模。
## 流程
下面是引用titanic数据集的步骤:
| 步骤 | 描述 |
| --- | --- |
| 步骤1
Kaggle上的竞赛链接:https://www.kaggle.com/c/titanic/kernels#导入pandas用于数据分析import osimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt#利用pandas的read_csv模块直接从互联网加载泰坦尼克号乘客数据titanic = pd.r
原创
2022-04-19 10:01:37
53阅读
kaggle没有notebook的文件夹系统让我很不满意,决定以后把自己练习的过程都搬上。目录1.引入库2.准备数据集3.定义模型4.调用优化器和损失函数5.run 训练集6.用训练集的参数run 测试集1.引入库import numpy as np
import pandas as pd
import torch
from torch.utils.data impo
生存分析:将事件的结果(终点事件)和出现这一结果所经历的时间结合起来的一种统计分析方法。生存分析的目的:1.生存率比较:估计处理组和对照组n年的生存率和中位生存期。2.生存曲线比较:比较处理组和对照组的生存率是否有差别。3.影响因素分析:分析变量与生存结局/事件的关系。4.生存预测:根据变量预测患者n年的生存率。从生存分析的方法上看,一般可以分为三类:1.参数法:知道生存时间的分布模型,然后根据数
转载
2023-06-16 10:11:33
1302阅读
# kaggle Titanic # 导入需要的库 import pandas as pd import numpy as np import sys import sklearn import random import time from sklearn import ensemble from ...
转载
2021-10-10 21:33:00
120阅读
2评论
注:记录自己的第一次Kaggle文章目录ResultCode数据预览数据导入数据查看数据清洗删除多余特征缺失值填充数据挖掘家庭总人数身份
原创
2023-06-20 10:42:35
164阅读