优质文章,第一时间送达! Python开源机器学习建模库 PyCaret ,最近刚刚发布了2.0版本。这款堪称「调包侠神器」的模型训练工具包, 几行代码 就能搞定模型编写、改进和微调。从数据预处理到模型效果对比,PyCaret都能 自动实现 。所以,PyCaret长啥样,2.0的版本又做了什么改进?一起来看看。机器学习库的「炼丹炉」PyCaret说白了,有点像一个机器学习库的 炼丹炉 。
文章目录0 前言1 简介2 数据准备2.1 导入数据2.2 检查空值2.3 正则化 Normalization2.4 更改数据维度 Reshape2.5 标签编码2.6 分割交叉验证集3 CNN3.1 定义网络模型3.2 设置优化器和退火器 optimizer and annealer3.3 数据增强4 评估模型4.1 训练和交叉验证曲线4.2 混淆矩阵 Confusion matrix5 生成
转载 2024-07-22 11:25:38
383阅读
kaggle入门-泰坦尼克之灾引言数据认识总结特征处理建模预测logistic分类模型随机森林SVMxgboost模型验证交叉验证学习曲线高偏差:高方差模型融合总结后记 引言一直久闻kaggle大名,自己也陆陆续续学了一些机器学习方面的知识,想在kaggle上面尝试一下,但是因为各种烦杂的事情和课业拖累,一直没时间参加一次kaggle的比赛。这次我将用kaggle的入门赛:Titanic: Mac
介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成平均排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包括它们的结果以及代码以供你自己去尝试。怎
转载 2024-05-19 12:51:00
144阅读
 用python参加Kaggle的经验总结 作者 JxKing  最近挤出时间,用pythonkaggle上试了几个project,有点体会,记录下。Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,f
转载 2024-01-11 10:12:51
183阅读
一个题一般都会有一个量化评价指标,所以又比数模竞赛更专注。因此从事数据分析挖掘行业的研究人士和工作者都可以在上面找到一些题目练手。Kaggle只允许每个题目每天提交2次结果,所以你不能线下疯狂尝试各种参数往上测试。     现在有一道机器学习的题目 Titanic: Machine Learning from Disaster 这个题数据量小而且问题简单就是
转载 2024-02-20 10:28:55
105阅读
Kaggle的技巧总结学习前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。我对于DS目前的总体理解目前DS notebook里面所做的数据处理有2个不同的目的:为了写分析报告(analysis report):很多做了很多的图,比较了两个参数,然后就没有对于模型准确率的改善有任何帮助,但是却是报告的重要组成部分,帮助不认识这个数据的人尽
转载 2023-11-20 14:31:10
154阅读
参考:机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾参考:Kaggle泰坦尼克特征工程和模型融合『解决一个问题的方法和思路不止一种』『没有所谓的机器学习算法优劣,也没有绝对高性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器学习算法。』 Kaggle上的大神们,也分享过一些experience,说几条我记得的哈: 『对数据的认识太重要了!』 『
1. kaggle介绍  Kaggle(官网:https://www.kaggle.com/)是由Anthony Goldbloom和Ben Hamner于2010年创立的一个数据科学社区。它为数据科学家和机器学习工程师提供了一个平台,可以在该平台上进行数据分析和建模活动,同时进行竞赛式的数据分析等活动。Kaggle除了提供竞赛外,还有数据及代码分享,知识讨论,实时赛事和基于云端的notebook
Kaggle-How Much Did it Rain? II Predict hourly rainfall using data from polarimetric radars (比赛链接:https://www.kaggle.com/c/how-much-did-it-rain-ii) 关于 ...
转载 2021-09-03 09:50:00
329阅读
2评论
数据集:本文主要对KAGGLE房价预测数据进行预测,并提供模型的设计以及超参数的选择。该数据集共有1460个数据样本,80个样本特征 实现代码:0 导入库import os os.environ['KMP_DUPLICATE_LIB_OK']='True' import torch import torch.nn as nn import numpy as np import pandas as
# 如何使用 PythonKaggle 上进行数据分析 Kaggle 是一个数据科学社区和在线平台,用户可以在这里分享数据集、进行竞赛,将他们的机器学习模型应用于现实世界数据等。对于刚入行的小白来说,阅读文档和社区指南可能并不会让人很清楚,以下是如何通过 PythonKaggle 上进行数据分析的详细流程。 ## 一、流程概述 为了帮助你更好地理解整个过程,我们将整个工作流程分为
原创 9月前
46阅读
学习目录:1. Hello, Python简单介绍python的常量、变量赋值以及算术运算2. 练习: Syntax, Variables, and Numbers3. Functions and Getting Help函数定义及调用, 并使用python内建文档4. 练习: Functions and Getting Help5. Booleans and Conditionals使用布尔代数
转载 2024-06-06 14:53:41
116阅读
算法工程师的日常工作中基础最多的便是数据,但是大多数的算法工程师在使用数据过程中,最缺少的还是对数据的整体把控和分析,更多靠的是业务经验。但是严谨的算法工程师在建模之前是需要对数据进行探索和分析的,以便于在建模过程中能给更快的做出更优的模型。生活中最苦难的事情就是了解自己,建模过程中最苦难的事是了解数据!了解数据是一件非常困难的事情,且非常耗时,因此从事数据科学很容易忽略前期的数据了解,而直接对数
转载 2023-10-17 07:16:15
138阅读
目录1、前言2、问题描述3、代码实作3.1 导入数据3.1.1 导入需要的模块3.1.2 导入数据3.2 查看各项主要特征与房屋售价的关系3.2.1 查看房屋售价统计信息3.2.2 查看缺失值3.2.3 查看房屋售价的分布3.2.4 查看生活面积与房价的关系3.2.5 查看数据之间的关联性3.3 数据预处理3.3.1 对连续的特征做标准化3.3.2 对离散的特征替换成独热点码3.3.3 转成te
目录1.数据读取2.数据清洗3.数据重构4.建模预测提交 5.总结比赛的基本流程由四个部分组成:数据读取、数据清洗、数据重构、建模预测提交导包:import numpy as np import pandas as pd import pandas_profiling as ppf import joblib # 模型的保存 import matplotlib.pyplot as pl
        Kaggle是一个为数据科学和机器学习提供竞赛、数据集和工具的在线平台。        该网站通过向用户提供不同领域的实际问题和数据集,吸引了全球数据科学家和机器学习从业者的关注。Kaggle还为用户提供机器学习模型的开发、
开始学习机器学习的内容,对大数据处理很有兴趣,希望以此为鉴好好学习。Kaggle竞赛项目的全国过程:了解问题背景:对竞赛的背景进行了解下载数据分析数据:expolre data analysis数据处理和特征工程:data process and featureEngineering模型选择:model select提交结果:Submission了解问题背
本文是博主基于之前练手Kaggle上泰坦尼克的入门分析而做的个人总结此案例是读者经过研究多个Kaggle上大神的kernel经验,加上个人的理解,再加入百分之一的运气得到 的结果此案例的亮点在于特征工程部分,对于变量的处理及属性的构造的姿势值得学习~~~0 简介    关于这个案例,具体的介绍及简介,见Kaggle官网上的数据,内容很全,唯一一个要必须提到的是,官网上的关于变量
kaggle上有个简单的机器学习教程,用的是Python,这篇文章尝试把其中的主要脉络梳理一下数据的导入和导出kaggle的数据集大都是以csv格式的文件存储的,你上传最终的结果时也要求以csv格式呈现,因此下面简单介绍下数据集的导入和导出。这个教程是以 预测Titanic幸存人数为例进行说明。数据读入使用pandas可以将csv文件读入DataFrame格式的文件import pandas tr
  • 1
  • 2
  • 3
  • 4
  • 5