老肥近期参加Kaggle平台的比赛,因为比赛类型为Code Competition,测试数据并不可见,我们需要将notebook代码在线提交进行推理,而因为测试集不可以见经常会遇到提交Error,同时报错完整的日志并不返回,只返回错误大类类型,在Debug时有一定程度上的困难。今天我便将之前遇到过的一些报错以及如何排查来做一个简单的总结回顾,使得自己在今后的提交尽量避免出错。我们首先假设我们所要提
转载
2024-01-04 05:10:55
157阅读
使用外部库——Python 7/7导入、运算符重载和进入外部库的世界冒险的生存技巧 本课你将学到Python中的导入方法,获取一些使用不熟悉的外部库的技巧,还有深入了解运算符重载。导入外部库目前,我们已经讨论过语言内置的类型和函数。但是另一个Python很棒的功能就是有大量的、已经写好的、高质量的、自定义外部库。有些库是“标准库”,意思是你在运行Python是都可以找得到他们。其他库可以很容易的加
参考视频教程: Add Data的路径:/kaggle/inputgit clone的路径:/kaggle/workingnotebook和终端不太一样的是:终端你cd 到一个目录后,路径会保留,像这样:$ cd ~/test$ ls -l但是kaggle notebook中的命令则是:cd ~/test;ls -l如果分成两行写,当前路径会恢复成默认路
转载
2024-01-18 23:30:25
375阅读
由于自己手头没有GPU资源,所以只能靠免费的GPU勉强做实验。之前使用的是Google Colab,但是用多用久了以后,就特别容易断,断开以后,基本上就寄了。所以又转向了Kaggle。Kaggle的好处就在于不用fq就能上传文件、运行代码,所以更稳定一点,目前我没有遇到跑着跑着突然断了的情况。这篇博客就记录下使用Kaggle的问题。Q1:如何上传在本地写好的文件和代码?A1:Kaggle中将你想上
转载
2024-01-29 01:25:49
332阅读
用python参加Kaggle的经验总结 作者 JxKing 最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,f
转载
2024-01-11 10:12:51
183阅读
Kaggle的技巧总结学习前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。我对于DS目前的总体理解目前DS notebook里面所做的数据处理有2个不同的目的:为了写分析报告(analysis report):很多做了很多的图,比较了两个参数,然后就没有对于模型准确率的改善有任何帮助,但是却是报告的重要组成部分,帮助不认识这个数据的人尽
转载
2023-11-20 14:31:10
154阅读
参考:机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾参考:Kaggle泰坦尼克特征工程和模型融合『解决一个问题的方法和思路不止一种』『没有所谓的机器学习算法优劣,也没有绝对高性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器学习算法。』 Kaggle上的大神们,也分享过一些experience,说几条我记得的哈: 『对数据的认识太重要了!』 『
转载
2024-06-12 22:26:01
46阅读
一个题一般都会有一个量化评价指标,所以又比数模竞赛更专注。因此从事数据分析挖掘行业的研究人士和工作者都可以在上面找到一些题目练手。Kaggle只允许每个题目每天提交2次结果,所以你不能线下疯狂尝试各种参数往上测试。 现在有一道机器学习的题目 Titanic: Machine Learning from Disaster 这个题数据量小而且问题简单就是
转载
2024-02-20 10:28:55
105阅读
1. kaggle介绍 Kaggle(官网:https://www.kaggle.com/)是由Anthony Goldbloom和Ben Hamner于2010年创立的一个数据科学社区。它为数据科学家和机器学习工程师提供了一个平台,可以在该平台上进行数据分析和建模活动,同时进行竞赛式的数据分析等活动。Kaggle除了提供竞赛外,还有数据及代码分享,知识讨论,实时赛事和基于云端的notebook
转载
2023-12-06 07:11:11
343阅读
这里说一下常规的在kaggle上创建jupyter notebook 点击New Notebook后,进入一个空的Notebook,可以在Data处创建上传要进行处理的数据。其中可以选择本地上传,也可以直接点击Add Data进行查找开源的数据。 点击ACCELERATOR可以选择要使用的GPU或TPU。如果不选择默认是使用自己笔记本的cpu 保存:tor
转载
2023-11-27 06:31:22
1103阅读
注册kaggle后当然是先熟悉了compete(一些题目)和cources(一些很好的零基础入门教程)。然后在一个题目中又有data(要处理的数据集)、notebooks(大佬们的题解)、discussion(顾名思义)、leaderboard(差不多就是rank)这几部分。 目录前言一、用什么写?二、摸鱼历程1.可视化2.数据预处理2.1.一些特定的预处理2.2.sklearn的预处理函数3
转载
2023-10-23 13:39:43
96阅读
# 如何使用 Python 在 Kaggle 上进行数据分析
Kaggle 是一个数据科学社区和在线平台,用户可以在这里分享数据集、进行竞赛,将他们的机器学习模型应用于现实世界数据等。对于刚入行的小白来说,阅读文档和社区指南可能并不会让人很清楚,以下是如何通过 Python 在 Kaggle 上进行数据分析的详细流程。
## 一、流程概述
为了帮助你更好地理解整个过程,我们将整个工作流程分为
学习目录:1. Hello, Python简单介绍python的常量、变量赋值以及算术运算2. 练习: Syntax, Variables, and Numbers3. Functions and Getting Help函数定义及调用, 并使用python内建文档4. 练习: Functions and Getting Help5. Booleans and Conditionals使用布尔代数
转载
2024-06-06 14:53:41
116阅读
算法工程师的日常工作中基础最多的便是数据,但是大多数的算法工程师在使用数据过程中,最缺少的还是对数据的整体把控和分析,更多靠的是业务经验。但是严谨的算法工程师在建模之前是需要对数据进行探索和分析的,以便于在建模过程中能给更快的做出更优的模型。生活中最苦难的事情就是了解自己,建模过程中最苦难的事是了解数据!了解数据是一件非常困难的事情,且非常耗时,因此从事数据科学很容易忽略前期的数据了解,而直接对数
转载
2023-10-17 07:16:15
138阅读
Kaggle是一个为数据科学和机器学习提供竞赛、数据集和工具的在线平台。 该网站通过向用户提供不同领域的实际问题和数据集,吸引了全球数据科学家和机器学习从业者的关注。Kaggle还为用户提供机器学习模型的开发、
转载
2023-11-17 11:28:13
524阅读
目录1.数据读取2.数据清洗3.数据重构4.建模预测提交 5.总结比赛的基本流程由四个部分组成:数据读取、数据清洗、数据重构、建模预测提交导包:import numpy as np
import pandas as pd
import pandas_profiling as ppf
import joblib # 模型的保存
import matplotlib.pyplot as pl
转载
2023-11-28 13:03:22
84阅读
开始学习机器学习的内容,对大数据处理很有兴趣,希望以此为鉴好好学习。Kaggle竞赛项目的全国过程:了解问题背景:对竞赛的背景进行了解下载数据分析数据:expolre data analysis数据处理和特征工程:data process and featureEngineering模型选择:model select提交结果:Submission了解问题背
转载
2024-06-18 20:26:10
76阅读
本文是博主基于之前练手Kaggle上泰坦尼克的入门分析而做的个人总结此案例是读者经过研究多个Kaggle上大神的kernel经验,加上个人的理解,再加入百分之一的运气得到 的结果此案例的亮点在于特征工程部分,对于变量的处理及属性的构造的姿势值得学习~~~0 简介 关于这个案例,具体的介绍及简介,见Kaggle官网上的数据,内容很全,唯一一个要必须提到的是,官网上的关于变量
转载
2024-08-23 16:24:35
64阅读
通过数据堆叠、数据清洗、特征提取、特征选择、构建模型等方法,实现对泰坦尼克号生存人数的预测。因为是刚开始接触机器学习,所以会有很多模型还没学到,知识较为浅层,kaggle的得分是801.观察数据通过泰坦尼克号比赛中,很多很多的资料中,有一个非常重要的点便是对数据的理解,我们要打一个比赛,要去分析一些数据的前提是我们对于数据足够的了解,知道它们之间的关系,了解他们的数据类型……2.导入数据首先我们将
转载
2024-01-02 13:21:28
169阅读
kaggle上有个简单的机器学习教程,用的是Python,这篇文章尝试把其中的主要脉络梳理一下数据的导入和导出kaggle的数据集大都是以csv格式的文件存储的,你上传最终的结果时也要求以csv格式呈现,因此下面简单介绍下数据集的导入和导出。这个教程是以 预测Titanic幸存人数为例进行说明。数据读入使用pandas可以将csv文件读入DataFrame格式的文件import pandas
tr
转载
2023-06-16 17:08:06
662阅读