Kaggle的技巧总结学习前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。我对于DS目前的总体理解目前DS notebook里面所做的数据处理有2个不同的目的:为了写分析报告(analysis report):很多做了很多的图,比较了两个参数,然后就没有对于模型准确率的改善有任何帮助,但是却是报告的重要组成部分,帮助不认识这个数据的人尽
转载
2023-11-20 14:31:10
154阅读
在Kaggle比赛中最终要的步骤就是进行数据的分析,数据的清洗,以及特征的提取。因此我总结了最近常会用到的数据处理的方法,以便将来复习和使用。一、读取和存储csv文件从.csv文件中读取文件内容;将DataFrame对象存放到.csv文件中#读取文件内容
train = pd.read_csv('train.csv',index_col=0)#读取内容时,如果每行前面有索引值,舍去
#将Data
转载
2024-03-21 22:37:11
206阅读
参考:机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾参考:Kaggle泰坦尼克特征工程和模型融合『解决一个问题的方法和思路不止一种』『没有所谓的机器学习算法优劣,也没有绝对高性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器学习算法。』 Kaggle上的大神们,也分享过一些experience,说几条我记得的哈: 『对数据的认识太重要了!』 『
转载
2024-06-12 22:26:01
46阅读
一个题一般都会有一个量化评价指标,所以又比数模竞赛更专注。因此从事数据分析挖掘行业的研究人士和工作者都可以在上面找到一些题目练手。Kaggle只允许每个题目每天提交2次结果,所以你不能线下疯狂尝试各种参数往上测试。 现在有一道机器学习的题目 Titanic: Machine Learning from Disaster 这个题数据量小而且问题简单就是
转载
2024-02-20 10:28:55
105阅读
在学习了一些数据挖掘和机器学习的算法之后,需要积累实际开发经验。在实践的过程中不仅需要自己摸索,还需要向牛人学习和请教。Kaggle就提供这样的数据平台,企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,开发者其数据下载到本地,分析,处理后将结果上传,Kaggle将结果排名显示,有的比赛设有资金。Kaggle还有活跃的讨论区,供大家交流。如何使用Kaggle 我们先来看看,Ka
Kaggle实例-家庭贫困水平预测**1. 数据背景****2. 数据目标****3. 问题和数据说明****3.1. 目标说明****3.2. 评估度量****4. 数据分析****4.1. Import****4.2. 读取数据并查看基本信息****4.3. 探索标签的分布****4.4. 解决错误的标签****4.4.1. 识别错误****4.4.2. 没有户主的家庭****4.4.3.
转载
2024-04-07 09:01:26
99阅读
1. kaggle介绍 Kaggle(官网:https://www.kaggle.com/)是由Anthony Goldbloom和Ben Hamner于2010年创立的一个数据科学社区。它为数据科学家和机器学习工程师提供了一个平台,可以在该平台上进行数据分析和建模活动,同时进行竞赛式的数据分析等活动。Kaggle除了提供竞赛外,还有数据及代码分享,知识讨论,实时赛事和基于云端的notebook
转载
2023-12-06 07:11:11
343阅读
最近发现kaggle每周给了30小时的GPU额度,直接使用在线jupyter notebook,非常方便。以后就直接在kaggle上练习了。第一版,尽量不要“Save Version”离线运行,因为离线运行只要一个语句出错,整个程序白跑。所以一般是第一版在线跑完,没有错,之后改动比较小的细调时再离线跑。比如这场比赛,因为数据集是压缩包,所以需要先导入库、然后在线解压到缓存里(大概需要20分钟),然
转载
2024-09-01 21:48:28
831阅读
推荐系统的一个题目1.题目综述根据给出的事件信息、用户信息等,给出推荐的活动列表。对于每个时间,给出一个感兴趣的概率值,然后根据概率值进行排序。判定标准是 MAP(Mean Average Precision) at 200 2.数据预处理题目中给出了六个文件,分别是:train.csv:特征有6个,分别是用户,事件,是否被邀请,时间戳,感兴趣,不感兴趣。数据量:15000+
转载
2023-10-08 17:00:08
126阅读
Kaggle是一个为数据科学和机器学习提供竞赛、数据集和工具的在线平台。 该网站通过向用户提供不同领域的实际问题和数据集,吸引了全球数据科学家和机器学习从业者的关注。Kaggle还为用户提供机器学习模型的开发、
转载
2023-11-17 11:28:13
524阅读
kaggle 的入门可以从101playground 开始,重要的是要开始做,万事开头难。然后平时要多多看高手的文章,获奖经验。有的高手获奖者甚至会把自己的源代码放上去,你就是去仅仅跑一遍,也能学到非常多的东西。关于kaggle的问题分类:一般就是regression,classification, timeseries这几类。kaggle的问题一般解决过
转载
2023-10-03 16:19:17
226阅读
图像分割涨点技巧!从39个Kaggle竞赛中总结出的分割Tips和Tricks从数据预处理、增强、模型设计到损失函数、调参技巧!作者参加了39个Kaggle比赛,总结了非常多的技巧和经验,现在全部分享给大家。参考文献:Image Segmentation: Tips and Tricks from 39 Kaggle Competitions(这个应该是最早的,最新更新于2022年7月21日)计算
转载
2024-05-27 11:37:43
117阅读
0.76076。对数据进行统计并可视化import pandas as pd
import numpy as np
data_train=pd.read_csv("D:/Titanic/data/train.csv")
print(data_train.info())#查看数据缺失情况
print(data_train.describe())#查看数据基本统计信息输出为: &
转载
2024-02-04 00:41:01
58阅读
目录1.数据读取2.数据清洗3.数据重构4.建模预测提交 5.总结比赛的基本流程由四个部分组成:数据读取、数据清洗、数据重构、建模预测提交导包:import numpy as np
import pandas as pd
import pandas_profiling as ppf
import joblib # 模型的保存
import matplotlib.pyplot as pl
转载
2023-11-28 13:03:22
84阅读
本文是博主基于之前练手Kaggle上泰坦尼克的入门分析而做的个人总结此案例是读者经过研究多个Kaggle上大神的kernel经验,加上个人的理解,再加入百分之一的运气得到 的结果此案例的亮点在于特征工程部分,对于变量的处理及属性的构造的姿势值得学习~~~0 简介 关于这个案例,具体的介绍及简介,见Kaggle官网上的数据,内容很全,唯一一个要必须提到的是,官网上的关于变量
转载
2024-08-23 16:24:35
64阅读
导 论:Kaggle 每周可以白嫖GPU资源约40小时,Kaggle相比于Colab而言可以离线运行,而且运行时间挺长的。Colab如果不开pro会员的话只能使用Tesla k40 这种低级显卡约4小时,开会员的话可以用Tesla V100、P100等显卡。Kaggle侧重于数据竞赛,他们希望你使用Kaggle来跑竞赛题目而不是你的实验工程。然而Kaggle不同于Colab
转载
2024-05-22 18:22:02
272阅读
开始学习机器学习的内容,对大数据处理很有兴趣,希望以此为鉴好好学习。Kaggle竞赛项目的全国过程:了解问题背景:对竞赛的背景进行了解下载数据分析数据:expolre data analysis数据处理和特征工程:data process and featureEngineering模型选择:model select提交结果:Submission了解问题背
转载
2024-06-18 20:26:10
76阅读
用python参加Kaggle的经验总结 作者 JxKing 最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,f
转载
2024-01-11 10:12:51
183阅读
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
转载
2021-08-10 11:48:48
634阅读
两个预测kaggle比赛 一 .https://www.kaggle.com/c/web-traffic-time-series-forecasting/overview Arthur Suilin•(1st in this Competition)•a year ago•Options githu
转载
2018-09-25 20:36:00
213阅读
2评论