大赛简介大赛名称:SETI Breakthrough Listen - E.T. Signal Searc赛题背景“我们一个人在宇宙里吗?”这是最深刻且长期存在的人类问题之一。随着技术的进步,我们正在寻找新的和更强大的方法来寻求答案。加州大学伯克利大学使用世界上最强大的望远镜对数百万颗恒星进行技术扫描。现在希望Kaggle社区能够帮助解释他们收到的信号。加州大学伯克利分校的Breakthrough
Kaggle实例-家庭贫困水平预测**1. 数据背景****2. 数据目标****3. 问题和数据说明****3.1. 目标说明****3.2. 评估度量****4. 数据分析****4.1. Import****4.2. 读取数据并查看基本信息****4.3. 探索标签的分布****4.4. 解决错误的标签****4.4.1. 识别错误****4.4.2. 没有户主的家庭****4.4.3.
转载
2024-04-07 09:01:26
99阅读
索引0.了解Kaggle:1.观察大局:2.获得数据:3.从数据探索和可视化中获得洞见:4.机器学习算法的数据准备:5.选择和训练模型:6.微调模型: 0.了解Kaggle:Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公
本人小白,请不要嘲笑; 如有错误,请不吝赐教。kaggle – House Prices:分数、思路、代码 题目:训练集是多套房的多项房屋信息指标和房价;测试集是多套房的多项房屋信息指标,要得到房价。成绩:0.12405 (RMSLE),878名/2722。基础数据: 特征有79维,SalePrice为Label。训练集中多列有大量缺失值。特征兼具定性特征和定量特征。处理步骤 :特征工程 +
未来是人工智能的时代!提到深度学习,逻辑回归是最经典的一个例子,也是很多教材的入门算法(比如吴恩达的深度学习)。鉴于本人零基础学习人工智能的痛苦经历,所以用通俗的语言把逻辑回归讲清楚。深度学习本身核心知识是数学知识,涉及到线性代数、概率论,微积分等。体会到很多读者都是像我一样,已经把这些知识早就还给老师了,所以我会逐步完善这个系列,用尽量通俗的语言来把深度学习的知识分享整理一遍。什么是“逻辑”?什
0. 前言1.任务描述2.数据概览3. 数据准备4. 模型训练5. kaggle实战0. 前言“尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题。”本系列参考书籍 "Hands-on machine learning with scikit-learn and tensorflow"以及kaggle相关资料1.任务描述预测任务:根据某时刻房价相关数据,预测区域内该时
转载
2024-03-14 17:38:35
95阅读
1. 模型表示 让我们通过一个例子来开始:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的
转载
2024-02-22 00:27:16
68阅读
本文只涉及入门级的完成,所以对于数据的处理和模型较为粗略,并不涉及详细优化,所以kaggle的提交测试了一下应该是处于中间水平,后续优化请按照个人参考修改。数据集的读取与导入import numpy as np
import pandas as pd
train = pd.read_csv("路径/train.csv")
test = pd.read_csv("路径/test.csv")探索性可
转载
2023-11-30 09:22:59
204阅读
关于线性回归的介绍可以看这里:线性回归介绍 下文主要介绍通过线性回归解决Kaggle中的HousePrices问题,使用的是PyTorch。 下文会给出使用线性回归创建的最终模型,以及超参数等内容,但是整个模型的搭建以及试错的过程由于内容太长,感兴趣 的可以去作者的GitHub下载相关的Jupyte
原创
2022-09-21 15:42:35
705阅读
下文仅给出模型的PyTorch实现,具体
原创
2022-09-21 15:41:48
105阅读
目录数据集划分与交叉验证模型集成方法Titanic为例的简单应用kaggle比赛相关tips数据集划分与交叉验证数据集划分 通常有两种方法:留出法(Hold-out) 适用于数据量大的情况K折交叉验证(K-fold CV) 适用于数据量一般情况 时间比较长自助采样(Bootstrap) 较少使用交叉验证得到的模型更加稳定.数据一致性分析理想情况下AUC接近0.5sklearn中封装的一系列的数据划
逻辑回归(Logistic Regression) 首先说明一个问题,逻辑回归虽然以回归命名,但逻辑回归却是一个分类算法,用于估计某种事物的可能性(概率),再通过激活函数(也有称为假设函数)映射到各个分类。 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设
转载
2024-03-27 16:02:48
80阅读
作者: 尘沙樱落,杰少基于Sigmoid的回归损失函数设计背景这是一个非常有意思的Loss设
转载
2022-11-14 15:46:41
379阅读
在Kaggle比赛中最终要的步骤就是进行数据的分析,数据的清洗,以及特征的提取。因此我总结了最近常会用到的数据处理的方法,以便将来复习和使用。一、读取和存储csv文件从.csv文件中读取文件内容;将DataFrame对象存放到.csv文件中#读取文件内容
train = pd.read_csv('train.csv',index_col=0)#读取内容时,如果每行前面有索引值,舍去
#将Data
转载
2024-03-21 22:37:11
206阅读
参考:机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾参考:Kaggle泰坦尼克特征工程和模型融合『解决一个问题的方法和思路不止一种』『没有所谓的机器学习算法优劣,也没有绝对高性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器学习算法。』 Kaggle上的大神们,也分享过一些experience,说几条我记得的哈: 『对数据的认识太重要了!』 『
转载
2024-06-12 22:26:01
46阅读
Kaggle的技巧总结学习前面写了一些简单的pandas,numpy等使用方法,但是还是一直不清楚使用他们的目的和真正带来的好处是什么。我对于DS目前的总体理解目前DS notebook里面所做的数据处理有2个不同的目的:为了写分析报告(analysis report):很多做了很多的图,比较了两个参数,然后就没有对于模型准确率的改善有任何帮助,但是却是报告的重要组成部分,帮助不认识这个数据的人尽
转载
2023-11-20 14:31:10
154阅读
一个题一般都会有一个量化评价指标,所以又比数模竞赛更专注。因此从事数据分析挖掘行业的研究人士和工作者都可以在上面找到一些题目练手。Kaggle只允许每个题目每天提交2次结果,所以你不能线下疯狂尝试各种参数往上测试。 现在有一道机器学习的题目 Titanic: Machine Learning from Disaster 这个题数据量小而且问题简单就是
转载
2024-02-20 10:28:55
105阅读
在学习了一些数据挖掘和机器学习的算法之后,需要积累实际开发经验。在实践的过程中不仅需要自己摸索,还需要向牛人学习和请教。Kaggle就提供这样的数据平台,企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,开发者其数据下载到本地,分析,处理后将结果上传,Kaggle将结果排名显示,有的比赛设有资金。Kaggle还有活跃的讨论区,供大家交流。如何使用Kaggle 我们先来看看,Ka
1. kaggle介绍 Kaggle(官网:https://www.kaggle.com/)是由Anthony Goldbloom和Ben Hamner于2010年创立的一个数据科学社区。它为数据科学家和机器学习工程师提供了一个平台,可以在该平台上进行数据分析和建模活动,同时进行竞赛式的数据分析等活动。Kaggle除了提供竞赛外,还有数据及代码分享,知识讨论,实时赛事和基于云端的notebook
转载
2023-12-06 07:11:11
343阅读
一数据准备二查看各国影片的票房概况三通过简单线性回归研究豆瓣评分与票房之间的关系四小结 一、数据准备我们需要的票房数据来自CBO中国票房网,中国票房网记录了从2008年到目前为止的每年票房排名前25位的数据。豆瓣评分则来自于豆瓣API。最后我通过整合这两个数据生成了一个名为cmbo_data的数据表。(有机会会写一个如何通过简单的网络爬虫来获取数据的文章)如果你想自己实践以下操作的话,请从这里下
转载
2024-05-27 21:45:12
224阅读
1评论