微信大数据挑战赛

微信视频号推荐算法比赛链接:https://algo.weixin.qq.com/




比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_算法


赛题描述

本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户, 根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。 本次比赛以多个行为预测结果的加权uAUC值进行评分

比赛提供训练集用于训练模型,测试集用于评估模型效果,提交结果demo文件用于展示提交结果的格式。 所有数据文件格式都是带表头的.csv格式,不同字段列之间用英文逗号分隔。初赛与复赛的数据分布一致,数据规模不同。 初赛提供百万级训练数据,复赛提供千万级训练数据。

竞赛数据

比赛提供训练集用于训练模型,测试集用于评估模型效果,提交结果demo文件用于展示提交结果的格式。所有数据文件格式都是带表头的.csv格式,不同字段列之间用英文逗号分隔。初赛与复赛的数据分布一致,数据规模不同。初赛提供百万级训练数据,复赛提供千万级训练数据。
详情可见数据描述:https://algo.weixin.qq.com/problem-description

评分标准

本次比赛采用uAUC作为单个行为预测结果的评估指标,uAUC定义为不同用户下AUC的平均值,计算公式如下:


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_算法_02


其中,n为测试集中的有效用户数,有效用户指的是对于某个待预测的行为,过滤掉测试集中全是正样本或全是负样本的用户后剩下的用户。AUCi为第i个有效用户的预测结果的AUC(Area Under Curve)。AUC的定义和计算方法可参考 维基百科。

初赛的最终分数为4个行为(查看评论、点赞、点击头像、转发)的uAUC值的加权平均。复赛的最终分数为7个行为(查看评论、点赞、点击头像、转发、收藏、评论和关注)的uAUC值的加权平均。分数越高,排名越靠前。


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_python_03


三一数据应用大赛-逾期风控预测

比赛链接:https://datazone.sanygroup.com/v2/cmptDetail.html?id=438

竞赛背景

与汽车行业,房地产行业类似,在工程机械行业的销售中,客户购买产品前往往有融资需求,这给企业创造了一些商机,但同时也会带来一定的货款还款风险。要将利益最大化的同时降低自身风险,就需要通过对数据的分析提前认识,分析以及预判出这类风险,筛选出后期有可能逾期还款的客户,这对于企业的经营风险管理显得尤为重要。

任务

(1)赛题任务
大赛将提供客户基本信息,还款记录,以及其贷款购买的设备工况信息,鼓励选手采用先进的机器学习模型来预测某客户群体中的每位客户未来三个月是否会逾期。
在此给定数据的条件下,选手需要进行适当数据预处理(比如对缺失值的合理填充,根据需求进行数据清洗),设计合理的模型框架,结合业务知识或特征工程创造特征,并采取一定措施评估模型的鲁棒性。

(2)数据使用规则
本赛题不能使用任何外部数据。

(3)排名规则
本赛题一共有两个测试集纳入评分,两个测试集都以F1分数作为评判标准。

评分标准

(1)提交次数限制:每支队伍每天最多提交3次。

(2)评分指标:

Precision = TP/(TP+FP) 
Recall = TP/(TP+FN) 
F1 = TP/[TP+(FN+FP)/2]

最终以F1为排名标准。


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_算法_04


混淆矩阵

注:不要求两个测试集用同一个模型预测!

三一数据应用大赛-挖掘机工作模式识别

比赛链接:https://datazone.sanygroup.com/v2/cmptDetail.html?id=439

竞赛背景

挖掘机作为工程建设中最主要的工程机械之一,承担着多种作业任务,可进行多种不同形式的作业。

在挖掘机租赁业务中,出租方和客户会事先对挖掘机能够进行的作业形式进行明确规定。但目前仅靠现场抽查无法对挖掘机的实际使用情况进行有力且全面的监管。随着物联网技术的不断发展,挖掘机安装了数十个传感器,并将数据回传至云端。现在希望利用这些回传的传感器数据(C端数据)对挖掘及工作模式进行识别,从而加强对挖掘机使用情况的监管。

产品研发方面,挖掘机工作模式的有效识别,能加深研发部门对挖掘机相关数据的理解,发挥C端数据的价值,为新产品的研发、故障预测性维护等提供有力支撑。

任务

挖掘机工作模式识别赛题旨在根据C端数据判断给定时间段内挖掘机的工作模式(模式一/模式二)。预赛、决赛任务均为进行上述两种模式的判断。决赛将在预赛基础上为选手补充训练样本,以提高模型精度。

此次比赛,为低资源竞赛任务。同时,为了增强模型泛化能力和模型鲁棒性,在测试集中增加一定数量的干扰数据,干扰数据不计入最终得分。

数据

预赛和决赛均在DCLab平台上进行,选手需要在平台上进行算法调试。请在作品提交页面复制token值后前往DCLab提交作品在比赛平台提交结果。

预赛提供325台设备数据用于训练模型,决赛训练数据基于预赛增加154台设备。(注:由于每台设备实际开工率不同,对应的数据量也有所不同。)

数据中不包含标签字段,需要选手根据数据所在文件夹名称自行添加标签,对标签的约定如下。:


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_算法_05


image


本赛题不能使用任何外部数据。

评分标准

(1)提交次数限制:每支队伍每天最多提交3次。

(2)评分指标:

Precision = TP/(TP+FP)
Recall = TP/(TP+FN)  
F1 = TP/[TP+(FN+FP)/2]

最终以F1为排名标准。


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_大数据_06


SODIC 2021全球开放数据应用创新大赛


比赛推送:ML/NLP/推荐/CV,一大波比赛来袭!_机器学习_07


算法赛道要求参赛选手围绕明确需求和固定场景,形成算法模型或结果数据,由大赛官网竞赛模块自动评测,并结合大赛专家委员会意见形成最终评审结果。

起止时间: 2021/04/20 - 2021/08/28

人岗精准匹配模型

比赛链接:https://www.sodic.com.cn/competitions/900008

企业招聘需求日益多元化、精细化,招聘服务的开展难度正面临日益严峻的挑战。本赛题期望选手通过自然语言处理、机器学习等前沿技术手段,建立海量企业、个人用户画像,在人才的“选育用留”等方向提供数据挖潜服务,从而提高企业人才招聘效率。

城市需水预测模型

比赛链接:https://www.sodic.com.cn/competitions/900009

深圳市是全国严重缺水城市之一,全市水资源面临“淡水资源少、对外依赖严重、供求关系紧张”的严峻形势。准确预测未来一段时间内的城市需水量,对全市供水调度计划制定和供水稳定运行具有重要意义。

基于文本挖掘的企业隐患排查质量分析模型

比赛链接:https://www.sodic.com.cn/competitions/900010

企业自主填报安全生产隐患,对于将风险消除在事故萌芽阶段具有重要意义,采用大数据手段分析隐患内容,找出不切实履行主体责任的企业,向监管部门进行推送,实现精准执法,能够提高监管手段的有效性,增强企业安全责任意识。

口腔图像重要部位实例分割精度提升方案

比赛链接:https://www.sodic.com.cn/competitions/900011

口腔重要部位的检测分割对于咽拭子机器人智能采样有着至关重要的作用。此外,通过口腔某些部位的图像检测,可以实现如扁桃体炎等口腔疾病的检测和预防,在医学上有重要的应用价值。

城市风场数据空间降尺度模拟分析

比赛链接:https://www.sodic.com.cn/competitions/900012

大风灾害会给城市建筑、交通运输、污染物传播带来严重影响,通过空间降尺度,利用低分辨率网格数据生成高空间精度的风场数据,有利于提升大风灾害的监测预警服务质量,减少由大风灾害导致的事故风险,提升城市安全。

道路路面病害智能分析算法

比赛链接:https://www.sodic.com.cn/competitions/900013

城市道路系统是城市功能正常运转的重要保障。目前,城市道路日常巡检主要靠巡查员在路上巡视,该方式存在较强的主观性,且效率较低。使用技术手段对道路路面病害进行智能分析,具有重要的现实意义。

法律咨询智能问答

比赛链接:https://www.sodic.com.cn/competitions/900022

本赛题提供真实的法律问答数据集,参赛选手需基于该数据集,针对用户提问,输出正确、完整、简洁的参考回答。