微博热度预测竞赛|参赛tips_竞赛

 

DataCastle “卧龙大数据 微博热度预测竞赛”上线以来受到了很多参赛者的喜爱,上线不久,不断有参赛队伍提交了结果,排行榜也在不断刷新中。

 

在参赛的过程中,有的小伙伴反应在赛题和数据的理解上遇到了一些小问题,为了让大家更好地理解和参赛,小运营特意把大家反馈比较多的一些疑惑整理出来了,供大家参考。

 

下面我们以Q&A的形式一一列出来:

 

 

1.怎么参赛?什么时候可以提交?

pkbigdata.com上注册(登录),选择你要参加的竞赛,点击“参加竞赛”,组队成功,就算成功参赛啦。竞赛处于ing的状态,都可以提交,现在就可以~

 

微博热度预测竞赛|参赛tips_竞赛_02

 

2.如何下载数据?

比赛下载原始数据,必须要点击“参加竞赛”,然后自己创建队伍或者加入其他童鞋的队伍才能下载。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

3.这次的数据文件都是什么类型的文件?

文件都是普通文本文件。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

4.传播规模是指什么?

传播规模是指源微博一共被转发了多少次。单人转发多次,则计多次。即一个人对一条微博转发n次,那这n次都是有效的。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

5.关于传播深度如何理解?

传播深度指:以源微博的用户为起点,计算转发链上其他节点到源节点的距离,最长距离就是此微博的传播深度。

 

举个例子,假如源微博用户是a,用户b从a处转发了微博,用户c从b处转发了微博,用户d又从c处转发了微博,那么微博传播就是a->b->c->d,深度就为3。

 

但是需要注意三点!

 

第一点:一个用户可能从多个源都做转发,比如在之后的时间里,c从d处进行了转发,或者a又从c处做了转发,在这种情况下,深度并不增加;同样的,若源微博用户a再次转发了自己的微博,深度也不增加。

 

第二点:若在转发链为a->b->c->d中,出现了新的用户e,从a转发了微博,然后又从d处转发了一次:对于这种情况,我们认为转发链的深度并没有增加,因为e已经被认定为距离a只有1步,此时再从d处转发,并没有实际深度的增加。但需注意,若e先从d处转发,此时传播深度便需要加1,之后e再从a处转发,深度不会降低。

 

第三点:在数据采集过程中,由于各种原因(比如新浪自动截断、用户手动删除、采集遗漏等),转发链可能出现中断,继续采用上面的例子,假如用户e可能从a、b、c或d中做了转发,但是训练集中没有这一纪录,反倒是有用户f从e处转发了此微博,也就是说无法得知用户e的父亲节点,导致深度计算出现问题。为解决这一问题,我们在计算深度的时候,默认添加从a到e的转发关系,于是从a到e的距离就为1,到f的距离为2。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

6.一少部分微博内容里有重复很多网址,是干什么用?

这部分重复网址,是木有用处的,小伙伴们请忽略~

 

微博热度预测竞赛|参赛tips_竞赛_02

 

7.关于数据格式

WeiboProfile.train中微博id为纯数字;

WeiboProfile.test中微博id为”testWeibo111”的格式。

每一行数据的整体结构还是相同的,微博id\001微博作者id\001微博发布时刻\001微博内容。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

8.关于评分算法

这次是越小越好,大家记住了哇。误差越小排名越高。同时此次预测微博中,无需担心转发量及传播深度为0的情况,放心放心。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

9.关于示例提交文件的下载入口,你发现了么?

在提交页面上,有示例文件的文件名,点击就可以下载啦

示例提交文件干什么用?帮助大家了解提交csv的格式,在遇到提交问题时能及时解决。

 

微博热度预测竞赛|参赛tips_竞赛_02

 

 

另外,大家在参赛的时候注意仔细阅读,赛题、数据、提交规则的详细说明哦!如果在参赛过程中遇到什么问题,记得在企鹅群(423732457)里@DC小运营,我们会在第一时间为大家解答。

 

DataCastle “卧龙大数据 微博热度预测竞赛”正在火热进行中,“3万条微博,800万位用户,1784万次转发”数据,等待你的精准预测。

 

 

微博热度预测竞赛|参赛tips_竞赛_11

微博热度预测竞赛tips

- DataCastle -

 

 

微博热度预测竞赛|参赛tips_竞赛_12