Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。迭代算法在很多数据分析领域会用到,比如机器学习或者图计算。本文将通过Superstep入手看看Alink是如何利用Flink迭代API来实现具体算法。
原创
2021-04-26 11:25:15
411阅读
作者|白松目的:科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次迭代完成后,所有顶点都是InActive状态。在大同步后,收到消息的顶点会被激活,变为Active状态,然后调用顶点的compute()方法。本文的目的就是统计每次迭代过程中,参与计算的顶点数
原创
2019-08-20 10:53:53
384阅读
Pregel概述Pregel是Google提出的用于大规模分布式图计算框架 - 图遍历(BFS) - 单源最短路径(SSSP) - PageRank计算Pregel的计算由一系列迭代组成,称为superstepsPregel迭代过程 - 每个顶点从上一个superstep接收入站消息 - 计算顶点新的属性值 - 在下一个superstep中想相邻的顶点发送消息 - 当没
转载
2024-08-14 16:03:06
42阅读
本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:许巧辉另一个来自Google的重要工具,看起来超越了Hadoop MR——Pregel框架实现了图形计算(Malewicez et al.2010)。在Pregel中的计算是由一系列迭代组成的,被称为supersteps。图上的每个顶点都与一个用户定义的计算函数相关联;Pregel确保每个superstep在图的每
转载
2024-07-26 11:03:19
46阅读
文章目录0x00 摘要0x01 缘由0x02 背景概念2.1 四层执行图2.2 Task和SubTask2.3 如何划分 Task 的依据2.4 JobGraph2.5 BSP模型和SuperstepBSP模型BSP模型的实现Flink-Gelly0x03 Flink的迭代算法(superstep-based)3.1 Bulk Iterate3.2 迭代机制0x04 Alink如何使用迭代0x0
转载
2024-08-09 14:45:55
43阅读
Hama是基于HDFS上的BSP模型实现。 Apache Hame是Google Pregel的开源实现网页链接关系、社交关系、地理位置图、科研论文中的引用关系等,有的图规模可达数十亿的顶点和上万亿的边。Pregel编程模型就是为了对这种大规模图进行高效计算而设计。。BSP计算由一组处理单元和一系列连续的超级步 (superstep)组成。在每个超级步内,每个处理单元并发地执行
转载
2024-06-12 06:04:59
29阅读
超级步(SuperStep)在一个超级步中,各处理器均执行局部操作,并且可以通过选路器接收和发送消息,如果一个处理器至多可以接收/发送消息的数目是h条,那么该模型就是h-Relation的。若设g为信道的带宽之倒数,那么容易得出,传送h条消息所需要的时间是gh+s。如果一个超级步中某个处理器的计算没有完成,那么下一个超级步就被分给该处理器继续进行。 注意,在实际计算中,g常常可用每秒处理器所能完成
转载
2017-07-10 09:13:00
207阅读
2评论