作业调度(Job Scheduling, Workload Management)与管理也是HPC系统中的关键软件质疑,他和PVMMPI等其他运行环境密切协作,实现自动化批量处理,提高HPC系统的整体使用效率,也就是可持续的性能,实现HTC高吞吐量计算(High Throughput Computing)。作业调度与管理也是实现多机虚拟化的关键手段质疑,让用户感觉他们使用的是一台计算机,同时提高整个系统的易用性和便捷性。作业调度系统好比大型乐队的指挥,协调整个乐队弹奏一个又一个美妙的乐曲;也好比电影导演,调动整个班底,高效的完成拍摄任务。

作业调度与管理_作业管理

上图展示一个典型的作业调度与管理系统的功能,运行于服务节点上的软件负责整体系统的管理,包括提供若干个用户界面或互联网门户,便于用户提交计算任务,服务节点把接受到的任务转交给作业调度器,Schedul根据先来后到和付费情况按优先级对作业进行排队,然后按照优先级把任务发送给N个执行节点,执行节点完成任务后把结果汇总发挥调度节点或服务节点,服务节点通过提交节点把结果返回给用户。

一个作业调度系统一般执行如下功能:排队(Queuing)、调度(Scheduling)、监视(Monitoring)、资源管理(Resource Management)和计费(Accounting)