强化学习多智能体多智能体协调

转载

智能开发艺术家 2024-05-25 22:40:48

文章标签 强化学习多智能体人工智能知识源问题求解数据 文章分类 机器学习人工智能

多智能体的协作类型

（1）完全协作型：

系统中的智能体围绕一个共同的全局目标全力以赴地协作，各个智能体没有自己的局部目标。

（2）协作型：

系统中的智能体具有一个共同的全局目标，同时各个智能体还有与全局目标一致的局部目标。

（3）自私型：

系统中不存在共同的全局目标，各智能体都为自己的局部目标工作，而且目标之间可能存在冲突。

（4）完全自私型：

系统中不存在共同的目标，各智能体都为自己的局部目标工作，并且不考虑任何协作行为。

（5）协作与自私共存型：

系统中既存在共同的全局目标，某些智能体也可能还具有与全局目标无直接联系的局部目标。

多智能体系统的协作过程一般分为六个阶段：

（1）产生协作需求，即确定协作目标；
（2）协作规划，求解合理的协作结构；
（3）寻求协作伙伴；
（4）选择协作方案，即根据协作竞争者反推最佳的协作方案；
（5）按协作或交互协议进行协作以实现所确定的目标；
（6）结果评估，即判断协作的效果并为以后的协作提供可供参考的经验和教训。

合同网协作方法

在所有的协作方法中，合同网是最著名并且应用最广泛的一种协作方法。是由Smith于1980年提出的。
基本思想:人们在商务过程中用于管理商品和服务的合同机制。
在合同网方法中，所有智能体分为两种角色：管理者和工作者。
在合同网协作方法中，智能体的角色在协作过程中的角色可以变化：任何智能体通过发布任务通知书而成为管理者；相反，任何智能体通过应答任务通知书而成为工作者。

黑板模型协作方法

黑板模型由三个基本模块构成：

知识源：应用领域根据求解问题专门知识的不同划分成若干相互独立的专家，这些专家称为知识源（即智能体）。每一知识源独立完成一个特定领域的任务。
黑板：共享的问题求解工作空间。主要存放知识源所需要的信息和求解过程中的解状态数据，如初始数据、部分解、替换解、最终解等。在问题求解过程中，知识源不断地修改黑板。知识源之间的通信和交互智能通过黑板进行。
监控机制：根据黑板上的问题求解状态和各知识源的求解技能，依据某种控制策略，动态地选择和激活合适的知识源，使知识源能实时地响应黑板的变化。