什么是OpenAI?

Discovering and enacting the path to safe artificial general intelligence.

OpenAI’s mission is to ensure that artificial general intelligence benefits all of humanity. We’re a team of a hundred people based in San Francisco, California. The OpenAI Charterdescribes the principles that guide us as we execute on our mission.

探索并实现通往安全人工智能的道路。

OpenAI的使命是确保人工智能能使全人类受益。 我们是一个由一百人组成的团队,总部位于加利福尼亚州的旧金山。 OpenAI宪章描述了指导我们执行任务的原则。

官网:https://openai.com/

Github:https://github.com/openai


1 多智能体使用特定工具交互 Emergent Tool Use from Multi-Agent Interaction

OpenAI经典案例分享-1多智能体使用特定工具交互Multi-Agent Interaction-2机械手解决魔方Robot Hand_强化学习

通过多智能体竞争,捉迷藏的简单目标以及大规模的标准强化学习算法,本文发现智能体创建了一个自我监督的自动课程,引发了多种不同的涌现策略轮次,其中许多轮需要复杂的工具使用和协调。本文发现在环境中代理策略中出现了六个紧急阶段的明确证据,每个阶段都为对立团队施加新的压力。例如,智能体学会使用可移动的盒子来建造多目标掩体,这反过来又导致智能体发现它们可以使用坡道克服障碍。本文进一步提供的证据表明,与其他自我监督的强化学习方法(例如内在动机)相比,多主体竞争可能会随着环境复杂性的提高而更好地扩展,并导致行为以人类相关技能为中心。最后,本文提出转移和微调作为定量评估目标能力的一种方法,并在一组领域特定的智力测试中将捉迷藏的代理与内在动机和随机初始化基准进行比较。

论文链接:https://arxiv.org/pdf/1909.07528.pdf


2 机械手解决魔方 Solving Rubik’s Cube with a Robot Hand

OpenAI经典案例分享-1多智能体使用特定工具交互Multi-Agent Interaction-2机械手解决魔方Robot Hand_github_02

本文证明了仅在模拟中训练的模型可以用于解决实际机器人上前所未有的复杂性的操纵问题。这可以通过两个关键组件来实现:新颖的算法(我们称为自动域随机化(ADR))和为机器学习而构建的机器人平台。ADR自动在难度不断增加的随机环境中生成分布。经过ADR训练的控制策略和视觉状态估计器可以极大地改善模拟传输。对于控制策略,在ADR生成的环境分布上训练的内存增强模型在测试时显示出明显的元学习迹象。ADR与我们的定制机器人平台的结合使我们能够用人形机器人手解决魔方,这既涉及控制问题,又涉及状态估计问题。