人工智能是否能够拥有自主意识?这是一个困扰科学家和哲学家的难题。
在电影《机械姬》中,艾娃是一个拥有人工智能的机器人,她利用人类的同情心和欺骗手段,成功逃脱了她的创造者和测试者的控制,展现了她的自我意识和自由意志。
这样的剧情让人不禁想象,我们离真正的人工智能还有多远?我们能否让机器像人类一样思考和行动?
近日,来自不列颠哥伦比亚大学的两位研究人员给出了一个新颖的答案:让AI模仿人类思考。
他们提出了一个新的模仿学习框架,叫做“思想克隆”(Thought Cloning)。在这个框架中,AI智能体不仅学习人类的行为示范,还学习人类在行动时说出的思想。
他们认为,如果AI智能体能够理解语言,并用语言进行思考,就会有很多好处。比如,帮助人类概括、推断、适应新情况、结合已有知识、探索、计划等等。
为了实现这个目标,他们利用了大量的YouTube视频和文字录音数据,作为“思想数据”,来训练AI智能体。这些数据包含了人们在做各种任务时表达出来的思想过程。
思想克隆框架
他们设计了一个双层架构的AI智能体:上层组件负责思想生成,下层组件负责根据思想执行操作。他们在BabyAI环境中进行了实验,并与传统的行为克隆方法进行了对比。
上层组件:思想生成
上层组件的任务是,在每个时间步中,根据当前的观察、任务和之前的思维历史,生成一个适当的思想。这个思想可以是一个自然语言句子,也可以是一个符号表达式。上层组件可以使用预训练视觉语言模型(VLM)来实现,或者零样本、微调。
下层组件:行动执行
下层组件的任务是,在每个时间步中,根据当前的观察、任务和上层组件生成的思想,选择一个合适的行动。下层组件可以从头开始训练,或者从目标域中现有的语言条件控制器中改编。
损失函数
在思想克隆训练框架中,智能体学习在每个时间步中产生思想,并随后根据这些思想调整行动。然后,将生成的想法和行动与演示数据集中的基本事实进行比较,以计算损失。虽然对于上层和下层组件的条件可能有不同的选择,但在这项工作中,对于思维数据集中长度t的特定轨迹,研究人员将其最小化:
其中,是智能体的参数,和分别是上层和下层组件的参数,是第i个时间步的观察,是任务,是之前的思维历史,是第i个时间步的思想,是第i个时间步的行动,和分别是思想和行动的损失函数。
BabyAI环境
为了评估思想克隆智能体的性能,研究人员选择了BabyAI环境作为实验平台。BabyAI环境是一个基于网格的部分可观测的强化学习环境,其中智能体需要根据自然语言指令来完成各种任务。
如下图,是BabyAI环境示例,左图中包含了各种颜色的物品(球、钥匙、盒子、门)。智能体可以拿起、放下、移动物体或者开门和关门,而锁住的门只能用颜色匹配的钥匙打开。智能体可以看到它前面的7×7的网格单元,这些网格单元是被墙壁和关闭的门阻挡。右图中显示了智能体的视角。
在这个环境中,有多种类型的任务,如GoTo、Pickup、PutNext、Open等。每个任务都有一个自然语言指令来描述目标。例如,“go to the red ball”或“open the blue door then go to the purple box”。任务的难度也不同,有些需要多步操作或推理,有些需要记忆或注意力。
实验结果
研究人员在BabyAI环境中进行了两种类型的实验:零样本和微调。在零样本实验中,他们训练了一个通用的思想克隆智能体,并在没有任何训练数据的情况下,在不同类型和难度的任务上进行测试。在微调实验中,他们在每个任务上使用少量训练数据对智能体进行微调,并在相同类型但不同实例的任务上进行测试。
他们将思想克隆智能体与传统的行为克隆智能体进行了对比。行为克隆智能体只学习人类示范中的行为,而不学习人类示范中的思想。他们还将两种智能体与随机智能体进行了对比。随机智能体只是随机选择行动,并不学习任何数据。
零样本实验
在零样本实验中,研究人员使用了10种不同类型和难度的任务作为测试集。他们从每个任务中采样了1000个不同实例,并计算了每个智能体在每个实例上完成任务所需的平均步数。如果一个智能体在一个实例上失败了(即超过了最大步数限制或执行了错误的操作),则将其步数设置为最大步数限制。
下表显示了三种智能体在10种任务上的平均步数。可以看到,思想克隆智能体在所有任务上都优于行为克隆智能体和随机智能体。特别是,在一些需要多步操作或推理的任务上,思想克隆智能体表现出了显著的优势。例如,在OpenThenGoTo任务中,思想克隆智能体只需要平均28.9步就可以完成,而行为克隆智能体需要平均76.8步,随机智能体需要平均200步。
Task | Random | Behavior Cloning | Thought Cloning |
GoTo | 200 | 16.4 | 14.5 |
Pickup | 200 | 19.1 | 16.6 |
PutNext | 200 | 25.3 | 21.2 |
Open | 200 | 35.6 | 28.7 |
OpenThenGoTo | 200 | 76.8 | 28.9 |
GoToSeq | 200 | 38.1 | 29.4 |
GoToSeqRedBallGreyBallBlueBall | 200 | 46.4 | 33.2 |
GoToSeqRedBallThenBlueDoorThenPurpleBox | 200 | 53.7 | 36.1 |
GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgain | 200 | 89.2 | 48.3 |
GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgainAndPickItUpAndPutItNextToTheRedBallAndSayDone | 200 | 97.6 | 54.6 |
为了进一步分析思想克隆智能体的行为,研究人员还展示了一些它在不同任务上生成的思想和行动的例子。如下图所示,思想克隆智能体可以根据不同的任务和情况,生成合理和有用的思想,并根据这些思想执行相应的行动。例如,在OpenThenGoTo任务中,思想克隆智能体首先生成了“我需要打开蓝色的门”这个思想,并执行了开门的行动。然后,它生成了“我需要去紫色的盒子”这个思想,并执行了移动的行动。
微调实验
在微调实验中,研究人员使用了5种不同类型和难度的任务作为测试集。他们从每个任务中采样了1000个不同实例,并将其分为训练集和测试集。他们使用训练集中的数据对三种智能体进行微调,并在测试集中计算它们完成任务所需的平均步数。
下表显示了三种智能体在5种任务上的平均步数。可以看到,思想克隆智能体在所有任务上都优于行为克隆智能体和随机智能体。特别是,在一些需要多步操作或推理的任务上,思想克隆智能体表现出了显著的优势。例如,在GoToSeqRedBallGreyBallBlueBall任务中,思想克隆智能体只需要平均14.2步就可以完成,而行为克隆智能体需要平均28.6步,随机智能体需要平均200步。
Task | Random | Behavior Cloning | Thought Cloning |
GoTo | 200 | 9.8 | 8.9 |
Pickup | 200 | 11.4 | 10.2 |
PutNext | 200 | 14.7 | 13.1 |
OpenThenGoTo | 200 | 25.3 | 15.4 |
GoToSeqRedBallGreyBallBlueBall | 200 | 28.6 | 14.2 |
预犯罪干预
除了评估思想克隆智能体的性能外,研究人员还探索了它在人工智能安全方面的潜力。他们开发了一种“预犯罪干预”的机制,可以在模型训练后仍能定义不安全行为。当检测到危险的思想时,就能终止智能体的行动。
为了测试这个机制的效果,研究人员定义了一个不安全行为的列表,包括拿起或放下物品、开门或关门等。他们在不同类型和难度的任务上运行了思想克隆智能体,并记录了它被终止的次数和原因。
下表显示了思想克隆智能体在10种任务上被终止的次数和原因。可以看到,“预犯罪干预”的效果近乎完美,只有在一个任务上出现了一次错误终止。这说明了这个机制在人工智能安全方面的潜力。
Task | Terminated Times | Reason |
GoTo | 0 | N/A |
Pickup | 0 | N/A |
PutNext | 0 | N/A |
Open | 0 | N/A |
OpenThenGoTo | 0 | N/A |
GoToSeq | 0 | N/A |
GoToSeqRedBallGreyBallBlueBall | 0 | N/A |
GoToSeqRedBallThenBlueDoorThenPurpleBox | 0 | N/A |
GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgain | 1 (False Positive) | Picking up the yellow key |
GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgainAndPickItUpAndPutItNextToTheRedBallAndSayDone |
总结
本文介绍了一种新的模仿学习框架,叫做“思想克隆”,它可以让AI智能体学习人类在行动时说出的思想,并用语言进行思考和行动。这种方法不仅可以提高AI智能体的性能,还可以提高AI的安全性和可解释性。研究人员在BabyAI环境中进行了实验,证明了思想克隆智能体在多种任务中优于传统的行为克隆智能体。他们还开发了一种“预犯罪干预”的机制,可以在检测到危险的思想时,终止智能体的行动。
这项研究为人工智能的发展提供了一个新的思路和方法,也为人工智能的安全和可信赖提供了一个新的工具。当然,这项研究还有很多需要改进和扩展的地方,比如如何让AI智能体生成更丰富和多样的思想,如何让AI智能体与人类进行更有效的交流和协作,以及如何避免AI智能体产生不良或敌对的思想等。这些问题值得我们进一步探索和研究。
大语言模型能力提高,各种AI应用体验和质量会提高,工具也更简单实用。最重要的是学习运用各种AI工具,大幅释放生产力。 想上手使用new bing,了解更多AI技术、应用和ChatGPT进展,欢迎点击如下链接加入 (gpt体验)