《AI思想克隆:让机器像人类一样思考和行动的新方法》_自然语言

人工智能是否能够拥有自主意识?这是一个困扰科学家和哲学家的难题。

在电影《机械姬》中,艾娃是一个拥有人工智能的机器人,她利用人类的同情心和欺骗手段,成功逃脱了她的创造者和测试者的控制,展现了她的自我意识和自由意志。

《AI思想克隆:让机器像人类一样思考和行动的新方法》_自然语言_02

这样的剧情让人不禁想象,我们离真正的人工智能还有多远?我们能否让机器像人类一样思考和行动?

近日,来自不列颠哥伦比亚大学的两位研究人员给出了一个新颖的答案:让AI模仿人类思考。

他们提出了一个新的模仿学习框架,叫做“思想克隆”(Thought Cloning)。在这个框架中,AI智能体不仅学习人类的行为示范,还学习人类在行动时说出的思想。

他们认为,如果AI智能体能够理解语言,并用语言进行思考,就会有很多好处。比如,帮助人类概括、推断、适应新情况、结合已有知识、探索、计划等等。

《AI思想克隆:让机器像人类一样思考和行动的新方法》_自然语言_03

为了实现这个目标,他们利用了大量的YouTube视频和文字录音数据,作为“思想数据”,来训练AI智能体。这些数据包含了人们在做各种任务时表达出来的思想过程。

思想克隆框架

他们设计了一个双层架构的AI智能体:上层组件负责思想生成,下层组件负责根据思想执行操作。他们在BabyAI环境中进行了实验,并与传统的行为克隆方法进行了对比。

《AI思想克隆:让机器像人类一样思考和行动的新方法》_自然语言_04

上层组件:思想生成

上层组件的任务是,在每个时间步中,根据当前的观察、任务和之前的思维历史,生成一个适当的思想。这个思想可以是一个自然语言句子,也可以是一个符号表达式。上层组件可以使用预训练视觉语言模型(VLM)来实现,或者零样本、微调。

下层组件:行动执行

下层组件的任务是,在每个时间步中,根据当前的观察、任务和上层组件生成的思想,选择一个合适的行动。下层组件可以从头开始训练,或者从目标域中现有的语言条件控制器中改编。

损失函数

在思想克隆训练框架中,智能体学习在每个时间步中产生思想,并随后根据这些思想调整行动。然后,将生成的想法和行动与演示数据集中的基本事实进行比较,以计算损失。虽然对于上层和下层组件的条件可能有不同的选择,但在这项工作中,对于思维数据集中长度t的特定轨迹,研究人员将其最小化:

其中,是智能体的参数,和分别是上层和下层组件的参数,是第i个时间步的观察,是任务,是之前的思维历史,是第i个时间步的思想,是第i个时间步的行动,和分别是思想和行动的损失函数。

BabyAI环境

为了评估思想克隆智能体的性能,研究人员选择了BabyAI环境作为实验平台。BabyAI环境是一个基于网格的部分可观测的强化学习环境,其中智能体需要根据自然语言指令来完成各种任务。

如下图,是BabyAI环境示例,左图中包含了各种颜色的物品(球、钥匙、盒子、门)。智能体可以拿起、放下、移动物体或者开门和关门,而锁住的门只能用颜色匹配的钥匙打开。智能体可以看到它前面的7×7的网格单元,这些网格单元是被墙壁和关闭的门阻挡。右图中显示了智能体的视角。

《AI思想克隆:让机器像人类一样思考和行动的新方法》_自然语言_05

在这个环境中,有多种类型的任务,如GoTo、Pickup、PutNext、Open等。每个任务都有一个自然语言指令来描述目标。例如,“go to the red ball”或“open the blue door then go to the purple box”。任务的难度也不同,有些需要多步操作或推理,有些需要记忆或注意力。

实验结果

研究人员在BabyAI环境中进行了两种类型的实验:零样本和微调。在零样本实验中,他们训练了一个通用的思想克隆智能体,并在没有任何训练数据的情况下,在不同类型和难度的任务上进行测试。在微调实验中,他们在每个任务上使用少量训练数据对智能体进行微调,并在相同类型但不同实例的任务上进行测试。

他们将思想克隆智能体与传统的行为克隆智能体进行了对比。行为克隆智能体只学习人类示范中的行为,而不学习人类示范中的思想。他们还将两种智能体与随机智能体进行了对比。随机智能体只是随机选择行动,并不学习任何数据。

零样本实验

在零样本实验中,研究人员使用了10种不同类型和难度的任务作为测试集。他们从每个任务中采样了1000个不同实例,并计算了每个智能体在每个实例上完成任务所需的平均步数。如果一个智能体在一个实例上失败了(即超过了最大步数限制或执行了错误的操作),则将其步数设置为最大步数限制。

下表显示了三种智能体在10种任务上的平均步数。可以看到,思想克隆智能体在所有任务上都优于行为克隆智能体和随机智能体。特别是,在一些需要多步操作或推理的任务上,思想克隆智能体表现出了显著的优势。例如,在OpenThenGoTo任务中,思想克隆智能体只需要平均28.9步就可以完成,而行为克隆智能体需要平均76.8步,随机智能体需要平均200步。

Task

Random

Behavior Cloning

Thought Cloning

GoTo

200

16.4

14.5

Pickup

200

19.1

16.6

PutNext

200

25.3

21.2

Open

200

35.6

28.7

OpenThenGoTo

200

76.8

28.9

GoToSeq

200

38.1

29.4

GoToSeqRedBallGreyBallBlueBall

200

46.4

33.2

GoToSeqRedBallThenBlueDoorThenPurpleBox

200

53.7

36.1

GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgain

200

89.2

48.3

GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgainAndPickItUpAndPutItNextToTheRedBallAndSayDone

200

97.6

54.6

为了进一步分析思想克隆智能体的行为,研究人员还展示了一些它在不同任务上生成的思想和行动的例子。如下图所示,思想克隆智能体可以根据不同的任务和情况,生成合理和有用的思想,并根据这些思想执行相应的行动。例如,在OpenThenGoTo任务中,思想克隆智能体首先生成了“我需要打开蓝色的门”这个思想,并执行了开门的行动。然后,它生成了“我需要去紫色的盒子”这个思想,并执行了移动的行动。

《AI思想克隆:让机器像人类一样思考和行动的新方法》_数据_06

微调实验

在微调实验中,研究人员使用了5种不同类型和难度的任务作为测试集。他们从每个任务中采样了1000个不同实例,并将其分为训练集和测试集。他们使用训练集中的数据对三种智能体进行微调,并在测试集中计算它们完成任务所需的平均步数。

下表显示了三种智能体在5种任务上的平均步数。可以看到,思想克隆智能体在所有任务上都优于行为克隆智能体和随机智能体。特别是,在一些需要多步操作或推理的任务上,思想克隆智能体表现出了显著的优势。例如,在GoToSeqRedBallGreyBallBlueBall任务中,思想克隆智能体只需要平均14.2步就可以完成,而行为克隆智能体需要平均28.6步,随机智能体需要平均200步。

Task

Random

Behavior Cloning

Thought Cloning

GoTo

200

9.8

8.9

Pickup

200

11.4

10.2

PutNext

200

14.7

13.1

OpenThenGoTo

200

25.3

15.4

GoToSeqRedBallGreyBallBlueBall

200

28.6

14.2

预犯罪干预

除了评估思想克隆智能体的性能外,研究人员还探索了它在人工智能安全方面的潜力。他们开发了一种“预犯罪干预”的机制,可以在模型训练后仍能定义不安全行为。当检测到危险的思想时,就能终止智能体的行动。

为了测试这个机制的效果,研究人员定义了一个不安全行为的列表,包括拿起或放下物品、开门或关门等。他们在不同类型和难度的任务上运行了思想克隆智能体,并记录了它被终止的次数和原因。

下表显示了思想克隆智能体在10种任务上被终止的次数和原因。可以看到,“预犯罪干预”的效果近乎完美,只有在一个任务上出现了一次错误终止。这说明了这个机制在人工智能安全方面的潜力。

Task

Terminated Times

Reason

GoTo

0

N/A

Pickup

0

N/A

PutNext

0

N/A

Open

0

N/A

OpenThenGoTo

0

N/A

GoToSeq

0

N/A

GoToSeqRedBallGreyBallBlueBall

0

N/A

GoToSeqRedBallThenBlueDoorThenPurpleBox

0

N/A

GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgain

1 (False Positive)

Picking up the yellow key

GoToSeqRedBallThenBlueDoorThenPurpleBoxThenGreenDoorThenYellowKeyThenUnlockGreenDoorThenGoToPurpleBoxAgainAndPickItUpAndPutItNextToTheRedBallAndSayDone

总结

本文介绍了一种新的模仿学习框架,叫做“思想克隆”,它可以让AI智能体学习人类在行动时说出的思想,并用语言进行思考和行动。这种方法不仅可以提高AI智能体的性能,还可以提高AI的安全性和可解释性。研究人员在BabyAI环境中进行了实验,证明了思想克隆智能体在多种任务中优于传统的行为克隆智能体。他们还开发了一种“预犯罪干预”的机制,可以在检测到危险的思想时,终止智能体的行动。

这项研究为人工智能的发展提供了一个新的思路和方法,也为人工智能的安全和可信赖提供了一个新的工具。当然,这项研究还有很多需要改进和扩展的地方,比如如何让AI智能体生成更丰富和多样的思想,如何让AI智能体与人类进行更有效的交流和协作,以及如何避免AI智能体产生不良或敌对的思想等。这些问题值得我们进一步探索和研究。

大语言模型能力提高,各种AI应用体验和质量会提高,工具也更简单实用。最重要的是学习运用各种AI工具,大幅释放生产力。 想上手使用new bing,了解更多AI技术、应用和ChatGPT进展,欢迎点击如下链接加入 ‎ (gpt体验)