最近在硅谷引起轰动的GPT-3号的位置是什么?我相信那些对人工智能知之甚少的朋友们最近或多或少看到了一些关于GPT 3的重大新闻,很多人都期待有一个AI写作机器人,一些媒体甚至称之为“继比特币之后又一项轰动全球的惊人新技术。”
请注意,现在站在你们面前的是:互联网原子弹,人工智能中的卡丽熙,计算吞食者,黄仁勋,下岗工人制造机器的新关键绩效指标,以及处于婴儿期的天网——的最先进的人工智能语言模型GPT-3。
由1750亿个参数组成的训练模型
在离家更近的地方,开放人工智能研究人员上个月发表了一篇描述GPT-3发展的论文,并正式发布了这个由1750亿个参数组成的人工智能语言模型。
在自然语言处理领域,通常采用ELMo算法的思想,即在大量的语料库上对语言模型进行预处理,然后将预处理后的模型迁移到特定的自然语言处理任务中,从而提高模型的处理能力。GPT模型是OpenAI在2018年提出的一种新的ELMo算法模型。基于预训练模型,该模型只需进行一些微调就可以直接移植到各种自然语言处理任务中,因此具有很强的业务移植能力。
GPT模式主要包括两个阶段。在第一阶段,通过使用大量未标记的语料库对语言模型进行预训练。然后,在第二阶段,对预先训练的语言模型稍加修改,将其迁移到各种受监督的自然语言处理任务中,并对参数进行微调。
简而言之,当算法固定时,预训练模型中使用的训练材料越多,训练模型的任务完成精度越高。
那么1750亿美元的概念是什么呢?有人曾经开玩笑说,“如果你想提高人工智能的准确性,让它写下所有的测试数据?”我没想到现在有人能实现这个目标。
GPT 3之前,最大的人工智能语言模型是微软今年2月推出的图灵NLG。当时拥有170亿个参数的图灵NLG已经被宣传为威震天-LM的两倍大,位居第二。是的,在仅仅5个月的时间里,GPT 3号将头号玩家的参数增加了10倍!Nivdia在黄的老板查看了年初刚绘制的产品计算曲线,发现事情并不简单。
OpenAI在2019年初发布了GPT 2号。这个基于Transformer的大型语言模型包含15亿个参数,并在800万个网络数据集上进行训练,这在当时引起了不小的轰动。在整个2019年,GPT 2号是自然语言处理领域最耀眼的明星之一,并与BERT、Transformer XL、XLNet等大型自然语言处理模型一起,在主要自然语言处理任务列表上创造了最佳记录。GPT 2号由于其稳定和优异的性能在行业中处于领先地位。然而,GPT-3的参数是GPT-2的116倍,这在2019年降低了所有大规模自然语言处理模型的维数。