一、什么是大模型?

这两年AI火,就是因为大模型火。那么,什么是大模型?

大模型 是具有庞大参数规模和复杂计算结构的 机器学习模型

参数,是指在模型训练过程中,学习和调整的变量。参数定义了模型的行为、性能、实现的成本以及对计算资源的需求。简单来说,参数是模型内部用来做出预测或决策的部分。

大模型,通常拥有数百万至数十亿的参数。相对应的,参数少的,就是小模型。对一些细分的领域或场景,小模型也够用。

大模型需要依赖大规模数据进行训练,对算力资源的消耗极大。

大模型有很多种类别。通常所说的大模型,主要是指语言大模型(以文本数据进行训练)。但实际上,还有视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。

绝大多数大模型的基础核心结构,都是Transformer及其变体。

AI-大模型_编写代码


按应用领域,大模型可以分为通用大模型和行业大模型

  • 通用大模型的训练数据集更加广泛,覆盖的领域更加全面。
  • 行业大模型,顾名思义,训练数据来自特定行业,应用于专门的领域(例如金融、医疗、法律、工业)。


二、GPT的本质是什么?

GPT-1、GPT-2……GPT-4o,等等,都是美国OpenAI这家公司推出的语言大模型,同样都是基于Transformer架构。

GPT的全称,叫做Generative Pre.trained Transformer,生成式-预训练-Transformer。

  • Generative(生成式),表示该模型能够生成连续的、有逻辑的文本内容,比如完成对话、创作故事、编写代码或者写诗写歌等。
  • Pre.trained(预训练),表示该模型会先在一个大规模未标注文本语料库上进行训练,学习语言的统计规律和潜在结构。通过预训练,模型才有了一定的通用性。训练的数据越庞大(如网页文本、新闻等),模型的能力就越强。


现在常说的AIGC,就是AI Generated Content,人工智能生成内容。内容,可以是文本、图像、音频、视频等。AIGC是一个“应用维度”的定义,它不是一个具体的技术或模型。AIGC的出现,扩展了AI的功能,打破了此前AI主要用于识别的功能限制,拓宽了应用场景。

GPT系列面向文本,谷歌也推出过竞品BERT。

文生图,比较有代表性的是DALL·E(也来自OpenAI)、Midjourney(知名度大)和Stable Diffusion(开源)。

文生音频(音乐),有Suno(OpenAI)、Stable Audio Open(由Stability.ai开源)、Audiobox(Meta)。

文生视频,有Sora(OpenAI)、Stable Video Diffusion(由Stability.ai开源)、Soya(开源)。图也可以生视频,例如腾讯的Follow-Your-Click。