AI-大模型

原创

西鼠 2024-08-06 11:33:24 ©著作权

文章标签 数据生成式编写代码 文章分类 运维

©著作权归作者所有：来自51CTO博客作者西鼠的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、什么是大模型？

这两年AI火，就是因为大模型火。那么，什么是大模型？

大模型是具有庞大参数规模和复杂计算结构的 机器学习模型。

参数，是指在模型训练过程中，学习和调整的变量。参数定义了模型的行为、性能、实现的成本以及对计算资源的需求。简单来说，参数是模型内部用来做出预测或决策的部分。

大模型，通常拥有数百万至数十亿的参数。相对应的，参数少的，就是小模型。对一些细分的领域或场景，小模型也够用。

大模型需要依赖大规模数据进行训练，对算力资源的消耗极大。

大模型有很多种类别。通常所说的大模型，主要是指语言大模型（以文本数据进行训练）。但实际上，还有视觉大模型（以图像数据进行训练），以及多模态大模型（文本和图像都有）。

绝大多数大模型的基础核心结构，都是Transformer及其变体。

AI-大模型_编写代码

按应用领域，大模型可以分为通用大模型和行业大模型。

通用大模型的训练数据集更加广泛，覆盖的领域更加全面。
行业大模型，顾名思义，训练数据来自特定行业，应用于专门的领域（例如金融、医疗、法律、工业）。

二、GPT的本质是什么？

GPT-1、GPT-2……GPT-4o，等等，都是美国OpenAI这家公司推出的语言大模型，同样都是基于Transformer架构。

GPT的全称，叫做Generative Pre.trained Transformer，生成式-预训练-Transformer。

Generative（生成式），表示该模型能够生成连续的、有逻辑的文本内容，比如完成对话、创作故事、编写代码或者写诗写歌等。
Pre.trained（预训练），表示该模型会先在一个大规模未标注文本语料库上进行训练，学习语言的统计规律和潜在结构。通过预训练，模型才有了一定的通用性。训练的数据越庞大（如网页文本、新闻等），模型的能力就越强。

现在常说的AIGC，就是AI Generated Content，人工智能生成内容。内容，可以是文本、图像、音频、视频等。AIGC是一个“应用维度”的定义，它不是一个具体的技术或模型。AIGC的出现，扩展了AI的功能，打破了此前AI主要用于识别的功能限制，拓宽了应用场景。

GPT系列面向文本，谷歌也推出过竞品BERT。

文生图，比较有代表性的是DALL·E（也来自OpenAI）、Midjourney（知名度大）和Stable Diffusion（开源）。
文生音频（音乐），有Suno（OpenAI）、Stable Audio Open（由Stability.ai开源）、Audiobox（Meta）。
文生视频，有Sora（OpenAI）、Stable Video Diffusion（由Stability.ai开源）、Soya（开源）。图也可以生视频，例如腾讯的Follow-Your-Click。