随着AI技术发展,大模型成为科技竞争新高地、产业新赛道、经济新引擎,我国视其为国家战略,出台政策扶持。大模型广泛应用,推动科技革命与产业变革,面临发展挑战需各界努力。

2023年大模型爆发,变革生产生活,国产大模型崛起。大模型与传统行业融合,提升产业效率;赋能金融、医疗等,助力新质生产力发展。大模型需政策法规保障,促进健康发展,服务各行业,注入发展新动能。

2024年,多重因素推动大模型发展,政府支持、用户需求增长、科技投入增加。面临算力分散、结构最优疑问、数据稀缺等挑战。趋势上,基础模型训练公司或减少,更多公司寻找应用场景。v

第一章:中国AI大模型产业发展背景

1.1 政策驱动力

我国重视AI发展,发布多项政策,如《新一代人工智能发展规划》。地方政府出台政策,加快大模型发展。北京推动技术创新,上海打造国际竞争力大模型,深圳支持开源通用大模型,安徽吸引企业入驻,成都重点研发行业大模型,杭州支持头部企业关键技术攻关。

2023 年以来我国各地出台的大模型产业相关政策

2024年,国内AI大模型发展报告!_模态

2024年,国内AI大模型发展报告!_强化学习_02

2024年,国内AI大模型发展报告!_模态_03

2024年,国内AI大模型发展报告!_人工智能_04

2024年,国内AI大模型发展报告!_强化学习_05

1.2 AI大模型产业发展技术驱动力

近年来,AI大模型快速发展,由语言大模型引领。语言大模型经海量无标注数据预训练,获得多任务通用求解能力。

2017年,Google推出Transformer架构,奠定大模型预训练基础。2018年,GPT-1与BERT发布,预训练大模型成主流。

2022年,ChatGPT展现强大自然语言交互与生成能力。2023年,GPT-4发布,具备多模态理解与内容生成能力。2024年,Sora提出时空碎片和扩散Transformer技术,多模态生成能力成熟。

本部分从Transformer架构出发,梳理基于人类反馈强化学习、指令微调、提示学习等技术,体现技术对产业发展的带动作用。

1.2.1 Transformer 架构

Transformer 架构是目前语言大模型采用的主流架构,于 2017 年由 Google提出,其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递,Transformer 架构的优势在于特征提取能力和并行计算效率。

Transformer 架构主要由输入部分、多层编码器、多层解码器以及输出部分组成。其中,输入部分包括源文本嵌入层、位置编码器;编码器部分由 N 个编码器层堆叠而成;解码器部分由 N 个解码器层堆叠而成;输出部分包括线性层和Softmax 层。

Transformer 架构图

2024年,国内AI大模型发展报告!_模态_06

自注意力机制作为 Transformer 模型的核心组件,其允许模型在处理序列数据时,对每个词位置的输入进行加权求和,得到一个全局的上下文表示。

在计算自注意力时,模型首先将输入序列进行线性变换,得到 Q(查询)、K(键)和 V(值)三个向量。

然后,通过计算 Q 和 K 的点积,并应用 Softmax 函数,得到每个位置的权重。最后,将权重与 V 向量相乘,得到自注意力的输出。

为提高模型的表达能力,Transformer模型采用了多头自注意力机制,这意味着模型在同一时间关注来自不同表示子空间的注意力信息。多头自注意力的实现方法是将输入序列分成多个组,每个组使用一个独立的权重矩阵进行线性变换,并计算自注意力。最终,自注意力的输出被拼接起来,并通过一个线性层得到最终的输出表示。

在计算自注意力和多头自注意力之后,Transformer 模型使用前馈神经网络对输入序列进行变换。前馈神经网络由多个全连接层组成,每个全连接层都使用 ReLU激活函数。前馈神经网络的作用是对输入序列进行非线性变换,以捕捉更复杂的特征。

1.2.2 AI 语言大模型关键技术

AI 语言大模型关键技术主要涉及基于人类反馈强化学习、指令微调、模型提示等相关技术。

(1) 基于人类反馈强化学习

基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。

基于人类反馈强化学习具体包括以下几个步骤:

1)训练监督策略模型:使用监督学习或无监督学习的方法,对一个预训练的语言模型进行训练,通过给予特定奖励或惩罚引导 AI 模型的行为,使其能够根据给定的输入预测输出或行为。

2)训练奖励模型:让标记员参与提供有关模型输出结果的反馈,对模型生成的多个输出或行为的质量或正确性进行排名或评分,这些反馈被转换为奖励信号,用于后续的强化学习过程。

3)采用近端策略优化进行强化学习:先通过监督学习策略生成近端策略优化(PPO)模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代 PPO模型参数。具体而言,在 PPO 模型训练过程中,智能系统通过尝试不同的行为,并根据每个行为获得的奖励来评估其质量,智能系统逐步改进行为策略。

基于人类反馈强化学习示意图

2024年,国内AI大模型发展报告!_强化学习_07

(2)指令微调

指令微调 (Instruction Tuning) 是帮助语言大模型遵循人类指令,泛化至未知任务的学习方法。其特殊性在于使用(指令,输出)对的数据集进行训练,以增强LLMs的能力和可控性。指令微调可视作有监督微调的一种变体,但更侧重于让模型理解和遵循人类指令。

(3)模型提示

模型提示技术利用语言大模型的潜在能力,通过设计合适的语言指令提示来激发特定任务的能力。典型技术包括指令提示和思维链提示。指令提示提供额外上下文,重组任务以贴近预训练场景;思维链提示则激发多步推理能力,形成〈输入,思维链,输出〉结构,提高模型可解释性。

1.3 中国AI大模型产业发展市场驱动力

中国AI大模型产业发展受多领域需求驱动,如办公、制造、金融等,旨在降本增效、提高效率和降低风险。这些领域的创新推动AI大模型产业蓬勃发展,预示广阔市场前景。

1.3.1 办公场景

大模型结合传统软件,满足文案生成、PPT美化等需求,通过自然语言交互实现智能化办公。智能文档、演示、表格等工具,极大提高办公效率。智能会议则在策划、翻译、记录等环节提供支持,优化会议流程。

1.3.2 制造场景

AI引领制造行业变革,大模型结合EDA/CAE/CAD等工具提升研发设计效率,助力数字孪生和机器人,强化感知和执行任务能力。

第二章 百舸争流:中国 AI 大模型产业现状及典型案例

2.1 AI 大模型主要特征

AI 大模型具有泛化性(知识迁移到新领域)、通用性(不局限于特定领域)以及涌现性(产生预料之外的新能力)特征。

以 ChatGPT 为代表的 AI 大模型因其具有巨量参数和深度网络结构,能学习并理解更多的特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。

AI 大模型的三大特征:泛化性、通用性、涌现性

2024年,国内AI大模型发展报告!_人工智能_08

2.2 AI 大模型主要类型

按照部署方式划分,AI 大模型主要分为云侧大模型和端侧大模型两类。云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;端侧大模型通常部署在手机、PC 等终端上,具有参数规模小、本地化运行、隐私保护强等特点。

具体而言,云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC 大模型。从云侧大模型来看,通用大模型具有适用性广泛的特征,其训练数据涵盖多个领域,能够处理各种类型的任务,普适性较强。

行业大模型具有专业性强的特点,针对特定行业(如金融、医疗、政务等)的需求进行模型训练,因而对特定领域具有更深的业务理解和场景应用能力。从端侧大模型来看,手机和 PC 大模型由于直接部署在设备终端,让用户体验到更加个性化和便捷的智能体验。

AI 大模型主要分为云侧大模型和端侧大模型两类

2024年,国内AI大模型发展报告!_人工智能_09

当前,我国 AI 大模型产业呈现蓬勃发展的态势。伴随多家科技厂商推出的AI 大模型落地商用,各类通用、行业以及端侧大模型已在多个领域取得了显著的成果,如在金融、医疗、政务等领域,AI 大模型已成为提升服务质量和效率的重要手段。

中国 AI 大模型分类及典型案例

2024年,国内AI大模型发展报告!_讯飞_10

2.3 中国 AI 通用大模型典型案例

案例一:科大讯飞—讯飞星火认知大模型

(1)大模型简介:

讯飞星火是科大讯飞推出的新一代认知大模型,通过自然对话理解用户需求并执行任务。它主要从人机交互、知识学习与内容创作、提升数智化生产力三方面展现能力。具备文本生成、语言理解、知识问答等七大核心能力。

(2)大模型优势:

2024年1月,讯飞星火V3.5发布,七大能力全面提升。科大讯飞称,其数学、语言理解能力超GPT-4 Turbo,代码能力达GPT-4 Turbo的96%,多模态理解达GPT-4V的91%,其中语音多模态能力已超过GPT-4。

2024年,国内AI大模型发展报告!_强化学习_11

讯飞星火认知大模型V3.5提升三大能力:人机交互更智能,知识学习与内容创作更丰富,数智化生产力显著增强。人机交互上,V3.5在语义理解、指令跟随、情绪感知及拟人合成方面均有优异表现。知识学习与内容创作上,通过要素抽取、问题生成等底层能力提升,丰富智能体应用。数智化生产力方面,模型在逻辑推理、时空推理、数学能力、代码能力及多模态能力上均有显著进步。

大模型应用方面,七大能力升级赋能多场景:情感分析、文本摘要提升语言理解能力;讯飞智文实现文档、PPT一键生成;知识问答覆盖生活、医学、政策等领域;逻辑推理包括思维推理和科学推理;数学能力解决多种数学问题;代码能力支持智能代码生成、错误定位及测试数据生成;多模态能力实现图片描述、问答及音视频生成。

案例二:百度公司—文心一言大模型

(1)简介:文心一言是百度的人工智能大语言模型,具备跨模态、跨语言能力,服务文学创作、文案创作、搜索问答等领域。具备理解、生成、逻辑、记忆四大能力。

(2)优势:文心大模型4.0在四大能力上显著升级,理解、记忆提升显著。能处理复杂提示词、生成多样内容、解决逻辑难题、记住对话重点。能力提升源于算力优化、数据体系建设、多阶段对齐和可再生训练技术。

(3)应用:文心大模型已应用于文学创作、文案创作、搜索问答、多模态生成、数理逻辑推算等领域,提供高质量服务。

案例三:阿里巴巴—通义千问大模型

(1)简介:通义千问是阿里云研发的预训练语言模型,基于NLP技术,提供创意文案、办公助理、学习助手等交互体验。具备中英文理解、数学推理、代码理解等能力。

(2)优势:通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上显著提升。中英文理解能力出色,数学推理能力在GSM8K测试中表现优异。

第三章 中国AI大模型产业的挑战

3.1 算力瓶颈制约大模型发展

AI大模型训练依赖高性能芯片,算力直接影响模型训练速度和质量。GPT等大语言模型对算力要求更高。英伟达A100、H100是主流,但国内GPU资源有限且性能不足。受管制影响,替代品A800也缺货溢价。国产AI芯片虽在崛起,但与顶尖水平仍有差距,算力不足制约大模型发展。

3.2 Transformer架构局限明显

Transformer架构消耗大量算力和内存,计算量随上下文长度平方级增长,存储需求大。如1000亿参数模型需400GB空间。

3.3 训练数据集需扩展

国内AI大模型数据主要来自互联网,数据类型不全、可信度低。中文数据库体量小,缺乏多数据源调用,数据碎片化。政府及企业数据不公开,影响模型训练。需构建高质量数据集,扩充数据源。

3.4 爆款应用尚未出现

ChatGPT等应用虽受欢迎,但国内尚未出现类似爆款。GPT4.0新增语音功能,GPT商店上线,应用多样,但国内应用发展仍需努力。

第四章  中国AI大模型产业趋势展望

4.1 AI云侧与端侧大模型满足需求,C端用户主导端侧市场

我国云侧大模型繁荣,如百度文心一言、阿里通义千问等,依托强大算力和数据库,提供语言理解、问答、推理、代码生成等能力。云侧模型服务C端(智能问答、生成)和B端(营销、客服等),而端侧大模型因成本低、便携、数据安全,主导C端市场,如手机文档搜索、图像创作等。端侧化降低云端成本,保障隐私,预示端侧化趋势。瑞银预测生成式AI智能手机出货量激增,端侧模型前景广阔。

4.2 AI大模型通用化与专用化并行,垂直行业成关键

通用大模型参数庞大,泛化力强,擅长多任务学习,支持多模态理解生成。行业大模型聚焦金融、政务、医疗等领域,处理特定任务,如信用评估、政务问答等,具备专业性和高数据安全性。行业大模型集中资源于特定领域,降低成本,结合内部数据提升经营效率。

4.3 AI大模型广泛开源,小型开发者受益

未来大模型开源将降低门槛,提高算法透明度。开源进展包括GLM-130B、Baichuan-7B等模型。开源促进AI产业创新,小型开发者可调用大模型提升开发效率,实现应用快速落地,无需复杂训练和调参。




2024年,国内AI大模型发展报告!_讯飞_12