1. 什么是 AIGC

"AIGC"代表人工智能生成内容(Artificial Intelligence Generated Content)这个概念指的是利用人工智能技术,特别是自然语言处理(NLP)、机器学习和深度学习等技术,来生成各种形式的内容,如文章、音乐、图片、视频等。AIGC的应用领域非常广泛,包括新闻报道、广告创意、文学创作、音乐创作等等。

AIGC的发展使得内容创作变得更加高效和规模化,可以大大提高生产效率和降低成本。然而,AIGC也引发了一些问题和挑战,如内容原创性、道德风险、技术可信度等方面需要进一步探讨和解决。

总的来说,AIGC是人工智能技术在内容创作领域的一种应用,它对未来的内容生产和传播方式将产生深远影响,需要在技术、法律、伦理等方面做出相应的调整和规范。

1.1 AIGC发展阶段

图片来源于网络

阶段 1:1956-2011 年,深度学习之前

  • 1956 年: 在达特茅斯会议上,人工智能诞生,并首次使用“人工智能”一词。这一时期主要集中在符号人工智能、基于规则的系统和专家系统。
  • 1980 年代: Prolog 和 Lisp 编程语言兴起,用于构建专家系统。
  • 1990 年代: 机器学习算法发展,神经网络被引入。
  • 1994 年: 诞生了 GroupLens,第一个推荐系统。
  • 2011 年: IBM 沃森突破性地出现,它是一个问答系统,在“危险边缘”节目中战胜了人类选手。这标志着大数据和深度学习时代的开始。

阶段 2:2012 年至今,深度学习时代

  • 2012 年: 深度神经网络 (DNN) 出现,尤其是在物体识别和自动驾驶汽车等领域。
  • 2014 年: 生成对抗网络 (GAN) 出现,能够生成逼真的图像。
  • 2017 年: Transformer 架构的引入,是自然语言处理领域的一次重大进步。
  • 2020 年: 发布了 GPT-3,一个能够生成人类质量文本的大型语言模型。
  • 2021 年: 开发了 CLIP,一个将文本和图像理解相结合的模型。
  • 2022 年: 推出了 DALL-E 2,一个能够根据文字描述生成高分辨率图像的模型。

1.2AIGC技术历程

生成模型在人工智能领域有着悠久的历史,可以追溯到1950年代,随着隐马尔可夫模型(HMM)和高斯混合模型(GMM)的发展,这些模型主要用于生成如语音和时间序列等顺序数据。然而,直到深度学习的兴起,生成模型的表现才出现了显著提升。在深度生成模型初期,不同领域的方法往往没有太多交叉。在自然语言处理(NLP)领域中,传统的句子生成方法是基于N-gram语言模型学习单词分布,再通过搜索找到最佳序列,但这些方法无法有效地处理长句。为了应对这一挑战,递归神经网络(RNNs)被引入用于语言建模任务,可以对较长的依赖性进行建模。接着,长短期记忆(LSTM)和门控循环单元(GRU)被开发出来,通过门控机制控制记忆,从而在一个样本中处理大约200个标记,相较于N-gram语言模型,这标志着一个显著进步。至于计算机视觉(CV),在深度学习方法出现之前,传统的图像生成算法采用纹理合成和纹理映射等技术,这些算法基于手工设计功能,生成的图像复杂性和多样性受限。2014年,生成对抗网络(GAN)首次提出,在各种应用中取得显著成果,随后,变分自编码器(VAE)和其他方法也被开发出来,用于更精细地控制图像生成过程,生成高质量图像。2017年,Vaswani等人引入Transformer架构用于NLP任务,后被广泛应用于CV领域,成为多个生成模型的核心部分。在NLP领域,包括BERT和GPT在内的许多大型语言模型采用Transformer架构作为主要构建块,相较于以往的LSTM和GRU,有更优势。在CV方面,Vision Transformer(ViT)和Swin Transformer结合Transformer架构与视觉组件,进一步发展了这一概念,使其可以应用于图像相关任务。生成模型的交叉使得来自不同领域的模型能够融合,实现多模态任务。例如,CLIP是一个联合视觉语言模型,结合Transformer架构与视觉组件,能够根据大量文本和图像数据进行训练,在多模态提示生成中也可以用作图像编码器。综上所述,基于Transformer模型的出现彻底改变了AI的生成方式,也促成了大规模训练的可能性。近年来,研究人员还开始引入基于这些模型的新技术,例如在NLP领域,偏向于小样本提示而非微调,以帮助模型更好地理解任务需求;而在视觉语言领域,结合自监督对比学习目标的模态特定模型,提供更强大的表示。随着AI生成与理解的重要性日益突出,更多技术也将被引入,为领域注入活力。

* 2014年:提出了GAN模型,可以根据输入文字描述、图像分割、草图、风格等生成图像。
* 2017年:OpenAI发布了GPT模型,并行性奠定了网络规模数据集训练的模型中的最高地位。
* 2021年:GPT-3发布,具备强大的特征提取能力,能够实现任意图像和文本信息的配对。
* 2022年:Diffusion模型得到广泛应用,相较于GAN模型在数据量需求上更小,生成任务效果更佳。
* 2022.4年:OpenAI发布DALL-E 2,能够根据文本提示生成图像,并能够以文本编辑图像元素。
* 2022.7年:Stable Diffusion发布,使用空间降维技术解决了内存和模型推理时长的问题。

最初的GAN模型到如今的Stable Diffusion,AIGC技术已经取得了巨大的进步,未来将会继续发展,为我们带来更加强大的AI能力。

2.AIGC技术

AIGC是AI Generated Content的缩写,指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,拉开了智能创作时代的序幕。 在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例,向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。 趋势判断:人工智能产业经过多年发展,技术实现将从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。

AIGC模型发展技术模型

3.1 AIGC+影视

随着虚拟技术的逐步到来,对影视内容的需求也在爆发式增长。为了满足观众日益刁钻的口味和挑剔的眼光,影视行业正全力提高产量,迭代技术,导致整个行业的工业化程度逐渐提高,同时变得精细且复杂,同时人的局限性也逐渐凸显。AI的应用无疑可以降本增效,让行业回归本真。

今年3月,美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型ChatGPT,在国内互联网行业引起轩然大波,也给“内容为王”的影视行业带来不小的震撼。

3.1.1 AIGC协助剧本创作,释放创意潜力

通过对海量优质剧本的学习,AI能根据特定需求快速生成不同风格或架构的剧本,在极大提高工作者工作效率的同时,AI也在激发创意,帮助产出更优质的作品。事实上,将AI引入剧本创作的做法早已有之。2016年,纽约大学研发的AI在学习了几十部经典科幻电影剧本后成功编写了剧本《阳春》以及一段配乐歌词。经过修改、调整后的成品只有区区八分钟,内容也平平无奇,但《阳春》在各大视频网站最终收获的百万级播放量依然证明外界对AI创作的兴趣很大。2020年,GPT-3被用于创作一个短剧,再次引发广泛关注。

通过这些早期试验可以看出AI在剧本创作方面的潜力,但要真正将其转化为生产力,还要AI更贴合具体的应用场景,做针对性训练,并结合实际业务需求开发或定制功能。海外一些影视公司如Final Write和Logline等都偏向垂直式工具,国内的海马轻帆公司深耕中文剧本、小说、IP等领域,也已经收获百万级用户。

3.1.2 AIGC推动创意落地,突破表达瓶颈

虽然AI能帮助人类更好的释放创意,但从剧本到荧幕仍是一段漫长的距离。从创意到表达的跨越,AI可以保驾护航,帮助人类化不可能为可能。举例来说,当前劳动密集型的影视生产方式难以满足观众对质量日益提高的要求。2009年上映的《阿凡达》令全球观众首次了解3D电影的魅力,此后沉浸式观影体验成了影视产业链上共同的追求。为了满足这种追求,影视特技与应用呈现井喷式发展,但后期制作与渲染,复杂程度也都水涨船高,传统的作业方式已经难以为继,而AI技术就有推动变革的潜力。

AIGC入门详解:看这篇就够了_深度学习

3.2 AIGC+资讯

在信息化时代,社会中充斥着各种资讯,同时这些资讯也有高标准、需求大、时效强等特点。自2014年起,AIGC已开始用于新闻资讯领域,因此资讯行业是AIGC商业化相对成熟的赛道。

3.2.1 AIGC辅助信息收集,打造坚实基础

优质的新闻产出必定需要全面、高效、准确的信息收集与整理的基础上。按照传统的作业模式,工作人员需要亲临现场,通过各种手段才能获得足够且扎实的信息。现在的AI已经能对该环节高效赋能,例如科大讯飞的AI转写工具可以帮助记者实时生成文稿,自动撰写提纲、精简语句等,进而提高工作效率,保证最终产出的时效性。

除帮助获取一手信息外,AI也可以帮助精确检索二手信息,收集素材。在高性能的AIGC工具如ChatGPT出现后,就可以像常人对话一样直接提问并获得答案。虽然难免还是会有这样那样的问题,但作为工具而言,AIGC的意义已经非常明显了。

3.2.2 AIGC支持资讯生成,实现高效产出

在资讯写作等生成环节,基于自然语言生成和自然语言处理技术,AIGC已经逐步得到从业者和消费者的认可,因此有不少企业积极参与其中。以产出数量为例,与美联社、雅虎等外媒合作的Automated Insights,其撰稿工具Wordsmith能在一分钟内生成两千条新闻,且单条质量可比拟人类半小时的作品质量。

除了速度惊人,AI在准确度方面同样优势明显,能够很好的避免人类的粗心或计算等错误,在保证质量的同时减轻人类工作压力。这方面国内企业颇多,如新华社自研的写稿AI“快笔小新”、腾讯公司开发的Dream Writer、百度公司和人民网合作开发的“人民网-百度·文心”大模型都是其中的佼佼者。

3.2.3 AIGC助力内容分发,缓解人类压力

在内容分发环节,AI除了常见的个性化内容推荐外,也在逐步开拓全新应用场景,如虚拟人主播,以视频或直播的形式发放内容,打造沉浸式体验。如新华社数字记者“小诤”、央视网虚拟主播“小C”、阿里巴巴数字人“冬冬”、百度智能云AI手语主播等等,在未来,AI虚拟主播可能发展成媒体行业的标配。

3.3 AIGC+教育

AIGC入门详解:看这篇就够了_人工智能_02

技术的飞速发展也将为教育行业带来颠覆,但是相比其他行业的快速发展,AI在教育中的落地部署似乎也慢了半拍。这其实是由教育行业本身的性质导致的,它的参与者众多,时间跨度很大,个体的差异性也很大,这让解决边界清晰、定义明确的AI难以适应。另外教育更注重人与人的互动和联结,也没有统一的理论模型,这都为相关AI的开发训练和落地部署增加了难度。但AI在教育行业绝非毫无用处,以技术手段推动行业进步也并非痴人说梦。

3.3.1 AIGC助力学习者,走向无限

生活经验告诉我们,从降生起人类就开始通过各种手段建立对世界的认识。识字前的手摸嘴咬、拳打脚踢,识字后的课本习题、书籍影视、实地体验等等无不如此。但是不论怎样,每个人的学习过程总会遇到这样那样的阻碍,而AI对学习者的意义就在于尽量摆脱种种束缚,最终从有限的自身走向无限的世界。

互联网时代的教育,是将部分内容转化为数字化形式并公开分发,助力资源流转。现在由AI辅助甚至主导的制作,整理学习资料,降本增效是显而易见的,资源的丰富度和易用性都将提升到新的高度。AIGC也可以在一些特定领域,如儿童绘本等,加速知识的生产效率并接入网络,最终提供给用户。通过补充有限的学习资源将促进教育公平,AI也助力教育资源的生产与分发。微软在这一领域就布局颇多,如微软亚洲研究院与华东师范大学合作研发的中文写作智能辅导系统“小花狮”,借助自然语言处理技术,实时为学生作文评分并分析原因,从而帮助学生进步。

3.3.2 AIGC赋能教育者,减负提效

老话说“师傅领进门,修行在个人”,教育者作为领路人的重要性不言而喻,对他们而言,AI就如同手上的火把,更好的帮助学习者引燃心中的学习火种。从目前的社会发展现状来看,教育者数量不足将会是长期现象,一位老师带几十位学生的“大班制”还将长期存在,在各种琐碎的答疑解惑,书山题海中奔波,AIGC就可以解决此类问题。现在作业/试卷自动批阅技术已经获得了广泛应用,AI不但可以判断对错,还可以生成针对性的评语,教师的作业批改用时大幅节约,可以更关注学生的个性化发展。除了助力解决重复性问题,AI还可以延伸感知。如基于电脑视觉技术,AI可以实时分析学生当前的情绪和状态等,帮助教师更好的了解情况。

通过对教育者的赋能,AIGC最终可以帮助实现教育的终极理想:因材施教,推广个性化教育。尽管AI还有可能加剧信息茧房的风险,以及对传统理念的挑战,甚至将人机器化,但就目前来看,未来还是值得期待的,以人为本的教育还是可能实现的。

3.4 AIGC+电商行业

自网络电商出现以来,社会的很多方面都被改变了,电商企业既是网络时代的受益者,也在推动社会发展进程中扮演关键角色。自十年前网络直播出现,带动带货模式变革以来,各大企业都在或多或少的面临转型问题。在数字世界和物理世界快速融合的当下,AIGC走在时代前沿,可以赋能电商行业的多个领域,可能带来新一轮的行业变革。

3.4.1 AIGC助力商品建模,改善购物体验

对比传统的购物模式,网购的一个典型问题在于只能通过图片了解商品,难以观察到全貌,也让以次充好的不法商家有机可乘。而AIGC技术可以通过视觉算法生成商品的三维模型,提供多方位视觉体验,节省沟通成本,改善用户体验,促成用户成交与转化。

除了三维建模,AIGC还有更高级的应用方式,如阿里巴巴的每平每屋业务就利用AIGC技术,实现线上“商品放家中”的模拟展示效果。这种业务是将AIGC功能植入手机淘宝和每平每屋APP端,用户用手机扫描家居环境让AI生成商品模型,在手机即可预览实物效果,进而改善电商家居的购物体验。

3.4.2 AIGC赋能服饰电商,助力降本增效

AIGC可以为商家提供大量创意素材,电商广告正是对创意营销素材需求量很大的领域,阿里巴巴的AI设计师“鲁班”就是应用于此。除了通用型广告,AIGC在电商服饰领域用途更多。一般说来,服饰领域都采用“小单快返”的模式,即先小批量生产多种样式的服饰产品投入市场,快速获取市场反馈,对优质产品加大投入,在试出爆款的同时减小库存压力。但这种方式对产品图片的需求量很大,如果有上千种服饰产品分别找模特再牌照修图,无疑会耗费极大的时间和成本。

成立于2020年的ZMO公司就运用AIGC解决这个问题,商家只需在ZMO平台上传产品图和模特图就可以得到展示图。借助AIGC,更多服饰相关的市场策略都可以低成本的实现。即使没有专业模特,虚拟人模特及广告也可以发挥作用,甚至还可以调整虚拟人的相貌来适配不同风格的服饰。

3.4.3 AIGC打造虚拟主播,提升直播效率

随着概念的传播,虚拟主播正日益成为许多商家的选择。与真人主播不同,虚拟主播可以全天无间断的直播,突破时间和空间的限制。2022年2月28日,经典美妆超级品类日活动开启时,京东美妆虚拟主播“小美”就出现在兰蔻、欧莱雅、OLAY等超过二十个美妆大牌直播间,开启直播首秀。虚拟人不仅五官形象由AI合成,嘴型也可以利用AI精确匹配台词,动作灵活且流畅,营造出极佳的真实感,为用户带来与真人无异的体验。

不过目前的虚拟主播更多的是与真人主播形成互补,或者为没有直播能力的的商家提供服务,还不能完全替代真人。虚拟主播要获得更强的交互能力,更好的与观众互动,做出实时反馈,还需要AIGC相关技术的后续发展。

从技术角度来说,影视特技行业的作业流程是极为繁琐的,比如场景中的建模就需要从一草一木、一人一物开始,逐渐打造世界的雏形,再通过骨骼绑定和动作设计让模型活起来,之后的定分镜、调灯光、铺轨道、取镜头等等无不费时费力,后期的解算和渲染等工作同样如此。可以说在影视工作的每个环节都有大量重复性工作或等待时间,无形中拖慢了工作节奏。因此现在就有企业致力于解封流程生产力,比如优酷的“妙叹”工具箱,在动漫中实时渲染,帮助工作者实时把握效果或做出修改,节省了大量成本,减轻人员负担,目前已被多家国漫企业采用。

3.5 AIGC+医疗

对医患双方而言,AIGC的应用与推广都是福音,比如AI预问诊的应用。虽然病人与病情千变万化,但总是有重复的地方,因此在预问诊阶段,AI就可以先了解患者的既往情况,让医生的诊断更有针对性,既缓解了医生的工作压力,也更好的服务了患者,医院内病人扎堆排队的现象也得以分流,可以说是一举三得。2021年,复旦大学附属眼耳鼻喉科医院与腾讯医疗健康签署合作协议,全面打造数字化医院新标杆、新范式,深入推进医院数字化转型,在预问诊等业务上快速落地部署。

对于传统医学的难点:心理疾病领域,AI同样可以参与其中。相较于过去的与人对话,AIGC聊天机器人只是个软件程序,用户不必担心隐私被泄露,况且还可以预置海量数据或知识模型,可以在更新迭代中保持冷静与中立。成立于2021年的聆心智能就是这方面的代表,基于生成式大模型开发的情绪疗愈机器人Emohaa,可以构建以生成对话为核心的交互式数字诊疗方案,通过对话与患者共情,及时提供情绪支持与心理疏导,促进患者心理健康。

3.1AIGC应用场景

AIGC(Artificial Intelligence Graphics Card)是一种基于人工智能技术的图形处理器,可以广泛应用于各个领域。

游戏开发:AIGC可以用于游戏引擎中,帮助游戏开发者实现更加逼真的游戏画面、物理效果和人工智能NPC行为。

虚拟现实(VR)和增强现实(AR)应用:AIGC可以提供更流畅、更逼真的虚拟现实和增强现实体验,让用户更好地融入虚拟世界。

图像处理和视频编辑:AIGC可用于图像处理软件和视频编辑软件,加速图像处理、滤镜效果、视频渲染等任务,提高工作效率。人脸识别和图像识别:AIGC可以用于人脸识别系统、图像识别系统等应用,提高识别准确度和速度。

自动驾驶技术:AIGC可以帮助自动驾驶系统对感知数据进行处理和分析,实现更加精准和可靠的自动驾驶功能。智能监控系统:AIGC可以用于智能监控系统中,实现实时监测、目标识别、异常检测等功能,提升监控系统的智能化水平。

医学影像诊断:AIGC可以协助医生进行医学影像诊断,提高诊断准确性和效率,帮助医生做出更好的治疗决策。

总的来说,AIGC在图形处理、数据处理、模式识别等领域都有广泛应用,可以提升各行业的效率和智能化水平。

现在详细说说AIGC和我们生活工作中的应用场景,主要拓展到四个主要场景,分别是文本处理、音频处理、图像处理、视频处理。

3.1.1文本生成

包括非交互式文本(结构化写作、非结构化写作和辅助性写作)和交互式文本(聊天机器人、文本交互游戏等)生成,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。

3.2.1音频生成:

包括语音克隆、文本生成特定语音、生成乐曲、歌曲等。此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。

3.3.1图像生成

包括图像编辑工具和图像自主生成(即 AI 绘画)。

AIGC绘画模型

发布时间以及影响意义

对抗生成网络(GAN)

2014年 真正“教会”AI自己绘画

扩散模型(Diffusion Model)

2020年 大幅提升AI绘画水平

stable Diffusion

2022年 推动AI绘画商业化发展

AIGC入门详解:看这篇就够了_生成模型_03

3.4.1视频生成:

包括视频属性编辑、视频自动剪辑和视频部分编辑。

新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。

AIGC入门详解:看这篇就够了_生成模型_04

该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的流行基于 DiT 的视频生成模型的质量。值得注意的是,作为一种不需要训练的方法,PAB 可以为任何未来基于 DiT 的视频生成模型提供加速,让其具备实时生成的能力。

自今年起,OpenAI 的 Sora 和其他基于 DiT 的视频生成模型引起了 AI 领域的又一波浪潮。然而与图像生成相比,人们对于视频生成的关注点基本都在于质量,很少有研究专注于探索如何加速 DiT 模型推理。加速视频生成模型的推理对于生成式 AI 应用来说已经是当务之急。

PAB 方法的出现,为我们打开了一条路。

原始方法与 PAB 视频生成速度的比较。作者在 Open-Sora 上测试了 5 个 4s(192 帧)480p 分辨率的视频。

GitHub 链接:https://github.com/NUS-HPC-AI-Lab/OpenDiT?tab=readme-ov-file#pyramid-attention-broadcast-pab-blogdoc

金字塔式注意力广播

近期,Sora 和其他基于 DiT 的视频生成模型引起了广泛关注。然而,与图像生成相比,很少有研究专注于加速基于 DiT 的视频生成模型的推理。此外,生成单个视频的推理成本可能很高。

AIGC入门详解:看这篇就够了_深度学习_05

图 1:当前扩散步骤和先前扩散步骤之间的注意力输出差异,使用均方误差 (MSE) 对差异进行量化。

实现

这项研究揭示了视频扩散 transformer 中注意力机制的两个关键观察结果:

首先,不同时间步骤的注意力差异呈现出 U 形模式,在最初和最后 15% 的步骤中发生显著变化,而中间 70% 的步骤则非常稳定,差异很小。

其次,在稳定的中间段内,注意力类型之间存在差异:空间注意力变化最大,涉及边缘、纹理等高频元素;时间注意力表现出与视频中的运动和动态相关的中频变化;跨模态注意力是最稳定的,将文本与视频内容联系起来,类似于反映文本语义的低频信号。

基于此,研究团队提出金字塔式注意力广播来减少不必要的注意力计算。在中间部分,注意力表现出微小的差异,该研究将一个扩散步骤的注意力输出广播到几个后续步骤,从而显著降低计算成本。

此外,为了更有效的计算和最小的质量损失,作者根据不同注意力的稳定性和差异性设置了不同的广播范围。即使没有后期训练,这种简单而有效的策略也能实现高达 35% 的加速,同时生成内容的质量损失可以忽略不计。

AIGC入门详解:看这篇就够了_生成模型_06

图 2:该研究提出了金字塔式注意力广播,其中根据注意力差异为三个注意力设置不同的广播范围。注意力变化越小,广播范围越广。在运行时,该方法将注意力结果广播到接下来的几个步骤,以避免冗余的注意力计算。x_t 指的是时间步 t 的特征。

并行

下图 3 为本文方法与原始动态序列并行(Dynamic Sequence Paralle, DSP)之间的比较。当时间注意力得到传播时,则可以避免所有通信。

AIGC入门详解:看这篇就够了_深度学习_07

为了进一步提升视频生成速度,本文基于 DSP 来改进序列并行。序列并行将视频分割为跨多个 GPU 的不同部分,从而减少了每个 GPU 的工作负载并降低了生成延迟。不过,DSP 引入了大量的通信开销,需要为时间注意力准备两个 All to All 通信。

通过在 PAB 中传播时间注意力,本文不再需要对时间注意力进行计算,由此减少了通信。相应地,通信开销大幅降低了 50% 以上,使得实时视频生成可以进行更高效的分布式推理。

评估结果

加速

下图为不同模型在 8 块英伟达 H100 GPU 上生成单个视频时,测量得到的 PAB 总延迟。当使用单块 GPU 时,作者实现了 1.26 至 1.32 倍的加速,并在不同的调度器中保持稳定。

当扩展到多块 GPU 时,本文方法实现了 10.6 倍的加速,并得益于高效的序列并行改进实现了与 GPU 数量之间的近线性扩展。

AIGC入门详解:看这篇就够了_人工智能_08

定性结果

以下三个视频分别为 Open-Sora、Open-Sora-Plan 和 Latte 三个不同的模型使用原始方法与本文方法的效果对比。可以看到,本文方法在不同的 GPU 数量下均实现了不同程度的 FPS 加速。

AIGC入门详解:看这篇就够了_深度学习_09

AIGC入门详解:看这篇就够了_生成模型_10

AIGC入门详解:看这篇就够了_人工智能_11

定量结果

下表为 Open-Sora、Open-Sora-Plan 和 Latte 三个模型的 LPIPS(学习感知图像块相似度)和 SSIM(结构相似度)指标结果。

AIGC入门详解:看这篇就够了_人工智能_12

策略生成:包括根据文字 prompt 生成创意图像、拼接图片素材生成视频、文字生成视频、图像/视频转换为文本等。

3.5.1Game AI

包括 AI bot、NPC 逻辑及剧情生成和数字资产生成。

游戏AI主要关注实体根据当前条件所采取的行动。这就是传统人工智能文献所指的控制“智能代理”,代理通常是游戏中的角色,但也可以是车辆,机器人。或者更抽象的东西,例如一组实体,甚至一个国家或文明。智能代理需要在各种情况下观察周围环境,依此做出决策,并采取行动。这就是所谓的“感知/思考/行动(Sense/Think/Act)”循环:

  • 感知:代理侦测到或被告知环境中可能影响其行为的事物(例如:附近的威胁,要收集的物品,要调查的兴趣点)。
  • 思考:代理决定采取的应对措施(例如:考虑是否足够安全来收集物品,或者决定应该先集中精力战斗还是躲藏)。
  • 行动:代理将先前的决定付诸行动(例如:沿着通向敌人或物品等的路径移动)。由于代理做出了行动,形势已经改变,因此再次重复循环。

现实世界中的AI,特别是成为新闻热点的那些,通常主要关注循环中的“感知”部分。例如,自动驾驶汽车拍摄道路的图像,结合其他数据(例如雷达和光达),并分析所看到的状况。这个过程一般是通过机器学习来完成,机器学习尤其擅长这方面,获取大量现实世界中有噪声的数据(如汽车前方的道路照片或视频)并加以分析理解,提取诸如“前方20码处有一辆汽车”这类的语义信息。这些被称为“分类问题”。

游戏的不同之处在于,它不需要复杂的系统来提取信息,因为大部分游戏的本质就是模拟。如果前方有敌人,也无需用图像识别算法来识别;游戏知道那里有敌人,可以将这些信息直接输入到决策过程。因此“感知/思考/行动“循环的“感知”部分通常要简单得多,但“思考”和“行动”的复杂性也会显现出来。

游戏AI开发的限制

游戏AI通常会遵从一些限制条件:

  • 它不像机器学习算法那样被“预训练”:在开发过程中编写神经网络,对大量玩家进行观察并学习找到与之对抗的最佳方法。这种做法是不切实际的,因为游戏还没有发售,并没有玩家!
  • 游戏应该提供娱乐性和挑战性,而不是“最优解”。所以即使AI被训练成完美机器,可以采用最佳方式对抗人类,这也不符合游戏设计师的初衷。
  • 代理需要显得“真实”,这样玩家才能觉得自己在与类似人类的对手对抗。AlphaGo的表现远超人类,但它的落子策略也远远超出了人类对围棋的理解,以至于它的人类对手会觉得“自己像是在和外星人下棋”。如果游戏AI的目的是成为人类的对手,恐怕这样的游戏是不太受欢迎的。因此必须对算法进行调整以做出可信的决策,而不是理想的决定。
  • 游戏AI需要“实时”运行——这就意味着AI算法不能有太高的CPU占用。即使10毫秒也太长了,因为大多数游戏只有16到33毫秒的时间来执行下一帧图形的所有处理过程。
  • 如果游戏中有些系统是数据驱动而不是硬编码的,这是非常不错的设计,非编码人员可以更快地调整设置。

3.6.1虚拟人生成:

麻省理工学院媒体实验室(MIT Media Lab)的研究人员开源了一个虚拟角色生成工具。该工具结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出,一举登上《Nature Machine Intelligence》。

该项目主要用于音频或视频驱动视频,暂不支持文本驱动视频。主要用于医疗视频或其他视频通话时保护个人隐私视频驱动视频,使著名的历史或现代人栩栩如生。

项目地址:https://github.com/mitmedialab/AI-generated-characters

二、原理简介 Character :可选择给定模板人物,也可自定义上传人物照片(单张图片)。 Inputs:可录音,上传音频,以及上传视频。 首先使用 first-order-model 生成动态视频,然后通过 Wav2Lip 生成嘴型。

若 Inputs 为音频,则调用案例视频驱动 Character 生成相应的动态视频,然后使用 inference.py 生成嘴型。 若 Inputs 为视频,则使用该视频作为驱动生成动态视频,取出视频音轨再合并音视频。 三、代码实现

  1. 数据准备 下载 first-order-model & Wav2Lip 以及人物图片。
  2. 函数定义 定义一些通用函数,比如选择/上传人物照片,记录/上传音频,上传视频,以及定义相关功能函数等。 函数 animate_video 定义了,从 first-order-model 项目的 demo.py 文件里导入功能 make_animation,将人物照片和驱动视频缩放至256x256,最后保存动态视频 /content/vidvid.mp4(256x256,30fps)
def animate_video(img_filename, vid_filename):
   from demo import make_animation
   from demo import load_checkpoints
source_image=resize(source_image, (256, 256))[..., :3]
   driving_video=[resize(frame, (256, 256))[..., :3] for frame in driving_video]

predictions=make_animation(source_image, driving_video, generator, kp_detector, relative=True,adapt_movement_scale=False)
   #save resulting video
 imageio.mimsave('/content/vidvid.mp4', [img_as_ubyte(frame) for frame in predictions], fps=30)

人物选择/上传 选择模板人物或者自定义上传人物照片(单张图片)。 模板人物:[“Van Gogh”, “Mona Lisa”, “Einstein”, “Lincoln”, “Nietzsche”, “Sokrates”]。 自定义上传的人物图片必须宽高相等。

输入驱动选择/上传 有三种方式输入驱动,分别是录音,上传音频,和上传视频。

video_driver = "/content/driving_video.mp4"
然后通过 Wav2Lip 生成嘴型。

若前一步骤为音频输入,则用 inference.py 生成嘴型。 若前一步骤为视频输入,则先取出视频音轨再合并音视频。

AIGC入门详解:看这篇就够了_人工智能_13

4.AIGC未来发展前景

人工智能在游戏领域的发展前景是无限广阔的,其中深度强化学习是一个引人注目的技术领域,给游戏设计和开发带来了革命性的影响。在过去的几年中,人工智能游戏设计和生成技术(AIGC)已经取得了长足的进展,并且展现出巨大的潜力,将对游戏产业产生深远影响。

首先,随着深度学习和神经网络技术的快速发展,AIGC在游戏设计和内容生成方面的应用已经成为热门研究领域。通过深度学习算法,AI可以分析大量的游戏数据,学习游戏规则和玩家行为模式,从而生成更加复杂和有趣的游戏内容。这种技术还可以用于自动生成关卡、角色设计、故事情节等方面,大大减轻了游戏开发者的工作压力,同时提高了游戏的创新性和趣味性。

其次,AIGC还可以在游戏测试和玩家体验优化方面发挥重要作用。通过使用AI技术自动生成游戏测试用例,并通过模拟玩家行为来评估游戏设计的合理性和可玩性,从而加速游戏开发周期和降低测试成本。此外,AI还可以实时监测玩家的行为数据,根据玩家反馈和数据分析来调整游戏难度、提升游戏体验,使游戏更加容易上手和吸引玩家。

另外,AIGC还有望在虚拟现实(VR)和增强现实(AR)游戏领域展现出巨大的潜力。通过结合AI技术和虚拟现实技术,可以实现更加智能和交互式的游戏体验,让玩家沉浸在更加逼真和生动的游戏世界中。AI还可以根据玩家的行为和反馈实时调整虚拟环境,提升游戏的沉浸感和个性化体验,为玩家带来更加丰富和有趣的游戏体验。

此外,随着云计算和边缘计算技术的不断普及和发展,AIGC还将更好地支持多人在线游戏和跨平台游戏的发展。通过利用云计算资源和边缘计算服务器,AI可以实时优化游戏性能和网络连接,提升游戏的流畅度和稳定性,为玩家们打造更好的在线游戏体验。同时,AI还可以通过跨平台游戏的智能匹配和推荐系统,让玩家们更容易找到合适的游戏伙伴和对手,促进游戏社区的发展和游戏产业的繁荣。

总的来说,AIGC在游戏领域的发展前景非常广阔,将在游戏设计、内容生成、测试优化、玩家体验、虚拟现实、增强现实、云计算、跨平台游戏等方面发挥重要作用。通过不断深化研究和技术创新,AIGC有望为游戏开发者带来更多可能性和机遇,为玩家们带来更加丰富和个性化的游戏体验,推动游戏产业的发展和变革。