三鹿是微软SENIOR SOFTWARE ENGINEER,平时很喜欢看小说,是一位资深的小说网文达人,在做这个项目之前,做过小说爬虫,使用Stable Diffusion做过定制化图画内容,涉足过音色转换、AI歌姬之类的配音项目,另外他还独自运营了一个微信公众号“三鹿叨逼叨”,是一位妥妥的“斜杠青年”。

One Person + LLMs = 网文照进现实_ide

三鹿

Auto Story to Video介绍

当看小说读到精彩之处时,很容易沉浸其中,会想小说中的情节场景如果能有画面就太好了,想象着只需要念出一道咒语,小说画面就出现眼前。如今魔法般的想象成为了现实,有了这样一套工具,将小说输入进去,便会让“咒语显灵”,输出一条动画视频,它就是“Auto Story to Video”,而且有一点不得不提,这是仅由三鹿一人开发制作完成的。

他也经常会在读小说时想象故事中的场景和情节,由于在其他项目中积累了相关的经验,因此在AI School的学习之时诞生了这样的想法:“我可以提供一个任意的故事,并从中生成一个讲故事的动画,来做一个自动化的工具。”

这个自动化工具就是Auto Story to Video。如今这个工具可以生成完成度很高的动画了,画面场景,情节和小说一一匹配,人物动作,服饰,神情都在剧情的逻辑当中,生成画面的效果也相当精美,目前已有一些成品,三鹿将它们上传至各大主流短视频平台,获得了100,000+的观看次数,侧面体现出这套工具生成的作品得到了相当规模受众的认可。文章结尾为大家上传了一个视频,这条视频在某短视频平台已经140k以上的播放量了。

制作流程与设计

传统动画制作,从文本构建动画并非易事,要经过漫长的生产流程。首先拿到小说后,要对小说进行修改,书面化的文字要口语化;第二步要做画面上的设计,分镜头脚本的设计,分镜要再落实为画面,这就要设计师每一幅图片、每一个镜头去设计;做这种动态漫画类的动画还要作出镜头移动的效果,让画面具有动态感,这一步需要给画面插入关键帧,或者其他的画面动作;最后还要给画面配音以及背景音乐。这一套流程下来需要文案,设计,画师以及剪辑师等等协作配合,才能完成一部完整的作品。

三鹿也是按照传统制作动画的思路进行流程上的重现的,在各个环节增加了人工智能或者代码的参与,例如:利用GPT,可以分析原始的故事,生成角色信息,设计角色视图,场景描述等等,还可以使用GPT修改文本,拆分小说句子;使用Midjourney或Stable Diffusion生成图片;代码来制作一些关键帧等等。

Auto Story to Video 操作过程

经过了人工智能的加持,三鹿个人半年开发测试的这套工具,已经可以高效率地动画生成制作,原本耗时耗力的繁杂工作,完全由这套工具解放出来,极大的提高了生产制作的效率,每10秒钟就可以生成1幅图片,在算力允许的情况下甚至可以更快。这是人工完全达不到的效率。

他的这套工具将多种工具进行了巧妙的组合,做成一套自动化流程的工具,形成1+1大于2的效果。而且它不仅仅是多种工具的简单整合,更是工程化思维的落地,整个流程是工程化的,可以通过优化这个工程来提升未来所有视频的收益,某一环节的优化可以带动整体的优化,且是不断持续、自我强化的过程。

挑战与解决方案

在这半年的开发当中,也经历了很多难题,例如小说语言的转化,像是“空洞的眼神”这类词语,我们人类一听就能明白这是个什么意思,但是对于机器来说很难理解,另外在图片生成的过程中,也难免会碰到图片生成结果不尽人意,三鹿为了解决这些难题做了诸多尝试,例如反向关键词,生成结果的二次确认,人工的审核等等;大模型也有完成得不完善的事情,像在图片风格的处理上,有的画风的质量无法得到很好保证,因此图片的画风被提前设置在了相对稳定产出的画风上。“模型无法处理的,目前只能通过工程上来规避。”

这套自动化工具目前已经可以面向短视频平台的小说营销推广人员,让他们进行使用,可以大大提高推广投放制作物料的效率。而在短视频投放的实际工作场景来看,投放的时效和物料的更新频率是非常重要的环节,效率的大幅提升一定程度解决了他们的痛点。因此它对于一些小说网站或者MCN机构有很高的利用价值。

Auto Story to Video未来构想

三鹿对于这套工具的构想不仅于此。

三鹿认为,小说阅读是相对小众的爱好,受众范围有限,而这套工具其实可以在更多领域发挥作用,因为这套工具本质上是内容形式上的转化:由文字阅读转化为视频观看,三鹿拿一些使用场景举例,比如在阅读一份科普读物时,晦涩的文字可能让你1分钟就想放弃了,但是,如果将这些文字也转化成视频呢,有了画面的加持是不是就更易于理解呢?因此他想利用这套工具,将叙事类书籍,时事评论,观点输出或是科普文章,转化为视频,这样更适合现代人的内容消费习惯,促成一些有价值的内容得到更广泛的传播。

从传播学的角度来看,其实三鹿构想中未来这套工具的“完全版”是在高效转换内容传播的媒介,麦克卢汉曾说过,“媒介即讯息”,这句话的意思是“从长远的角度看,真正有意义的讯息并不是各个时代的媒介所提示给人们的内容,而是媒介本身。”

One Person + LLMs = 网文照进现实_关键帧_02

One Person + LLMs = 网文照进现实_人工智能_03

One Person + LLMs = 网文照进现实_ide_04

One Person + LLMs = 网文照进现实_人工智能_05

video截图 左右滑动查看更多图片

现如今已经到了视听媒体的时代,这套工具虽没有开创新的媒介形式,不过其高效对媒介内容进行转换的特性会改变大众对内容的感知。在内容消费方面设想这样一个场景:我想读一本书的时候,但是我不想翻开书本,于是我使用这套工具转换成了视频,躺在沙发上观看。内容消费的体验完全不同了。而在内容生产方面,就像如今的短视频的推送是个性化定制的,基于大数据的推荐机制,每个人消费的内容千人千面,而这套工具在未来可能会将内容的生产私人定制化,根据个人喜好专门生产出只针对于个人的视频。内容生产变得更加大众化。

重要的是,有了这样的生产力工具,未来普通人也可以轻松的制作出视频内容,而这些内容原本要经年累月的团队制作,这种速度和效率的提升带来很多可能性。这不仅改变了个体的媒介使用习惯,也为普通人提供了制作视频内容的机会,缩短了原本需要很长时间制作的过程。这种速度和效率的提升带来了许多可能性,不仅为个体提供了更便捷的内容消费体验,还促进了内容创作和传播的民主化。普通人可以更容易地参与到内容制作中,推动了信息的多样化和更广泛的传播。

最后的话

技术的创新推动了生产力的提升,这套工具目前在小说生成动画方面已经取得显著成效,展现出令人满意的效果,然而其未来潜力仍然广阔,三鹿尚未有将这套工具商业化的规划,但他计划持续优化它,在未来为观点输出、时事和科普领域的内容做出贡献,为社会提供更多价值,这种追求超越了个人利益,是三鹿对社会发展和知识传播的高度责任心。

欢迎关注微软 智汇AI 官方账号

一手资讯抢先了解

One Person + LLMs = 网文照进现实_ide_06