One Person + LLMs = 网文照进现实

转载

YJL 2024-02-26 10:33:45

文章标签 人工智能 ide 关键帧 文章分类 Html/CSS 前端开发

三鹿是微软SENIOR SOFTWARE ENGINEER，平时很喜欢看小说，是一位资深的小说网文达人，在做这个项目之前，做过小说爬虫，使用Stable Diffusion做过定制化图画内容，涉足过音色转换、AI歌姬之类的配音项目，另外他还独自运营了一个微信公众号“三鹿叨逼叨”，是一位妥妥的“斜杠青年”。

One Person + LLMs = 网文照进现实_ide

三鹿

Auto Story to Video介绍

当看小说读到精彩之处时，很容易沉浸其中，会想小说中的情节场景如果能有画面就太好了，想象着只需要念出一道咒语，小说画面就出现眼前。如今魔法般的想象成为了现实，有了这样一套工具，将小说输入进去，便会让“咒语显灵”，输出一条动画视频，它就是“Auto Story to Video”，而且有一点不得不提，这是仅由三鹿一人开发制作完成的。

他也经常会在读小说时想象故事中的场景和情节，由于在其他项目中积累了相关的经验，因此在AI School的学习之时诞生了这样的想法：“我可以提供一个任意的故事，并从中生成一个讲故事的动画，来做一个自动化的工具。”

这个自动化工具就是Auto Story to Video。如今这个工具可以生成完成度很高的动画了，画面场景，情节和小说一一匹配，人物动作，服饰，神情都在剧情的逻辑当中，生成画面的效果也相当精美，目前已有一些成品，三鹿将它们上传至各大主流短视频平台，获得了100,000+的观看次数，侧面体现出这套工具生成的作品得到了相当规模受众的认可。文章结尾为大家上传了一个视频，这条视频在某短视频平台已经140k以上的播放量了。

“

制作流程与设计

传统动画制作，从文本构建动画并非易事，要经过漫长的生产流程。首先拿到小说后，要对小说进行修改，书面化的文字要口语化；第二步要做画面上的设计，分镜头脚本的设计，分镜要再落实为画面，这就要设计师每一幅图片、每一个镜头去设计；做这种动态漫画类的动画还要作出镜头移动的效果，让画面具有动态感，这一步需要给画面插入关键帧，或者其他的画面动作；最后还要给画面配音以及背景音乐。这一套流程下来需要文案，设计，画师以及剪辑师等等协作配合，才能完成一部完整的作品。

三鹿也是按照传统制作动画的思路进行流程上的重现的，在各个环节增加了人工智能或者代码的参与，例如：利用GPT，可以分析原始的故事，生成角色信息，设计角色视图，场景描述等等，还可以使用GPT修改文本，拆分小说句子；使用Midjourney或Stable Diffusion生成图片；代码来制作一些关键帧等等。

Auto Story to Video 操作过程

经过了人工智能的加持，三鹿个人半年开发测试的这套工具，已经可以高效率地动画生成制作，原本耗时耗力的繁杂工作，完全由这套工具解放出来，极大的提高了生产制作的效率，每10秒钟就可以生成1幅图片，在算力允许的情况下甚至可以更快。这是人工完全达不到的效率。

他的这套工具将多种工具进行了巧妙的组合，做成一套自动化流程的工具，形成1+1大于2的效果。而且它不仅仅是多种工具的简单整合，更是工程化思维的落地，整个流程是工程化的，可以通过优化这个工程来提升未来所有视频的收益，某一环节的优化可以带动整体的优化，且是不断持续、自我强化的过程。

“

挑战与解决方案

在这半年的开发当中，也经历了很多难题，例如小说语言的转化，像是“空洞的眼神”这类词语，我们人类一听就能明白这是个什么意思，但是对于机器来说很难理解，另外在图片生成的过程中，也难免会碰到图片生成结果不尽人意，三鹿为了解决这些难题做了诸多尝试，例如反向关键词，生成结果的二次确认，人工的审核等等；大模型也有完成得不完善的事情，像在图片风格的处理上，有的画风的质量无法得到很好保证，因此图片的画风被提前设置在了相对稳定产出的画风上。“模型无法处理的，目前只能通过工程上来规避。”

这套自动化工具目前已经可以面向短视频平台的小说营销推广人员，让他们进行使用，可以大大提高推广投放制作物料的效率。而在短视频投放的实际工作场景来看，投放的时效和物料的更新频率是非常重要的环节，效率的大幅提升一定程度解决了他们的痛点。因此它对于一些小说网站或者MCN机构有很高的利用价值。

Auto Story to Video未来构想

三鹿对于这套工具的构想不仅于此。

三鹿认为，小说阅读是相对小众的爱好，受众范围有限，而这套工具其实可以在更多领域发挥作用，因为这套工具本质上是内容形式上的转化：由文字阅读转化为视频观看，三鹿拿一些使用场景举例，比如在阅读一份科普读物时，晦涩的文字可能让你1分钟就想放弃了，但是，如果将这些文字也转化成视频呢，有了画面的加持是不是就更易于理解呢？因此他想利用这套工具，将叙事类书籍，时事评论，观点输出或是科普文章，转化为视频，这样更适合现代人的内容消费习惯，促成一些有价值的内容得到更广泛的传播。

从传播学的角度来看，其实三鹿构想中未来这套工具的“完全版”是在高效转换内容传播的媒介，麦克卢汉曾说过，“媒介即讯息”，这句话的意思是“从长远的角度看，真正有意义的讯息并不是各个时代的媒介所提示给人们的内容，而是媒介本身。”

One Person + LLMs = 网文照进现实_关键帧_02

One Person + LLMs = 网文照进现实_人工智能_03

One Person + LLMs = 网文照进现实_ide_04

One Person + LLMs = 网文照进现实_人工智能_05

video截图左右滑动查看更多图片

现如今已经到了视听媒体的时代，这套工具虽没有开创新的媒介形式，不过其高效对媒介内容进行转换的特性会改变大众对内容的感知。在内容消费方面设想这样一个场景：我想读一本书的时候，但是我不想翻开书本，于是我使用这套工具转换成了视频，躺在沙发上观看。内容消费的体验完全不同了。而在内容生产方面，就像如今的短视频的推送是个性化定制的，基于大数据的推荐机制，每个人消费的内容千人千面，而这套工具在未来可能会将内容的生产私人定制化，根据个人喜好专门生产出只针对于个人的视频。内容生产变得更加大众化。

重要的是，有了这样的生产力工具，未来普通人也可以轻松的制作出视频内容，而这些内容原本要经年累月的团队制作，这种速度和效率的提升带来很多可能性。这不仅改变了个体的媒介使用习惯，也为普通人提供了制作视频内容的机会，缩短了原本需要很长时间制作的过程。这种速度和效率的提升带来了许多可能性，不仅为个体提供了更便捷的内容消费体验，还促进了内容创作和传播的民主化。普通人可以更容易地参与到内容制作中，推动了信息的多样化和更广泛的传播。

“

最后的话

技术的创新推动了生产力的提升，这套工具目前在小说生成动画方面已经取得显著成效，展现出令人满意的效果，然而其未来潜力仍然广阔，三鹿尚未有将这套工具商业化的规划，但他计划持续优化它，在未来为观点输出、时事和科普领域的内容做出贡献，为社会提供更多价值，这种追求超越了个人利益，是三鹿对社会发展和知识传播的高度责任心。

欢迎关注微软智汇AI 官方账号

一手资讯抢先了解

One Person + LLMs = 网文照进现实_ide_06