马斯克“最新直播”,不好好扣他那polo衫扣子,拿个手机打光晃来晃去。看他脑袋左转右转,嘴角扬起的微笑,ak都压不下去。Why啊?!答案揭晓——这活灵活现的马斯克,根本不是马斯克本马!而是一个最新AI换脸项目生成的:只需一张照片,就能换脸搞直播。不得不说,这样的马斯克还挺吓人的,有点鬼片怪蜀黍内味了~本地安装一下,就能达到实时无延迟,还支持实时预览。也就是说,无论搞在线会议还是直播带货,可以用任何
编辑:陈陈用 FlexAttention 尝试一种新的注意力模式。理论上,注意力机制就是你所需要的一切。然而在实际操作中,我们还需要优化像 FlashAttention这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能,且支持长上下文,但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说,这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化内核,你将面临运行缓慢
一本经典巨著。畅销全球100多个国家和地区、火了29年的超绝影响力;被哈佛、剑桥、清华等1500多所大学用作教材,启蒙无数AI大牛;权威到一旦人们对某些人工智能的概念发生争议时,就会以它的讲述为准;获奖无数,一版再版,版版豆瓣9.0+高分,稳居各大平台人工智能类图书榜单前列。它就是由加州大学伯克利分校的教授斯图尔特·罗素(Stuart Russell)和斯坦福大学人工智能研究所的杰出教育研究员彼得
3月6日,中国大学评价领先品牌CNUR正式发布了2024年人工智能专业评级排名。在本年度的榜单中,清华大学、南京大学、中国科学技术大学、上海交通大学、西安电子科技大学被评为“S级”。北京大学、哈尔滨工业大学、浙江大学、电子科技大学、华中科技大学被评为“A+”。关注公众号机器学习与AI生成创作
日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者
001 (2024-06-5) Non-stationary Spatio-Temporal Modeling Using the Stochastic Advection-Diffusion Equation https://arxiv.org/pdf/240r Fast...
人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对
在最新的中关村开源生态论坛暨大模型智能应用技术大会上,2023年中国开发者影响力年度榜单揭晓了!人民邮电出版社异步图书荣获“年度出版社”奖!异步出品的《GPT图解:大模型是怎样构建的》荣获“年度IT图书”奖!此前,《GPT图解:大模型是怎样构建的》这本书就崭露头角,曾获得异步社区2023年度畅销新书奖,作者黄佳荣获2023年度影响力作者奖。那么这本书为何能获得这么多的荣誉呢?作者经验丰富+书籍抓热
GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多
各位,小异带来一本重磅新书:O'Reilly动物书《生成式AI入门与AWS实战》!这本书美亚4.6星,得到了贾扬清、王小川、周明等数十名国内外大咖鼎力推荐!《生成式AI入门与AWS实战》你的第一本大模型入门实战书,轻松掌握生成式AI核心要点,驾驭未来技术浪潮!Part.1什么是生成式AI?“所有产品都值得用大模型重做一次。”是近几年在AI圈子非常火爆的观点。当大家都在热议大模型和生成式AI时,怎么
本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助,由信息高铁智算算力网平台提供算力支持。基于人工智能的数字内容生成,即 AIGC 在二维图像生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视
目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking 多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分
CLIP长文本能力被解锁,图像检索任务表现显著提升!一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上,在图像生成等下游任务中即插即用,实现长文本细粒度图像生成——长文本-图像检索提升20%,短文本-图像检索提升6%。解锁CLIP长文本能力CLIP对齐了视觉与文本模态,拥有强大的ze
只需上传一张照片,就能瞬间变换身份,获得高精度个人写真!或是科幻电影中的超级英雄,或是穿越时空的复古角色……李飞飞在家做饭的样子有了,还有让斯嘉丽一键带圣诞帽。除此之外,杨幂+小兰两位人脸融合在一起会是什么样子?中山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。最终在人脸个性化任务处理上,相比腾讯的photom
开源多模态SOTA模型再易主!Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。更复杂的学术图表,它也能理解并给出详细解释。CogVLM2整体模型参数量仅19B,却能在多项指标取得
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。官网地址:https://dit.hunyuan.tencent.com/GitHub 项目地址:https://g
Mamba01Mamba作为一种新型的选择性状态空间模型方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合M
梦晨 克雷西 发自 凹非寺 量子位 | 公众号 QbitAIOpenAI最新旗舰大模型GPT-4o!!!不仅免费可用,能力更是横跨听、看、说,丝滑流
风格迁移1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations基于文本到图像扩散模型在迁移参
编辑:润 好困【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!Sora一出,文生视频的在长度这个指标上就卷的没边了。从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。最近,来自Picsart AI Research,U
1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率(SR)和图像生成
作者:钱魏Way 导读在Python中,多线程和多进程都是用于实现并行处理的方式,它们提供了在单个进程内或跨多个进程执行并发操作的网关,提高了系统的速度和效率。很多同学对其中的原理,并不是特别了解,本文系统性的讲解其中的各个知识点,希望对大家有帮助!线程与进程的区别进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。
作者:Lilian Weng 来源机器之心 编辑:Panda过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成
最新视觉顶会 CVPR 2024 会议,涌现出大量基于生成式AIGC的CV论文,尤其扩散模型diffusion为代表!除直接生成,还广泛应用在各类 low-level、high-level 视觉任务!本文集齐和梳理CVPR 2024共40+方向、百篇AIGC+扩散模型论文!均已分类打包好!关注【机器学习与AI生成创作】公众号,后台回复 CVPR2024 (长
本文来源 机器之心 编辑:杨文、亚鹂有了 StoryDiffusion,更加一致性的图像和视频生成得到了保障。两天
Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景,发b站再生成个竖屏,发抖音还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了怎么玩?指路GitHub:https://github.com/hpcaitech/Op
编辑:Panda W引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这种变革性技术,其中一个重要的改进方向是提升 Transformer 的效率,比如让其具备自适应计算能力,从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Pro
Part.1Devin真的会抢走你的饭碗吗?全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 Devin 有多能干?它能实现端到端的完整项目开发。也就是说,只需一句指令,Devin 就可以从零构建出一个完整互联网应用,其他工作还可以自主查找并修复代码中的 bug,甚至是训练和微调自己的 AI 模型。更厉害的
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号