公号机器学习与AI生成创作的博客

单张照片实时视频换脸！直播版Deepfake太恐怖！5分钟安装不挑硬件

音视频

FLUX

计算机视觉

深度学习

转载 25天前 48 阅读

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性...

编辑：陈陈用 FlexAttention 尝试一种新的注意力模式。理论上，注意力机制就是你所需要的一切。然而在实际操作中，我们还需要优化像 FlashAttention这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能，且支持长上下文，但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说，这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化内核，你将面临运行缓慢

pytorch

人工智能

python

深度学习

机器学习

转载 1月前 22 阅读

豆瓣9.3 | 这本人工智能教材，被哈佛、清华等1500所大学采用！

一本经典巨著。畅销全球100多个国家和地区、火了29年的超绝影响力;被哈佛、剑桥、清华等1500多所大学用作教材，启蒙无数AI大牛;权威到一旦人们对某些人工智能的概念发生争议时，就会以它的讲述为准;获奖无数，一版再版，版版豆瓣9.0+高分，稳居各大平台人工智能类图书榜单前列。它就是由加州大学伯克利分校的教授斯图尔特·罗素（Stuart Russell）和斯坦福大学人工智能研究所的杰出教育研究员彼得

人工智能

计算机科学

深度学习

转载 1月前 48 阅读

中国大学专业 | 2024年人工智能专业评级前25排名！

3月6日，中国大学评价领先品牌CNUR正式发布了2024年人工智能专业评级排名。在本年度的榜单中，清华大学、南京大学、中国科学技术大学、上海交通大学、西安电子科技大学被评为“S级”。北京大学、哈尔滨工业大学、浙江大学、电子科技大学、华中科技大学被评为“A+”。关注公众号机器学习与AI生成创作

人工智能

深度学习

机器学习

计算机视觉

转载 1月前 50 阅读

MegActor：输入照片即可模仿任意表情包！

日前，旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架，用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度，取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同，旷视 MegActor 将采用开源的方式，提供给开发者

数据

数据集

计算机视觉

转载 1月前 23 阅读

UniAnimate：舞蹈生成！支持合成一分钟高清视频 | 华科等提出

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务，旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演化，跳舞视频生成任务取得了前所未有的进展，并展示了广泛的应用潜力。现有的方法可以大致分为两组。第一组通常基于生成对抗网络（GAN），其利用中间的姿势引导表示来扭曲参考外观，并通过之前扭曲的目标生成合理的视频帧。然而，基于生成对

音视频

滑动窗口

迭代

计算机视觉

转载 2月前 26 阅读

豆瓣9.2分 | 《GPT图解：大模型是怎样构建的》新书赠送！

gpt

语言模型

IT

数据分析

转载 2月前 52 阅读

多模态大模型新基准 | GPT-4o准确率仅65.5%，模型最易犯感知错误

GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度，在不同领域执行广泛的任务，这对许多领域带来革命性进展。因而，构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模态基准测试，旨在全面评估大型视觉语言模型（LVLMs）在多

人工智能

模态

子任务

多任务

转载 2月前 43 阅读

新书 | 《生成式AI入门与AWS实战》，写给程序员看的大模型入门实战书！

人工智能

aws

云计算

生成式

AWS

转载 2月前 66 阅读

SketchDream：基于线稿的3D生成编辑方法

本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林，香港城市大学傅红波老师，卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助，由信息高铁智算算力网平台提供算力支持。基于人工智能的数字内容生成，即 AIGC 在二维图像生成领域取得了很大的成功，但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视

3d

3D

Text

转载 2月前 17 阅读

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking 多目标跟踪（Multiple Object Tracking，MOT）是计算机视觉领域中一个关键领域，有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分

AIGC

数据

数据集

sed

原创 2月前 279 阅读

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插即用，实现长文本细粒度图像生成——长文本-图像检索提升20%，短文本-图像检索提升6%。解锁CLIP长文本能力CLIP对齐了视觉与文本模态，拥有强大的ze

人工智能

计算机视觉

深度学习

细粒度

图像检索

转载 2月前 13 阅读

ConsistentID：针对定制化人脸需求！中山大学提出多模态精细化生成方法！

只需上传一张照片，就能瞬间变换身份，获得高精度个人写真！或是科幻电影中的超级英雄，或是穿越时空的复古角色……李飞飞在家做饭的样子有了，还有让斯嘉丽一键带圣诞帽。除此之外，杨幂+小兰两位人脸融合在一起会是什么样子？中山大学、联想的研究团队推出了ConsistentID，可在细粒度多模态面部提示下，仅利用单张参考图像生成多样的肖像，且保持五官的一致性。最终在人脸个性化任务处理上，相比腾讯的photom

细粒度

模态

数据集

转载 3月前 36 阅读

CogVLM2：最新开源多模态SOTA！19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。网友闻讯而来，发现ChatGPT新绝技之“AI挑瓜”，我们开源届也不缺了。更复杂的学术图表，它也能理解并给出详细解释。CogVLM2整体模型参数量仅19B，却能在多项指标取得

数据

语言模型

性能提升

转载 3月前 376 阅读

中国特色！针对中文的DiT架构！腾讯混元文生图大模型开源

中文 AI 社区迎来了一个好消息：与 Sora 同架构的开源文生图大模型来了！5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。官网地址：https://dit.hunyuan.tencent.com/GitHub 项目地址：https://g

架构

开发者

计算机视觉

技术架构

转载 3月前 37 阅读

性能超Transformer！Mamba系列论文整理分享

Mamba01Mamba作为一种新型的选择性状态空间模型方法，在语言建模方面可以媲美Transformer，并且目前已经有了很多结合M

transformer

深度学习

人工智能

状态空间

建模

转载 3月前 55 阅读

GPT-4o：横跨视听说交互能力！免费开放！

梦晨克雷西发自凹非寺量子位 | 公众号 QbitAIOpenAI最新旗舰大模型GPT-4o！！！不仅免费可用，能力更是横跨听、看、说，丝滑流

chatgpt

人工智能

计算机视觉

旧版

深度学习

转载 3月前 75 阅读

CVPR 2024 | 风格迁移和人像生成汇总！扩散模型diffusion用于经典AIGC方向

风格迁移1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations基于文本到图像扩散模型在迁移参

AIGC

github

解耦

Image

原创 3月前 132 阅读

比Sora更持久！120秒超长AI视频模型诞生！

编辑：润好困【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术，让AI视频的长度扩展至近乎无限，而且一致性，动作幅度也非常好！Sora一出，文生视频的在长度这个指标上就卷的没边了。从Pika和Runway的4秒，到VideoPoet的理论无限长，各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。最近，来自Picsart AI Research，U

人工智能

编码器

ide

初始化

转载 3月前 37 阅读

CVPR 2024 | 图像超分、图像恢复汇总！用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率（SR）和图像生成

AIGC

计算机视觉

人工智能

Image

Diff

原创 3月前 542 阅读

万字长文，深度梳理Python多线程与多进程

作者：钱魏Way 导读在Python中，多线程和多进程都是用于实现并行处理的方式，它们提供了在单个进程内或跨多个进程执行并发操作的网关，提高了系统的速度和效率。很多同学对其中的原理，并不是特别了解，本文系统性的讲解其中的各个知识点，希望对大家有帮助！线程与进程的区别进程（process）和线程（thread）是操作系统的基本概念，但是它们比较抽象，不容易掌握。

java

linux

开发语言

运维

服务器

转载 3月前 40 阅读

从头设计视频生成扩散模型 | Sora之后，OpenAI安全负责人Lilian Weng亲自撰文

作者：Lilian Weng 来源机器之心编辑：Panda过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成

ide

卷积

3D

转载 3月前 21 阅读

CVPR 2024 | idea这不就有了！扩散diffusion模型100+篇论文、40+研究方向（清单版）...

github

Image

Text

原创 3月前 459 阅读

StoryDiffusion：让多图漫画和长视频更连贯！南开、字节开源

本文来源机器之心编辑：杨文、亚鹂有了 StoryDiffusion，更加一致性的图像和视频生成得到了保障。两天

运动预测

Self

生成模型

转载 3月前 65 阅读

MetaCLIP：揭开CLIP的高质量数据之谜，Meta 联合纽约大学和华盛顿大学提出

数据

元数据

数据算法

转载 3月前 56 阅读

Open-Sora项目升级：支持16s视频生成和720p分辨率

Open-Sora 在开源社区悄悄更新了，现在单镜头支持长达16秒的视频生成，分辨率最高可达720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景，发b站再生成个竖屏，发抖音还能生成单镜头16秒的长视频，这下人人都能过把编剧瘾了怎么玩？指路GitHub：https://github.com/hpcaitech/Op

音视频

github

帧率

宽高

转载 3月前 15 阅读

前向FLOPs可降一半！DeepMind升级Transformer

编辑：Panda W引入混合深度，DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Pro

transformer

深度学习

人工智能

权重

建模

转载 4月前 20 阅读

世界上第一位AI程序员Devin的诞生，我们人类程序员要如何看待和了解他？

Part.1Devin真的会抢走你的饭碗吗？全球首个完全自主的 AI 软件工程师上线，它是来自 Cognition 这家初创公司的产品——Devin，这个名字也随即引爆了科技圈。话说 Devin 有多能干？它能实现端到端的完整项目开发。也就是说，只需一句指令，Devin 就可以从零构建出一个完整互联网应用，其他工作还可以自主查找并修复代码中的 bug，甚至是训练和微调自己的 AI 模型。更厉害的

人工智能

语言模型

理论基础

转载 4月前 13 阅读

北大Open Sora：视频生成更强了，超10秒高分辨率，还支持华为芯片

初始化

ide

初始化方法

转载 4月前 26 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

mb60e8123127ed0的博客

单张照片实时视频换脸！直播版Deepfake太恐怖！5分钟安装不挑硬件

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性...

豆瓣9.3 | 这本人工智能教材，被哈佛、清华等1500所大学采用！

中国大学专业 | 2024年人工智能专业评级前25排名！

MegActor：输入照片即可模仿任意表情包！

最新200篇！2024年5月 diffusion 生成扩散模型论文汇总

UniAnimate：舞蹈生成！支持合成一分钟高清视频 | 华科等提出

豆瓣9.2分 | 《GPT图解：大模型是怎样构建的》新书赠送！

多模态大模型新基准 | GPT-4o准确率仅65.5%，模型最易犯感知错误

新书 | 《生成式AI入门与AWS实战》，写给程序员看的大模型入门实战书！

SketchDream：基于线稿的3D生成编辑方法

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

ConsistentID：针对定制化人脸需求！中山大学提出多模态精细化生成方法！

CogVLM2：最新开源多模态SOTA！19B模型比肩GPT-4v，16G显存就能跑

中国特色！针对中文的DiT架构！腾讯混元文生图大模型开源

性能超Transformer！Mamba系列论文整理分享

GPT-4o：横跨视听说交互能力！免费开放！

CVPR 2024 | 风格迁移和人像生成汇总！扩散模型diffusion用于经典AIGC方向

比Sora更持久！120秒超长AI视频模型诞生！

CVPR 2024 | 图像超分、图像恢复汇总！用AIGC扩散模型diffusion来解决图像low-level任务的思路...

万字长文，深度梳理Python多线程与多进程

从头设计视频生成扩散模型 | Sora之后，OpenAI安全负责人Lilian Weng亲自撰文

CVPR 2024 | idea这不就有了！扩散diffusion模型100+篇论文、40+研究方向（清单版）...

StoryDiffusion：让多图漫画和长视频更连贯！南开、字节开源

MetaCLIP：揭开CLIP的高质量数据之谜，Meta 联合纽约大学和华盛顿大学提出

Open-Sora项目升级：支持16s视频生成和720p分辨率

前向FLOPs可降一半！DeepMind升级Transformer

世界上第一位AI程序员Devin的诞生，我们人类程序员要如何看待和了解他？

北大Open Sora：视频生成更强了，超10秒高分辨率，还支持华为芯片