公号机器学习与AI生成创作的博客_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

最新200篇！2024年5月 diffusion 生成扩散模型论文汇总

001 (2024-06-5) Non-stationary Spatio-Temporal Modeling Using the Stochastic Advection-Diffusion Equation https://arxiv.org/pdf/240r Fast...

ci

ide

sed

原创 2月前 80 阅读

UniAnimate：舞蹈生成！支持合成一分钟高清视频 | 华科等提出

UniAnimate：舞蹈生成！支持合成一分钟高清视频 | 华科等提出

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务，旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演化，跳舞视频生成任务取得了前所未有的进展，并展示了广泛的应用潜力。现有的方法可以大致分为两组。第一组通常基于生成对抗网络（GAN），其利用中间的姿势引导表示来扭曲参考外观，并通过之前扭曲的目标生成合理的视频帧。然而，基于生成对

音视频

滑动窗口

迭代

计算机视觉

转载 2月前 27 阅读

豆瓣9.2分 | 《GPT图解：大模型是怎样构建的》新书赠送！

豆瓣9.2分 | 《GPT图解：大模型是怎样构建的》新书赠送！

在最新的中关村开源生态论坛暨大模型智能应用技术大会上，2023年中国开发者影响力年度榜单揭晓了！人民邮电出版社异步图书荣获“年度出版社”奖！异步出品的《GPT图解：大模型是怎样构建的》荣获“年度IT图书”奖！此前，《GPT图解：大模型是怎样构建的》这本书就崭露头角，曾获得异步社区2023年度畅销新书奖，作者黄佳荣获2023年度影响力作者奖。那么这本书为何能获得这么多的荣誉呢？作者经验丰富+书籍抓热

gpt

语言模型

IT

数据分析

转载 2月前 53 阅读

多模态大模型新基准 | GPT-4o准确率仅65.5%，模型最易犯感知错误

多模态大模型新基准 | GPT-4o准确率仅65.5%，模型最易犯感知错误

GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度，在不同领域执行广泛的任务，这对许多领域带来革命性进展。因而，构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模态基准测试，旨在全面评估大型视觉语言模型（LVLMs）在多

人工智能

模态

子任务

多任务

转载 2月前 44 阅读

新书 | 《生成式AI入门与AWS实战》，写给程序员看的大模型入门实战书！

新书 | 《生成式AI入门与AWS实战》，写给程序员看的大模型入门实战书！

各位，小异带来一本重磅新书：O'Reilly动物书《生成式AI入门与AWS实战》！这本书美亚4.6星，得到了贾扬清、王小川、周明等数十名国内外大咖鼎力推荐！《生成式AI入门与AWS实战》你的第一本大模型入门实战书，轻松掌握生成式AI核心要点，驾驭未来技术浪潮！Part.1什么是生成式AI？“所有产品都值得用大模型重做一次。”是近几年在AI圈子非常火爆的观点。当大家都在热议大模型和生成式AI时，怎么

人工智能

aws

云计算

生成式

AWS

转载 2月前 66 阅读

SketchDream：基于线稿的3D生成编辑方法

SketchDream：基于线稿的3D生成编辑方法

本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林，香港城市大学傅红波老师，卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助，由信息高铁智算算力网平台提供算力支持。基于人工智能的数字内容生成，即 AIGC 在二维图像生成领域取得了很大的成功，但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视

3d

3D

Text

转载 2月前 18 阅读

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking 多目标跟踪（Multiple Object Tracking，MOT）是计算机视觉领域中一个关键领域，有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分

AIGC

数据

数据集

sed

原创 2月前 281 阅读

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插即用，实现长文本细粒度图像生成——长文本-图像检索提升20%，短文本-图像检索提升6%。解锁CLIP长文本能力CLIP对齐了视觉与文本模态，拥有强大的ze

人工智能

计算机视觉

深度学习

细粒度

图像检索

转载 2月前 13 阅读