AIGC_Studio的博客_深度学习(3)

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标！

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域，有许多谨慎的，有时甚至是复杂的方法和

AIGC

人工智能

图像生成

计算机视觉

图像分割

原创 2月前 39 阅读

腾讯提出InstantMesh:超快速的图像转 3D且质量很高,30秒内免费从一张图片生成3D模型

我们提出InstantMesh，这是一个从单个图像中立即生成的即时3D网格生成的前馈框架，具有最先进的一代质量和明显的

人工智能

AIGC

图像生成

3D

3d

原创 2月前 134 阅读

Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Sora揭示了缩放扩散变压器（DIT）的潜力以任意分辨率，宽高比和持续时间为单位的影像图像和视频，但仍然缺乏足够的

音视频

计算机视觉

人工智能

AIGC

图像生成

原创 2月前 183 阅读

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标.

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域，有许多谨慎的，有时甚至是复杂的发现和分组运动物体的能力。

人工智能

AIGC

计算机视觉

图像分割

光流

原创 2月前 28 阅读

字节提出ControlNet++：更强更可控的图像生成框架！通过高效的一致性反馈改进条件控制!

为了增强文本对图像扩散模型的可控性，现有的方法有如ControlNet Incorporated基于图像的条件来进行控制。

stable diffusion

controlnet

人工智能

AIGC

图像生成

原创 2月前 67 阅读

当前最好的Stable Diffusion角色特征固定工具来了！字节提出PuLID，用于文本生成图像领域，实现了高度的ID保真度与可编辑性。

我们提出了一种新的无需调优的文本到图像生成ID自定义方法PuLID (Pure and Lightning ID customization)。通过将一个标

stable diffusion

AIGC

人工智能

计算机视觉

可编辑

原创 2月前 37 阅读

超越IP-Adapter！字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法！

在本文中，我们提出了MoMA:一个开放词汇，无需训练的个性化图像模型，具有灵活的零拍摄功能。随着基础文本

人工智能

AIGC

计算机视觉

图像生成

模态

原创 2月前 94 阅读

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

最近在可控人类图像生成方面的进展导致了使用结构信号(例如，姿势，深度)或面部外观的零拍摄生成。然而，以人类外表的多个

人工智能

AIGC

计算机视觉

图像生成

编码器

原创 2月前 29 阅读

阿里云大幅降价通义千问主力大模型API，降幅高达97%，大大降低了企业使用AI的成本。这一举措使得1元即可处理300万字，将极大推动AI应用的普及和发展。

这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。一般我们开发一个RAG应用，

阿里云

人工智能

云计算

数据

基础设施

原创 2月前 43 阅读

MaxKB，基于 LLM 大语言模型的知识库问答系统，开箱即用，支持快速嵌入到第三方业务系统。

MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base，旨在成为企业的最强大脑。开箱即用：支持直接上传文档、自动爬取在线文档，支持文本自动拆分、向量化、RAG（检索增强生成），智能问答交互体验好；无缝嵌入：支持零编码快速嵌入到第三方业务系统；

语言模型

人工智能

自然语言处理

讯飞

Max

原创 2月前 109 阅读

Google发布的CAT3D，在1分钟内，能够从任意数量的真实或生成的图像创建3D场景。

3D重建的进步使高质量的3D捕获成为可能，但需要用户收集数百到数千张图像来创建3D场景。我们提出了cat3d，这是一种通过多视图扩散模

3d

AIGC

计算机视觉

图像生成

人工智能

原创 2月前 83 阅读 1收藏

重磅！腾讯开源混元文生图大模型，与Sora同架构，中英文原生DiT，可免费商用！

我们提出了Hunyuan-DiT，一种文本到图像的扩散转换器，可以对英语和中文进行细粒度的理解。为了构建Hunyuan-DiT，我们精心设计了变压器结构

人工智能

AIGC

计算机视觉

图像生成

模态

原创 2月前 41 阅读

当前最好的SD边线提取工具Anyline:一个快速，准确，详细的线检测预处理器,提供ComfyUI和SD WebUI版本。

Anyline 与 Mistoline ControlNet 模型相结合，形成完整的 SDXL 工作流程，最大限度地提高精确控制并利用 SDXL 模型的生

人工智能

AIGC

计算机视觉

图像生成

工作流程

原创 2月前 169 阅读

FIFO-Diffusion，一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。

我们提出了一种基于预训练扩散模型的新颖推理技术，用于文本条件视频生成。我们的方法称为 FIFO-Diffusion，从概念上讲，无需

音视频

人工智能

AIGC

去噪

ide

原创 2月前 120 阅读

Controlnet作者放出新的大招 IC-Light，可以操控图像生成时的光照，对内容主体重新打光生成符合新背景环境光照的图片

IC-Light代表Impose Constant Light,是一个控制图像照明的项目。可以操控图像生成时的光照，对内容主体重新打光生成符合新背景环境光照

人工智能

AIGC

计算机视觉

图像生成

ControlNet

原创 2月前 61 阅读

继阿里EMO后，腾讯也提出了AniPortrait：用于生成由音频和参考肖像图像驱动的高质量动画

这项研究提出了一个新的框架：AniPortrait。生成由音频和参考肖像图像驱动的高质量动画。方法分为两个阶段。最初，

音视频

人工智能

AIGC

图像生成

stable diffusion

原创 3月前 52 阅读

InstantID作者的风格保持新项目InstantStyle发布，一个强化版的IPapadter来了！

基于调整自由扩散的模型在图像个性化和定制领域显示出巨大的潜力。然而，尽管取得了显著进展，目前的模式仍在继续努力应对制

人工智能

计算机视觉

AIGC

图像生成

权重

原创 3月前 35 阅读

TextCraftor：一种创新的文本编码器微调技术，无需额外数据集改善图像质量与文本对齐

基于扩散的文本到图像生成模型，例如Stable Diffusion已经彻底改变了内容生成领域。尽管他们在图像编辑和视频合成有很强

人工智能

计算机视觉

编码器

图像质量

生成模型

原创 3月前 52 阅读

(CVPR2024)DragGAN作者新作DiffMorpher：可以实现两张图像间的平滑变形

扩散模型取得了超越以前的生成模型的卓越图像生成质量。然而与GAN相比，扩散模型的一个显着局限性是由于其高度非结构化的

AIGC

人工智能

图像生成

插值

可编辑

原创 3月前 107 阅读

T-GATE：交叉注意力使文本到图像扩散模型中的推理变得麻烦

交叉注意力在文本到图像扩散模型中的作用在文本到图像的扩散模型中，交叉注意力是一个关键组件，它在模型的初期推理步骤中

人工智能

AIGC

图像生成

推理过程

缓存

原创 3月前 26 阅读

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%

大多数扩散模型假设逆过程遵循高斯分布。然而，这种近似尚未经过严格验证，尤其是在t=0和t=1的奇点处。不正确奇点是有条件可去除的，而t=0处的奇点是固有属性。

AIGC

人工智能

图像生成

即插即用

灰度

原创 3月前 30 阅读

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。

扩散模型已成为高分辨率图像合成的主流方法。但是直接从预处理的扩散模型中生成高解决图像将遇到不合理的对象重复，并指数增加生成

人工智能

计算机视觉

AIGC

图像生成

缩放

原创 3月前 170 阅读

腾讯的Sora来了！腾讯PCG ARC实验室推出Mira(Mini-Sora)：迈向Sora长视频生成的一小步

Mira (Mini-Sora)，这是对 Sora 风格的高质量、长时间视频生成领域的初步尝试。Mira 在几个关键方面从现有的文频生成技术的静态输出。

人工智能

AIGC

计算机视觉

数据集

Data

原创 4月前 115 阅读

北大&字节联合发布视觉自动回归建模（VAR）：通过下一代预测生成可扩展的图像

视觉自回归建模（VAR）是一种新的视觉生成范式，它将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与标

人工智能

AIGC

图像生成

计算机视觉

光栅扫描

原创 4月前 29 阅读

腾讯&清华联合提出图像到视频生成方法-Follow-Your-Click：点击图像并加上简单提示词就可让图像动起来！

尽管最近在图像到视频生成方面取得了进展，但更好的可控性和局部动画却很少被探索。大多数现有的图像到视频的方法不具有局

人工智能

计算机视觉

AIGC

图像生成

基线

原创 4月前 38 阅读

硬刚Suno？StabilityAI推出Stable Audio 2.0，可生成三分钟44.1kHz立体声的高质量完整曲目

Stable Audio 2.0潜在扩散模型的架构经过专门设计，能够生成具有连贯结构的完整音轨。为了实现这一目标，我们对系统的所有组件进行了调整，以

AIGC

人工智能

新功能

编码器

上传

原创 4月前 30 阅读

斯坦福发布端侧AI模型Octopus V2：推理比GPT-4快168%，准确率超Llama7B

为了更好地适应移动设备的需求，研究团队专为Android系统打造了Octopus-V2-2B版本，力求在Android设备上实现无缝对接，应贯穿于训练和推理全过程。

AIGC

人工智能

图像生成

计算机视觉

函数调用

原创 4月前 73 阅读

opencv+CNN实现人脸识别

在知乎上看到一个有趣的专栏，讲的是国外（日本？）一个牛人用OpenCV+CNN实现了一个人脸识别工具，觉得挺好玩的，所

人脸识别

人脸检测

灰度

转载 4月前 116 阅读

CS231n关于Python使用教程翻译

CS231n课程笔记翻译：Python Numpy教程翻译自斯坦福CS231n课程笔记Python Numpy Tutorial，由课程教师Andrej Karpathy授权进行翻译。本篇教程由杜客翻译完成，Flood Sung、SunisDown、巩子嘉和一位不愿透露ID的知友对本翻译亦有贡献。原文如下这篇教程由Justin Johnson创作。我们将使用Python编程语言来完

Python

fish

数组

转载 4月前 25 阅读

cs231n作业一之在cifar-10上实现KNN

在网上也看了好多代码，但是都运行不了，要不是代码问题，要不就是路径问题，本代码已经成功运行过，主要有两个问题需要注意1.py

ci

坐标轴

数据库

原创 4月前 43 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

AIGC Studio的博客

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标！

腾讯提出InstantMesh:超快速的图像转 3D且质量很高,30秒内免费从一张图片生成3D模型

Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标.

字节提出ControlNet++：更强更可控的图像生成框架！通过高效的一致性反馈改进条件控制!

当前最好的Stable Diffusion角色特征固定工具来了！字节提出PuLID，用于文本生成图像领域，实现了高度的ID保真度与可编辑性。

超越IP-Adapter！字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法！

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

阿里云大幅降价通义千问主力大模型API，降幅高达97%，大大降低了企业使用AI的成本。这一举措使得1元即可处理300万字，将极大推动AI应用的普及和发展。

MaxKB，基于 LLM 大语言模型的知识库问答系统，开箱即用，支持快速嵌入到第三方业务系统。

Google发布的CAT3D，在1分钟内，能够从任意数量的真实或生成的图像创建3D场景。

重磅！腾讯开源混元文生图大模型，与Sora同架构，中英文原生DiT，可免费商用！

当前最好的SD边线提取工具Anyline:一个快速，准确，详细的线检测预处理器,提供ComfyUI和SD WebUI版本。

FIFO-Diffusion，一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。

Controlnet作者放出新的大招 IC-Light，可以操控图像生成时的光照，对内容主体重新打光生成符合新背景环境光照的图片

继阿里EMO后，腾讯也提出了AniPortrait：用于生成由音频和参考肖像图像驱动的高质量动画

InstantID作者的风格保持新项目InstantStyle发布，一个强化版的IPapadter来了！

TextCraftor：一种创新的文本编码器微调技术，无需额外数据集改善图像质量与文本对齐

(CVPR2024)DragGAN作者新作DiffMorpher：可以实现两张图像间的平滑变形

T-GATE：交叉注意力使文本到图像扩散模型中的推理变得麻烦

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。

腾讯的Sora来了！腾讯PCG ARC实验室推出Mira(Mini-Sora)：迈向Sora长视频生成的一小步

北大&字节联合发布视觉自动回归建模（VAR）：通过下一代预测生成可扩展的图像

腾讯&清华联合提出图像到视频生成方法-Follow-Your-Click：点击图像并加上简单提示词就可让图像动起来！

硬刚Suno？StabilityAI推出Stable Audio 2.0，可生成三分钟44.1kHz立体声的高质量完整曲目

斯坦福发布端侧AI模型Octopus V2：推理比GPT-4快168%，准确率超Llama7B

opencv+CNN实现人脸识别

CS231n关于Python使用教程翻译

cs231n作业一之在cifar-10上实现KNN