IC-Light 是一个旨在通过机器学习模型实现图像重新照明的项目,全称为 Imposing Consistent Light。它提供了两类主要模型:文本条件照明模型和背景条件模型,分别根据文本提示或背景内容对前景图像进行照明调整。该项目通过 Gradio 接口易于使用,并自动下载预训练模型。IC-Light 在高动态范围(HDR)空间中融合光源,实现了高度一致的照明效果,适用于各种图像场景的光影
LivePortrait 由快手可灵大模型团队开源,主要功能包括从单一图像生成生动动画、精确控制眼睛和嘴唇的动作、处理多个人物肖像的无缝拼接、支持多风格肖像、生成高分辨率动画等。该项目使用的是基于隐式关键点框架的 AI 肖像动画生成框架。它能够将驱动视频的表情和姿态迁移到静态或动态人像上,生成极具表现力的视频。在版本中,模型加入了精确画像编辑,视频编辑等多个有趣的功能。使用云平台:OpenBa
AuraSR 是一款基于深度学习的图片高清修复模型,是 GigaGAN 论文中的一种变体:基于 GAN 的超分辨率处理方案,能够智能识别图片中的细节信息,并在放大图片的同时,自动补充缺失的细节。与传统的图片放大方法相比,AuraSR 不仅效果更加出色,而且操作简便,无需专业技能即可轻松上手。 AuraSR 不仅能够处理自然景观、人物肖像,还能处理艺术作品,提升整体的视
MegActor 是由 MEGVII Technology(旷视科技)研发的一项人像动画生成器,它使用原始视频作为驱动因素来生成逼真生动的说话头部视频。具体来说,研究团队利用了两个 unet:一个从源图像中提取身份和背景特征,另一个精确地生成和整合直接从原始视频中提取的运动特征。MegActor 可以在低质量、公开可用的数据集上进行训练,并且在面部表情、姿势多样性、微妙的可控性和视觉质量方面表现出
Stable Diffusion 3 Medium是 Stability AI 开源的文生图模型,包含 20 亿参数,且在生成图像的质量和速度上都有明显的提升。 当 Stable Diffusion 3 Medium 与 ComfyUI 的工作流强强结合,可以让我们更加简单快捷的开启文生图之旅。 使用
Cambrian-1 是由谢赛宁和 Yann LeCun 团队研发的一系列以视觉为中心的多模态大型语言模型(MLLMs),旨在通过大型语言模型和视觉指令调整来评估不同的视觉表示,提供对模型和架构的新见解。使用云平台:OpenBayesopenbayes.com/console/signup?r=sony_0m6v 登录到 OpenBayes 平台后,打开「公共教程」,找到「在线运行寒武纪
HiDiffusion 是旷视科技推出的开发的一种创新框架,旨在提升预训练扩散模型在生成高分辨率图像方面的创造力和效率。这是一种无需训练即可提高预训练扩散模型的分辨率和速度的方法,通过将 HiDiffusion 应用于各种预训练的扩散模型,不仅可以将图像生成的分辨率提高至 4096×4096,而且能将图像生成速度提升 1.5 至 6 倍。这一方法不仅解决了对象重复和高计算负担的问题,而且在生成高分
Gemma-2-9b-Chinese-chat 是首个基于 google/ gemma -2-9b-it 构建的中文指令调优语言模型,由清华大学的人工智能博士王慎执与北京航空航天大学的人工智能博士郑耀威开源,采用了 ORPO 算法微调,专为中文和英文用户量身定制。该模型经过超 10 万条偏好对的精细调优,与最初的 google/gemma-2-9b-it 相比,该模型显著减少了「中文问题带英文答案
YOLO (You Only Look Once) 系列是当前最主流的端侧目标检测算法,由 Joseph Redmon 等人首次提出,由于其在计算成本与检测性能之间实现了有效平衡,故而成为实时物体检测领域的标杆。YOLOv10是由清华大学研究人员基于 Ultralytics Python 包开发的实时目标检测方法,旨在解决之前YOLO 版本在后处理和模型架构方面的不足,通过消除非最大抑制(NMS)
MuseV 是在 2024年3月由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视须和口型同步。它利用先进的算法,能够制作出具有高度一致性和自然表情的长视频内容。其可与已经发布的 MuseTalk 结合使用可以构建完整的「虚拟人方案」。
PhotoMaker是一个高效的人像文生图模型,可以快速地根据人物照生成的人物照片和艺术照片。除了生成个性化人物照片以外,它还能改变人物的年龄和性别,整合不同人物的特征创造新的人物信息,是一款非常使用的 AI绘画工具。
你是否经历过遇到喜欢的动画图片,想下载下来当头像或手机壁纸,但苦于画质并不清晰,只能放弃。没关系!APISR 来帮你解决!APISR是一个专门用于提升动漫图像及视频分辨率的开源项目,旨在恢复和增强低质量、低分辨率的动漫图像和视频源,它不仅可以处理各种图像退化问题(模糊、噪声、压缩伪影等),还提供了灵活的放大选项。效果超级明显!
Segment Anything (SAM) 是一个可以根据点或框等输入提示生成高质量的图像分割的机器视觉模型,可用于为图像中的所有对象生成对应蒙版。该模型在包含 1100 万张图像和 11 亿个掩模的数据集上进行训练,在各种分割任务上具有强大的零样本性能。实现了真正意义上的分割万物。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号