Cambrian-1 是由谢赛宁和 Yann LeCun 团队研发的一系列以视觉为中心的多模态大型语言模型(MLLMs),旨在通过大型语言模型和视觉指令调整来评估不同的视觉表示,提供对模型和架构的新见解。使用云平台:OpenBayesopenbayes.com/console/signup?r=sony_0m6v 登录到 OpenBayes 平台后,打开「公共教程」,找到「在线运行寒武纪
HiDiffusion 是旷视科技推出的开发的一种创新框架,旨在提升预训练扩散模型在生成高分辨率图像方面的创造力和效率。这是一种无需训练即可提高预训练扩散模型的分辨率和速度的方法,通过将 HiDiffusion 应用于各种预训练的扩散模型,不仅可以将图像生成的分辨率提高至 4096×4096,而且能将图像生成速度提升 1.5 至 6 倍。这一方法不仅解决了对象重复和高计算负担的问题,而且在生成高分
Gemma-2-9b-Chinese-chat 是首个基于 google/ gemma -2-9b-it 构建的中文指令调优语言模型,由清华大学的人工智能博士王慎执与北京航空航天大学的人工智能博士郑耀威开源,采用了 ORPO 算法微调,专为中文和英文用户量身定制。该模型经过超 10 万条偏好对的精细调优,与最初的 google/gemma-2-9b-it 相比,该模型显著减少了「中文问题带英文答案
YOLO (You Only Look Once) 系列是当前最主流的端侧目标检测算法,由 Joseph Redmon 等人首次提出,由于其在计算成本与检测性能之间实现了有效平衡,故而成为实时物体检测领域的标杆。YOLOv10是由清华大学研究人员基于 Ultralytics Python 包开发的实时目标检测方法,旨在解决之前YOLO 版本在后处理和模型架构方面的不足,通过消除非最大抑制(NMS)
MuseV 是在 2024年3月由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视须和口型同步。它利用先进的算法,能够制作出具有高度一致性和自然表情的长视频内容。其可与已经发布的 MuseTalk 结合使用可以构建完整的「虚拟人方案」。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号