编者按: 对于大语言模型的微调训练来说,传统的全参数微调方法需要处理数百万甚至数十亿级别的参数,计算量和显存占用都非常大。而 LoRA 这种技术方案,通过引入少量的可训练矩阵来调整预训练模型的行为,极大降低了训练所需的计算资源,是近年来大语言模型微调的一个重大突破。我们今天为大家带来的文章,介绍了众多具有代表性的 LoRA 改进方法:LoRA+ 通过为两个矩阵引入不同的学习率提高训练效率
编者按: 在当今这个由数据主导的时代,我们被海量多样的信息所环绕,但大部分数据都以非结构化的形式存在,诸如文档、电子邮件、合同等,这使得从中提取有价值的信息成为一大挑战。幸运的是,AI 领域正在悄然孕育一场革命性变革,它将帮助我们攻克长期以来困扰非结构化数据处理的种种困难。这篇文章首先解释了文档理解场景面临的主要挑战——需要处理文本、图像等多模态信息,并理解它们之间的逻辑关联。接着介绍了 DocL
编者按: 随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并在实践中做出正确的模型服务部署决策。本文是该系列文章的第
编者按:随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并在实践中做出正确的模型服务部署决策。本文是该系列文章的第二
编者按: 近期,OpenAI 发布通用视觉大模型 Sora ,这也是继文本模型ChatGPT和图片模型Dall-E之后,又一极具颠覆性的大模型产品,人们重新思考了生成式 AI 在视觉内容创作领域的应用前景,内容创作工作流有望被颠覆。我们今天要为大家分享的这篇博文,作者认为 Sora 代表了Transformer、NaViT、扩散模型等一系列视觉AI技术的融合创新,是迈向通用人工智能的重要一步。作者
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号