编者按:近日,OpenAI发布其首个视频生成模型“Sora”,该模型生成的视频内容可以呈现出多个角色、特定动作以及复杂场景,为构建能够理解和模拟现实世界的人工智能模型奠定了基础。本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches,作者认为该技术通过创新的时空数据建模方法,让 Sora 学会预测时空维度上事件和对象的变化、运动和互动,从而建立起视频世界的物理模型,生成极
编者按:随着大语言模型技术的快速发展,模型融合成为一种低成本但高性能的模型构建新途径。本文作者 Maxime Labonne 利用 mergekit 库探索了四种模型融合方法:SLERP、TIES、DARE和passthrough。通过配置示例和案例分析,作者详细阐释了这些算法的原理及实践操作。作者的核心观点是:相比训练全新模型,融合现有模型可以以更低计算成
编者按:随着数据量和计算能力的增加,大模型的参数量也在不断增加,同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间,且在进行切换下游任务时代价高昂。本文作者介绍了一种新方法 LoRA,可以在保持模型性能的同时大幅减少微调的参数量和所需资源。LoRA通过引入两个低秩适配矩阵,用矩阵乘法的方法替换大部分参数。实验证明,LoRA 在多项 NLP&nb
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号