DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 相关链接:arxiv github 关键字:开源、代码智能、混合专家模型(MoE)、编程语言支持、上下文长度扩展 摘要 我们介绍了DeepSeek-Coder-V2,这是一个开源的混合专家(MoE)代码语言模型,其性能与GPT
MDPO: Conditional Preference Optimization for Multimodal Large Language Models 相关链接:arxiv 关键字:多模态、大型语言模型、偏好优化、条件偏好优化、幻觉减少 摘要 直接偏好优化(DPO)已被证明是大型语言模型(LLM)对齐的有效方法。近期的研究尝试将DPO应用于多模态场景,但发现难以实现一致的改进。通过比较实
Your Transformer is Secretly Linear 相关链接:arxiv 关键字:Transformer Decoders、Linearity in Embedding Transformations、Procrustes Similarity、Model Pruning、Cosine-Similarity-Based Regularization 摘要 本文揭示了一种独特
Many-Shot In-Context Learning in Multimodal Foundation Models 相关链接:arxiv 关键字:Multimodal Foundation Models、In-Context Learning (ICL)、Many-Shot Learning、GPT-4o、Gemini 1.5 Pro 摘要 大型语言模型以其在小样本情境学习(ICL)方
LoRA Learns Less and Forgets Less 相关链接:arxiv 关键字:LoRA、参数高效微调、大型语言模型、正则化、记忆保持 摘要 LoRA(低秩适应)是一种用于大型语言模型(LLMs)的广泛使用的参数高效微调方法。LoRA通过仅训练选定权重矩阵的低秩扰动来节省内存。在这项工作中,我们比较了LoRA和完整微调在两个目标领域(编程和数学)的性能。我们考虑了指令微调(约
Chameleon: Mixed-Modal Early-Fusion Foundation Models 相关链接:arxiv 关键字:多模态学习、早期融合、基础模型、图像和文本生成、统一建模 摘要 Chameleon 是由 Meta 的 FAIR 团队提出的一种新型的多模态基础模型系列,能够理解和生成任意序列的图像和文本。本文概述了一种从初始阶段开始稳定的训练方法、一种对齐方案,以及为早期
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model 相关链接:arXiv github 关键字:多模态学习、视觉语言模型、资源效率、模型架构、训练策略 摘要 我们介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题,即通过解决阻
What matters when building vision-language models? 相关链接:arxiv 关键字:视觉-语言模型、VLMs、多模态学习、Transformer、预训练模型 摘要 在构建视觉-语言模型(VLMs)时,关键决策的合理性往往未经证实,这阻碍了该领域的进展,因为难以识别哪些选择能够提高模型性能。为了解决这个问题,作者进行了广泛的实验,围绕预训练模型、架
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots 相关链接:arXiv 关键字:Multi-modal LLMs、Code Generation、Benchmark、Visual Coding、
Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation 相关链接:arXiv 关键字:Hierarchical Text Segmentation、Unified Model、Segment Anything Model 摘要 本文介绍了Hi-SAM,这是一个利用Segment Anything Mo
Paint by Inpaint: Learning to Add Image Objects by Removing Them First 相关链接:arxiv 关键字:图像编辑、文本条件扩散模型、对象添加、数据集构建、视觉-语言模型 摘要 图像编辑在计算机视觉和图形学社区中扮演着核心角色,其应用范围广泛。尽管随着文本条件扩散模型的引入,图像编辑技术取得了显著进步,但根据文本指令无缝添加图像
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation 相关链接:arxiv 关键字:Consistent Self-Attention、Long-Range Image and Video Generation、Diffusion Models、Semantic Motion Pre
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models 相关链接:arxiv github office 关键字:深度学习、Transformer、自然语言处理、机器翻译、优化算法 摘要 由于缺少具体内容,这里提供一个假设性的摘要翻译示例: 本论文提出了一种新的T
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report 相关链接:arXiv 关键字:LoRA、Fine-tuning、Large Language Models (LLMs)、Parameter Efficient Fine-Tuning (PEFT)、Multi-LoRA inference server 摘要
LayoutReader: Pre-training of Text and Layout for Reading Order Detection 相关链接:arxiv 关键字:文档理解、阅读顺序检测、深度学习模型、OCR引擎改进、基准数据集 摘要 阅读顺序检测是理解视觉丰富文档(例如收据和表格)的基石。遗憾的是,由于为足够大的数据集注释阅读顺序过于繁琐,因此没有现有工作利用先进的深度学习模型
PLLaVA: Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning 相关链接:arxiv github 关键字:视频密集字幕描述、参数自由、视频语义理解、深度学习、大规模语言模型 摘要 视觉-语言预训练已经在一系列图像语言应用中显著提升了性能。然而,用于视频相关任务的预训练过程需要极大的
Make Your LLM Fully Utilize the Context 相关链接:arxiv github 关键字:大型语言模型、长上下文信息利用、训练策略、信息密集型、探针任务 摘要 当前大型语言模型(LLMs)能够处理较长的输入,但在充分利用长上下文中的信息时仍存在挑战,亦即“lost-in-the-middle”问题。我们假设这是因为在长上下文训练中缺乏足够的显式监督,导致模型未
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites 相关链接:arXiv github office 关键字:开源、多模态、大型语言模型、商业模型、性能差距 摘要 在这篇报告中,我们介绍了InternVL 1.5,一个开源的多模态大型语言模型(MLLM
Multi-Head Mixture-of-Experts 相关链接:arxiv github 关键字:Mixture-of-Experts、Sparse Models、Multi-Head Mechanism、Language Modeling、Multi-Modal Modeling 摘要 在本文中,我们提出了一种新的模型结构,名为Multi-Head Mixture-of-Experts
Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis 相关链接:arXiv 关键字:Document Layout Analysis、Table of Contents、Reading Order Prediction、Page Object
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study 相关链接:arxiv 关键字:低比特量化、LLAMA3模型、经验研究、模型压缩、性能评估 摘要 当前的研究还未详细探索低比特量化在最新的大型语言模型LLAMA3上的表现。本文通过细致的实验研究,探索了不同低比特量化策略对LLAMA3模型性能的影响。我们发现,即使是极
MeshLRM: Large Reconstruction Model for High-Quality Meshes 相关链接:arxiv 关键字:Sparse-view reconstruction、High-quality mesh、Large Reconstruction Models、Differentiable rendering、NeRF 摘要 MeshLRM是一种新颖的基于LR
我们介绍了 Reka Core、Flash 和 Edge,这是一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了这些模型的一些训练细节,并提供了全面的评估结果。我们展示了 Reka Edge 和 Reka Flash 不仅是各自计算类别中的最新技术,而且还超过了许多更大的模型,为各自的计算类别提供了巨大的价值。同时,我们最有能力且最大的模型 Reka Core,在自动评估和盲人评估中接近最佳前沿模型(OpenAI, 2023;
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior 相关链接:arxiv 关键字:Text Animation、Semantic Deformation、Vector Graphics、Neural Displacement Fields、End-to-End Optimization 摘要 文本动画是一种表达
音频生成模型在音乐领域取得了显著进展,但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型,可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器操作在高度下采样的连续潜在表示上(潜在率为21.5赫兹)。根据音频质量和提示对齐的指标,它获得了最先进的生成结果,主观测试表明它产生了具有连贯结构的完整长度音乐。
TransformerFAM是一种新型的Transformer架构,它通过引入反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,能够与预训练模型无缝集成。实验表明,TransformerFAM在处理长上下文任务时显著提高了不同模型大小(1B、8B和24B)的性能,展示了赋能大型语言模型(LLMs)处理无限长度序列序列的潜力。
本文探讨了如何利用大型语言模型(LLMs)进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和生活中取得成功至关重要。然而,大多数人难以获得实践社交技能的环境。我们提出了一个通用框架,通过AI伙伴和AI导师(APAM)结合体验学习和现实练习以及量身定制的反馈来进行社交技能训练。本工作最终呼吁跨学科创新,以解决劳动力发展和社会平等的更广泛影响。
本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通过包含1200亿个token的广泛语料库进行预训练,其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。
我们介绍了Eurus,一系列针对推理任务优化的大型语言模型(LLM)。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调,实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是,Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo,并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%,显著优于现有的开源模型,性能提升超过13.3%。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号