PLLaVA: Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning 相关链接:arxiv github 关键字:视频密集字幕描述、参数自由、视频语义理解、深度学习、大规模语言模型 摘要 视觉-语言预训练已经在一系列图像语言应用中显著提升了性能。然而,用于视频相关任务的预训练过程需要极大的
Make Your LLM Fully Utilize the Context 相关链接:arxiv github 关键字:大型语言模型、长上下文信息利用、训练策略、信息密集型、探针任务 摘要 当前大型语言模型(LLMs)能够处理较长的输入,但在充分利用长上下文中的信息时仍存在挑战,亦即“lost-in-the-middle”问题。我们假设这是因为在长上下文训练中缺乏足够的显式监督,导致模型未
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites 相关链接:arXiv github office 关键字:开源、多模态、大型语言模型、商业模型、性能差距 摘要 在这篇报告中,我们介绍了InternVL 1.5,一个开源的多模态大型语言模型(MLLM
Multi-Head Mixture-of-Experts 相关链接:arxiv github 关键字:Mixture-of-Experts、Sparse Models、Multi-Head Mechanism、Language Modeling、Multi-Modal Modeling 摘要 在本文中,我们提出了一种新的模型结构,名为Multi-Head Mixture-of-Experts
Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis 相关链接:arXiv 关键字:Document Layout Analysis、Table of Contents、Reading Order Prediction、Page Object
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study 相关链接:arxiv 关键字:低比特量化、LLAMA3模型、经验研究、模型压缩、性能评估 摘要 当前的研究还未详细探索低比特量化在最新的大型语言模型LLAMA3上的表现。本文通过细致的实验研究,探索了不同低比特量化策略对LLAMA3模型性能的影响。我们发现,即使是极
我们希望解决开发人员的反馈,以提高 Llama 3 的整体实用性,并在这样做的同时继续在负责任地使用和部署 LLMs.我们正在接受尽早发布的开源精神,并经常发布,以使社区能够在这些模型仍在开发中时访问它们。在不久的将来,我们的目标是使 Llama 3 成为多语言和多模态的,具有更长的上下文,并继续提高推理和编码等核心LLM功能的整体性能。我们新的 8B 和 70B 参数 Llama 3 模型是 Llama 2 的重大飞跃,并为LLM这些规模的模型建立了新的最先进的技术。
MeshLRM: Large Reconstruction Model for High-Quality Meshes 相关链接:arxiv 关键字:Sparse-view reconstruction、High-quality mesh、Large Reconstruction Models、Differentiable rendering、NeRF 摘要 MeshLRM是一种新颖的基于LR
我们介绍了 Reka Core、Flash 和 Edge,这是一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了这些模型的一些训练细节,并提供了全面的评估结果。我们展示了 Reka Edge 和 Reka Flash 不仅是各自计算类别中的最新技术,而且还超过了许多更大的模型,为各自的计算类别提供了巨大的价值。同时,我们最有能力且最大的模型 Reka Core,在自动评估和盲人评估中接近最佳前沿模型(OpenAI, 2023;
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior 相关链接:arxiv 关键字:Text Animation、Semantic Deformation、Vector Graphics、Neural Displacement Fields、End-to-End Optimization 摘要 文本动画是一种表达
音频生成模型在音乐领域取得了显著进展,但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型,可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器操作在高度下采样的连续潜在表示上(潜在率为21.5赫兹)。根据音频质量和提示对齐的指标,它获得了最先进的生成结果,主观测试表明它产生了具有连贯结构的完整长度音乐。
TransformerFAM是一种新型的Transformer架构,它通过引入反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,能够与预训练模型无缝集成。实验表明,TransformerFAM在处理长上下文任务时显著提高了不同模型大小(1B、8B和24B)的性能,展示了赋能大型语言模型(LLMs)处理无限长度序列序列的潜力。
本文探讨了如何利用大型语言模型(LLMs)进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和生活中取得成功至关重要。然而,大多数人难以获得实践社交技能的环境。我们提出了一个通用框架,通过AI伙伴和AI导师(APAM)结合体验学习和现实练习以及量身定制的反馈来进行社交技能训练。本工作最终呼吁跨学科创新,以解决劳动力发展和社会平等的更广泛影响。
本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通过包含1200亿个token的广泛语料库进行预训练,其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。
我们介绍了Eurus,一系列针对推理任务优化的大型语言模型(LLM)。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调,实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是,Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo,并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%,显著优于现有的开源模型,性能提升超过13.3%。
大型语言模型(LLMs)在处理超过32K个token的长序列方面取得了显著进展。然而,它们的性能评估主要局限于诸如困惑度和合成任务等指标,这些指标可能无法充分捕捉它们在更微妙、现实世界场景中的能力。本研究引入了一个专门的基准测试(LongICLBench),专注于极端标签分类领域内的长上下文学习。我们精心选择了六个数据集,标签范围从28到174个类别,涵盖了从2K到50K个token的不同输入(少量示例演示)长度。我们的基准测试要求LLMs理解整个输入,以识别庞大的标签空间,从而做出正确的预测。
Jamba: A Hybrid Transformer-Mamba Language Model 相关链接:arXiv 关键字:hybrid architecture、Transformer、Mamba、mixture-of-experts (MoE)、language model 摘要 我们介绍了Jamba,一种新的基于新颖混合Transformer-Mamba混合专家(MoE)架构的基础大
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs 相关链接:arxiv 关键字:Large Language Models、Mobile GPU Deployment、Efficiency Optimization、Transformer-Lite、Quantiza
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号