1. Qwen2:阿里巴巴开源的大规模模型及多模态模型系列

摘要: 本文介绍了Qwen2系列开源大模型和多模态模型,涵盖了从0.5B到72B参数的不同规模模型,以及密集模型和混合专家模型。Qwen2在语言理解、生成、多语言能力、编码、数学和推理等方面超越了大多数先前的开源模型,并在各种基准测试中展现出与闭源模型相媲美的性能:基座模型MMLU 84.2分,GPQA 37.9分,HumanEval 64.6分,GSM8K 89.5分,BBH 82.4分;微调模型MT-Bench 9.1分,Arena-Hard 48.1分,LiveCodeBench 35.7分。

发布时间: 2024年7月15日
链接: https://arxiv.org/abs/2407.10671机构: 阿里巴巴集团


2. Apple Intelligence Foundation Language Models

摘要: 本文介绍了苹果公司为其智能功能开发的基础大模型AFM,包括一款针对设备高效运行而设计的3B参数模型(AFM-on-device)和一款针对私有云计算而设计的更大规模服务器模型(AFM-server)。这两款模型都经历了6.3T tokens的预训练、1T tokens的代码与数学加训以及额外100B tokens的长上下文训练。这些模型旨在以高效、准确和负责任的方式执行各种任务。论文详细阐述了模型架构、训练数据、训练过程、模型推理优化以及评估结果,并重点介绍了苹果公司对负责任的人工智能的关注以及相关原则在模型开发中的应用。

发布时间: 2024年7月29日
链接: https://arxiv.org/abs/2407.21075机构: 苹果公司


3. The Llama 3 Herd of Models

摘要: 本文介绍了Llama家族的最新模型Llama 3.1系列,在今年四月发布的Llama 3基础上增加了对多语言、工具调用、128K长上下文的支持,同时也在8B与70B之外发布了一个405B的新模型。实验表明Llama 3在多项任务上的表现可与GPT-4等领先模型相媲美。论文还发布了用于输入输出安全的Llama Guard 3以及将图像、语音、视频等多模态功能整合到Llama 3中的实验结果。

发布时间: 2024年7月31日
链接: https://arxiv.org/abs/2407.21783机构: Llama团队,Meta AI实验室


4. Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning

摘要: 本文探讨了针对代码大模型的数据剪枝方法。研究者提出了结合多种聚类和剪枝指标的技术,来有选择地减少训练数据,同时不影响生成代码的准确性和功能性。实验表明,合成训练数据中存在显著的冗余,仅使用10%的数据进行训练就能在很大程度上保持基准性能。更有趣的是,适度精简训练数据还能持续改善基准结果。这些剪枝策略不仅降低了所需的计算资源,还提高了整体代码生成质量。该研究为提高代码大模型的训练效率提供了新的思路,对于优化模型训练过程和提升代码生成质量具有重要意义。

发布时间: 2024年7月6日
链接: https://arxiv.org/abs/2407.05040机构: NVIDIA


5. CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

摘要: 本文提出了一个名为CoIR的代码信息检索基准,它包含十个精心收集的代码数据集,涵盖了七个不同领域的八个检索任务,旨在为代码检索系统的评估提供一个全面而鲁棒的工具。该基准通过提供一个用户友好的Python框架,以及与其他流行基准(如MTEB和BEIR)相同的架构,简化了代码检索研究工作流程。研究者通过使用该基准评估了九个常用的检索模型,并发现即使是当前最先进的系统在执行代码检索任务方面也面临着巨大挑战,从而激发了代码检索领域的研究,并为进一步开发和探索更强大的代码检索系统提供了有力支撑。

发布时间: 2024年7月3日
链接: https://arxiv.org/abs/2407.02883机构: 华为诺亚方舟实验室