前言

斯坦福大学研究人员近日推出了开源端侧大模型Octopus v2,引起了广泛关注。Octopus v2拥有20亿参数量,可以在智能手机、车载系统等终端设备上高效运行,在准确性和推理速度方面都超越了GPT-4。

斯坦福开源端侧大模型Octopus v2,2B参数量可在移动端运行,性能超越GPT-4,准确率超Llama7B_数据集

针对性设计与训练

Octopus v2针对自动化任务中的函数调用问题进行了优化设计。相比于传统的检索增强生成(RAG)方法,Octopus v2在训练和推理阶段采用了独特的函数token策略:

  • 将常用函数名称标记化为特殊的函数token,使模型能够更准确地预测函数名称,提高了效率。
  • 构建了包含相关查询、函数调用参数以及不相关查询的数据集,并引入了二进制验证机制,确保数据质量。
  • 设计了三种不同风格的提示模板,包括单个函数调用、并行函数调用和嵌套函数调用,帮助模型学会将函数描述映射到对应的token。

这些针对性的设计使Octopus v2能够在各种复杂场景中生成准确的函数调用,无论是单独的、嵌套的还是并行的。

斯坦福开源端侧大模型Octopus v2,2B参数量可在移动端运行,性能超越GPT-4,准确率超Llama7B_数据集_02

出色的性能表现

基准测试结果显示,Octopus v2在推理速度和准确率方面都超越了业界领先的大模型:

  • 在单个A100 GPU上,Octopus v2的推理速度比"Llama7B + RAG方案"快36倍,比依赖A100/H100集群的GPT-4-turbo快168%。

斯坦福开源端侧大模型Octopus v2,2B参数量可在移动端运行,性能超越GPT-4,准确率超Llama7B_嵌套_03

  • 在函数调用准确率上,Octopus v2的得分比"Llama7B + RAG方案"高31%,与GPT-4和RAG + GPT-3.5持平,达到98%-100%。

斯坦福开源端侧大模型Octopus v2,2B参数量可在移动端运行,性能超越GPT-4,准确率超Llama7B_函数调用_04

如此出色的性能,得益于Octopus v2巧妙的函数token设计以及针对性的训练,大幅降低了上下文长度需求,提升了推理效率。

展望未来

Octopus v2的开源发布,为广大开发者带来了全新的机遇。这款端侧大模型在性能、效率和部署便利性方面的突破,必将推动端侧AI技术进一步发展。未来,随着Octopus v2在更多应用场景的落地,我们有理由相信它将助力各行各业实现智能化升级,让人工智能惠及大众生活的方方面面。

模型下载

Huggingface模型下载

https://huggingface.co/NexaAIDev/Octopus-v2