OpenCompass介绍

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下:

  • 开源可复现:提供公平、公开、可复现的大模型评测方案
  • 全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力
  • 丰富的模型支持:已支持 20+ HuggingFace 及 API 模型
  • 分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测
  • 多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能
  • 灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展!

为什么要进行测评

通俗来讲,大模型也是一个能力很强的函数f ,与之前的机器学习模型并无本质不同。那么,为什么要研究大模型的评测?大模型评测跟以前的机器学习模型评测有何不同?
首先,研究评测可以帮助我们更好地理解大模型的长处和短处。尽管多数研究表明大模型在诸多通用任务上已达到类人或超过人的水平,但仍然有很多研究在质疑其能力来源是否为对训练数据集的记忆。如,人们发现,当只给大模型输入LeetCode题目编号而不给任何信息的时候,大模型居然也能够正确输出答案,这显然是训练数据被污染了;
其次,研究评测可以更好地为人与大模型的协同交互提供指导和帮助。大模型的服务对象终究是人,那么为了更好地进行人机交互新范式的设计、我们便有必要对其各方面能力进行全面了解和评测。如,我们最近的研究工作PromptBench: 首个大语言模型提示鲁棒性的评测基准便详细地评测了大模型在“指令理解”方面的鲁棒性,结论是其普遍容易受到干扰、不够鲁棒,这便启发我们从prompt层面来加强系统的容错能力;
最后,研究评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。

环境配置

选择镜像为 Cuda11.7-conda,并选择 GPU 为10% A100,然后进行配置安装

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

在这个过程由于没有安装完所依赖的库导致频繁报错屏幕截图 2024-05-07 160810.png 后面用pip install -r requirements.txt解决 除此之外还遇到了 no prediction found 的报错,解决方法是

export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

最后经过漫长等待,测评结果如下 屏幕截图 2024-05-07 195526.png