在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。

然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。

为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~

9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:3 个

  • 社区文章精选:4 篇

  • 热门百科词条:5 条

  • 9 月截稿顶会:3 个

访问官网:hyper.ai

公共数据集精选

1. MMLU-Pro 大规模多任务理解数据集

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。

直接使用:https://go.hyper.ai/PwJDW

2. DeepGlobe18 道路提取数据集

道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024 。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。

直接使用:https://go.hyper.ai/VIg0J

3. OpenForensics 人脸伪造检测数据集

该数据集由 115K 张野外图像和 334K 张人脸组成,所有图像都有丰富的面部注释,包括伪造类别、 边界框 、分割掩码、伪造边界和一般面部地标,包含各种背景和多个不同年龄、性别、姿势、位置和面部遮挡的人。

直接使用:https://go.hyper.ai/jTTRz

4. DeepfakeTIMIT 深度伪造检测数据集

该数据集包含了使用 开源 的基于 生成 对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法 创建。

直接使用:https://go.hyper.ai/me1TI

5. SESYD 合成文档数据库

该数据集包含了具有基准真实信息的文档图像, 由 11 个集合组成,包含 284k 图像、 190k 符号和 284k 字符,主要针对文档图像分析领域的 2 个主要研究问题:(1) 在线绘图图像(如平面图和电路图)中的象征识别和定位;(2) 地理地图中字符的分割和识别。

直接使用:https://go.hyper.ai/ZqRTQ

6. LAV-DF 多模态 DeepFake 音频视觉数据集

LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

直接使用:https://go.hyper.ai/ujock

7. Vibrent Clothes Rental Dataset 服装租赁数据集

该数据集包含 64k 笔交易、 2.2k 名匿名用户的租赁历史记录和 15.8k 套独特的服装,其中每件实物的属性和租赁历史都有细致的信息记录。所有服装都列为单件商品或其相应的商品组,指的是单件商品之间的共享设计,每件服装都附有一组描述其某些属性的 标签 。

直接使用:https://go.hyper.ai/PFlKA

8. FFIW10K 人脸伪造数据集

该数据包括从 Youtube 收集的 10k 个高质量伪造视频,平均每帧有三个人脸,每个视频都包含真实人脸和伪造人脸,更加接近现实复杂场景。操纵过程是全自动的,由领域对抗质量评估网络控制,使数据集具有高度可扩展性和低人力成本。

直接使用:https://go.hyper.ai/AHS7y

9. ForgeryNet 人脸伪造数据集

该数据集包含了 290 万张图像和 221,247 个视频,涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法。这个数据集为研究者提供了丰富的资源,以支持图像和视频层面的 4 种任务:图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

直接使用:https://go.hyper.ai/Yx0mj

10. EEG Eve State Dataset 眼部状态脑电图数据集

该数据集包含了 EEG 测量的实例,其输出是眼睛是睁开还是闭合的状态。数据集中的值按时间顺序排列,其中 0 表示眼睛睁开状态,1 表示眼睛闭合状态。数据集包含 14 个 EEG 测量值,分别标记为 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4 。

直接使用:https://go.hyper.ai/RTBDy

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. 一键部署 DeepSeek-Prover-V1.5

该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该教程是对模型进行一键部署 Demo 的分步使用。

直接使用:https://go.hyper.ai/MevMB

2. LLaVA OneVision 多模态全能视觉模型 Demo

该模型能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这三个重要 计算机视觉 场景性能瓶颈的单模型。进入官网克隆并启动容器,直接复制 API 地址,即可对模型进行推理体验。

直接使用:https://go.hyper.ai/Dcg74

3. 在线教程|大人,文生图的时代又变了!SD 核心成员自立门户,首个模型 FLUX.1 硬刚 SD 3 和 Midjourney

文生图模型的竞争愈发激烈!前 Stable Diffusion 核心成员自立门户,发布了文生图模型 FLUX,从商业用途到开源个人使用,全面覆盖。生成效果非常接近真人实拍,人物细节表现十分逼真。目前 hyper.ai 已上线「FLUX ComfyUI(含黑神话悟空 LoRA 训练版)」,点击以下链接即可根据教程部署。

直接使用:https://go.hyper.ai/trQhv

社区文章精选

1. 数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

对于人脸识别、 DeepFake 乱象,亟需升级人脸识别和伪造检测技术,以精确判断被篡改的图像和视频。 HyperAI 超神经为大家汇总了常用的 11 个人脸识别、 DeepFake 数据集,点击一键下载。

查看完整汇总:https://go.hyper.ai/EMKo2

2. Apple Intelligence 深夜炸场!苹果发布 4 颗自研芯片,iPhone/iWatch/AirPods 大升级

在 9 月 10 日的秋季新品发布会上,苹果推出 iPhone 16 、 AirPods 4 、 Apple Watch Series 10 等新品,基于自研芯片,在性能上实现了重大飞跃,同时全面融入 Apple Intelligence,为用户带来前所未有的 智能体 验。本文是对 Apple 秋季新品发布会的全面报道。

查看完整报道:https://go.hyper.ai/H7P8X

3. 灵敏度提高 56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

在对蛋白质的识别过程中,蛋白质序列的同源性鉴定是其中一项至关重要的任务。为解决蛋白质远同源性研究的痛点,基于蛋白质语言模型和密集检索技术,香港中文大学李煜,联合复旦大学智能复杂体系实验室、上海 人工智能 实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein 提出了一种超快速、高灵敏度的同源物检测框架——密集同源物检索器。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/vLAej

4. 基于 2,500 平方公里实景数据,北师大团队提出 StarFusion 模型,实现高空间分辨率图像预测

北京师范大学地表过程与资源生态国家重点实验室陈晋团队,提出了一种双流时空解耦融合架构模型 StarFusion,该模型能够克服大多数现有 深度学习 算法需要 HSR 时间序列图像进行训练的问题,充分实现高空间分辨率图像的预测。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/7LmzA

热门百科词条精选

  1. Sigmoid 函数
  2. 配对 t 检验 Paired t-Test
  3. 对比学习 Contrastive Learning
  4. 半 监督学习 Semi-Supervised Learning
  5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki 在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内 数据科学 领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点

  • 收录 400+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai