一键部署Phi 3.5 mini+vision！多模态阅读基准数据集MRR-Benchmark上线，含550个问答对

原创

HyperAI超神经 2024-09-06 18:26:35 ©著作权

文章标签 数据集人工智能语言模型自然语言处理深度学习 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者HyperAI超神经的原创作品，请联系作者获取转载授权，否则将追究法律责任

小模型又又又卷起来了！微软开源三连发！一口气发布了 Phi 3.5 针对不同任务的 3 个模型，并在多个基准上超越了其他同类模型。

其中 Phi-3.5-mini-instruct 专为内存或算力受限的设备推出，小参数也能展现出强大的推理能力，代码生成、多语言理解等任务信手拈来。而 Phi-3.5-vision-instruct 则是多模态领域的翘楚，能同时处理文本和视觉信息，图像理解、视频摘要等任务不在话下。

HyperAI超神经现已上线 mini 版本和 vision 版本的模型部署教程，下拉文章获取链接~

9 月 2 日-9 月 6 日，hyper.ai 官网更新速览：

优质教程精选：3 个
优质公共数据集：10 个
社区文章精选：3 篇
热门百科词条：5 条
9 月截稿顶会：5 个

访问官网：hyper.ai

给大家推荐一个线上学术分享活动，上海交通大学博士后周子宜将以「蛋白质语言模型的小样本学习方法」为题， 带来干货分享，点击即可预约观看 ⬇️

https://hdxu.cn/6Bjom

公共教程精选

1. 一键部署 Phi-3.5-mini-instruct

Phi-3.5-mini-instruct 支持 128K Token 的上下文长度，适合执行代码生成、数学问题求解和基于逻辑的推理等任务。该模型在多语言和多轮对话任务中表现出色，并在 RepoQA 基准测试中超越了同等级的其他模型。该教程为模型一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/F7smR

2. 一键部署 Phi-3.5-vision-instruct

Phi-3.5-vision-instruct 模型具备广泛的图像理解、光学字符识别 (OCR)、图表和表格解析、多图像或视频剪辑摘要等功能，非常适合多种 AI 驱动的应用。在图像和视频处理相关的基准测试中表现出显著的性能提升。模型与环境已经部署完毕，大家可根据教程指引直接使用大模型进行推理生成。

直接使用：https://go.hyper.ai/zN9Bx

3. 在线教程 | 1 分钟生成万字悬疑小说，LongWriter-glm4-9b 突破长文输出瓶颈

LongWriter 是清华大学开发的一个开源项目，使用长上下文大型语言模型 (LLM) 生成超长文本（超过 10,000 字）。该教程为模型一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/p6SiO

公共数据集精选

1. MRR-Benchmark 多模态阅读基准数据集

多模态阅读 (MMR) 基准包括 11 个不同任务中的 550 个带注释的问答对，涉及文本、字体、视觉元素、边界框、空间关系和基础，并具有精心设计的评估指标。

直接使用：https://go.hyper.ai/deAmf

2. EveDentify 瞳孔直径估计数据集

该数据集共包含 51 名参与者的 212,073 张图像，研究团队使用 Tobii 眼动仪收集准确的瞳孔直径测量数据，同时使用内置网络摄像头拍摄面部视频。数据集旨在解决在利用普通网络摄像头图像进行瞳孔直径估计时可用数据集的缺乏问题。

直接使用：https://go.hyper.ai/iHjxC

3. Traffic Road Obiect Detection 波兰交通道路物体检测数据集

该数据集包含波兰道路的 11k 个带注释图像，专门为物体检测任务而整理。数据是使用车载摄像头在波兰道路上收集的，主要在克拉科夫。图像捕捉了各种场景，包括不同的道路类型和各种照明条件（白天和夜晚）。

直接使用：https://go.hyper.ai/Sl0k5

4. C2A 灾难场景中的人类检测数据集

C2A (combined to application) 数据集包含 4 种灾难场景类型（火灾/烟雾、洪水、倒塌的建筑物/瓦砾和交通事故）和 5 种人体姿势类别（弯腰、跪下、躺下、坐下和直立）的共 10,215 张高分辨率图像，图像分辨率范围从 123×152 到 5184×3456 像素，以及超过 360,000 个带注释的人类实例。

直接使用：https://go.hyper.ai/15dMR

5. Skin Conditionsmage Dataset 6 种皮肤状态数据集

该数据集包含 6 种不同皮肤病的增强图像，分别为：痤疮、癌、湿疹、角化病、粟丘疹和酒渣鼻。每个类别包含 399 张图像，共 2,394 张图像。

直接使用：https://go.hyper.ai/tWO7x

6. Penn-Fudan 行人检测和分割数据集

这个数据集包含 170 张高分辨率的 RGB 图像，这些图片都是从视频序列中截取的，并且在每幅图像中有 0 到 6 个不等的行人目标。每个行人的位置都通过矩形框 (mask) 进行了精确标注，提供了边界框坐标信息，便于进行目标检测训练和测试。

直接使用：https://go.hyper.ai/1CqaN

7. Tecnalia 电机设备废物高光谱数据集

Tecnalia 高光谱数据集包含来自电机和电子设备废物的不同有色金属部分，如铜、黄铜、铝、不锈钢和白铜，图像在光谱范围 [415.05 纳米，1008.10 纳米] 内包含 76 个均匀分布的波长。

直接使用：https://go.hyper.ai/1TBGz

8. Car Crash Prediction 汽车碰撞或预测数据集

该数据集包含 10k 张行车记录仪的图像，所有图像均来自 100K Dashcam 视频。图像以 5 秒为间隔从视频中分离出来，作为单独的帧，数据集包含碰撞和无碰撞两个类，xlsx 文件中也提供了注释。