多模态数据集汇总

1、MAHNOB-Mimicry

1.1 简介

这是一套完全同步的、多传感器的、二人互动的音频、视频记录,适用于模仿和谈判行为的研究。该数据库包含了11小时的录音,分为12个成员和48个成员之间的54次互动,他们要么参与社会政治讨论,要么就租赁协议进行谈判。

1.2 下载

官方下载地址

1.3 使用过该数据集的文献

[1] N. Rakicevic, O. Rudovic, S. Petridis and M. Pantic, “Multi-modal Neural Conditional Ordinal Random Fields for agreement level estimation,” 2016 23rd International Conference on Pattern Recognition (ICPR), Cancun, 2016, pp. 2228-2233, doi: 10.1109/ICPR.2016.7899967.

2、EPIC-Kitchens

2.1 简介

布里斯托尔大学的计算机科学研究人员发布了EPIC-KITCHENS,这是一个在四个城市的32个厨房中拍摄的数据集。这些电影包括1150万张图片,已经用40000个动作例子和50万个物体进行了注释。这一突破性的数据集将帮助机器学习和提高第一人称视觉,使机器人技术、医疗保健和增强现实技术得到改进。
EPIC-KITCHENS是有史以来最大的视频数据集,使用可穿戴摄像头,可用于学术研究社区,用于自动理解日常生活中的对象交互。它旨在提升第一人称视野,从佩戴者的角度感知世界,以及佩戴者的意图和互动。可穿戴视觉被认为是超越手持(例如移动)计算机视觉的下一步。
EPIC-Kitchen由1150万张图片组成,由32个人在自己家中连续几天记录下来。对于这些视频中的动作和对象,数据集都有完整的注释。大约有40000个动作例子和50万个物体被注释。注释的独特之处在于,它是基于参与者讲述自己的视频,从而反映真实意图。然后,根据这些叙述,对基本事实进行了众包。

2.2 下载

官方下载地址

2.3 使用过该数据集的文献

[1] A. Furnari and G. Farinella, “Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2020.2992889.

3、EGTEA Gaze+

3.1 简介

EGTEA Gaze+是最大、最全面的FPV动作和凝视数据集。它包含了GTEA Gaze+,并附带高清视频(1280x960)、音频、凝视跟踪数据、帧级动作注释和采样帧的像素级手面具。
具体来说,EGTEA Gaze+包含了来自32个受试者的86个独特阶段的28小时烹饪活动。这些视频配有音频和凝视跟踪(30Hz)。我们还提供了动作的人类注释(人-物交互)和手部掩模。
action注释包括10325个细粒度操作的实例,例如“cutbellpepper”或“将调味品(从)调味品容器倒入色拉”。
手部掩模包括视频13847帧的15176个手部图片掩模注释。

3.2 下载

官方下载地址

3.3 使用过该数据集的文献

[1] A. Furnari and G. Farinella, “Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2020.2992889.

4、ActivityNet

4.1 简介

这个基准旨在涵盖人们日常生活中感兴趣的各种复杂的人类活动。我们展示了三种场景,其中ActivityNet可以用来比较人类活动理解的算法:全局视频分类、裁剪活动分类和活动检测。

4.2 下载

官方下载地址

4.3 使用过该数据集的文献

[1] A. Furnari and G. Farinella, “Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2020.2992889.

5、TCGA-LUSC和TCGA-GBM

5.1 简介

癌症基因组图谱(TCGA)是一个里程碑式的癌症基因组学计划,它对20000多种原发性癌症和33种癌症类型的正常样本进行了分子特征分析。国家癌症研究所和国家人类基因组研究所的这项联合努力始于2006年,汇集了来自不同学科和多个机构的研究人员。
在接下来的十几年里,TCGA产生了超过2.5兆字节的基因组、表观基因组、转录组学和蛋白质组学数据。这些数据已经提高了我们诊断、治疗和预防癌症的能力,将继续向研究界的任何人公开使用。

5.2 下载

官方下载地址

5.3 使用过该数据集的文献

[1] Yao J , Zhu X , Zhu F , et al. Deep Correlational Learning for Survival Prediction from Multi-modality Data[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2017.

6、WRGBD

[1] U. Asif, M. Bennamoun and F. A. Sohel, “A Multi-Modal, Discriminative and Spatially Invariant CNN for RGB-D Object Labeling,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 9, pp. 2051-2065, 1 Sept. 2018, doi: 10.1109/TPAMI.2017.2747134.

7、SUNRGBD

U. Asif, M. Bennamoun and F. A. Sohel, “A Multi-Modal, Discriminative and Spatially Invariant CNN for RGB-D Object Labeling,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 9, pp. 2051-2065, 1 Sept. 2018, doi: 10.1109/TPAMI.2017.2747134.

8、NYU V2

U. Asif, M. Bennamoun and F. A. Sohel, “A Multi-Modal, Discriminative and Spatially Invariant CNN for RGB-D Object Labeling,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 9, pp. 2051-2065, 1 Sept. 2018, doi: 10.1109/TPAMI.2017.2747134.

9、Virtual KITTI dataset

10、NYUD2 dataset

11、NLPR

12 、NJUD

13、STEREO

14、NUS-WIDE

15、MSCOCO

16、MIRFLICKR-25K

17、ImageCLEF

18、RGB-thermal dataset

19、Grayscale-thermal dataset

20、MSRA-B dataset

21、Chalearn 2014 Looking at People Challenge (track 3)

22、RGB-D Object Dataset

A large-scale hierarchical multiview RGB-D object dataset

23、the 2D3D Dataset

Going into depth: Evaluating 2D and 3D cues for object classification on a new, large-scale object dataset