多模态CNN 多模态数据

转载

冷月星 2024-05-11 20:25:05

文章标签 多模态CNN 大数据计算机视觉机器学习人工智能 文章分类 机器学习人工智能

多模态数据集汇总

1、MAHNOB-Mimicry

1.1 简介

这是一套完全同步的、多传感器的、二人互动的音频、视频记录，适用于模仿和谈判行为的研究。该数据库包含了11小时的录音，分为12个成员和48个成员之间的54次互动，他们要么参与社会政治讨论，要么就租赁协议进行谈判。

1.2 下载

官方下载地址

1.3 使用过该数据集的文献

[1] N. Rakicevic, O. Rudovic, S. Petridis and M. Pantic, “Multi-modal Neural Conditional Ordinal Random Fields for agreement level estimation,” 2016 23rd International Conference on Pattern Recognition (ICPR), Cancun, 2016, pp. 2228-2233, doi: 10.1109/ICPR.2016.7899967.

2、EPIC-Kitchens

2.1 简介

布里斯托尔大学的计算机科学研究人员发布了EPIC-KITCHENS，这是一个在四个城市的32个厨房中拍摄的数据集。这些电影包括1150万张图片，已经用40000个动作例子和50万个物体进行了注释。这一突破性的数据集将帮助机器学习和提高第一人称视觉，使机器人技术、医疗保健和增强现实技术得到改进。
EPIC-KITCHENS是有史以来最大的视频数据集，使用可穿戴摄像头，可用于学术研究社区，用于自动理解日常生活中的对象交互。它旨在提升第一人称视野，从佩戴者的角度感知世界，以及佩戴者的意图和互动。可穿戴视觉被认为是超越手持（例如移动）计算机视觉的下一步。
EPIC-Kitchen由1150万张图片组成，由32个人在自己家中连续几天记录下来。对于这些视频中的动作和对象，数据集都有完整的注释。大约有40000个动作例子和50万个物体被注释。注释的独特之处在于，它是基于参与者讲述自己的视频，从而反映真实意图。然后，根据这些叙述，对基本事实进行了众包。

2.2 下载

官方下载地址

2.3 使用过该数据集的文献

[1] A. Furnari and G. Farinella, “Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, doi: 10.1109/TPAMI.2020.2992889.

3、EGTEA Gaze+

3.1 简介

EGTEA Gaze+是最大、最全面的FPV动作和凝视数据集。它包含了GTEA Gaze+，并附带高清视频（1280x960）、音频、凝视跟踪数据、帧级动作注释和采样帧的像素级手面具。
具体来说，EGTEA Gaze+包含了来自32个受试者的86个独特阶段的28小时烹饪活动。这些视频配有音频和凝视跟踪（30Hz）。我们还提供了动作的人类注释（人-物交互）和手部掩模。
action注释包括10325个细粒度操作的实例，例如“cutbellpepper”或“将调味品（从）调味品容器倒入色拉”。
手部掩模包括视频13847帧的15176个手部图片掩模注释。

3.2 下载

官方下载地址

3.3 使用过该数据集的文献

4、ActivityNet

4.1 简介

这个基准旨在涵盖人们日常生活中感兴趣的各种复杂的人类活动。我们展示了三种场景，其中ActivityNet可以用来比较人类活动理解的算法：全局视频分类、裁剪活动分类和活动检测。

4.2 下载

官方下载地址

4.3 使用过该数据集的文献

5、TCGA-LUSC和TCGA-GBM

5.1 简介

癌症基因组图谱（TCGA）是一个里程碑式的癌症基因组学计划，它对20000多种原发性癌症和33种癌症类型的正常样本进行了分子特征分析。国家癌症研究所和国家人类基因组研究所的这项联合努力始于2006年，汇集了来自不同学科和多个机构的研究人员。
在接下来的十几年里，TCGA产生了超过2.5兆字节的基因组、表观基因组、转录组学和蛋白质组学数据。这些数据已经提高了我们诊断、治疗和预防癌症的能力，将继续向研究界的任何人公开使用。

5.2 下载

官方下载地址

5.3 使用过该数据集的文献

[1] Yao J , Zhu X , Zhu F , et al. Deep Correlational Learning for Survival Prediction from Multi-modality Data[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2017.

6、WRGBD

[1] U. Asif, M. Bennamoun and F. A. Sohel, “A Multi-Modal, Discriminative and Spatially Invariant CNN for RGB-D Object Labeling,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 9, pp. 2051-2065, 1 Sept. 2018, doi: 10.1109/TPAMI.2017.2747134.

7、SUNRGBD

U. Asif, M. Bennamoun and F. A. Sohel, “A Multi-Modal, Discriminative and Spatially Invariant CNN for RGB-D Object Labeling,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 9, pp. 2051-2065, 1 Sept. 2018, doi: 10.1109/TPAMI.2017.2747134.

8、NYU V2

9、Virtual KITTI dataset

10、NYUD2 dataset

11、NLPR

12 、NJUD

13、STEREO

14、NUS-WIDE

15、MSCOCO

16、MIRFLICKR-25K

17、ImageCLEF

18、RGB-thermal dataset

19、Grayscale-thermal dataset

20、MSRA-B dataset

21、Chalearn 2014 Looking at People Challenge (track 3)

22、RGB-D Object Dataset

A large-scale hierarchical multiview RGB-D object dataset

23、the 2D3D Dataset

Going into depth: Evaluating 2D and 3D cues for object classification on a new, large-scale object dataset

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ios 电脑阅读器 ios版阅读器

下一篇：postgrepsql delete 恢复 plsql删除数据恢复

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯