【双语字幕】CMU-多模态机器学习

原创

mb594bbce661473 2023-06-23 12:42:23 博主文章分类：深度学习模型汇总 ©著作权

文章标签 自然语言处理人工智能机器学习模态深度学习 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mb594bbce661473的原创作品，请联系作者获取转载授权，否则将追究法律责任

【双语字幕】CMU-多模态机器学习_深度学习

课程描述

多模态机器学习(MMML)是一个充满活力的多学科研究领域，它通过集成和建模多种交流模式(包括语言、声音和视觉信息)来解决人工智能的一些基础问题。随着对视听语音识别的初步研究，以及最近对图像和视频字幕等语言和视觉项目的研究，这一研究领域给多模态研究人员带来了一些独特的挑战，因为数据具有异质性，模态之间往往存在偶然性。本课程将教授与MMML相关的基本数学概念，包括多模态对齐和融合、异构表示学习和多数据流时间建模。我们还将回顾最近描述MMML最先进的概率模型和计算算法的论文，并讨论当前和未来的挑战。

本课程将介绍与多模态机器学习的五个主要挑战相关的机器学习和深度学习的基本数学概念:(1)多模态表示学习，(2)翻译和映射，(3)模态对齐，(4)多模态融合和(5)协同学习。这些包括但不限于多模态自动编码器、深度典型相关分析、多核学习、注意力模型和多模态递归神经网络。本课程还将讨论MMML最近的许多应用，包括多模态情感识别、图像和视频字幕以及跨模态多媒体检索。

文末附本课程视频及ppt下载地址。

课程首页

https://cmu-multicomp-lab.github.io/mmml-course/fall2020/

课程大纲

【双语字幕】CMU-多模态机器学习_模态_02