迁移学习&模型融合专题

  • 疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务
  • 迁移学习 transfer learning
  • 定义
  • 综述
  • 领域自适应
  • Bert
  • 半监督DA问题
  • 模型融合
  • 作业(额外问题)


疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务

比赛地址:https://www.datafountain.cn/competitions/423/datasets

迁移学习 transfer learning

定义

定义:通过减少源域到目标域的分布差异,进行知识迁移,从而实现数据标注工作。

解释定义:一种标注工作:为了减少源域、目标域间的数据差异,将其放入相同特征空间进行学习。

定义理解

传统机器学习/深度学习:数据分布同分布。

深度学习中迁移学习 深入浅出的迁移类型_迁移学习

综述

深度学习中迁移学习 深入浅出的迁移类型_数据_02


归纳式迁移学习

直推式迁移学习:领域自适应。任务一致,数据不一致。

无监督迁移学习

深度学习中迁移学习 深入浅出的迁移类型_迁移学习_03


如果源域和目标域中,源域是文本,目标域是图片,我们可以找一个中间域,将多部迁移划分为单部迁移one-step。

单部迁移one-step又分为:同构DA问题和异构DA问题。

同构DA问题:数据空间一致,数据分布不一致。(都是文本,一个黑白图片、一个彩色图片)。分为有监督、半监督、无监督DA问题。

领域自适应

深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_04


深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_05


特征自适应(很有效),源域和目标域共享某种特征,将源域和目标域提取到对应的共同空间,距离就会越近,目标域性能会提升。

领域自适应中有监督问题是子问题。数据空间一致,数据分布不一致。学习共同空间,进行知识迁移。

深度学习中迁移学习 深入浅出的迁移类型_数据_06


因为深度网络在浅层学习内容具体,深层学习的内容抽象。网络已经具备提取基础特征和抽象特征的能力时,fine-tune:学习了特定任务的特征,有效。

Bert

深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_07


Bert预训练任务:

MLM: masked language model

Next Sentence Prediction

深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_08


Bert是12层网络结构:

  1. Inputs:文字转成ID对应的输入。
  2. 经过Embedding后➕位置的Encoding(Bert是采用Attention机制,没办法获得句子原始的序列)——得到I
  3. 进入网络:多头Attention,原始的输入I,经过Dense层,分别输出Key、Query、Value。I加在其中做残差网络,再经过Batch Norm层反馈神经网络进行非线性学习,和原来输入结合做残差,再经过Batch Norm层

半监督DA问题

深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_09


半监督DA问题

深度学习中迁移学习 深入浅出的迁移类型_深度学习中迁移学习_10


通过减小源域和目标域分布差异,实现域的自适应。

模型融合

深度学习中迁移学习 深入浅出的迁移类型_自适应_11


投票也可以预测的概率结果做平均。

交叉验证:抽取的数据固定下来,将数据加权平均。

深度学习中迁移学习 深入浅出的迁移类型_数据_12


训练:对于N个模型“五折”:每个模型分成五份的数据,用其他四份数据预测一份数据,得到预测结果。得到了N个feature进行逻辑回归得到模型。

作业(额外问题)

深度学习中迁移学习 深入浅出的迁移类型_数据_13