pytorch学习笔记(六)——pytorch进阶教程之broadcast自动扩展

  • 目录
  • broadcast的两个特点
  • 主要思想
  • 原理示例
  • 存在意义


目录

broadcast的两个特点

broadcast的两个特点:1.能够进行维度的扩展,相当于expand,但是是自动扩展
2.扩展的时候不需要拷贝数据
注意broadcast并不是函数,而是在不同size的tensor之间进行加减操作会自动进行的一种机制

主要思想

pytorch分布式训练连不上c10d存储 pytorch broadcast_标量


主要思想:1.依次从最后一个维度开始匹配,若前面没有维度则插入一个新的维度,size为1

2.自动调用Expand函数使得维度size相同

假设有如上图的一个feature map,要加上一个bias,把后面的维度理解为小维度,前面的维度理解为大维度。为什么要这么理解呢,我们知道一个四维的tensor可以表示图片,很第一个维度表示图片张数,最后一个维度表示图片的列,很明显前面的维度更为重要,所以理解为大维度。

将两者相加broadcast首先看出两者的dim不一致,对bias插入一个新维度,size为1,在调用expand使得每个维度上与feature map的size一样

原理示例

pytorch分布式训练连不上c10d存储 pytorch broadcast_数据存储_02

存在意义

pytorch分布式训练连不上c10d存储 pytorch broadcast_标量_03


从已经学过的知识我们可以知道,broadcast相当于unsqueeze函数和expand函数的配合使用,那么我们为什么要引入broadcast机制呢?主要有两点原因。

1.为了真实需求

假设我们有一份数据存储学生成绩,如图所示。假设有4个班级,每个班32名同学,每个同学8门课[4,32,8],现在要给每个同学每门课都加上5分。由于5是一个标量,如果不引入broadcast,那么要调用多次unsqueeze和expand,把shape变成[4,32,8],实现起来非常麻烦,引入broadcast机制使得自动进行,代码更加简洁。

2.节约内存

broadcast核心是利用expand,只是逻辑上的扩展,并不是实际内存上进行拷贝,从而大大减少了占用内存。