在训练和推理的时候如:y=modle(image),在这个过程中注意要,batch first,因为多GPU会按第一个维度平均拆分到每个GPU上。
总结
- 数据和模型采用batch first的组织方式
- 特别是模型中有RNN的时候,注意设置batch_first=True
在训练和推理的时候如:y=modle(image),在这个过程中注意要,batch first,因为多GPU会按第一个维度平均拆分到每个GPU上。
总结
上一篇:深度学习——防止过拟合
本文介绍了大模型训练、推理的基本逻辑,并以Transformer为例,分析了其特点和优势。
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M