Datawhale干货
作者:王程伟,Datawhale成员
本文为干货知识+竞赛实践系列分享,旨在理论与实践结合,从学习到项目实践。(零基础入门系列:数据挖掘/cv/nlp/金融风控/推荐系统等,持续更新)
本文对计算机视觉赛事中,数据读取及数据扩增两部分内容进行解析,同时进行了直播答疑分享(今晚8点在阿里天池直播分享,录播上传后原链接可回看):
https://tianchi.aliyun.com/course/live?spm=5176.12586971.1001.1.11be6956fkKgJ8&liveId=41168
分享大纲
1. 图像读取
- 常用图像读取的5种方法及其比较总结;
2. Pytorch数据读取
- 介绍了常用数据集及自定义数据集读取的方法;
3. 数据扩增
- 基于图像处理的数据扩增、基于深度学习的数据扩增及使用Pytorch的数据扩增。
图像读取
常用的图像数据读取方法如下:
- 方法1:OpenCV-python
- 方法2:Pillow
- 方法3:matplotlib
- 方法4:scipy
- 方法5:skimage
- 总结
Pytorch数据读取
Pytorch数据读取时分为常用数据集读取和自定义数据集读取两部分。
- 常用数据集读取
- 自定义数据集读取
数据扩增
数据扩增用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。常见的数据扩增方法有:基于图像处理的图像扩增、基于深度学习的图像扩增。
1. 基于图像处理的数据扩增
- 几何变换
- 灰色和彩色空间变换
- 添加噪声和滤波
- Mixing image(图像混合)
- Random erasing(随机擦除)
2. 基于深度学习的数据扩增
3. 使用Pytorch进行数据增强