本次分享一个谷歌暗度陈仓收集客户标注数据的故事,城市套路深,我要回农村;分享九个数据标注最常用的工具,涵盖打点,拉框,OCR,语义分割,3D等。
01一个故事
2004 年,谷歌宣布开启全球图书馆馆藏图书的数字化计划,扫描了哈佛大学、牛津大学、斯坦福大学、康奈尔大学、纽约公共图书馆等世界一流设施内的书籍,光哈佛大学就有 1600 万册,将它们制作成电子版。
书页内的文字主要通过 OCR 光学字符扫描分析,转换成为文本。识别过程并非完美,字迹模糊、污迹等都可能产生错误,所以需要配合人工修正。
谷歌怎么做呢?他们直接把难于识别的文字,做成了验证码,当你在某些情况下需要登录验证谷歌帐号时,展示两个单词——一个单词是谷歌已知信息,靠这个完成真正的验证动作,另一个就是上述无法识别的图书文本,谷歌让你来肉眼识别,至少三个用户给出同一个结果,就会被提交给谷歌服务器。
恭喜你被套路了!
同样的,谷歌将这套发扬到了无人驾驶领域,做成了图形验证界面,让用户在验证环节,从一堆谷歌街景的实拍照片矩阵中,选出「人」、「车」或是「路牌」。
尽管谷歌自身已有海量数据积累,但为了提升现行主流的「有监督学习」算法模型的准确度,数据永远不嫌多,直接或者间接从用户手中花样收集数据标注,包装出各种各样的形态,防不胜防.但背后的一切还是流量的支持,没有流量怎么办?踏踏实实一点一点标注吧。02九个工具
1.LabelImg
下载以后根据作者提供的安装指南即可安装,如果安装不上怎么办,不用这么麻烦,下面这个地址提供了直接下载的地址,下载预编译exe即可:
支持VOC2012格式与tfrecord自动生成!
2.LabelIme
支持对象检测、图像语义分割数据标注,实现语言为Python与QT。
支持导出VOC与COCO格式数据实例分割
强烈推荐,实例分割都可以用它标注!
3.RectLabel
支持导出YOLO、KITTI、COCOJSON与CSV格式
读写Pascal VOC格式的XML文件
4.OpenCV/CVAT
高效的计算机视觉注释工具,支持图像分类,对象检测框,图像语义分割
5.VOTT
Microsoft发布了一个基于WEB的可视化数据注释工具,用于本地部署。
支持图像和视频数据注释
6.LableBox
WEB模式下的标记工具
提供自定义注释API支持
纯JS + HTML支持
7.VIA-VGG Image Annotator
VGG发布的图像标准工具
基于WEB方式的标注工具
8.PixelAnnotationTool
9.point-cloud-annotation-tool
3D点云数据注释工件
支持3D BOX盒子生成
支持KITTI-bin格式数据