长尾分布在分类和回归问题中很重要什么是长尾分布

转载

mob64ca140234eb 2024-05-30 19:24:38

一、前言

最近在阅读文献的时候，遇到了一个新的名词：long-tailed distribution

长尾分布在分类和回归问题中很重要什么是长尾分布_长尾分布在分类和回归问题中很重要

对于这个名词，不是很理解，查找资料得出长尾分布数据集的含义。

长尾分布数据是一种偏态分布，是指几个类别（亦叫头类）包含大量的样本，而大多数类别（亦叫尾类）只有非常少量的样本。

即一小部分标签（即头部标签）有很多数据实例，而大多数标签（即尾部标签）只有很少数据实例的不平衡分类情况。例如：在动物识别数据集中，常见家禽类别的数据非常多，但是大熊猫东北虎的类别非常少。

长尾分布在分类和回归问题中很重要什么是长尾分布_数据_02

类似这样的数据集会使得深度学习网络在头部类中表现良好，在尾部类中效率不高，整体的识别精度显著下降。

大多数研究者通过不平衡学习策略来解决长尾识别问题，主要分为两类：数据级方法和算法级方法。

数据水平的策略包括尾部类过采样，头部类欠采样，以及其他新的抽样方法。

所以解决手段主要着力于如何对数据进行抽样。这种方法存在的问题是，过采样会导致过拟合，欠采样会导致头部类大量有效信息丢失。

通过成本敏感算法来调整类别权重，一定程度缓解长尾分布不平衡问题，提高了尾类识别精度，但降低了头类精度。
将头部数据中学习到的知识迁移到尾类，这种迁移学习的缺点是在头尾类特征相差特别大的时候，效果不好。如头类是动物，尾类是植物。
层次学习方法，将长尾识别问题转为层次化超类学习问题。知识的迁移是受限的，只能从超类转移到它的直接子类。如尾类哈士奇的识别过程中，首先将其识别为头类的动物类，再归类为一只哈士奇狗。这个过程中，动物的知识不会转移到植物类。即，对头部类的知识迁移进行了限制，限制的方式是父子类层次关联。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。