原函数约束很多,不一定是凸函数,也就是说原函数是一个也许有很多极小值的多维空间函数,它是不容易求最小值的。用来拟合,容易陷入局部最小值,得到的结果不够泛化。举例:一个训练好的分类器,对一些东西分类很准(拟合误差达到局部极小值),泛化能力很差(拟合误差不是全局最小)。通过求共轭函数,我们把它原函数映射到另一个多维空间(自变量都变了),变成一个新函数,这个函数是凸的,而且它的最大值小于等于原函数的最小值。这样求原函数最小值问题,变成一个无约束凸函数的求最大值问题。那就很简单了,只要求新函数的唯一鞍点(梯度为零)。这样原本难以进行全局最优拟合的问题,变成可以拟合最优了。