文章目录

  • 1. 回顾:微分的定义
  • 2. 泛函和变分概念简介
  • 2.1 泛函概念简介
  • 2.2 变分概念简介
  • 3. 变分的运算法则简介
  • 4. 变分法详述
  • 4.1 历史
  • 4.2 极值
  • 5. 变分的运算法则详述
  • 5.1 定义
  • 5.1.1 泛函导数
  • 5.1.2 泛函微分
  • 5.2 性质
  • 5.3 泛函导数的确定
  • 5.3.1 公式
  • 5.3.2 例子
  • 5.3.2.1 Thomas-Fermi kinetic energy functional
  • 5.3.2.2 Coulomb potential energy functional
  • 5.3.2.3 Weizsäcker kinetic energy functional
  • 5.3.2.4 熵
  • 5.3.2.5 指数泛函
  • 5.3.2.6 函数的泛函导数
  • 5.3.2.7 迭代函数的泛函导数
  • 5.4 使用 delta 函数作为测试函数
  • 6. Euler-Lagrange equation
  • 6.1 简介
  • 6.2 历史
  • 6.3 详细内容
  • 6.4 推导过程
  • 6.5 另一种推导方法



1. 回顾:微分的定义

在介绍变分之前,首先回顾微分的定义:

当自变量 机器学习求变分问题 变分求法_热力学 时,相应的因变量 机器学习求变分问题 变分求法_变分_02



机器学习求变分问题 变分求法_统计物理_03


则此时 机器学习求变分问题 变分求法_统计物理_04 就是函数 机器学习求变分问题 变分求法_泛函_05



机器学习求变分问题 变分求法_统计物理_06


2. 泛函和变分概念简介

2.1 泛函概念简介

泛函为函数的函数,



机器学习求变分问题 变分求法_机器学习求变分问题_07


2.2 变分概念简介

通过上面的介绍,那么问题来了,如何用同样的思路去研究泛函的变化?通过类比推广,机器学习求变分问题 变分求法_泛函_08



机器学习求变分问题 变分求法_热力学_09


那么函数的变形如何理解呢?如下图:



机器学习求变分问题 变分求法_热力学_10


我们可以把原先的函数作一点点形变,即可以在原先的函数上加上一个任意函数 机器学习求变分问题 变分求法_热力学_11,然后在任意函数的前面乘上非常小或者足够小的系数 机器学习求变分问题 变分求法_热力学_12,此时我们就可以把 机器学习求变分问题 变分求法_统计物理_13(仅举例,可以推广)和新函数 机器学习求变分问题 变分求法_机器学习求变分问题_14 的差导致的泛函 机器学习求变分问题 变分求法_统计物理_15 的变化 机器学习求变分问题 变分求法_机器学习求变分问题_16 就是泛函 机器学习求变分问题 变分求法_统计物理_15

这个泛函的变分的线性化表示是整个变分中最重要的一步!同理,在微积分中,使用线性化的思想处理问题也是处理所有其他问题的前提!

下面是泛函变分的示意图:



机器学习求变分问题 变分求法_统计物理_18


3. 变分的运算法则简介

变分和微分的运算法则在很多情况下都是相同的,可以直接把微分的运算法则拿过来用就可以了:

  • 复合函数链式法则

机器学习求变分问题 变分求法_变分_19

  • 四则运算(乘法运算)

机器学习求变分问题 变分求法_统计物理_20

  • 全微分

机器学习求变分问题 变分求法_统计物理_21

  • 假设下图方框里有一串表达式,然后乘上机器学习求变分问题 变分求法_泛函_22等于0,由于机器学习求变分问题 变分求法_泛函_22可以随意变动,则只能使得方框里的表达式为0;


机器学习求变分问题 变分求法_统计物理_24


  • 变分运算符号可以与积分运算、微分运算、偏导数符号调换位置。


机器学习求变分问题 变分求法_泛函_25


4. 变分法详述

变分微积分,或变分法(Calculus of Variations or variational method)是一个数学分析领域,它使用变分(函数和泛函的微小变化)来找到泛函的最大值和最小值:从一组函数到实数的映射。泛函通常表示为涉及函数及其导数的定积分。使用变分法的欧拉-拉格朗日方程可以找到最大化或最小化泛函的函数。

变分法是 17 世纪末发展起来的一门数学分支,是处理泛函的数学领域,和处理数的函数的普通微积分相对。它最终寻求的是极值函数:它们使得泛函取得极大或极小值。变分法起源于一些具体的物理学问题,最终由数学家研究解决。有些曲线上的经典问题采用这种形式表达:一个例子是最速降线,在重力作用下一个粒子沿着该路径可以在最短时间从点 A 到达不直接在它底下的一点 B。在所有从 A 到 B 的曲线中,必须极小化代表下降时间的表达式。

另外还有找到连接两点的最短长度曲线。如果没有约束,则解是点之间的直线。但是,如果曲线被限制在空间表面上,那么解决方案就不太明显,并且可能存在许多解决方案。这种解决方案被称为测地线。费马原理提出了一个相关问题:光遵循连接两点的最短光程路径,这取决于介质的材料。力学中一个对应的概念是最小/静止作用原理。

4.1 历史

可以说变分法始于 1687 年牛顿的最小阻力问题,随后是约翰·伯努利 (Johann Bernoulli)(1696 年)提出的短时线问题。它立即引起了雅各布·伯努利(Jakob Bernoulli)和 Marquis de l’Hôpital 的注意,但莱昂哈德·欧拉(Leonhard Euler)从 1733 年开始首先阐述了这个主题。拉格朗日受到欧拉工作的影响,对这一理论做出了重大贡献。在欧拉看到 19 岁的拉格朗日 1755 年的作品后,欧拉放弃了他自己的部分几何方法,转而支持拉格朗日的纯分析方法,并在他 1756 年的讲座 “Elementa Calculi Variationum” 中将这个主题重新命名为变分法。

勒让德 (Legendre) (1786) 制定了一种方法,但并不完全令人满意,用于区分最大值和最小值。艾萨克·牛顿和戈特弗里德·莱布尼茨也对这个主题给予了一些早期的关注。在这其中,文森佐·布鲁纳奇 (Vincenzo Brunacci) (1810)、卡尔·弗里德里希·高斯 (Carl Friedrich Gauss) (1829)、西蒙·泊松 (Siméon Poisson) (1831)、米哈伊尔·奥斯特罗格拉茨基 (Mikhail Ostrogradsky) (1834) 和卡尔·雅可比 (Carl Jacobi) (1837) 都是贡献者。 Sarrus (1842) 的一项重要的综合性工作是由 Cauchy (1844) 浓缩和改进的。 Strauch (1849)、Jellett (1850)、Otto Hesse (1857)、Alfred Clebsch (1858) 和 Lewis Buffett Carll (1885) 撰写了其他有价值的论文和回忆录,但也许本世纪最重要的著作是维尔斯特拉斯(Weierstrass)。他著名的理论课程是划时代的,可以说他是第一个将其建立在坚实和不容置疑的基础上的人。1900 年发表的第 20 和第 23 希尔伯特问题鼓励了进一步的发展。

在 20 世纪,David Hilbert、Oskar Bolza、Gilbert Ames Bliss、Emmy Noether、Leonida Tonelli、Henri Lebesgue 和 Jacques Hadamard 等做出了重大贡献。Marston Morse 在现在所谓的 Morse 理论中应用了变分法。Lev Pontryagin、Ralph Rockafellar 和 F. H. Clarke 为最优控制理论中的变分微积分开发了新的数学工具。Richard Bellman 的动态规划是变分法的替代方法。

4.2 极值

变分法与泛函的最大值或最小值(统称为极值)有关。泛函将函数映射到标量,因此泛函被描述为“函数的函数”。泛函对于定义在给定域上的给定函数空间的元素 机器学习求变分问题 变分求法_变分_26 具有极值。一个泛函 机器学习求变分问题 变分求法_泛函_27 如果 机器学习求变分问题 变分求法_泛函_28 对于 机器学习求变分问题 变分求法_统计物理_29 的任意小的邻域中的所有 机器学习求变分问题 变分求法_变分_26 具有相同的符号。函数 机器学习求变分问题 变分求法_统计物理_29 称为极值函数或极值。如果在 机器学习求变分问题 变分求法_统计物理_29 的任意小邻域中处处 机器学习求变分问题 变分求法_机器学习求变分问题_33,则 机器学习求变分问题 变分求法_热力学_34 被称为局部极大值,相反,如果 机器学习求变分问题 变分求法_机器学习求变分问题_35,则称为局部极小值。对于连续函数的函数空间,对应的泛函的极值称为强极值或弱极值,这取决于连续函数的一阶导数是否都是连续的。

泛函的强极值和弱极值都是针对连续函数空间的,但强极值还有一个额外的要求,即空间中函数的一阶导数是连续的。因此,强极值也是弱极值,但反过来可能不成立。找到强极值比找到弱极值更难。用于寻找弱极值的必要条件的一个例子是欧拉-拉格朗日方程(Euler-Lagrange equation)。

5. 变分的运算法则详述

在变分法中,泛函导数(或变分导数) 将泛函的变化与泛函所依赖的函数的变化联系起来。

在变分法中,泛函通常用函数、它们的参数和它们的导数的积分来表示。在泛函的积分 机器学习求变分问题 变分求法_泛函_36 中,如果函数 机器学习求变分问题 变分求法_统计物理_29 通过添加另一个任意小的函数 机器学习求变分问题 变分求法_变分_38 来改变,并且所得被积函数以 机器学习求变分问题 变分求法_变分_38 的幂展开,则一阶项中 机器学习求变分问题 变分求法_变分_38

例如,考虑泛函:

机器学习求变分问题 变分求法_机器学习求变分问题_41

其中 机器学习求变分问题 变分求法_泛函_42。如果通过向其添加函数 机器学习求变分问题 变分求法_变分_38 来改变 机器学习求变分问题 变分求法_统计物理_29(注意此时 机器学习求变分问题 变分求法_泛函_08 相对不变),并且将得到的被积函数 机器学习求变分问题 变分求法_变分_46机器学习求变分问题 变分求法_变分_38 的幂展开,则 机器学习求变分问题 变分求法_统计物理_15 的值在 机器学习求变分问题 变分求法_变分_38

机器学习求变分问题 变分求法_热力学_50

其中导数的变分,机器学习求变分问题 变分求法_变分_51 被重写为变分的导数 机器学习求变分问题 变分求法_变分_52,即:

机器学习求变分问题 变分求法_变分_53

即利用了线性性质,其中第一个下标是变分对应的不同函数,第二个下标是同一函数下不同横坐标下的值。上述推导中使用了部分积分。

5.1 定义

在本节中,定义了泛函导数(functional derivative)。然后根据泛函导数定义泛函微分(functional differential)。

5.1.1 泛函导数

给定表示(连续/平滑)函数 机器学习求变分问题 变分求法_机器学习求变分问题_54(具有某些边界条件等)的流形 机器学习求变分问题 变分求法_机器学习求变分问题_55,则一个泛函 机器学习求变分问题 变分求法_热力学_56

机器学习求变分问题 变分求法_变分_57

机器学习求变分问题 变分求法_变分_58 的泛函导数,表示为 机器学习求变分问题 变分求法_统计物理_59,其定义为:

机器学习求变分问题 变分求法_泛函_60

其中 机器学习求变分问题 变分求法_泛函_61 是一个任意函数。机器学习求变分问题 变分求法_热力学_62 称为 机器学习求变分问题 变分求法_机器学习求变分问题_54

换句话说:

机器学习求变分问题 变分求法_统计物理_64

是一个线性泛函,因此可以应用 Riesz–Markov–Kakutani representation theorem 将该泛函表示为针对某种度量的积分。然后 机器学习求变分问题 变分求法_统计物理_59 被定义为该度量的 Radon-Nikodym derivative

我们认为函数 机器学习求变分问题 变分求法_统计物理_59机器学习求变分问题 变分求法_热力学_56 在点 机器学习求变分问题 变分求法_机器学习求变分问题_54 处的梯度(即,如果函数 机器学习求变分问题 变分求法_机器学习求变分问题_54 在点 机器学习求变分问题 变分求法_泛函_08 处改变(即 机器学习求变分问题 变分求法_泛函_08 变化时,机器学习求变分问题 变分求法_机器学习求变分问题_54 在变),泛函 机器学习求变分问题 变分求法_热力学_56

机器学习求变分问题 变分求法_机器学习求变分问题_74

作为点 机器学习求变分问题 变分求法_机器学习求变分问题_54机器学习求变分问题 变分求法_泛函_61 方向上的方向导数。类似于向量微积分,机器学习求变分问题 变分求法_泛函_77 与梯度 机器学习求变分问题 变分求法_机器学习求变分问题_78

5.1.2 泛函微分

泛函 机器学习求变分问题 变分求法_泛函_79

机器学习求变分问题 变分求法_统计物理_80

其中,机器学习求变分问题 变分求法_泛函_81机器学习求变分问题 变分求法_机器学习求变分问题_82 的变化,所以我们“正式”有 机器学习求变分问题 变分求法_变分_83,然后这在形式上类似于函数 机器学习求变分问题 变分求法_泛函_84

机器学习求变分问题 变分求法_泛函_85

其中 机器学习求变分问题 变分求法_泛函_86 是自变量。比较最后两个方程,泛函导数 机器学习求变分问题 变分求法_统计物理_87 的作用类似于偏导数 机器学习求变分问题 变分求法_变分_88,其中积分变量 机器学习求变分问题 变分求法_泛函_08 类似于求和下标 机器学习求变分问题 变分求法_变分_90

5.2 性质

与函数的导数一样,泛函导数满足以下性质,其中 机器学习求变分问题 变分求法_变分_58机器学习求变分问题 变分求法_泛函_92 是泛函(注意 机器学习求变分问题 变分求法_变分_93):

  • 线性法则:

机器学习求变分问题 变分求法_统计物理_94

其中 机器学习求变分问题 变分求法_机器学习求变分问题_95机器学习求变分问题 变分求法_热力学_96

  • 乘法法则:

机器学习求变分问题 变分求法_统计物理_97

  • 链式法则:
  1. 如果 机器学习求变分问题 变分求法_统计物理_98 是一个泛函,而 机器学习求变分问题 变分求法_热力学_99

机器学习求变分问题 变分求法_变分_100

  1. 如果 机器学习求变分问题 变分求法_热力学_99 是一个普通的可微函数(局部泛函)机器学习求变分问题 变分求法_机器学习求变分问题_102,那么这简化为:

机器学习求变分问题 变分求法_泛函_103

5.3 泛函导数的确定

确定一类常见泛函的泛函导数(functional derivatives)的公式,可以写成函数及其导数的积分。这是欧拉-拉格朗日方程的推广:实际上,泛函导数是在从拉格朗日力学(18 世纪)的最小作用原理推导第二类拉格朗日方程的过程中引入的。下面的前三个例子来自密度泛函理论(20 世纪),第四个例子来自统计力学(19 世纪)。

5.3.1 公式

给定一个泛函

机器学习求变分问题 变分求法_热力学_104

和一个在积分区域边界上消失的函数 机器学习求变分问题 变分求法_变分_105),后者来自上一节的定义,

机器学习求变分问题 变分求法_热力学_106

第二行是使用全导数获得的,其中 机器学习求变分问题 变分求法_热力学_107

机器学习求变分问题 变分求法_泛函_108

其中 机器学习求变分问题 变分求法_泛函_109机器学习求变分问题 变分求法_统计物理_110机器学习求变分问题 变分求法_泛函_111机器学习求变分问题 变分求法_泛函_112机器学习求变分问题 变分求法_变分_113机器学习求变分问题 变分求法_泛函_114 是沿 机器学习求变分问题 变分求法_泛函_08机器学习求变分问题 变分求法_变分_26机器学习求变分问题 变分求法_热力学_117

第三行是通过使用散度的乘积规则获得的:

机器学习求变分问题 变分求法_热力学_118

第四行是使用散度定理(Divergence theorem)和积分区域边界上 机器学习求变分问题 变分求法_机器学习求变分问题_119

机器学习求变分问题 变分求法_机器学习求变分问题_120

所以:

机器学习求变分问题 变分求法_泛函_121

由于 机器学习求变分问题 变分求法_泛函_61 也是一个任意函数,将 fundamental lemma of calculus of variations 应用于最后一行,泛函导数为

机器学习求变分问题 变分求法_统计物理_123

其中 机器学习求变分问题 变分求法_变分_124机器学习求变分问题 变分求法_泛函_125。该公式适用于本节开头 机器学习求变分问题 变分求法_变分_58 给出的函数形式的情况。对于其他泛函形式,泛函导数的定义可以作为其确定的起点。(参见 Coulomb potential energy functional 示例。)

上面的泛函导数方程可以推广到包括高维和高阶导数的情况。泛函将是,

机器学习求变分问题 变分求法_变分_127

其中向量 机器学习求变分问题 变分求法_统计物理_128机器学习求变分问题 变分求法_热力学_129 是一个张量,其 机器学习求变分问题 变分求法_统计物理_130 分量是 机器学习求变分问题 变分求法_变分_90

机器学习求变分问题 变分求法_机器学习求变分问题_132

比如,对于三维(机器学习求变分问题 变分求法_机器学习求变分问题_133),二阶导数(机器学习求变分问题 变分求法_变分_134),张量 机器学习求变分问题 变分求法_泛函_135

机器学习求变分问题 变分求法_热力学_136

泛函导数定义的类似应用

机器学习求变分问题 变分求法_统计物理_137

在最后两个方程中,张量 机器学习求变分问题 变分求法_热力学_138机器学习求变分问题 变分求法_统计物理_130 元素是 机器学习求变分问题 变分求法_统计物理_29 关于 机器学习求变分问题 变分求法_机器学习求变分问题_54

机器学习求变分问题 变分求法_热力学_142

张量标量积是:

机器学习求变分问题 变分求法_泛函_143

比如,对于 机器学习求变分问题 变分求法_机器学习求变分问题_133机器学习求变分问题 变分求法_变分_134

机器学习求变分问题 变分求法_机器学习求变分问题_146

5.3.2 例子

5.3.2.1 Thomas-Fermi kinetic energy functional

1927 年的 Thomas-Fermi model 在电子结构的密度泛函理论的第一次尝试中使用了非相互作用均匀电子气的动能泛函:

机器学习求变分问题 变分求法_热力学_147

由于 机器学习求变分问题 变分求法_机器学习求变分问题_148 的被积函数不涉及 机器学习求变分问题 变分求法_热力学_149 的导数,因此 机器学习求变分问题 变分求法_机器学习求变分问题_148

机器学习求变分问题 变分求法_变分_151

5.3.2.2 Coulomb potential energy functional

对于电子-核势(electron-nucleus potential),Thomas 和 Fermi 采用库仑势能泛函:

机器学习求变分问题 变分求法_变分_152

应用泛函导数的定义,

机器学习求变分问题 变分求法_泛函_153

所以,

机器学习求变分问题 变分求法_热力学_154

对于电子-电子相互作用的经典部分,Thomas 和 Fermi 采用了库仑势能泛函

机器学习求变分问题 变分求法_变分_155

从泛函导数的定义:

机器学习求变分问题 变分求法_变分_156

最后一个方程右侧的第一项和第二项相等,因为第二项中的 r 和 r’ 可以互换,而无需改变积分的值。所以,

机器学习求变分问题 变分求法_机器学习求变分问题_157

电子-电子库仑势能泛函 机器学习求变分问题 变分求法_泛函_158

机器学习求变分问题 变分求法_统计物理_159

二阶泛函导数是:

机器学习求变分问题 变分求法_变分_160

5.3.2.3 Weizsäcker kinetic energy functional

1935 年 von Weizsäcker 提议对 Thomas-Fermi 动能泛函添加梯度校正,以使其更适合分子电子云:

机器学习求变分问题 变分求法_变分_161

其中

机器学习求变分问题 变分求法_热力学_162

使用先前导出的泛函导数公式:

机器学习求变分问题 变分求法_机器学习求变分问题_163

结果是:

机器学习求变分问题 变分求法_统计物理_164

5.3.2.4 熵

离散随机变量的熵是概率质量函数(probability mass function)的泛函。

机器学习求变分问题 变分求法_统计物理_165

因此,

机器学习求变分问题 变分求法_变分_166

因此,

机器学习求变分问题 变分求法_统计物理_167

5.3.2.5 指数泛函

机器学习求变分问题 变分求法_机器学习求变分问题_168

使用 delta 函数作为测试函数:

机器学习求变分问题 变分求法_泛函_169

因而:

机器学习求变分问题 变分求法_热力学_170

这对于使用量子场论中的配分函数,来计算相关函数(correlation functions)特别有用。

5.3.2.6 函数的泛函导数

函数可以像泛函一样写成积分的形式。例如,

机器学习求变分问题 变分求法_机器学习求变分问题_171

由于被积函数不依赖于 机器学习求变分问题 变分求法_机器学习求变分问题_54 的导数,因此 机器学习求变分问题 变分求法_变分_173

机器学习求变分问题 变分求法_机器学习求变分问题_174

5.3.2.7 迭代函数的泛函导数

迭代函数 机器学习求变分问题 变分求法_统计物理_175

机器学习求变分问题 变分求法_泛函_176

机器学习求变分问题 变分求法_泛函_177

一般来说:

机器学习求变分问题 变分求法_热力学_178

放入 机器学习求变分问题 变分求法_统计物理_179

机器学习求变分问题 变分求法_机器学习求变分问题_180

5.4 使用 delta 函数作为测试函数

在物理学中,通常使用狄拉克 delta 函数 机器学习求变分问题 变分求法_热力学_181 代替通用测试函数 机器学习求变分问题 变分求法_热力学_182,以得到 机器学习求变分问题 变分求法_变分_26

机器学习求变分问题 变分求法_变分_184

这适用于 机器学习求变分问题 变分求法_热力学_185 形式上可以扩展为一个级数的情况(或至少 机器学习求变分问题 变分求法_热力学_186 中的第一阶)。然而,该公式在数学上并不严格,因为 机器学习求变分问题 变分求法_机器学习求变分问题_187

上一节给出的定义是基于对所有测试函数 机器学习求变分问题 变分求法_热力学_182 都成立的关系,所以人们可能认为它也应该成立,当 机器学习求变分问题 变分求法_热力学_182

在定义中,泛函导数描述了泛函 机器学习求变分问题 变分求法_泛函_190 如何随着整个函数 机器学习求变分问题 变分求法_统计物理_191 的微小变化而变化。机器学习求变分问题 变分求法_统计物理_191 的具体变化形式没有指定,但它应该延伸到定义 机器学习求变分问题 变分求法_泛函_08 的整个区间。使用由 delta 函数给出的特定形式的扰动意味着 机器学习求变分问题 变分求法_统计物理_191 仅在点 机器学习求变分问题 变分求法_变分_26 处变化。除了这一点,机器学习求变分问题 变分求法_统计物理_191

6. Euler-Lagrange equation

6.1 简介

在变分法和经典力学中,欧拉-拉格朗日方程是一个二阶常微分方程组,其解是给定作用泛函的驻点。这些方程是在 1750 年代由瑞士数学家 Leonhard Euler 和意大利数学家 Joseph-Louis Lagrange 发现的。

因为可微泛函在其局部极值处是静止的,所以欧拉-拉格朗日方程可用于解决优化问题,在这些问题中,给定一些泛函,人们寻求函数使其最小化或最大化。这类似于微积分中的费马定理,指出在可微函数达到局部极值的任何点,其导数为零。在拉格朗日力学中,根据汉密尔顿的静止作用原理,物理系统的演化是由系统作用的欧拉方程的解来描述的。在这种情况下,欧拉方程通常称为拉格朗日方程。在经典力学中,它等价于牛顿运动定律;事实上,欧拉-拉格朗日方程将产生与牛顿定律相同的方程。这在分析力矢量特别复杂的系统时特别有用。它的优点是在任何广义坐标系中都采用相同的形式,并且更适合泛化。在经典场论中,有一个类似的方程来计算场的动力学。

6.2 历史

Euler-Lagrange 方程是在 1750 年代由 Euler 和 Lagrange 在他们对 tautochrone 问题的研究中开发的。这是确定一条曲线的问题,在该曲线上,加权粒子将在固定的时间内落到固定点,与起点无关。

拉格朗日在 1755 年解决了这个问题,并将解决方案发送给欧拉。两者都进一步发展了拉格朗日方法并将其应用于力学,从而形成了拉格朗日力学。他们的通信最终导致了变分法,这是欧拉本人在 1766 年创造的一个术语。

6.3 详细内容

机器学习求变分问题 变分求法_泛函_197 是一个具有 机器学习求变分问题 变分求法_变分_198 自由度的机械系统。这里 机器学习求变分问题 变分求法_热力学_199 是配置空间,机器学习求变分问题 变分求法_统计物理_200 拉格朗日函数,即平滑实值函数,使得 机器学习求变分问题 变分求法_机器学习求变分问题_201机器学习求变分问题 变分求法_泛函_202 是一个 机器学习求变分问题 变分求法_变分_198 维“速度向量”。(对于那些熟悉微分几何的人来说,机器学习求变分问题 变分求法_热力学_199 是一个光滑流形,而 机器学习求变分问题 变分求法_变分_205 其中 机器学习求变分问题 变分求法_机器学习求变分问题_206机器学习求变分问题 变分求法_热力学_199 的切丛(tangent bundle))。

机器学习求变分问题 变分求法_统计物理_208 是平滑路径的集合 机器学习求变分问题 变分求法_泛函_209 其中 机器学习求变分问题 变分求法_热力学_210机器学习求变分问题 变分求法_机器学习求变分问题_211 动作泛函 机器学习求变分问题 变分求法_变分_212

机器学习求变分问题 变分求法_泛函_213

一条路径 机器学习求变分问题 变分求法_机器学习求变分问题_214机器学习求变分问题 变分求法_机器学习求变分问题_215 的驻点(stationary point),当且仅当

机器学习求变分问题 变分求法_热力学_216

这里,机器学习求变分问题 变分求法_泛函_217机器学习求变分问题 变分求法_机器学习求变分问题_218

6.4 推导过程

求泛函的极值类似于求函数的最大值和最小值。函数的最大值和最小值可以通过找到其导数等于零的点来定位。泛函的极值可以通过寻找泛函导数为零的函数来获得。这导致了求解相关的欧拉-拉格朗日方程的引入。

考虑泛函:

机器学习求变分问题 变分求法_热力学_219

其中
机器学习求变分问题 变分求法_统计物理_220机器学习求变分问题 变分求法_变分_221 是常数,
机器学习求变分问题 变分求法_泛函_05 是两次连续可微的,
机器学习求变分问题 变分求法_热力学_223
机器学习求变分问题 变分求法_机器学习求变分问题_224关于它的参数机器学习求变分问题 变分求法_泛函_08机器学习求变分问题 变分求法_变分_26机器学习求变分问题 变分求法_统计物理_227两次连续可微。(可以使用一个较弱的假设,但证明变得更加困难。)

如果泛函 机器学习求变分问题 变分求法_泛函_27机器学习求变分问题 变分求法_统计物理_29 处达到局部最小值(当然也可以讨论极大值,而与下述推导一致),并且 机器学习求变分问题 变分求法_泛函_230 是任意具有至少一个导数并且在端点 机器学习求变分问题 变分求法_统计物理_220机器学习求变分问题 变分求法_变分_221 处消失(机器学习求变分问题 变分求法_变分_233)的函数,那么对于任意数 机器学习求变分问题 变分求法_统计物理_234

机器学习求变分问题 变分求法_热力学_235

机器学习求变分问题 变分求法_热力学_236 称为函数 机器学习求变分问题 变分求法_统计物理_29 的变分,记为 机器学习求变分问题 变分求法_变分_38

在泛函 机器学习求变分问题 变分求法_泛函_27 中将 机器学习求变分问题 变分求法_变分_26 替换为 机器学习求变分问题 变分求法_泛函_241,结果为机器学习求变分问题 变分求法_热力学_186

机器学习求变分问题 变分求法_变分_243

由于泛函 机器学习求变分问题 变分求法_泛函_27机器学习求变分问题 变分求法_统计物理_245 有最小值,所以函数 机器学习求变分问题 变分求法_机器学习求变分问题_246机器学习求变分问题 变分求法_热力学_247

机器学习求变分问题 变分求法_机器学习求变分问题_248

机器学习求变分问题 变分求法_泛函_249 的全导数(total derivative),其中 机器学习求变分问题 变分求法_变分_250机器学习求变分问题 变分求法_热力学_251 被认为是 机器学习求变分问题 变分求法_热力学_186 而不是 机器学习求变分问题 变分求法_泛函_08

机器学习求变分问题 变分求法_统计物理_254

其中由于变量 机器学习求变分问题 变分求法_泛函_08机器学习求变分问题 变分求法_热力学_186 不相关,所以 机器学习求变分问题 变分求法_热力学_257

因为 机器学习求变分问题 变分求法_泛函_258机器学习求变分问题 变分求法_机器学习求变分问题_259

机器学习求变分问题 变分求法_变分_260

所以 机器学习求变分问题 变分求法_泛函_261 时,上式中的 机器学习求变分问题 变分求法_统计物理_245,于是上式变为:

机器学习求变分问题 变分求法_泛函_263

所以:

机器学习求变分问题 变分求法_泛函_264

其中当 机器学习求变分问题 变分求法_热力学_247机器学习求变分问题 变分求法_机器学习求变分问题_266 ,推导中在第二项中使用了部分积分。第二行的第二项消失了,因为根据定义, 机器学习求变分问题 变分求法_变分_233。此外,如前所述,等式的左侧为零,因此:

机器学习求变分问题 变分求法_统计物理_268

根据变分法的基本引理(fundamental lemma of calculus of variations),括号中被积函数的部分为零,即

机器学习求变分问题 变分求法_变分_269

这称为欧拉-拉格朗日方程(Euler-Lagrange equation)。这个方程的左边称为 机器学习求变分问题 变分求法_热力学_34 的泛函导数,记为 机器学习求变分问题 变分求法_机器学习求变分问题_271

一般来说,这给出了一个二阶常微分方程,可以求解该方程以获得极值函数 机器学习求变分问题 变分求法_泛函_272。欧拉-拉格朗日方程是极值 机器学习求变分问题 变分求法_热力学_34

6.5 另一种推导方法

给定一个泛函

机器学习求变分问题 变分求法_机器学习求变分问题_274

机器学习求变分问题 变分求法_机器学习求变分问题_275 上,边界条件为 机器学习求变分问题 变分求法_机器学习求变分问题_276机器学习求变分问题 变分求法_变分_277,我们通过一条具有 机器学习求变分问题 变分求法_变分_198

将区间 机器学习求变分问题 变分求法_热力学_279 分成 机器学习求变分问题 变分求法_变分_198 等段,端点为 机器学习求变分问题 变分求法_机器学习求变分问题_281 并令 机器学习求变分问题 变分求法_统计物理_282。我们不考虑平滑函数 机器学习求变分问题 变分求法_统计物理_283,而是考虑具有顶点 机器学习求变分问题 变分求法_泛函_284,其中 机器学习求变分问题 变分求法_热力学_285机器学习求变分问题 变分求法_统计物理_286。因此,我们的泛函变成了 机器学习求变分问题 变分求法_机器学习求变分问题_287

机器学习求变分问题 变分求法_统计物理_288

在离散点 机器学习求变分问题 变分求法_热力学_289

机器学习求变分问题 变分求法_热力学_290

求偏导可得:

机器学习求变分问题 变分求法_变分_291

将上述方程除以 机器学习求变分问题 变分求法_机器学习求变分问题_292

机器学习求变分问题 变分求法_变分_293

并将该表达式右侧的极限设为 机器学习求变分问题 变分求法_机器学习求变分问题_294

机器学习求变分问题 变分求法_机器学习求变分问题_295

上式的左边是泛函 机器学习求变分问题 变分求法_统计物理_15 的泛函导数 机器学习求变分问题 变分求法_热力学_297。可微泛函在某个函数上具有极值的必要条件是它在该函数处的泛函导数消失,这是由最后一个方程所认可的。


  • 参考资料:

【数学百科】变分是什么?它和微分有什么区别?

wiki: Calculus of variations

wiki: Euler–Lagrange equation

wiki: Fundamental lemma of calculus of variations

wiki: Compact space

wiki: Mollifier

wiki: Bump function

wiki: Characteristic function

wiki: Indicator function

wiki: Beltrami identity

wiki: Functional derivative