Preface

    在学习凸优化(最优化理论)这门课时,我经常遇到梯度(gradient)这个概念,加上数学分析里面确实提了一下,脑海里只有一点点印象,就是关于如何求一个多元函数的梯度的方法,但这远远是不够的,我对它的概念还是很含糊的,以我现在所学到的东西,就知道梯度的应用是非常广泛的,比如优化里面最基本的方法梯度下降法,次梯度等内容,为此,打算再次复习一下梯度相关的内容,并记录一下。下面主要从以下几方面进行阐述(才能解释清楚梯度的几何意义):

  • 方向导数的定义以及求法
  • 场的定义及分类
  • 梯度的定义以及几何意义
  • 梯度的简单性质

方向导数的定义以及求法

    给定一个三元函数$u=f(x,y,z)$,在$p_{0}=(x_0,y_0,z_0)$处存在所有的一阶偏导数$f_{x}^{‘}(x_0,y_0,z_0)$,$f_{y}^{’}(x_0,y_0,z_0)$,$f_{z}^{'}(x_0,y_0,z_0)$,我们知道一元函数的导数刻画了该函数在某一点的变化率,其实多元函数的偏导数也是如此,只不过它是三个特定的方向,x轴,y轴,z轴方向,那么在$R^3$中任意一个方向的函数的变化率可以刻画吗?答案是显然可以的,就是需要用到我们等下定义的方向导数。(在我看来,方向导数就是把函数在三个特定方向(x,y,z轴)上的导数进行加权组合而已,在这里挖个坑,为什么在这三个轴上的偏导,可以组合到任何一个方向上?n维是一样的道理可以学过线性代数(高等代数)或者解析几何的应该都知道)

    先给出三维的方向导数,再进行拓展到有限维。

Def 1: (数学分析书上定义)设三元函数$u=f(x,y,z)$在点$p_{0}=(x_0,y_0,z_0)$的某个邻域内有定义,$l$是一条从$p_{0}=(x_0,y_0,z_0)$出发的射线,$\vec{l}=(\cos\alpha,cos\beta,cos\gamma)$是射线$l$ 的单位方向向量。在$l$上任取一点$p=(x_0+\Delta x,y_0+\Delta y,z_0+\Delta z)$,令$\rho=\sqrt{(\Delta x)^2+(\Delta y)^2+(\Delta z)^2}$,则$\Delta x=\rho cos\alpha,\Delta y=\rho cos\beta,\Delta z=\rho cos\gamma$.若极限
$$ \displaystyle \lim_{\rho\to0^+} \frac{f(x_0+\rho cos\alpha,y_0+\rho cos\beta,z_0+\rho cos\gamma)-f(x_0,y_0,z_0)}{\rho} $$
存在,则称此极限为函数u在$p_0$处沿着射线$l$的方向导数,记为$\frac{\partial f}{\partial l}\rvert_{p_0}$或$f_l^{'}(x_0,y_0,z_0)$

  • (说人话版解释):这个定义和导数,偏导数定义都是类似的,导数的定义是$\displaystyle \lim_{\Delta x\to0} \frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$,因为导数是一维的,只有一个方向,所以不需要引入方向向量,而方向向量是有方向的,所以在分子上得加上长度在各个方向上的分解(这也意味着方向导数值是各个偏导数的分解再求和),再距离趋于0时,极限存在,则方向导数存在。
  • 极限取右侧趋于0,是因为距离是正的,不会从左侧趋于0

    数学里面就是喜欢在定义的时候给一个极限的形式,无论是导数,偏导数,方向导数,还是以后会学到的$Frechet$导数,都是一个这样的形式。反正我当时一看到这个定义是不知道方向导数是什么的,给你一个具体的函数,叫你按照定义去求,人都会傻掉,所以就有了下面这个定理,极其重要,它告诉了我们一个函数的方向导数是怎么求的。

Theorem 1:若函数$f(x,y,z)$在$p_{0}=(x,y,z)$可微,则函数$f(x,y,z)$在点$p$沿任意射线$l$的方向导数都存在,且$$f_l^{‘}(x,y,z)=f_x^{’}(x,y,z)\ cos\alpha+f_y^{‘}(x,y,z)\ cos\beta+f_z^{’}(x,y,z)\ cos\gamma $$ 其中$\cos \alpha$,$\cos \beta$,$\cos \gamma$是射线$l$的方向余弦

Proof:具体证明这里就不给出了,因为很简单。事实上,只要几步就能证完.讲讲思路,首先,利用函数在一点可微,把它的定义写出来,会发现这就是方向导数定义的分子,然后再除以模长,取个极限,就得到了结果,当然这里得注意一下,方向导数是右趋于0,可微定义里的是趋于0,但影响不大.

  • "所谓"的方向余弦就是那个射线方向的单位方向向量,只不过使用余弦表示而已,$\alpha$,$\beta$,$\gamma$是射线与各个坐标轴的夹角,从这个角度来看,偏导数乘以夹角余弦就是在往射线方向进行分解罢了。
  • 多元函数的可微是一个非常强的条件,我们在一元情况下的,可微与可导是等价的,但是在多元情况下,偏导数存在,多元函数连续,甚至于任意方向的方向导数存在都无法说明多元函数可微,可见可微是很强的,但我们在这里给出一个多元函数可微的充分条件,偏导数存在,且连续即可(具体证明可以查找数学分析书籍,都有的)。

    三维情形即三元函数的方向导数我们已经知道了定义以及求法,那n元函数的方向导数和求法是可以同样类比地得到,在这就只给出相应的结论.

Def 2: (数学分析书上定义)设点$p=(x_1,x_2\dots x_n)$,$p_{0}=(x_1^0,x_2^0\dots x_n^0)$,n元函数$u=f§$在$p_0$的某个邻域内有定义,$\vec{v}=(\cos \theta_1,\cos \theta_2\dots \cos \theta_n)$是一个单位向量,$cos \theta_i$是$v$的第$i$个方向余弦。若极限
$$ \displaystyle \lim_{\rho\to0^+} \frac{f(p_0+\rho v)-f(p_0)}{\rho} $$
存在,则称此极限为函数$u=f§$在$p_0$处沿着方向$v$的方向导数,记为$\frac{\partial f}{\partial v}\rvert_{p_0}$或$f_v^{'}(p_0)$.

Theorem 2:若$p_{0}=(x_1^0,x_2^0\dots x_n^0) \in R^n$,n元函数
$u$在$p_{0}$可微,则函数$f§$在点$p_0$沿单位向量$\vec{v}=(\cos \theta_1,\cos \theta_2\dots \cos \theta_n)$的方向导数都存在,且$$ \displaystyle f_v^{‘}(p_0)=\sum_{i=1}^n f_{x_i}^{’}(p_0)\ cos\theta_i$$

场的定义及分类

Def 3:物理学中,一些量在空间中的分布叫做场,场包括数量场和向量场。

    场的分类是看该在空间中分布的物理量是标量还是矢量,如果是标量,则该场叫做数量场,在数学上的形式是一个多元函数;而如果是矢量,则该场叫做向量场,在数学上的形式是向量值函数。例如,密度场,温度场都是数量场,密度和温度都是标量;而引力场,速度场,磁场是向量场,引力,速度,磁场线都是矢量,是有方向的

梯度的定义以及几何意义

Def 4: $设D\subset R^2为开集,(x_0,y_0) \in D 为一定点.如果函数z=f(x,y)在(x_0,y_0)点可偏导,则称向量(f_x(x_0,y_0),f_y(x_0,y_0))为f在点(x_0,y_0)的梯度,记为$grad$f(x_0,y_0)$,即$$ gradf(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j.
$$

    现在我们知道梯度是什么了,那么为什么下图中梯度的负方向是下山最快的方向呢?

  梯度从计算公式上来看就是一个多元函数分别对其自变量求偏导,组合在一起而形成的一个向量,故梯度实际上是一个向量场。
  我们回顾一下一个多元函数$u=f(x,y)$在点$p_0$的沿任意一个方向$v$的方向导数,且$|\vert v||=1$,即它的方向向量是单位方向向量,故有下式成立:
$$
\begin{equation}
\begin{split}
\frac{gradf}{\partial v}(x_0,y_0) &=f_x^{‘}(x_0,y_0)\cos \theta_1+f_y^{’}(x_0,y_0)\cos\theta_2 =gradf \bullet v \\
&=||grad f||||v||\cos(gradf,v) \\
&= ||gradf||\cos(gradf,v)
\end{split}
\nonumber
\end{equation}
$$
    由上式子可以看出,函数$f$在其任何一个可微点的方向导数的绝对值不会超过它在改点的梯度的模长,且最大值$||grad f||$在它的梯度方向达到。这就是说,沿着梯度方向函数值增加地最快,同样,$f$的方向导数的最小值$-||grad f||$ 在梯度的反方向达到,或者说,沿着梯度的相反方向函数值减少地最快。在梯度下降法中,就是时刻地选取函数的负梯度方向进行变化,使得函数尽快地达到最小值。(这点我们以后可以继续谈到)
  我们这里定义的只是一个二元函数,事实上,对于一个n元函数,该定义可以完全类推过去,也是求偏导,然后组合成一个向量(前提肯定也要所有的偏导数存在啦)

梯度的简单性质

    梯度的简单性质,在某种程度上来说,就是导数的性质的变种,它主要有以下4个性质:

  1. $若f\equiv c (c是一个常数)$,则$gradf=\vec{0}$;
  2. $\alpha,\beta为常数,则grad(\alpha f+\beta g)=\alpha gradf+\beta grad g $;
  3. $grad(f\bullet g)=f\bullet gradg+g \bullet gradf$;
  4. $\displaystyle grad\frac{f}{g}=\frac{g\bullet grad f-f\bullet grad g}{g^2}$

    当你把grad换成导数或者偏导也是完全成立的,因为梯度的定义就是用偏导来定义的(利用定义把它展开,然后再合并同类项整理一下就行)

下篇预告

  • 数学分析中常见的不等式及其证明(估计要写很久了)
        至于写这个的原因主要是我在学习凸优化的过程中,证明一个函数是否是凸函数时,出现了一个Maler Inequality,它的结论直接就能证明我所需要的结果,加上我们经常会遇到Cauchy-schwarz不等式的运用(欧几里得空间的定义),或者范数的定义中会遇到三角不等式(这个只是个说法,并不是一个真正的不等式)需要用Holder不等式,亦或者是高中就会的绝对值不等式(它具有非常广泛的应用),又或是泛函分析中证明一个距离是否成立需要用到的闵可夫斯基不等式(小声bb,博主在面试某华中985时就被问到过),它们真的是非常有用的,我以前也未能仔细总结,故借此机会总结一波(啊啊啊啊,下篇公式警告!!!)

参考资料

  1. 龚循华.数学分析讲义(下册).北京:科学出版社,2016.8
  2. 陈纪修.数学分析第三版(下册).北京:高等教育出版社,2019.5
  3. 图片来源于:https://blog.csdn.net/JaysonWong/article/details/119818497