Es sei $X$ offen in einem reellen Banachraum $E$, und $f\colon X\to\mathbb R$ sei in $x_0\in X$ differenzierbar. Dann nennt man die Ableitung $\partial f(x_0)$ auch Differential von $f$ in $x_0$, und man verwendet dafür die Notation $df(x_0)$. Das Differential $df(x_0)$ ist also eine stetige Linearform auf $E$. Ist $E$ tatsächlich ein Hilbertraum mit Skalarprodukt $\langle\,.\,,\,.\,\rangle\colon H\to \mathbb R$, so gibt es wegen des Rieszschen Darstellungssatzes 5.5.9 einen eindeutig bestimmten Vektor $y\in H$ mit $df(x_0)=\langle y,\,.\,\rangle\colon H\to\mathbb R$.
Definition. Das eindeutig festgelegte Element von $H$ mit $$df(x_0)h=\langle y,h\rangle \quad \text{ für alle } h\in H$$ heißt Gradient von $f$ und wird mit $\nabla f(x_0)$ oder $\mathrm{grad}\, f(x_0)$ bezeichnet.
Bemerkung.
- Ist $\nabla f(x_0)=0$, oder äquivalent $df(x_0)=0$, so nennt man $x_0$ einen kritischen Punkt für $f$. Ist $x_0$ kein kritischer Punkt, so zeigt der Beweis von 5.5.9., dass für den Vektor $n=\frac{\nabla f(x_0)}{\|\nabla f(x_0)\|}$ gilt $$df(x_0)n=\|\nabla f(x_0)\|=\max_{\|h\|=1}df(x_0)h.$$ Da $df(x_0)h$ die Richtungsableitung von $f$ in Richtung $h$ ist, zeigt $n$, und damit auch $\nabla f(x_0)$, in die Richtung des steilsten Anstiegs von $f$ im Punkte $x_0$. Außerdem steht $\nabla f(x_0)$ senkrecht auf dem Kern von $df(x_0)$, also senkrecht zu all den Richtungen, in welche die Richtungsableitungen von $f$ verschwinden. Im Spezialfall einer Funktion $f\colon \mathbb R^2\to \mathbb R$ beschreibt der Graph von $f$ eine Art Gebirgslandschaft, der durch die Karte $\mathbb R^2$ beschrieben wird. Der Gradient von $f$ liegt in der Karte und zeigt in die Richtung des särksten Anstieges von $f$ und steht senkrecht auf den Höhenlinien von $f$.
- Beim Umgang mit Gradienten ist Vorsicht geboten: In euklidischen Koordinaten, d.h. im $\mathbb R^n$ mit dem Standard-Skalarprodukt, berechnet sich der Gradient einer Funktion nach derselben Formel, wie auch die Ableitung von $f$, nämlich als Jacobimatrix. Bei Koordinatenwechsel oder bei Anwendung eines anderen Skalarproduktes verhält sich der Gradient jedoch anders als die Ableitung. Das Differential $df(x_0)$ ist eine Linearform auf $\mathbb R^m$, also ein Vektor in $(\mathbb R^n)^*$, der Gradient $\nabla f(x_0)$ dagegen ist ein Vektor im $\mathbb R^n$.
6.1.5. Proposition. Bezüglich des Standard-Skalarprodukts im $\mathbb R^n$ gilt $$\nabla f(x_0)=\left(\partial_1f(x_0),\ldots,\partial_nf(x_0)\right)\in \mathbb R^n.$$
Beweis. Es gilt $df(x_0)e_k=\partial_kf(x_0)$ für $k\le n$. Folglich gilt für $h=\sum h^ke_k$ die Formel $$\langle \nabla f(x_0), h\rangle = df(x_0)h=df(x_0)\left(\sum h^ke_k\right)=\sum\partial_kf(x_0)h^k=\left\langle \left(\partial_1f(x_0),\ldots,\partial_nf(x_0)\right),h\right\rangle.$$qed