Taylorformel

6.4.7. Satz von Taylor für reellwertige Funktionen. Es sei $f\colon X\to \mathbb R$ eine $q+1$-mal stetig differenzierbare Funktion, $x\in X$ und $h\in E$ gegeben. Es gelte $\{x+th\mid t\in [0,1]\}\subset X$. Dann gilt $$f(x+h)=\sum_{k=0}^q\frac1{k!}\partial^k f(x)h^k+ \frac1{(q+1)!}\partial^{q+1}f(x+t_0h)h^{q+1}$$ für ein $t_0\in [0,1]$.

Die Hauptschwierigkeit in diesem Satz ist es, die Symbole richtig zu interpretieren. Die $k$-te Ableitung $\partial^k f(x)\in \mathcal L(E,\ldots,E;\mathbb R)$ ist eine $k$-lineare Abbildung des $k$-fachen Produkts $E\times\ldots\times E$ nach $\mathbb R$. Die Schreibweise $\partial^k f(x)h^k$ besagt, dass diese $k$-lineare Abbildung ausgewertet wird an dem Tupel $$(\underbrace{h,\ldots,h}_{k-\text{mal}}).$$ Anders ausgedrückt, wenden wir $k$-mal die Richtungsableitung $D_h$ in Richtung des Vektors $h$ an $$\partial^k f(x)h^k = \underbrace{D_h\ldots D_h}_{k-\text{mal}}f(x).$$

Beweis. Wir betrachten die Abbildung $\phi\colon [0,1]\to X, t\mapsto x+th$. Die Abbildung $g=f\circ \phi\colon [0,1]\to\mathbb R$ ist $(q+1)$-mal stetig differenzierbar. Anwendung der Kettenregel liefert $$g'(0)=\partial f(\phi(0))\cdot \phi'(0)=\partial f(x)h=D_vf(x).$$ Iteriert, erhält man $$g^{(k)}(0)= \underbrace{D_h\ldots D_h}_{k-\text{mal}}f(x)=\partial^k f(x)h^k.$$ Mit diesen Bemerkungen erweist sich der obige Satz 6.4.7 als eine simple Reformulierung des Satzes über die Taylorentwicklung 3.4.2. aus dem vergangenen Semester.
qed

Manchmal ist man nur an qualitativen Aussagen interessiert. Dann erweist sich die folgende Variante des Satzes von Taylor als hilfreich:

6.4.8. Korollar. Es sei $f\colon X\to \mathbb R$ eine $q$-mal stetig differenzierbare Funktion, $x\in X$ und $h\in E$ gegeben. Dann gilt $$f(x+h)=\sum_{k=0}^q\frac1{k!}\partial^kf(x)h^k+R_q(f,x;h)$$ mit $\lim_{\|h\|\to 0}\frac{R_q(f,x;h)}{\|h\|^q}=0.$

Beweis. Es ist $$R_q(f,x;h)= \frac1{(q)!}\left(\partial^{q}f(x+t_0h)-\partial^qf(x)\right)h^{q}.$$ Wegen der Stetigkeit der $q$-ten Ableitung gilt $$\lim_{\|h\|\to 0}\left\|\partial^{q}f(x+t_0h)-\partial^qf(x)\right\|=0.$$ qed

Als komprimierte Schreibweise hat sich folgende Konvention (das Landau-Symbol Klein-o) eingebürgert:

Definition. Es seien $E,F$ normierte Vektorräume, $U\subset E$ eine Umgebung der Null, sowie $R\colon U\to F$ eine Funktion. Man sagt, die Funktion $R$ verschwinde von Ordnung mindestens $f(h)$, und schreibt $$R(h)=o(f(h)),$$ wenn $f: U\to \mathbb R_{\gt 0}$ eine weitere Funktion ist, für welche gilt $$\lim_{\|h\|\to 0}\frac{\|R(h)\|}{f(h)}=0.$$

Mit dieser Konvention schreibt sich die Taylorformel aus 6.4.8 prägnant: $$f(x+h)=\sum_{k=0}^q\frac1{k!}\partial^kf(x)h^k+o(\|h\|^q).$$

Bemerkungen.

  1. Ist $F$ ein Banachraum, und $f\in \mathcal C^q(X,F)$, so gilt die gleiche Taylorformel $$f(x+h)=\sum_{k=0}^q\frac1{k!}\partial^kf(x)h^k+o(\|h\|^q).$$ Wir werden dies an dieser Stelle nicht beweisen.
  2. Ist $E=\mathbb R^n$, so können wir die Taylorsche Formel auch in Koordinaten schreiben. Es sei $\alpha=(\alpha_1,\ldots,\alpha_n)\in \mathbb N_0^n$ ein Multiindex der Länge $|\alpha|=\sum_{j=1}^n\alpha_j$ und $f\in \mathcal C^{|\alpha|}(X,\mathbb R)$. Dann schreiben wir kurz $$\partial^\alpha f:=\partial^{\alpha_1}_1\partial^{\alpha_2}_2\cdots\partial^{\alpha_n}_nf=
    \frac{\partial^{|\alpha|}f}{(\partial x^1)^{\alpha_1} (\partial x^2)^{\alpha_2}\cdots (\partial x^n)^{\alpha_n} },$$ mit der Konvention $\partial^0f=f$. Für einen Vektor $h=\sum_{j=1}^nh_je_j\in \mathbb R^n$ definieren wir $$h^\alpha:=\prod_{j=1}^nh_j^{\alpha_j}.$$ Außerdem definieren wir $$\alpha!:=\prod_{j=1}^n \alpha_j!.$$ Die Taylorsche Formel liest sich dann wie folgt: $$
    f(x+h)=\sum_{|\alpha|\le q}\frac{\partial^\alpha f(x)}{\alpha!}h^\alpha+\sum_{|\alpha|=q+1}\frac{\partial^\alpha f(x+t_0h)}{\alpha!}h^\alpha.
    $$ Zur Begründung betrachten wir den Term \begin{aligned}
    \partial^k f(x)h^k&
    = \partial^k f(x)\left(
    \sum_{j_1=1}^nh_{j_1}e_{j_1},\ldots,\sum_{j_k=1}^nh_{j_k}e_{j_k}
    \right) \\
    &= \sum_{j_1=1}^n\cdots\sum_{j_k=1}^n\partial^kf(x)\big(e_{j_1},\ldots,e_{j_k}\big)h_{j_1}\cdots h_{j_k}
    \end{aligned} für $k\le q$. Die Anzahl der $k$-Tupel von Zahlen $1\le j_i \le n$, bei denen jede der Zahlen in $\ell\in\{1,\ldots,n\}$ genau $\alpha_\ell$-mal vorkommt, ist gleich $$\frac{k!}{(\alpha_1)!(\alpha_2)!\cdots(\alpha_n)!}=\frac{k!}{\alpha!}.$$ Mit den obigen Konventionen für die höheren partiellen Ableitungen für alle derartigen Tupel gilt $$\partial^kf(x)\big(e_{j_1},\ldots,e_{j_k}\big)=\partial_1^{\alpha_1}\partial_2^{\alpha_2}\cdots \partial_n^{\alpha_n}f(x)=\partial^\alpha f(x).$$

Definition. Die Darstellungsmatrix der Bilinearform $\partial^2f(x):\mathbb R^n\times \mathbb R^n\to \mathbb R$ bezüglich der Standardvektoren des $\mathbb R^n$ heißt Hessesche Matrix $$H_f(x):=\left(\partial_j\partial_kf(x)\right)\in \mathbb R^{n\times n}_{sym}.$$

Die Taylorformel für $2$-mal stetig differenzierbare Funktionen auf dem $\mathbb R^n$ lässt sich also darstellen in der Form \begin{aligned}f(x+h)&=f(x)+ df(x)h+\frac12\partial^2f(x)h^2+R_2(f,x;h)\\
&= f(x)+ \langle \nabla f,h\rangle+\frac12 \langle H_fh,h\rangle +o(\|h\|^2).\end{aligned}

Definition. Es sei $H$ ein endlich dimensionaler reeller Hilbertraum. Eine symmetrische Bilinearform $b\in \mathcal L^2_{sym}(H,\mathbb R)$ heißt positiv oder negativ definit, bzw. positiv oder negativ semidefinit, wenn für alle $h\in H\setminus \{0\}$ gilt $$b(h,h)\gt 0\;\text{ oder }\; b(h,h)\lt 0, \quad\text{ bzw. }\quad b(h,h)\ge 0\;\text{ oder }\; b(h,h)\le 0.$$ Trifft keine dieser Bedingungen zu, so heißt $b$ indefinit.

Erinnnerung an Resultate der linearen Algebra.

  1. Zu einer symmetrischen Bilinearform ist durch die Vorschrift $$\langle Bh_1, h_2\rangle:=b(h_1,h_2 )\quad\text{für alle}\quad h_1,h_2\in H$$ ein eindeutig bestimmter Endomorphismus $B\in \mathcal L(H,H)$ assoziiert. Dieser ist selbst-adjungiert, d.h. es gilt $\langle Bh_1,h_2\rangle = \langle h_1,Bh_2\rangle$ für alle $h_1,h_2\in H$.
  2. Bezüglich einer beliebigen Basis von $H$ wird ein solcher selbst-adjungierter Endomorphismus durch eine symmetrische Matrix repräsentiert.
  3. Der Hilbertraum $H$ besitzt eine Orthonormalbasis von Eigenvektoren von $B$. Die zugehörigen Eigenwerte sind reell. Bezüglich einer solchen ONB von Eigenvektoren wird $B$ durch eine Diagonalmatrix $\mathrm{diag}(\lambda_1,\ldots,\lambda_n)$ beschrieben. Hier sind die $\lambda_j$ die Eigenwerte von $B$.
  4. Die Bilinearform ist genau dann positiv definit (bzw. semi-definit), wenn alle Eigenwerte positiv (bzw. nicht-negativ) sind.

6.4.9. Korollar. Es sei $X\subset \mathbb R^n$ eine offene Teilmenge, und $x_0\in X$ ein kritischer Punkt einer Funktion $f\in\mathcal C^2(X,\mathbb R)$. Dann gilt:

  1. Ist $\partial^2f(x_0)$ positiv definit, so hat $f$ in $x_0$ ein lokales Minimum.
  2. Ist $\partial^2f(x_0)$ negativ definit, so hat $f$ in $x_0$ ein lokales Maximum.
  3. Ist $\partial^2f(x_0)$ indefinit, so ist $x_0$ keine lokale Extremstelle von $f$.

Beweis.

  1. Ist $x_0$ ein kritischer Punkt von $f$, so gilt für $h\in \mathbb R^n$ nach der Taylorformel $$f(x_0+h)=f(x_0)+\frac12\partial^2 f(x_0)h^2+o(\|h\|^2).$$ Ist $\partial^2f(x_0)$ positiv definit, so gibt es ein $\alpha\gt 0$ mit $$\partial^2f(x_0)h^2\ge \alpha\|h\|^2, h\in \mathbb R^n.$$ Sei $\delta\gt 0$ derart gewählt, dass gilt $\|o(\|h\|^2)\|\le \frac{\alpha\|h\|^2}4$ für $\|h\|\lt \delta$, so erhalten wir die Abschätzung $$f(x_0+h)\ge f(x_0)+\frac{\alpha}2\|h\|^2-\frac{\alpha}4\|h\|^2=f(x_0)+\frac{\alpha}4\|h\|^2$$ für $\|h\|\lt\delta$. Also ist $x_0$ ein lokales Minimum von $f$.
  2. Folgt durch Anwenden von $i.$ auf die Funktion $-f$.
  3. Ist $\partial^2f(x_0)$ indefinit, so gibt es $v,w\in \mathbb R^n$ mit $$\alpha:=\partial^2f(x_0)v^2 \gt 0\quad\text{ und } \beta:= \partial^2f(x_0)w^2 \lt 0.$$ Außerdem finden wir ein $t\gt 0$, so dass die Strecken voon $x_0$ nach $x_0+tv$ und nach $x_0+tw$ jeweils ganz in $X$ liegen und außerdem gilt $$\frac{\alpha}2+\frac{o(\tau^2\|v\|^2)}{\tau^2\|v\|^2}\|v\|^2 \gt 0 \quad\text{ und } \frac{\beta}2+\frac{o(\tau^2\|w\|^2)}{\tau^2\|w\|^2}\|w\|^2 \lt 0$$ für alle $\tau$ mit $0\lt \tau\lt t$. Somit folgen $$f(x_0+\tau v)= f(x_0)+\tau^2\left(\frac{\alpha}2 +\frac{o(\tau^2\|v\|^2)}{\tau^2\|v\|^2}\|v\|^2\right) \gt f(x_0)$$ für alle $0\lt \tau\lt t$, sowie $$f(x_0+\tau w)= f(x_0)+\tau^2\left(\frac{\beta}2 +\frac{o(\tau^2\|w\|^2)}{\tau^2\|w\|^2}\|w\|^2\right) \lt f(x_0).$$

qed

Unterstützt von Drupal