Analiza matematyczna 2/Wykład 7: Różniczka. Różniczki wyższych rzędów. Wzór Taylora

From Studia Informatyczne

Spis treści

Różniczkowanie funkcji wielu zmiennych

Uogólniamy znane z Analizy matematycznej I pojęcie pochodnej na przypadek funkcji wielu zmiennych. Definiujemy pochodną funkcji o wartościach wektorowych oraz różniczkę zupełną w sensie Frecheta. Dowodzimy własności różniczki zupełnej i wyrażamy ją za pomocą pochodnych cząstkowych. Definiujemy także różniczki wyższych rzędów.

Pochodna funkcji jednej zmiennej o wartościach wektorowych

Wprowadzenie pojęcia pochodnej funkcji poprzedziliśmy przypomnieniem dwóch wielkości fizycznych: prędkości średniej i prędkości chwilowej w ruchu prostoliniowym. Zwróćmy uwagę na to, że w otaczającym nas świecie ruch po prostej jest rzadkością, gdyż większość obiektów, które obserwujemy, porusza się po drodze na płaszczyźnie dwuwymiarowej, bądź w przestrzeni trójwymiarowej. Wprowadźmy więc pojęcie pochodnej, które odpowiada m.in. potrzebie opisu ruchu w realnym świecie.

Niech \displaystyle f: (a,b)\ni t\mapsto f(t)\in Y będzie funkcją określoną na przedziale otwartym o wartościach w przestrzeni unormowanej \displaystyle Y. Możemy mieć na myśli na przykład przestrzeń unormowaną \displaystyle Y=\mathbb{R}^n, w której długość wektora \displaystyle y=(y_1, y_2, \dots, y_n) wyraża norma \displaystyle \|y\|=\sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2}.

Definicja 7.1.

Mówimy, że funkcja \displaystyle f: (a,b)\mapsto Y jest różniczkowalna w punkcie \displaystyle t_0\in (a,b), jeśli istnieje wektor \displaystyle y_0\in Y taki, że iloraz różnicowy \displaystyle \frac{1}{h}\big(f(t_0+h)-f(t_0)\big) zmierza do \displaystyle y_0 w normie przestrzeni \displaystyle Y, to znaczy

\displaystyle \bigg\|\frac{1}{h}\big(f(t_0+h)-f(t_0)\big)-y_0\bigg\|\to 0, \text{ gdy }h\to 0 .
Wektor \displaystyle y_0\in Y nazywamy pochodną funkcji \displaystyle f w punkcie \displaystyle t_0 i oznaczamy symbolem \displaystyle \frac{d}{dt}f(t_0) lub \displaystyle f'(t_0).
Uwaga 7.2.

W szczególnym przypadku, gdy \displaystyle Y=\mathbb{R}^n, funkcja

\displaystyle f:(a,b)\ni t \mapsto f(t)=\big(f_1 (t), f_2(t), \dots, f_n(t)\big)\in \mathbb{R}^n

jest zestawieniem \displaystyle n funkcji \displaystyle f_k : (a,b) \ni t\mapsto f_k(t)\in \mathbb{R} o wartościach liczbowych. Stąd istnienie pochodnej \displaystyle \frac{d}{dt}f(t_0) jest równoważne istnieniu pochodnych wszystkich składowych funkcji \displaystyle f w punkcie \displaystyle t_0. Wówczas też pochodna \displaystyle f jest zestawieniem pochodnych swoich składowych, tzn.

\displaystyle \frac{d}{dt}f(t_0)=\big(\frac{d}{dt}f_1(t_0), \frac{d}{dt}f_2(t_0), \dots, \frac{d}{dt}f_n(t_0)\big).

Przykład 7.3.

Rozważmy ruch punktu materialnego opisany równaniami:

\displaystyle \left\{\aligned x(t)=a\cos t\\ y(t)=b \sin t\endaligned \right . \ \ \ \ \text{ gdzie }a\geq b>0.
Jak łatwo zauważyć punkt porusza się po elipsie o równaniu
\displaystyle \frac{x^2}{a^2}+ \frac{y^2}{b^2}=1,

gdyż (na podstawie jedynki trygonometrycznej) mamy równość

\displaystyle \displaystyle \frac{x(t)^2}{a^2}+ \frac{y(t)^2}{b^2}=\cos^2 t+\sin^2 t=1.

Ruch ten jest okresowy, wystarczy więc ograniczyć zbiór wartości parametru \displaystyle t do przedziału \displaystyle [0, 2\pi]. Prędkość w tym ruchu jest wektorem o dwóch składowych

\displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-a \sin t, b\cos t).

Długość wektora prędkości \displaystyle v(t) jest pierwiastkiem z sumy kwadratów składowych tego wektora:

\displaystyle |v(t)|=\sqrt{a^2 \sin^2 t+b^2\cos^2 t}=\sqrt{(a^2-b^2) \sin^2 t+b^2}

i jest największa wówczas, gdy funkcja \displaystyle t\mapsto \sin^2 t przyjmuje wartość największą (równą jedności), a więc w przedziale \displaystyle 0\leq t\leq 2\pi w chwili \displaystyle t=\frac{\pi}{2} oraz \displaystyle t=\frac{3\pi}{2}, tj. w punktach \displaystyle (0,b) oraz \displaystyle (0, -b) elipsy. Z kolei prędkość \displaystyle |v(t)| jest najmniejsza wówczas, gdy funkcja \displaystyle t\mapsto \sin^2 t osiąga wartość najmniejszą (równą zeru). W przedziale \displaystyle 0\leq t\leq 2\pi zachodzi to w chwili \displaystyle t=0 oraz \displaystyle t=\pi, co odpowiada położeniu w punktach \displaystyle (a,0) oraz \displaystyle (-a,0). Rozwiązanie zadania jest intuicyjnie oczywiste: chcąc bezpiecznie pokonać ostrzejszy zakręt, musimy zwolnić. Na łagodnym łuku (na łuku o małej krzywiźnie) można przyśpieszyć.

Przykład 7.4.

Rozważmy ruch punktu materialnego opisany równaniami:

\displaystyle \left\{\aligned x(t)=\cos^3 t\\ y(t)= \sin^3 t\endaligned \right . .
Punkt ten porusza się po krzywej zwanej asteroidą o równaniu
\displaystyle |x|^\frac{2}{3}+|y|^\frac{2}{3}=1,

gdyż (na mocy jedynki trygonometrycznej) mamy równość \displaystyle \displaystyle |x(t)|^\frac{2}{3}+|y(t)|^\frac{2}{3}=\cos^2 t+\sin^2 t=1. Prędkość w tym ruchu jest wektorem o dwóch składowych

\displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-3\cos^2 t \sin t, 3\sin^2 t\cos t).

Długość wektora prędkości \displaystyle v(t) jest pierwiastkiem z sumy kwadratów jego składowych:

\displaystyle \aligned |v(t)|&=\sqrt{9\cos^4 t\sin^2 t+9\sin^4 \cos^2t}\\ &=\sqrt{9\cos^2 t\sin^2 t(\cos^2 t+\sin^2 t)}=3|\cos t\sin t|=\frac{3}{2}|\sin 2t|.\endaligned

Podobnie jak w poprzednim przykładzie ruch ten jest okresowy o okresie \displaystyle 2\pi, wystarczy więc zbadać go w przedziale \displaystyle 0\leq t\leq 2\pi. Zauważmy, że w opisanym ruchu prędkość jest największa wówczas, gdy \displaystyle t\mapsto |\sin 2t| przyjmuje największą wartość (równą jedności), co w przedziale \displaystyle 0\leq t\leq 2\pi ma miejsce w czterech chwilach: gdy \displaystyle t=\frac{\pi}{4}, \displaystyle t=\frac{3\pi}{4}, \displaystyle t=\frac{5\pi}{4}, \displaystyle t=\frac{7\pi}{4}. Punkt materialny znajduje się wówczas w jednym z punktów \displaystyle (a,a), \displaystyle (-a,a), \displaystyle (-a,-a), \displaystyle (a, -a), gdzie \displaystyle a=\frac{1}{2\sqrt{2}}, które -- jak nietrudno zauważyć -- leżą w środku łagodnego łuku asteroidy. Z kolei w chwili \displaystyle t=0, \displaystyle t=\frac{\pi}{2}, \displaystyle t={\pi}, \displaystyle t=\frac{3\pi}{2} funkcja \displaystyle t\mapsto |\sin 2t| osiąga wartość najmniejszą równą zeru. Punkt materialny znajduje się wówczas w jednym z ostrzy asteroidy: w punkcie \displaystyle (1,0), \displaystyle (0,1), \displaystyle (-1,0) lub \displaystyle (0, -1). Zerowa prędkość punktu w tych położeniach jest również intuicyjnie oczywista: chcąc gładko pokonać tak ostry zakręt, na którym wręcz trzeba zawrócić, należy się na chwilę

zatrzymać.

W ramach kursu Analizy matematycznej I określiliśmy pojęcie pochodnej w punkcie \displaystyle a funkcji \displaystyle f jednej zmiennej o wartościach rzeczywistych, a na początku tego wykładu rozszerzyliśmy pojęcie pochodnej na przypadek funkcji jednej zmiennej o wartościach w dowolnej przestrzeni wektorowej \displaystyle Y za pomocą granicy ilorazu różnicowego

\displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h},

którą (o ile istnieje) oznaczamy symbolem \displaystyle f'(x_0) lub \displaystyle \frac{d}{dt}f(x_0). Zwróćmy uwagę, że w przypadku, gdy funkcja \displaystyle f:\mathbb{R}\supset (a,b)\mapsto Y osiąga wartości w przestrzeni wektorowej \displaystyle Y, pochodna \displaystyle f'(x_0)\in Y jest wektorem.

Różniczka zupełna

Uwaga 7.5.

Funkcja \displaystyle f: (a,b)\mapsto Y o wartościach w przestrzeni unormowanej \displaystyle Y ma pochodną w punkcie \displaystyle x_0\in (a,b) wtedy i tylko wtedy, gdy istnieje wektor \displaystyle y_0\in Y taki, że

\displaystyle \|f(x_0+h)-f(x_0)-hy_0\|=o(|h|), czyli
\displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0.

Dowód 7.5.

Jeśli iloraz różnicowy
\displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h}
zmierza do \displaystyle f'(a)\in Y w normie przestrzeni \displaystyle Y, to
\displaystyle \left\|\frac{f(x_0+h)-f(x_0)}{h}-f'(x_0)\right\|\to 0, \text{ gdy } h\to 0,
czyli
\displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0,

gdy \displaystyle y_0=f'(x_0 ). Z kolei z istnienia wektora \displaystyle y_0\in Y takiego, że istnieje

\displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}= 0

wynika, że istnieje granica ilorazu różnicowego

\displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h},
i jest równa \displaystyle y_0, a więc \displaystyle f'(x_0)=y_0, gdyż ciąg zbieżny w przestrzeni unormowanej ma granicę określoną jednoznacznie. image:End_of_proof.gif
Zauważmy, że funkcja
\displaystyle \mathbb{R} \ni h\mapsto h y_0\in Y

jest liniowa. Spostrzeżenie to prowadzi do uogólnienia pojęcia pochodnej funkcji jednej zmiennej na przypadek funkcji określonej na przestrzeni unormowanej \displaystyle X o wartościach w przestrzeni unormowanej \displaystyle Y.

Niech \displaystyle X oraz \displaystyle Y będą przestrzeniami Banacha, tj. zupełnymi przestrzeniami unormowanymi z normami odpowiednio \displaystyle \|\cdot\|_X oraz \displaystyle \|\cdot\|_Y. Niech \displaystyle U będzie podzbiorem otwartym przestrzeni \displaystyle X.

Definicja 7.6.

Mówimy, że funkcja \displaystyle f: U\mapsto Y jest różniczkowalna w sensie Frecheta w punkcie \displaystyle a\in U (lub krótko: jest różniczkowalna w punkcie \displaystyle a), jeśli istnieje odwzorowanie \displaystyle L liniowe i ciągłe przestrzeni \displaystyle X w \displaystyle Y takie, że \displaystyle \|f(a+h)-f(a)-L(h)\|_{Y}=o(\|h\|_X), to znaczy

\displaystyle \frac{\|f(a+h)-f(a)-L(h)\|_{Y}}{\|h\|_X}\to 0, \text{ gdy }\to 0.

Odwzorowanie liniowe i ciągłe \displaystyle L nazywamy różniczką zupełną (lub różniczką (w sensie) Frecheta, bądź pochodną (w sensie) Frecheta) funkcji \displaystyle f w punkcie \displaystyle a i oznaczamy symbolem \displaystyle d_a f bądź \displaystyle f'(a). Wartość różniczki funkcji \displaystyle f w punkcie \displaystyle a na wektorze \displaystyle h\in X oznaczamy symbolem \displaystyle d_a f(h) lub \displaystyle d_a f.h albo też \displaystyle f'(a).h

Do tej pory studiując odwzorowania liniowe w ramach algebry liniowej z geometrią w przypadku skończenie wymiarowym, przywykliśmy do faktu, że

Uwaga 7.7.
Każde odwzorowanie liniowe \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m określone na przestrzeni o skończonym wymiarze jest ciągłe.

Może więc zastanawiać żądanie ciągłości odwzorowania liniowego \displaystyle L w definicji różniczki Frecheta. Zanim podamy przykład odwzorowania liniowego, które nie jest ciągłe, sformułujemy warunki równoważne ciągłości odwzorowania liniowego.

Uwaga 7.8.

Niech \displaystyle X,Y będą przestrzeniami unormowanymi. Niech \displaystyle L: X\mapsto Y będzie odwzorowaniem liniowym (tj. addytywnym i jednorodnym). Następujące warunki są równoważne

1) \displaystyle L jest ciągłe,

2) \displaystyle L jest ciągłe w zerze,

3) \displaystyle L jest ograniczone, tzn. \displaystyle \sup_{x\neq 0}\frac{\|L x\|}{\|x\|} <\infty.

Wobec tych uwag przykład odwzorowania liniowego, które nie jest ciągłe, musimy podać na przestrzeni unormowanej o nieskończonym wymiarze.

Przykład 7.9.

Zbiór \displaystyle X wszystkich funkcji ciągłych określonych na przedziale domkniętym \displaystyle [0,1] o wartościach w \displaystyle \mathbb{R} z normą

\displaystyle \|x\|=\sup \{|x(t)|, t\in [0,1]\}

stanowi przestrzeń Banacha, gdyż jest przestrzenią unormowaną z normą \displaystyle \|\cdot \| (co łatwo sprawdzić) i jest zupełna, ponieważ granica (w podanej normie) ciągu funkcji ciągłych jest funkcją ciągłą. Rozważmy odwzorowanie \displaystyle L: f\mapsto f', które funkcji ciągłej \displaystyle f i różniczkowalnej w \displaystyle X przyporządkowuje jej pochodną \displaystyle f'. Z własności pochodnej wynika, że odwzorowanie \displaystyle L jest

-- addytywne, tj. \displaystyle L(f_1+f_2)=Lf_1 +Lf_2, dla dowolnych funkcji różniczkowalnych \displaystyle f_1, \displaystyle f_2,

-- jednorodne, tj. \displaystyle L(\lambda f)=\lambda L(f), dla dowolnej funkcji różniczkowalnej \displaystyle f i stałej \displaystyle \lambda,

jest więc liniowe. Nie jest jednak ciągłe, gdyż nie jest ograniczone. Weźmy na przykład ciąg jednomianów \displaystyle x^n:

\displaystyle \forall n\in \mathbb{N} : \|x^n\|=1.

Jednomiany te mają normę ograniczoną z góry przez \displaystyle 1. Gdyby odwzorowanie \displaystyle L było ciągłe, normy \displaystyle L(x^n ) byłyby ograniczone,

lecz nie są gdyż
\displaystyle \|L(x^n)\|=\|nx^{n-1}\|=n\to\infty, \text{ gdy }n\to\infty.

Wynika stąd, że \displaystyle L: f\mapsto f' nie jest ograniczone. Nie jest więc ciągłe, mimo że jest liniowe.

Kolejne twierdzenie podaje podstawowe własności różniczki Frecheta.

Twierdzenie 7.10.

Niech \displaystyle X, Y będą przestrzeniami Banacha.

a) Odwzorowanie afiniczne
\displaystyle F: X\ni x\mapsto x_0 +\Lambda(x)\in Y, \ \text{ gdzie } \Lambda \in L(X,Y),

jest różniczkowalne w sensie Frecheta w dowolnym punkcie \displaystyle x\in X, a jego różniczką w każdym punkcie jest cześć liniowa odwzorowania afinicznego \displaystyle F, tzn.

\displaystyle \forall x\in X \ \exists d_x F=\Lambda.

W szczególności różniczka odwzorowania liniowego i ciągłego jest tym samym odwzorowaniem:

\displaystyle d_x \Lambda =\Lambda, \ \Lambda \in L(X, Y).
b) Zestawienie funkcji
\displaystyle F: X\ni x\mapsto F(x)=\big(f_1(x), f_2(x)\big)\in Y_1\times Y_2

jest różniczkowalne w punkcie \displaystyle a\in X wtedy i tylko wtedy, gdy różniczkowalne w punkcie \displaystyle a są składowe \displaystyle f_1: X\mapsto Y_1 oraz \displaystyle f_2: X\mapsto Y_2. Zachodzi wówczas równość

\displaystyle d_a F=(d_a f_1, d_a f_2).

Innymi słowy różniczka zestawienia funkcji jest zestawieniem różniczek składowych odwzorowania. W szczególnym przypadku, gdy

\displaystyle F: X\ni x\mapsto \big(f_1(x), f_2(x), \dots, f_n(x)\big)\in \mathbb{R}^n,

mamy równość

\displaystyle d_a F=(d_a f_1, d_a f_2, \dots, d_a f_n).

c) Suma funkcji różniczkowalnych \displaystyle f: X\mapsto Y, \displaystyle g:X\mapsto Y w punkcie \displaystyle a jest funkcją różniczkowalną. Różniczką sumy jest suma różniczek, tzn.

\displaystyle d_a(f+g)=d_a f+d_a g.

d) Iloczyn stałej \displaystyle C i funkcji różniczkowalnej \displaystyle f: X\mapsto Y w punkcie \displaystyle a\in X jest funkcją różniczkowalną w tym punkcie, przy czym

\displaystyle d_a (C\,f)=C \, d_a f.

Innymi słowy, stałą można wyłączyć przed różniczkę.

e) Jeśli funkcja \displaystyle f: X\mapsto Y jest różniczkowalna w sensie Frecheta w punkcie \displaystyle a, to w tym punkcie jest ciągła.

Dowód 7.10.

Podane własności różniczki wynikają bezpośrednio z definicji.

Szczegółowe uzasadnienia pomijamy. image:End_of_proof.gif

Kolejne twierdzenie dotyczy istnienia różniczki złożenia funkcji.

Twierdzenie 7.11.

Niech \displaystyle X, Y, Z będą przestrzeniami Banacha. Jeśli funkcja \displaystyle f: X\mapsto Y jest różniczkowalna w punkcie \displaystyle a, a funkcja \displaystyle g:Y\mapsto Y jest różniczkowalna w punkcie \displaystyle f(a), to złożenie \displaystyle g\circ f : X\mapsto Z jest różniczkowalne w punkcie \displaystyle a i zachodzi równość:
\displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f.
Innymi słowy, różniczka złożenia funkcji jest złożeniem ich różniczek.

Dowód 7.11.

Funkcja \displaystyle f jest różniczkowalna w punkcie \displaystyle a, a funkcja \displaystyle g -- w punkcie \displaystyle y=f(a), więc

\displaystyle \aligned &\|f(a+h)-f(a)-d_a f(h)\|_Y&=o(\|h\|_X)\\ &\|g(y+k)-g(y)-d_y g(k)\|_Z&=o(\|k\|_Y). \endaligned

Stąd wobec ograniczoności różniczek \displaystyle d_a f oraz \displaystyle d_y g dostajemy

\displaystyle \|g(f(a+h))-g(f(a))-(d_y g\circ d_a f)(h)\|_Z=o(\|h\|_X), \text{ gdzie }y=f(a),

co dowodzi różniczkowalności złożenia \displaystyle g\circ f w punkcie \displaystyle a oraz równości \displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f. Szczegółowe przekształcenia pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977).

image:End_of_proof.gif

Ważnym twierdzeniem w teorii różniczki Frecheta jest twierdzenie o różniczce odwzorowania odwrotnego.

Twierdzenie 7.12.

Niech \displaystyle f:X\supset U\ni x\mapsto f(x) \in Y będzie funkcją określoną na otwartym podzbiorze \displaystyle U przestrzeni Banacha \displaystyle X o wartościach w przestrzeni Banacha \displaystyle Y.

Jeśli w pewnym otoczeniu \displaystyle U_1 punktu \displaystyle a\in X funkcja \displaystyle f ma ciągłą różniczkę
\displaystyle U_1\ni x\mapsto d_x f\in L(X, Y)

oraz różniczka \displaystyle d_a f\in L(X,Y) jest izomorfizmem przestrzeni \displaystyle X i \displaystyle Y, to

1) w pewnym otoczeniu \displaystyle U_2\subset U_1 punktu \displaystyle a funkcja \displaystyle f: U_2\mapsto Y jest różnowartościowa;

2) funkcja odwrotna \displaystyle g: Y\supset f(U_2)\mapsto U_2\subset X do funkcji \displaystyle f (zacieśnionej do zbioru \displaystyle U_2) jest ciągła;

3) funkcja odwrotna \displaystyle g jest różniczkowalna w punkcie \displaystyle f(a) i zachodzi równość
\displaystyle d_{f(a)}g=(d_a f)^{-1}.

Innymi słowy, różniczka funkcji odwrotnej jest odwrotnością różniczki.

Dowód 7.12.

(szkic) Szczegóły dowodu (które pomijamy) można znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977. Zauważmy, że jeśli funkcja \displaystyle g jest odwrotna do \displaystyle f, to złożenie \displaystyle g(f(x))=x, dla każdego \displaystyle x\in X, tzn. \displaystyle  g\circ f: X \mapsto X jest identycznością na przestrzeni \displaystyle X. Ponieważ \displaystyle \mathrm{id}\,: X\mapsto X odwzorowaniem liniowym i ciągłym, więc jest różniczkowalne i jego różniczką jest \displaystyle \mathrm{id}\,. Stąd na mocy twierdzenia o różniczce złożenia mamy

\displaystyle d_{f(a)}g\circ d_a f = d_a (g\circ f)=d_a\mathrm{id}\, =\mathrm{id}\,.

Wobec założenia o izomorficzności \displaystyle d_a f\in L(X,Y) istnieje odwzorowanie odwrotne \displaystyle (d_a f)^{-1} \in L(Y,X), które

jest różniczką funkcji odwrotnej \displaystyle g w punkcie \displaystyle f(a), czyli \displaystyle d_{f(a)}g=(d_a f)^{-1}. image:End_of_proof.gif

Twierdzenie, które sformułowaliśmy, nazywa się twierdzeniem o lokalnej odwracalności odwzorowania lub twierdzeniem o lokalnym dyfeomorfizmie.

Wyrażenie różniczki Frecheta za pomocą pochodnych cząstkowych

W poprzednim module zdefiniowaliśmy pochodną kierunkową funkcji \displaystyle f:X\mapsto \mathbb{R} w punkcie \displaystyle a w kierunku \displaystyle v\neq 0. Możemy tę samą definicję powtórzyć również w przypadku funkcji \displaystyle f:X\mapsto Y, w przypadku, gdy zbiorem wartości funkcji \displaystyle f:X\mapsto Y, jest dowolna przestrzeń unormowana \displaystyle Y:

\displaystyle \partial_v f(a)=\lim_{t\to 0}\frac{f(a+tv)-f(a)}{t},

gdzie \displaystyle t\in \mathbb{R}, a zbieżność ilorazów różnicowych do granicy \displaystyle \partial_v f(a)\in Y przy \displaystyle t\to 0 rozumiemy w sensie zbieżności w normie przestrzeni \displaystyle Y.

Uwaga 7.13.

Niech \displaystyle v\in X będzie dowolnym wektorem jednostkowym z przestrzeni \displaystyle X, tzn. \displaystyle \|v\|=1. Jeśli funkcja \displaystyle f: X\mapsto Y jest różniczkowalna w sensie Frecheta w punkcie \displaystyle a, to istnieje pochodna kierunkowa \displaystyle \partial_v f(a) w dowolnym kierunku \displaystyle v,

przy czym zachodzi równość
\displaystyle \partial_v f(a)=d_a f(v) \text{ dla } \|v\|=1.
Ponadto funkcja \displaystyle v\mapsto \partial_v f(a) jest liniowa i ciągła.

Dowód 7.13.

Skoro
\displaystyle \displaystyle \frac{\|f(a+h)-f(a)-d_a f (h)\|}{\|h\|}\to 0, \text{ przy }\|h\|\to 0,
więc w szczególności dla \displaystyle h=tv mamy
\displaystyle \frac{\|f(a+tv)-f(a)-d_a f (tv)\|}{\|tv\|}\to 0.

Wobec liniowości różniczki \displaystyle d_a f(tv)=t d_a f(v) oraz faktu, że \displaystyle \|tv \|=|t|, mamy

\displaystyle \bigg\|\frac{f(a+tv)-f(a)}{t}-d_a f (v)\bigg\|\to 0,
czyli iloraz różnicowy \displaystyle \frac{f(a+tv)-f(a)}{t} zmierza przy \displaystyle t\to 0 do granicy \displaystyle d_a f(v), więc istnieje pochodna kierunkowa \displaystyle \partial_v f(a) i jest równa wartości różniczki zupełnej funkcji \displaystyle f w punkcie \displaystyle a na wektorze \displaystyle v. Stąd funkcja \displaystyle v\mapsto \partial_v f(a)=d_a f (v) jest liniowa i ciągła. image:End_of_proof.gif
Uwaga 7.14.

Niech \displaystyle f:X\mapsto Y będzie funkcją różniczkowalną w punkcie \displaystyle a\in X. Wówczas \displaystyle d_a f=0 wtedy i tylko wtedy, gdy zeruje się

pochodna kierunkowa \displaystyle \partial_v f(a)=0 w dowolnym kierunku.

Powstaje pytanie o istnienie różniczki Frecheta funkcji \displaystyle f: X\mapsto Y w punkcie, w którym istnieją pochodne kierunkowe w dowolnym kierunku. Negatywną odpowiedź na to pytanie podaje

Przykład 7.15.

Funkcja \displaystyle f(x,y)=\root{3}\of{x^3+y^3} ma w punkcie \displaystyle 0\in \mathbb{R}^2 pochodne kierunkowe \displaystyle \partial_v f(0) w dowolnym kierunku \displaystyle \|v\|=1, nie jest jednak różniczkowalna w sensie Frecheta w tym punkcie. Zauważmy, że dowolny wektor \displaystyle \|v\|=1 można na płaszczyźnie \displaystyle \mathbb{R}^2 jednoznacznie przedstawić w postaci \displaystyle v=(\cos\varphi, \sin\varphi), gdzie \displaystyle 0\leq \varphi <2\pi. Stąd \displaystyle \lim_{t\to 0}\frac{f(0+tv)-f(0)}{t}=\sqrt{\cos^3\varphi+\sin^3\varphi}.

Jednak funkcja \displaystyle v\mapsto \partial_v f(0) nie jest liniowa.

Przykład 7.16.

Funkcja
\displaystyle f(x,y)=\left\{\aligned \frac{x^2 y}{x^2+y^2}, \text{ dla } (x,y)\neq 0\\ 0, \text{ dla } (x,y)=0\endaligned \right.
ma w punkcie \displaystyle 0 pochodną kierunkową w każdym kierunku, nie ma jednak różniczki Frecheta w tym punkcie.

Z praktycznego punktu widzenia w zastosowaniach najważniejsza jest możliwość wyrażenia różniczki w sensie Frecheta za pomocą pochodnych cząstkowych.

Twierdzenie 7.17.

Niech \displaystyle f=(f_1, f_2, \dots, f_m):\mathbb{R}^n \supset U\mapsto \mathbb{R}^m będzie funkcją różniczkowalną w sensie Frecheta w punkcie \displaystyle a\in U. Istnieją wówczas pochodne cząstkowe

\displaystyle \aligned &\frac{\partial f_1}{\partial x_1}(a), &\frac{\partial f_1}{\partial x_2}(a), &\dots, &\frac{\partial f_1}{\partial x_n}(a)\\ &\frac{\partial f_2}{\partial x_1}(a), &\frac{\partial f_2}{\partial x_2}(a), &\dots, &\frac{\partial f_2}{\partial x_n}(a)\\ &\vdots &\vdots \quad &\dots &\vdots\\ &\frac{\partial f_m}{\partial x_1}(a), &\frac{\partial f_m}{\partial x_2}(a), &\dots, &\frac{\partial f_m}{\partial x_n}(a)\endaligned

i są one wyrazami macierzy odwzorowania liniowego \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}^m) w bazie kanonicznej, to znaczy, dla dowolnego wektora \displaystyle h\in \mathbb{R}^n wartość \displaystyle d_a f(h) odwzorowania \displaystyle d_a f na wektorze \displaystyle h jest wektorem z \displaystyle \mathbb{R}^m o współrzędnych

\displaystyle \bigg(\sum_{j=1}^n \frac{\partial f_1}{\partial x_j}(a) h_j, \sum_{j=1}^n \frac{\partial f_2}{\partial x_j}(a) h_j,\dots, \sum_{j=1}^n \frac{\partial f_m}{\partial x_j}(a) h_j\bigg).

Dowód 7.17.

Wykazaliśmy, że zachodzi równość \displaystyle \partial_v f(a)=d_a f (v). Ponieważ \displaystyle d_a f =(d_a f_1, d_a f_2, \dots, d_a f_m), więc wystarczy wykazać twierdzenie dla składowych odwzorowania \displaystyle f, tj. dla funkcji \displaystyle f_i: \mathbb{R}^n\mapsto \mathbb{R}. W dalszym ciągu dowodu będziemy pomijać indeks dolny \displaystyle i, zakładając, że \displaystyle f_i=f jest funkcją o wartościach w zbiorze liczb rzeczywistych. Dla dowolnego wektora \displaystyle e_i, \displaystyle i=1,2,\dots, n bazy kanonicznej przestrzeni \displaystyle \mathbb{R}^n mamy (z definicji pochodnej cząstkowej) równość \displaystyle \partial_{e_i} f(a)=\frac{\partial f}{\partial x_i}(a), więc dla dowolnego wektora \displaystyle h=h_1e_1+h_2e_2+\dots+h_ne_n mamy

\displaystyle \aligned d_a f(h)&=d_a f(h_1e_1+h_2e_2+\dots+h_ne_n)\\ &=h_1 d_a f(e_1)+h_2 d_a f(e_2)+\dots+h_n d_a f(e_n)\\ &=h_1\frac{\partial f}{\partial x_1}(a)+h_2\frac{\partial f}{\partial x_2}(a)+\dots+h_n\frac{\partial f}{\partial x_n}(a).\endaligned
image:End_of_proof.gif
Uwaga 7.18.

W ramach kursu algebry liniowej zwykliśmy zapisywać wektory \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n w postaci macierzy kolumnowej:

\displaystyle \left[\begin{array}{r} h_1\\h_2\\\vdots\\h_n\end{array} \right].

Jeśli w taki sam sposób zapiszemy również zestawienie różniczek funkcji \displaystyle f=(f_1, f_2, \dots, f_m):

\displaystyle \left[\begin{array}{r}  d_a f_1\\d_a f_2\\\vdots\\d_a f_m\end{array} \right],

to macierz pochodnych cząstkowych \displaystyle \frac{\partial f_i}{\partial x_j}(a), \displaystyle i=1,2,\dots, m, \displaystyle j=1,2,\dots, n, powinniśmy zapisać następująco:

\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right],

aby móc stosować algorytm mnożenia (składania) macierzy:

\displaystyle  \left[\begin{array}{r}  d_a f_1\\d_a f_2\\\vdots\\d_a f_m\end{array} \right]= \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right]\, \left[\begin{array}{r}  h_1\\h_2\\\vdots\\h_n\end{array} \right],

który w tym przypadku prowadzi do uzyskanego przez nas wzoru:

\displaystyle \aligned d_a f_i(h)&=\frac{\partial f_i}{\partial x_1}(a)h_1+\frac{\partial f_i}{\partial x_2}(a)h_2+\dots+\frac{\partial f_i}{\partial x_n}(a)h_n\\ &=\sum_{k=1}^n \frac{\partial f_i}{\partial x_k}(a)h_k, \endaligned

gdzie \displaystyle i=1,2,\dots, m.

Definicja 7.19.

Macierz \displaystyle \left[\frac{\partial f_i }{\partial x_j}(a)\right], \displaystyle i=1,2,\dots, m, \displaystyle j=1,2,\dots, n, tj. macierz

\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right],

nazywamy macierzą Jacobiego funkcji (odwzorowania) \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m w punkcie \displaystyle a\in\mathbb{R}^n. Zwróćmy uwagę, że macierz Jacobiego jest macierzą prostokątną o \displaystyle n kolumnach i \displaystyle m wierszach. W szczególnym przypadku, gdy \displaystyle n=m (tj: \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R}^n) możemy policzyć wyznacznik macierzy Jacobiego

\displaystyle \text{jac}_a f: =\det \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right],

który nazywamy jakobianem funkcji \displaystyle f w punkcie \displaystyle a i oznaczamy symbolami \displaystyle \text{jac}_a f, \displaystyle \text{jac} f(a), \displaystyle J_a f, \displaystyle |f'(a)|, \displaystyle |d_a f| lub \displaystyle \det d_a f.

Uwaga 7.20.

Autorzy podręczników używają wielu różnych (często niejednolitych) oznaczeń na oznaczenie macierzy Jacobiego i jakobianu. Pamiętajmy jednak, że jakobian jest liczbą równą wyznacznikowi macierzy Jacobiego, tj. macierzy

pochodnych cząstkowych funkcji \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^n.

Kolejny wniosek dotyczy wyrażenia różniczki złożenia dwóch funkcji. Jest bardzo często wykorzystywany w praktycznych obliczeniach

Wniosek 7.21.

Niech \displaystyle f=(f_1, f_2, \dots, f_m): \mathbb{R}^n\mapsto \mathbb{R}^m będzie funkcją różniczkowalną w punkcie \displaystyle a\in \mathbb{R}^n i niech \displaystyle g=(g_1, g_2, \dots, g_k) : \mathbb{R}^m\mapsto \mathbb{R}^k będzie funkcją różniczkowalną w punkcie \displaystyle f(a). Wiemy już, że istnieje różniczka złożenia \displaystyle g\circ f: \mathbb{R}^n\mapsto \mathbb{R}^k w punkcie \displaystyle a i jest złożeniem różniczek \displaystyle d_{f(a)}g oraz \displaystyle d_a f. Różniczkę \displaystyle d_a f reprezentuje macierz pochodnych cząstkowych:

\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right],

a różniczkę \displaystyle d_{f(a)}g macierz

\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b)\\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right],

gdzie \displaystyle b=f(a). Złożenie odwzorowań liniowych \displaystyle d_{f(a)}g\circ d_a f reprezentuje iloczyn podanych macierzy:

\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b)\\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right],


\displaystyle  \left[ \begin{array}{rrrr}  \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a)\\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a)\\ \displaystyle \dots & \dots & \dots & \dots\\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right],

Stąd pochodną cząstkową \displaystyle i-tej składowej złożenia \displaystyle g\circ f wyraża suma

\displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}(a)=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} (f(a))\cdot \frac{\partial f_r}{\partial x_j}(a).
Uwaga 7.22.

Otrzymany wzór na pochodne cząstkowe złożenia często zapisuje się bez wyszczególniania argumentów w postaci

\displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}=\sum_{r=1}^m \bigg(\frac{\partial g_i}{\partial y_r}\circ f\bigg)\cdot \frac{\partial f_r}{\partial x_j}.

Czasem też wzór ten upraszcza się (gdy nie ma obawy nieporozumienia)

\displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial f_r}{\partial x_j}.

lub jeszcze prościej

\displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial y_r}{\partial x_j},

gdzie przez \displaystyle y=(y_1, \dots, y_r, \dots, y_m) rozumie się zmienną niezależną (po której różniczkuje się funkcję \displaystyle g_i w pierwszym czynniku), a równocześnie \displaystyle (y_1, \dots, y_r, \dots, y_m)=f oznacza składowe funkcji \displaystyle f.

Uwaga 7.23.

W wielu klasycznych podręcznikach symbolem \displaystyle dx_i : \mathbb{R}^n \ni (x_1, x_2, \dots, x_i, \dots, x_n)\mapsto x_i\in \mathbb{R} oznacza się rzutowanie na \displaystyle i-tą współrzędną. Zwróćmy uwagę, że każde z rzutowań \displaystyle dx_1, dx_2, \dots, dx_n jest odwzorowaniem liniowym i ciągłym z \displaystyle \mathbb{R}^n do \displaystyle \mathbb{R}. Wobec tego zamiast przedstawiać

wartość różniczki na wektorze \displaystyle h=(h_1, h_2, \dots, h_n) za pomocą sumy
\displaystyle d_a f(h)=h_1\frac{\partial f(a)}{\partial x_1}+h_2\frac{\partial f(a)}{\partial x_2}+\dots+h_n\frac{\partial f(a)}{\partial x_n}

możemy zapisać bezargumentowo jako kombinację liniową rzutowań \displaystyle dx_i o współczynnikach liczbowych \displaystyle \frac{\partial f(a)}{\partial x_i}, czyli

\displaystyle d_a f=\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx_n.

Wówczas wartość różniczki \displaystyle d_a f na wektorze \displaystyle h=(h_1, h_2, \dots, h_n) wyraża się tym samym wzorem, co poprzednio:

\displaystyle \aligned d_a f(h) &=\bigg(\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx\bigg)(h)\\ &=\frac{\partial f(a)}{\partial x_1}dx_1(h)+\frac{\partial f(a)}{\partial x_2}dx_2(h) +\dots+\frac{\partial f(a)}{\partial x_n}dx_n(h)\\ &=\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n .\endaligned

Wniosek 7.24.

Jeśli \displaystyle f : \mathbb{R}^n \supset U\mapsto \mathbb{R} jest funkcją różniczkowalną w punkcie \displaystyle a\in U, to dla dowolnego wektora \displaystyle h\in \mathbb{R}^n wartość różniczki \displaystyle d_a f na wektorze \displaystyle h jest iloczynem skalarnym gradientu \displaystyle \mathrm{grad}\, f(a) funkcji \displaystyle f w punkcie \displaystyle a i wektora \displaystyle h, tj.

\displaystyle d_a f(h)=(\mathrm{grad}\, f(a) | h)=\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n,

gdzie \displaystyle (x | y)=x_1 y_1+x_2y_2+\dots+x_n y_n oznacza iloczyn skalarny wektorów \displaystyle x=(x_1, x_2, \dots, x_n) i \displaystyle y=(y_1, y_2, \dots, y_n) w

przestrzeni \displaystyle \mathbb{R}^n.

Ponieważ iloczyn skalarny wektorów \displaystyle x oraz \displaystyle y oznacza się także często za pomocą kropki: \displaystyle x.y albo \displaystyle x\cdot y, stąd wartość różniczki \displaystyle d_a f funkcji \displaystyle f w punkcie \displaystyle a na wektorze \displaystyle h oznacza się też czasem symbolem: \displaystyle d_a f.h zamiast \displaystyle d_a f(h).

Pamiętamy, że dla dowolnych wektorów \displaystyle x=(x_1, x_2, \dots, x_n) oraz \displaystyle y=(y_1, y_2, \dots, y_n) zachodzi nierówność Schwarza:

\displaystyle |(x|y)|\leq \|x\| \ \|y\|,

czyli

\displaystyle |x_1 y_1+x_2y_2+\dots+x_n y_n|\leq \sqrt{|x_1|^2+|x_2|^2+\dots+|x_n|^2} \ \sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2},

przy czym równość w tej nierówności zachodzi wówczas, gdy wektory \displaystyle x oraz \displaystyle y są liniowo zależne. Wnioskiem z nierówności Schwarza jest więc

Uwaga 7.25.
Niech \displaystyle \|v\|=1 będzie wektorem o jednostkowej długości w \displaystyle \mathbb{R}^n. Pochodna kierunkowa \displaystyle \partial_v f(a) osiąga największą wartość (co do wartości bezwzględnej) w kierunku wektora gradientu.

Dowód 7.25.

Skoro \displaystyle d_a f (v)=\partial_v f(a) oraz \displaystyle d_a f(v)=\sum_{k=1}^n \frac{\partial f(a)}{\partial x_k}v_k=(\mathrm{grad}\, f(a) | v), więc \displaystyle \partial_v f(a)=(\mathrm{grad}\, f(a) | v). Stąd na mocy nierówności Schwarza:

\displaystyle |\partial_v f(a)|=|(\mathrm{grad}\, f (a) |v )|\leq \|\mathrm{grad}\, f (a)\| \ \|v\|,
przy czym funkcja \displaystyle S^{n-1}\supset v\mapsto |\partial_v f (a)| osiąga wartość największą na sferze jednostkowej \displaystyle S^{n-1}=\{v\in \mathbb{R}^n: (v|v)=1\}, gdy wektor \displaystyle v jest równoległy do wektora gradientu \displaystyle \mathrm{grad}\, f(a). image:End_of_proof.gif

Powstaje naturalne pytanie o warunki, jakie powinny spełniać pochodne cząstkowe, aby istniała różniczka. Warunek taki podaje

Twierdzenie 7.26.

(twierdzenie o istnieniu różniczki) Niech \displaystyle f=(f_1, f_2, \dots, f_m ):\mathbb{R}^n\mapsto \mathbb{R}^m będzie funkcją określoną w pewnym

otwartym otoczeniu \displaystyle U\subset \mathbb{R}^n punktu \displaystyle \alpha. Jeśli pochodne cząstkowe \displaystyle \frac{\partial f_i}{\partial x_j}(\alpha) istnieją i są ciągłe w otoczeniu punktu \displaystyle \alpha, to istnieje różniczka \displaystyle d_\alpha f.

Dowód twierdzenia pomijamy (można go znaleźć np. na stronie 175. podręcznika Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

Interpretacja geometryczna różniczki

Pamiętamy, że jeśli funkcja jednej zmiennej \displaystyle f:\mathbb{R}\mapsto \mathbb{R} jest różniczkowalna w punkcie \displaystyle a, to jej wykres ma styczną w punkcie \displaystyle (a, f(a)) o równaniu \displaystyle y-f(a)=f'(a)(x-a). Innymi słowy pochodna funkcji jednej zmiennej jest współczynnikiem kierunkowym stycznej do wykresu funkcji w punkcie \displaystyle (a, f(a)).

Uwaga 7.27.

Jeśli \displaystyle f:\mathbb{R}^2\mapsto \mathbb{R} jest funkcją różniczkowalną w sensie Frecheta w punkcie \displaystyle (a,b)\in \mathbb{R}^2, to powierzchnia o równaniu \displaystyle z=f(x,y), która jest wykresem funkcji \displaystyle f, ma płaszczyznę styczną w punkcie \displaystyle (a,b, f(a,b)) o równaniu

\displaystyle z-f(a,b)=\frac{\partial f(a,b)}{\partial x}(x-a)+\frac{\partial f(a,b)}{\partial y}(y-b).

Przykład 7.28.

Płaszczyzna styczna do paraboloidy
\displaystyle P=\{(x,y,z)\in \mathbb{R}^3 : z=x^2+y^2\}

w punkcie \displaystyle (a,b, a^2+b^2)\in P ma równanie

\displaystyle z-(a^2+b^2) = 2(x-a)+2(y-b).

Różniczki wyższych rzędów

Stefan Banach (1892-1945) Zobacz biografię
Enlarge
Stefan Banach (1892-1945)
Zobacz biografię

Niech \displaystyle X, Y będą przestrzeniami Banacha i niech \displaystyle f: U\mapsto Y będzie funkcją określoną na zbiorze otwartym \displaystyle U\subset X. Załóżmy, że w każdym punkcie \displaystyle a\in U istnieje różniczka \displaystyle d_a f\in L(X,Y), która -- przypomnijmy -- jest odwzorowaniem liniowym i ciągłym z \displaystyle X do \displaystyle Y.

Definicja 7.29.

Mówimy, że funkcja \displaystyle f: U\mapsto Y jest dwukrotnie różniczkowalna w punkcie \displaystyle a, jeśli różniczkowalna jest w punkcie \displaystyle a funkcja \displaystyle d.  f: U\ni x\mapsto d_x f\in L(X, Y). Różniczkę funkcji \displaystyle d. f w punkcie \displaystyle a, która jest elementem przestrzeni \displaystyle L(X, L(X, Y)), nazywamy drugą różniczką funkcji \displaystyle f (lub różniczką rzędu drugiego funkcji \displaystyle f) w punkcie \displaystyle a i oznaczamy symbolem \displaystyle d_a ^2 f.

Uwaga 7.30.

W ramach algebry liniowej dowodzi się, że przestrzenie \displaystyle L(X, L(X,Y)) oraz \displaystyle L^2 (X,Y) (czyli przestrzeń odwzorowań dwuliniowych ciągłych na \displaystyle X o wartościach w \displaystyle Y) są izomorficzne. Stąd też często mówimy, że różniczka rzędu drugiego jest odwzorowaniem dwuliniowym ciągłym na \displaystyle X o wartościach w \displaystyle Y.

Podobnie jak w przypadku funkcji jednej zmiennej, nazwijmy różniczką rzędu zerowego funkcji \displaystyle f samą funkcję \displaystyle f, tzn. \displaystyle d^0 f=f. Ponadto, aby uprościć zapis i wypowiedzi twierdzeń, przyjmijmy, że \displaystyle L^0 (X,Y):=Y.

Załóżmy, że w każdym punkcie \displaystyle a\in U istnieje \displaystyle d^k _a f różniczka rzędu \displaystyle k funkcji \displaystyle f: U\mapsto Y, \displaystyle k\geq 0, która jest elementem przestrzeni \displaystyle L^k (X, Y) odwzorowań \displaystyle k liniowych ciągłych na \displaystyle X o wartościach w przestrzeni \displaystyle Y.

Definicja 7.31.

Mówimy, że funkcja \displaystyle f jest \displaystyle k+1 krotnie różniczkowalna w punkcie \displaystyle a\in U, jeśli w punkcie tym różniczkowalna jest funkcja \displaystyle d.^{k}f : U\ni x\mapsto d^{k}_x f\in L^k (X, Y). Różniczkę funkcji \displaystyle d.^k f w punkcie \displaystyle a, która jest elementem przestrzeni (izomorficznej w przestrzenią) \displaystyle L(X, L^k (X, Y)), będziemy oznaczać symbolem \displaystyle d^{k+1} _a f i będziemy nazywać różniczką rzędu \displaystyle k+1 funkcji \displaystyle f w punkcie \displaystyle a (lub krócej:

\displaystyle k+1 różniczką funkcji \displaystyle f w punkcie \displaystyle a).
Uwaga 7.32.
Dowodzi się, że także przestrzenie \displaystyle L(X, L^k (X, Y)) oraz \displaystyle L^{k+1} (X, Y) (czyli przestrzeń odwzorowań \displaystyle k+1 liniowych i ciągłych na \displaystyle X o wartościach w przestrzeni \displaystyle Y) są izomorficzne, więc często różniczkę rzędu \displaystyle k+1 funkcji \displaystyle f w punkcie \displaystyle a będziemy nazywać odwzorowaniem \displaystyle k+1 liniowym i ciągłym na \displaystyle X o wartościach w \displaystyle Y.

Pamiętamy, że jeśli \displaystyle X=\mathbb{R}^n i \displaystyle Y=\mathbb{R}, to wartość różniczki \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}) na wektorze \displaystyle h=(h_1, h_2, \dots, h_n)\in\mathbb{R}^n wyraża suma

\displaystyle d_a f(h)=\frac{\partial f(a)}{\partial x_1} h_1 + \frac{\partial f(a)}{\partial x_2} h_2+ \dots +\frac{\partial f(a)} {\partial x_n} h_n.

Sumę tę można także wyrazić bez argumentu \displaystyle h

\displaystyle d_a f=\frac{\partial f(a)}{\partial x_1} dx_1 + \frac{\partial f(a)}{\partial x_2} dx_2+ \dots +\frac{\partial f(a)} {\partial x_n} dx_n,
gdzie
\displaystyle dx_i :\mathbb{R}^n \ni h=(h_1, h_2, \dots, h_n)\mapsto dx_i (h)=h_i\in\mathbb{R}

jest rzutowaniem na \displaystyle i-tą współrzędną.

Podobnie jak w przypadku funkcji jednej zmiennej definiujemy funkcje klasy \displaystyle C^k.

Definicja 7.33.

Mówimy, że \displaystyle f: X\supset U\mapsto Y jest klasy \displaystyle C^k w zbiorze \displaystyle U (\displaystyle k=0,1,2,\dots), jeśli w każdym punkcie \displaystyle a\in U istnieje różniczka rzędu \displaystyle k funkcji \displaystyle f i odwzorowanie \displaystyle U\ni a\mapsto d^k _a f\in L^k (X,Y) jest ciągłe.

Wniosek 7.34.

Jeśli \displaystyle f jest klasy \displaystyle C^2 (U), to w każdym punkcie tego zbioru pochodne cząstkowe mieszane są równe, tzn. zachodzi równość

\displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a)= \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f(a)

dla dowolnych \displaystyle i, j\in\{1,2,\dots, n\} w dowolnym punkcie \displaystyle a\in U.

Innymi słowy: druga różniczka \displaystyle d^2 _a f jest odwzorowaniem dwuliniowym symetrycznym.

Załóżmy, że \displaystyle f\in C^m (U), gdzie \displaystyle U\subset \mathbb{R}^n jest podzbiorem otwartym przestrzeni skończenie wymiarowej \displaystyle \mathbb{R}^n. Wówczas różniczkę rzędu \displaystyle m można wyrazić efektywnie za pomocą pochodnych cząstkowych rzędu \displaystyle m.

Twierdzenie 7.35.

Jeśli \displaystyle f\in C^m (U), to w dowolnym punkcie \displaystyle a\in U wartość różniczki rzędu \displaystyle m na \displaystyle m-ce jednakowych wektorów \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n wyraża suma

\displaystyle d^m _a f\underbrace{(h,h, \dots, h)}_{m \text{ wektorów }h} =\sum_{|\alpha|=m} \binom{m}{\alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha,

gdzie sumowanie przebiega po wszystkich

możliwych wielowskaźnikach (\displaystyle n-wskaźnikach)
\displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n

o długości

\displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n= m,

natomiast

\displaystyle \binom{m}{\alpha}:=\frac{m!}{(m-|\alpha|)!\,\alpha!},

jest uogólnieniem symbolu Newtona, w którym silnię wielowskaźnika \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n) definiujemy za pomocą iloczynu silni jego współrzędnych, tj.

\displaystyle \alpha !=\alpha_1 !\, \alpha_2 ! \dots \alpha_n !

oraz

\displaystyle h^\alpha =h_1 ^{\alpha_1} \, h_2 ^{\alpha_2} \dots h_n ^{\alpha_n}.
Uwaga 7.36.
Wzór
\displaystyle d^m _a f(h, h, \dots, h) =\sum_{|\alpha|=m} \binom{m}{\alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha,

który podaliśmy w tezie twierdzenia czasem zapisuje się bez wyszczególniania argumentów w następującej postaci

\displaystyle d^m _a f =\sum_{|\alpha|=m} \binom{m}{\alpha} \frac{\partial ^m f(a)}{\partial x^\alpha} dx^\alpha
lub
\displaystyle d^m_. f =\sum_{|\alpha|=m} \binom{m}{\alpha} \frac{\partial ^m f}{\partial x^\alpha} dx^\alpha,

gdzie \displaystyle dx^\alpha : \mathbb{R}^n\mapsto \mathbb{R}

definiujemy na wektorze \displaystyle h\in \mathbb{R}^n wzorem
\displaystyle  dx^\alpha (h):=h^\alpha=h_1^{\alpha_1} h_2^{\alpha_2} \dots h_n^{\alpha_n} \in \mathbb{R}.

Dowód 7.36.

Wykażemy podany wzór w przypadku funkcji dwóch zmiennych, aby uprościć notację. W ogólnym przypadku uzasadnienie jest podobne. Jeśli \displaystyle f:\mathbb{R}^2 \supset U\ni (x_1, x_2)\mapsto f(x_1, x_2) jest różniczkowalna, to wartość jej różniczki w punkcie \displaystyle a\in U na

wektorze \displaystyle h=(h_1, h_2) wyraża suma
\displaystyle d_a f (h)=\frac{\partial }{\partial x_1} f(a) h_1+\frac{\partial }{\partial x_2} f(a)h_2.

Jeśli \displaystyle f jest dwukrotnie różniczkowalna, to

\displaystyle \aligned d^2 f & =d\bigg(\frac{\partial f}{\partial x_1}dx_1+ \frac{\partial f}{\partial x_2}dx_2\bigg) \\&=\frac{\partial }{\partial x_1} \bigg(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\bigg)dx_1 +\frac{\partial }{\partial x_2}\big(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\big)dx_2\\&= \frac{\partial ^2 f}{\partial x_1\partial x_1}dx_1dx_1+\frac{\partial ^2 f}{\partial x_2\partial x_1}dx_2dx_1+\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2\partial x_2}dx_2dx_2\\&= \frac{\partial ^2 f}{\partial x_1^2}dx_1^2+2\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2^2}dx_2^2\\&= \binom{2}{0}\frac{\partial ^2 f}{\partial x_1^2}dx_1^2+\binom{2}{1}\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\binom{2}{2}\frac{\partial ^2 f}{\partial x_2^2}dx_2^2\\&=\sum_{|\alpha|=2}\binom{2}{\alpha}\frac{\partial^\alpha f}{\partial x^\alpha}dx^\alpha,\endaligned

gdyż pochodne cząstkowe mieszane \displaystyle \frac{\partial ^2 f}{\partial x_1\partial x_2} oraz \displaystyle \frac{\partial ^2 f}{\partial x_2\partial x_1} są równe wobec założenia o klasie funkcji \displaystyle f. Następnie zakładając,

że wzór zachodzi dla różniczki rzędu \displaystyle 2\leq k<m, dowodzimy go dla różniczki rzędu \displaystyle k+1. Szczegółowe przekształcenia pomijamy. image:End_of_proof.gif