Analiza matematyczna 2/Wykład 7: Różniczka. Różniczki wyższych rzędów. Wzór Taylora

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Różniczkowanie funkcji wielu zmiennych

Uogólniamy znane z analizy matematycznej I pojęcie pochodnej na przypadek funkcji wielu zmiennych. Definiujemy pochodną funkcji o wartościach wektorowych oraz różniczkę zupełną w sensie Frecheta. Dowodzimy własności różniczki zupełnej i wyrażamy ją za pomocą pochodnych cząstkowych. Definiujemy także różniczki wyższych rzędów.

Pochodna funkcji jednej zmiennej o wartościach wektorowych

Wprowadzenie pojęcia pochodnej funkcji poprzedziliśmy przypomnieniem dwóch wielkości fizycznych: prędkości średniej i prędkości chwilowej w ruchu prostoliniowym. Zwróćmy uwagę na to, że w otaczającym nas świecie ruch po prostej jest rzadkością, gdyż większość obiektów, które obserwujemy, porusza się po drodze na płaszczyźnie dwuwymiarowej, bądź w przestrzeni trójwymiarowej. Wprowadźmy więc pojęcie pochodnej, które odpowiada m.in. potrzebie opisu ruchu w realnym świecie.

Niech f:(a,b)tf(t)Y będzie funkcją określoną na przedziale otwartym o wartościach w przestrzeni unormowanej Y. Możemy mieć na myśli na przykład przestrzeń unormowaną Y=n, w której długość wektora y=(y1,y2,,yn) wyraża norma y=|y1|2+|y2|2++|yn|2.

Definicja 7.1.

Mówimy, że funkcja f:(a,b)Y jest różniczkowalna w punkcie t0(a,b), jeśli istnieje wektor y0Y taki, że iloraz różnicowy 1h(f(t0+h)f(t0)) zmierza do y0 w normie przestrzeni Y, to znaczy

1h(f(t0+h)f(t0))y00, gdy h0.

Wektor y0Y nazywamy pochodną funkcji f w punkcie t0 i oznaczamy

symbolem ddtf(t0) lub f(t0).
Uwaga 7.2.

W szczególnym przypadku, gdy Y=n, funkcja

f:(a,b)tf(t)=(f1(t),f2(t),,fn(t))n

jest zestawieniem n funkcji fk:(a,b)tfk(t) o wartościach liczbowych. Stąd istnienie pochodnej ddtf(t0) jest równoważne istnieniu pochodnych wszystkich składowych funkcji f w punkcie t0. Wówczas też pochodna f jest zestawieniem pochodnych swoich składowych, tzn.

ddtf(t0)=(ddtf1(t0),ddtf2(t0),,ddtfn(t0)).

Przykład 7.3.

Rozważmy ruch punktu materialnego opisany równaniami:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \left\{\aligned x(t)=a\cos t\\ y(t)=b \sin t\endaligned \right . \ \ \ \ \text{ gdzie }a\geq b>0.}

Jak łatwo zauważyć punkt

porusza się po elipsie o równaniu
x2a2+y2b2=1,

gdyż (na podstawie jedynki trygonometrycznej)

mamy równość
x(t)2a2+y(t)2b2=cos2t+sin2t=1.

Ruch ten jest okresowy, wystarczy więc ograniczyć zbiór wartości parametru t do przedziału [0,2π]. Prędkość w tym ruchu jest wektorem o dwóch składowych

v(t)=(ddtx(t),ddty(t))=(asint,bcost).

{ Rysunek, ANIMACJA am1w09.0100}

Długość wektora prędkości v(t) jest pierwiastkiem z sumy kwadratów składowych tego wektora:

|v(t)|=a2sin2t+b2cos2t=(a2b2)sin2t+b2

i jest największa wówczas, gdy funkcja tsin2t przyjmuje wartość największą (równą jedności), a więc w przedziale 0t2π w chwili t=π2 oraz t=3π2, tj. w punktach (0,b) oraz (0,b) elipsy. Z kolei prędkość |v(t)| jest najmniejsza wówczas, gdy funkcja tsin2t osiąga wartość najmniejszą (równą zeru). W przedziale 0t2π zachodzi to w chwili t=0 oraz t=π, co odpowiada położeniu w punktach (a,0) oraz (a,0). Rozwiązanie zadania jest intuicyjnie oczywiste: chcąc bezpiecznie pokonać ostrzejszy zakręt musimy zwolnić. Na łagodnym łuku (na łuku o małej krzywiźnie) można przyśpieszyć.

Przykład 7.4.

Rozważmy ruch punktu materialnego opisany równaniami:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \left\{\aligned x(t)=\cos^3 t\\ y(t)= \sin^3 t\endaligned \right . .}

Punkt ten porusza się po krzywej zwanej asteroidą o

równaniu
|x|23+|y|23=1,

gdyż (na mocy jedynki trygonometrycznej) mamy równość |x(t)|23+|y(t)|23=cos2t+sin2t=1. Prędkość w tym ruchu jest wektorem o dwóch składowych

v(t)=(ddtx(t),ddty(t))=(3cos2tsint,3sin2tcost).

Długość wektora prędkości v(t) jest pierwiastkiem z sumy kwadratów jego składowych:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned |v(t)|&=\sqrt{9\cos^4 t\sin^2 t+9\sin^4 \cos^2t}\\ &=\sqrt{9\cos^2 t\sin^2 t(\cos^2 t+\sin^2 t)}=3|\cos t\sin t|=\frac{3}{2}|\sin 2t|.\endaligned }

{ Rysunek, ANIMACJA am1w09.0120 }

Podobnie jak w poprzednim przykładzie ruch ten jest okresowy o okresie 2π, wystarczy więc zbadać go w przedziale 0t2π. Zauważmy, że w opisanym ruchu prędkość jest największa wówczas, gdy t|sin2t| przyjmuje największą wartość (równą jedności), co w przedziale 0t2π ma miejsce w czterech chwilach: gdy t=π4, t=3π4, t=5π4, t=7π4. Punkt materialny znajduje się wówczas w jednym z punktów (a,a), (a,a), (a,a), (a,a), gdzie a=122, które -- jak nietrudno zauważyć -- leżą w środku łagodnego łuku asteroidy. Z kolei w chwili t=0, t=π2, t=π, t=3π2 funkcja t|sin2t| osiąga wartość najmniejszą równą zeru. Punkt materialny znajduje się wówczas w jednym z ostrzy asteroidy: w punkcie (1,0), (0,1), (1,0) lub (0,1). Zerowa prędkość punktu w tych położeniach jest również intuicyjnie oczywista: chcąc gładko pokonać tak ostry zakręt, na którym wręcz trzeba zawrócić, należy się na chwilę

zatrzymać.

W ramach kursu analizy matematycznej I określiliśmy pojęcie pochodnej w punkcie a funkcji f jednej zmiennej o wartościach rzeczywistych, a na początku tego wykładu rozszerzyliśmy pojęcie pochodnej na przypadek funkcji jednej zmiennej o wartościach w dowolnej przestrzeni wektorowej Y za pomocą granicy ilorazu różnicowego

limh0f(x0+h)f(x0)h,

którą (o ile istnieje) oznaczamy symbolem f(x0) lub ddtf(x0). Zwróćmy uwagę, że w przypadku, gdy funkcja f:(a,b)Y osiąga wartości w przestrzeni wektorowej Y, pochodna f(x0)Y jest wektorem.

Różniczka zupełna

Uwaga 7.5.

Funkcja f:(a,b)Y o wartościach w przestrzeni unormowanej Y ma pochodną w punkcie x0(a,b) wtedy i tylko wtedy, gdy istnieje wektor y0Y taki, że

f(x0+h)f(x0)hy0=o(|h|), czyli
limh0f(x0+h)f(x0)hy0Y|h|=0.

Dowód 7.6.

Jeśli iloraz różnicowy
limh0f(x0+h)f(x0)h

zmierza do f(a)Y w normie

przestrzeni Y, to
f(x0+h)f(x0)hf(x0)0, gdy h0,
czyli
limh0f(x0+h)f(x0)hy0Y|h|=0,

gdy y0=f(x0). Z kolei z istnienia wektora y0Y takiego, że istnieje

limh0f(x0+h)f(x0)hy0Y|h|=0

wynika, że istnieje granica ilorazu różnicowego

limh0f(x0+h)f(x0)h

i jest równa y0, a więc f(x0)=y0, gdyż ciąg zbieżny w przestrzeni unormowanej ma

granicę określoną jednoznacznie.

Zauważmy, że funkcja

hhy0Y

jest liniowa. Spostrzeżenie to prowadzi do uogólnienia pojęcia pochodnej funkcji jednej zmiennej na przypadek funkcji określonej na przestrzeni unormowanej X o wartościach w przestrzeni unormowanej Y.

Niech X oraz Y będą przestrzeniami Banacha, tj. zupełnymi przestrzeniami unormowanymi z normami odpowiednio X oraz Y. Niech U będzie podzbiorem otwartym przestrzeni X.

Definicja 7.7.

Mówimy, że funkcja f:UY jest różniczkowalna w sensie Frecheta w punkcie aU (lub krótko: jest różniczkowalna w punkcie a), jeśli istnieje odwzorowanie L liniowe i ciągłe przestrzeni X w Y takie, że f(a+h)f(a)L(h)Y=o(hX), to znaczy

f(a+h)f(a)L(h)YhX0, gdy 0.

Odwzorowanie liniowe i ciągłe L nazywamy różniczką zupełną (lub różniczką (w sensie) Frecheta, bądź pochodną (w sensie) Frecheta) funkcji f w punkcie a i oznaczamy symbolem daf bądź f(a). Wartość różniczki funkcji f w punkcie a na wektorze hX oznaczamy symbolem daf(h) lub daf.h, albo też f(a).h

Do tej pory studiując odwzorowania liniowe w ramach algebry liniowej z geometrią w przypadku skończenie wymiarowym przywykliśmy do faktu, że

Uwaga 7.8.

Każde odwzorowanie liniowe f:nm określone

na przestrzeni o skończonym wymiarze jest ciągłe.

Może więc zastanawiać żądanie ciągłości odwzorowania liniowego L w definicji różniczki Frecheta. Zanim podamy przykład odwzorowania liniowego, które nie jest ciągłe, sformułujemy warunki równoważne ciągłości odwzorowania liniowego.

Uwaga 7.9.

Niech X,Y będą przestrzeniami unormowanymi. Niech L:XY będzie odwzorowaniem liniowym (tj. addytywnym i jednorodnym). Następujące warunki są równoważne

1) L jest ciągłe

2) L jest ciągłe w zerze

3) L jest ograniczone, tzn. supx0Lxx<.

Wobec tych uwag przykład odwzorowania liniowego, które nie jest ciągłe, musimy podać na przestrzeni unormowanej o nieskończonym wymiarze.

Przykład 7.10.

Zbiór X wszystkich funkcji ciągłych określonych na przedziale domkniętym [0,1] o wartościach w z normą

x=sup{|x(t)|,t[0,1]}

stanowi przestrzeń Banacha, gdyż jest przestrzenią unormowaną z normą (co łatwo sprawdzić) i jest zupełna, ponieważ granica (w podanej normie) ciągu funkcji ciągłych jest funkcją ciągłą. Rozważmy odwzorowanie L:ff, które funkcji ciągłej f i różniczkowalnej w X przyporządkowuje jej pochodną f. Z własności pochodnej wynika, że odwzorowanie L jest

-- addytywne, tj. L(f1+f2)=Lf1+Lf2, dla dowolnych funkcji różniczkowalnych f1, f2,

-- jednorodne, tj. L(λf)=λL(f), dla dowolnej funkcji różniczkowalnej f i stałej λ,

jest więc liniowe. Nie jest jednak ciągłe, gdyż nie jest ograniczone. Weźmy na przykład ciąg jednomianów xn:

n:xn=1.

Jednomiany te mają normę ograniczoną z góry przez 1. Gdyby odwzorowanie L było ciągłe, normy L(xn) byłyby ograniczone,

lecz nie są gdyż
Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle \|L(x^n)\|=\|nx^{n-1}\|=n\to\infty, \text{ gdy }n\to\infty.}

Wynika stąd, że L:ff nie jest ograniczone. Nie jest więc ciągłe, mimo że jest liniowe.

Kolejne twierdzenie podaje podstawowe własności różniczki Frecheta.

Twierdzenie 7.11.

Niech X,Y będą przestrzeniami Banacha.

a) Odwzorowanie afiniczne
F:Xxx0+Λ(x)Y,  gdzie ΛL(X,Y),

jest różniczkowalne w sensie Frecheta w dowolnym punkcie xX, a jego różniczką w każdym punkcie jest cześć liniowa odwzorowania afinicznego F, tzn.

xX dxF=Λ.

W szczególności różniczka odwzorowania liniowego i ciągłego jest tym samym odwzorowaniem:

dxΛ=Λ, ΛL(X,Y).
b) Zestawienie funkcji
F:XxF(x)=(f1(x),f2(x))Y1×Y2

jest różniczkowalne w punkcie aX wtedy i tylko wtedy, gdy różniczkowalne w punkcie a są składowe f1:XY1 oraz f2:XY2. Zachodzi wówczas równość

daF=(daf1,daf2).

Innymi słowy różniczka zestawienia funkcji jest zestawieniem różniczek składowych odwzorowania. W szczególnym przypadku, gdy

F:Xx(f1(x),f2(x),,fn(x))n

mamy równość

daF=(daf1,daf2,,dafn).

c) Suma funkcji różniczkowalnych f:XY, g:XY w punkcie a jest funkcją różniczkowalną. Różniczką sumy jest suma różniczek, tzn.

da(f+g)=daf+dag.

d) Iloczyn stałej C i funkcji różniczkowalnej f:XY w punkcie aX jest funkcją różniczkowalną w tym punkcie, przy czym

da(Cf)=Cdaf.

Innymi słowy, stałą można wyłączyć przed różniczkę.

e) Jeśli funkcja f:XY jest różniczkowalna w sensie Frecheta w punkcie a, to w tym punkcie jest ciągła.

Dowód twierdzenia 7.11.

Podane własności różniczki wynikają bezpośrednio z definicji.

Szczegółowe uzasadnienia pomijamy.

Kolejne twierdzenie dotyczy istnienia różniczki złożenia funkcji.

Twierdzenie 7.12.

Niech X,Y,Z będą przestrzeniami Banacha. Jeśli funkcja f:XY jest różniczkowalna w punkcie a, a funkcja g:YY jest różniczkowalna w punkcie f(a), to złożenie gf:XZ jest różniczkowalne w punkcie a i

zachodzi równość:
da(gf)=df(a)gdaf.

Innymi słowy, różniczka złożenia funkcji jest złożeniem ich

różniczek.

Dowód twierdzenia 7.12.

Funkcja f jest różniczkowalna w punkcie a, a funkcja g -- w punkcie y=f(a), więc

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned &\|f(a+h)-f(a)-d_a f(h)\|_Y&=o(\|h\|_X)\\ &\|g(y+k)-g(y)-d_y g(k)\|_Z&=o(\|k\|_Y). \endaligned }

Stąd wobec ograniczoności różniczek daf oraz dyg dostajemy

Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle \|g(f(a+h))-g(f(a))-(d_y g\circ d_a f)(h)\|_Z=o(\|h\|_X), \text{ gdzie }y=f(a),}

co dowodzi różniczkowalności złożenia gf w punkcie a oraz równości da(gf)=df(a)gdaf. Szczegółowe przekształcenia pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977).

Ważnym twierdzeniem w teorii różniczki Frecheta jest twierdzenie o różniczce odwzorowania odwrotnego.

Twierdzenie 7.13.

Niech f:XUxf(x)Y będzie funkcją określoną na otwartym podzbiorze U przestrzeni Banacha X o wartościach w przestrzeni Banacha Y. Jeśli w pewnym otoczeniu

U1 punktu aX funkcja f ma ciągłą różniczkę
U1xdxfL(X,Y)

oraz różniczka dafL(X,Y) jest izomorfizmem przestrzeni X i Y, to

1) w pewnym otoczeniu U2U1 punktu a funkcja f:U2Y jest różnowartościowa;

2) funkcja odwrotna g:Yf(U2)U2X do funkcji f (zacieśnionej do zbioru U2) jest ciągła;

3) funkcja odwrotna g jest różniczkowalna w punkcie f(a) i

zachodzi równość
df(a)g=(daf)1.

Innymi słowy, różniczka funkcji odwrotnej jest odwrotnością różniczki.

Dowód twierdzenia 7.13.

(szkic) Szczegóły dowodu (które pomijamy) można znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977. Zauważmy, że jeśli funkcja g jest odwrotna do f, to złożenie g(f(x))=x, dla każdego xX, tzn. gf:XX jest identycznością na przestrzeni X. Ponieważ id:XX odwzorowaniem liniowym i ciągłym, więc jest różniczkowalne i jego różniczką jest id. Stąd na mocy twierdzenia o różniczce

złożenia mamy
df(a)gdaf=da(gf)=daid=id.

Wobec założenia o izomorficzności dafL(X,Y) istnieje odwzorowanie odwrotne (daf)1L(Y,X), które jest różniczką funkcji odwrotnej g w punkcie f(a), czyli

df(a)g=(daf)1.

Twierdzenie, które sformułowaliśmy, nazywa się twierdzeniem o lokalnej odwracalności odwzorowania lub twierdzeniem o lokalnym dyfeomorfizmie.

Wyrażenie różniczki Frecheta za pomocą pochodnych cząstkowych

W poprzednim module zdefiniowaliśmy pochodną kierunkową funkcji f:X w punkcie a w kierunku v0. Możemy tę samą definicję powtórzyć również w przypadku funkcji f:XY, w przypadku, gdy zbiorem wartości funkcji f:XY, jest dowolna przestrzeń unormowana Y:

vf(a)=limt0f(a+tv)f(a)t,

gdzie t, a zbieżność ilorazów różnicowych do granicy vf(a)Y przy t0 rozumiemy w sensie zbieżności w normie przestrzeni Y.

Uwaga 7.14.

Niech vX będzie dowolnym wektorem jednostkowym z przestrzeni X, tzn. v=1. Jeśli funkcja f:XY jest różniczkowalna w sensie Frecheta w punkcie a, to istnieje pochodna kierunkowa vf(a) w dowolnym kierunku v,

przy czym zachodzi równość
vf(a)=daf(v) dla v=1.

Ponadto funkcja vvf(a) jest

liniowa i ciągła.

Dowód uwagi 7.14.

Skoro
f(a+h)f(a)daf(h)h0, przy h0,

więc w

szczególności dla h=tv mamy
f(a+tv)f(a)daf(tv)tv0.

Wobec liniowości różniczki daf(tv)=tdaf(v) oraz faktu, że tv=|t|, mamy

f(a+tv)f(a)tdaf(v)0,

czyli iloraz różnicowy f(a+tv)f(a)t zmierza przy t0 do granicy daf(v), więc istnieje pochodna kierunkowa vf(a) i jest równa wartości różniczki zupełnej funkcji f w

punkcie a na wektorze v. Stąd funkcja vvf(a)=daf(v) jest liniowa i ciągła.
Uwaga 7.15.

Niech f:XY będzie funkcją różniczkowalną w punkcie aX. Wówczas daf=0 wtedy i tylko wtedy, gdy zeruje się

pochodna kierunkowa vf(a)=0 w dowolnym kierunku.

Powstaje pytanie o istnienie różniczki Frecheta funkcji f:XY w punkcie, w którym istnieją pochodne kierunkowe w dowolnym kierunku. Negatywną odpowiedź na to pytanie podaje

Przykład 7.16.

Funkcja Parser nie mógł rozpoznać (nieznana funkcja „\root”): {\displaystyle \displaystyle f(x,y)=\root{3}\of{x^3+y^3}} ma w punkcie 02 pochodne kierunkowe vf(0) w dowolnym kierunku v=1, nie jest jednak różniczkowalna w sensie Frecheta w tym punkcie. Zauważmy, że dowolny wektor v=1 można na płaszczyźnie 2 jednoznacznie przedstawić w postaci v=(cosφ,sinφ), gdzie 0φ<2π. Stąd limt0f(0+tv)f(0)t=cos3φ+sin3φ.

Jednak funkcja vvf(0) nie jest liniowa.

Przykład 7.17.

Funkcja
Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle f(x,y)=\left\{\aligned \frac{x^2 y}{x^2+y^2}, \text{ dla } (x,y)\neq 0\\ 0, \text{ dla } (x,y)=0\endaligned \right.}

ma w punkcie 0 pochodną kierunkową w każdym kierunku,

nie ma jednak różniczki Frecheta w tym punkcie.

Z praktycznego punktu widzenia w zastosowaniach najważniejsza jest możliwość wyrażenia różniczki w sensie Frecheta za pomocą pochodnych cząstkowych.

Twierdzenie 7.18.

Niech f=(f1,f2,,fm):nUm będzie funkcją różniczkowalną w sensie Frecheta w punkcie aU. Istnieją wówczas pochodne cząstkowe

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned &\frac{\partial f_1}{\partial x_1}(a), &\frac{\partial f_1}{\partial x_2}(a), &\dots, &\frac{\partial f_1}{\partial x_n}(a)\\ &\frac{\partial f_2}{\partial x_1}(a), &\frac{\partial f_2}{\partial x_2}(a), &\dots, &\frac{\partial f_2}{\partial x_n}(a)\\ &\vdots &\vdots &\dots &\vdots\\ &\frac{\partial f_m}{\partial x_1}(a), &\frac{\partial f_m}{\partial x_2}(a), &\dots, &\frac{\partial f_m}{\partial x_n}(a)\endaligned}

i są one wyrazami macierzy odwzorowania liniowego dafL(n,m) w bazie kanonicznej, to znaczy, dla dowolnego wektora hn wartość daf(h) odwzorowania daf na wektorze h jest wektorem z m o współrzędnych

(j=1nf1xj(a)hj,j=1nf2xj(a)hj,,j=1nfmxj(a)hj).

Dowód twierdzenia 7.18.

Wykazaliśmy, że zachodzi równość vf(a)=daf(v). Ponieważ daf=(daf1,daf2,,dafm), więc wystarczy wykazać twierdzenie dla składowych odwzorowania f, tj. dla funkcji fi:n. W dalszym ciągu dowodu będziemy pomijać indeks dolny i, zakładając, że fi=f jest funkcją o wartościach w zbiorze liczb rzeczywistych. Dla dowolnego wektora ei, i=1,2,,n bazy kanonicznej przestrzeni n mamy (z definicji pochodnej cząstkowej) równość eif(a)=fxi(a), więc dla dowolnego wektora h=h1e1+h2e2++hnen mamy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned d_a f(h)&=d_a f(h_1e_1+h_2e_2+\dots+h_ne_n)\\ &=h_1 d_a f(e_1)+h_2 d_a f(e_2)+\dots+h_n d_a f(e_n)\\ &=h_1\frac{\partial f}{\partial x_1}(a)+h_2\frac{\partial f}{\partial x_2}(a)+\dots+h_n\frac{\partial f}{\partial x_n}(a).\endaligned }
Uwaga 7.19.

W ramach kursu algebry liniowej zwykliśmy zapisywać wektory h=(h1,h2,,hn)n w postaci macierzy kolumnowej:

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[\beginmatrix h_1\\h_2\\\vdots\\h_n\endmatrix \right].}

Jeśli w taki sam sposób zapiszemy również zestawienie różniczek funkcji f=(f1,f2,,fm):

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[\beginmatrix d_a f_1\\d_a f_2\\\vdots\\d_a f_m\endmatrix \right],}

to macierz pochodnych cząstkowych fixj(a), i=1,2,,m, j=1,2,,n, powinniśmy zapisać następująco:

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[ \beginmatrix \frac{\partial f_1}{\partial x_1}(a) & \frac{\partial f_1}{\partial x_2}(a) & \dots & \frac{\partial f_1}{\partial x_n}(a)\\ \frac{\partial f_2}{\partial x_1}(a) & \frac{\partial f_2}{\partial x_2}(a) & \dots & \frac{\partial f_2}{\partial x_n}(a)\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m}{\partial x_1}(a) & \frac{\partial f_m}{\partial x_2}(a) & \dots & \frac{\partial f_m}{\partial x_n}(a) \endmatrix \right], }

aby móc stosować algorytm mnożenia (składania) macierzy:

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[\beginmatrix d_a f_1\\d_a f_2\\\vdots\\d_a f_m\endmatrix \right]= \left[ \beginmatrix \frac{\partial f_1}{\partial x_1}(a) & \frac{\partial f_1}{\partial x_2}(a) & \dots & \frac{\partial f_1}{\partial x_n}(a)\\ \frac{\partial f_2}{\partial x_1}(a) & \frac{\partial f_2}{\partial x_2}(a) & \dots & \frac{\partial f_2}{\partial x_n}(a)\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m}{\partial x_1}(a) & \frac{\partial f_m}{\partial x_2}(a) & \dots & \frac{\partial f_m}{\partial x_n}(a) \endmatrix \right] \, \left[\beginmatrix h_1\\h_2\\\vdots\\h_n\endmatrix \right], }

który w tym przypadku prowadzi do uzyskanego przez nas wzoru:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned d_a f_i(h)&=\frac{\partial f_i}{\partial x_1}(a)h_1+\frac{\partial f_i}{\partial x_2}(a)h_2+\dots+\frac{\partial f_i}{\partial x_n}(a)h_n\\ &=\sum_{k=1}^n \frac{\partial f_i}{\partial x_k}(a)h_k, \endaligned}

gdzie i=1,2,,m.

Definicja 7.20.

Macierz [fixj(a)], i=1,2,,m, j=1,2,,n, tj. macierz

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[ \beginmatrix \frac{\partial f_1(a)}{\partial x_1} & \frac{\partial f_1(a)}{\partial x_2} & \dots & \frac{\partial f_1(a)}{\partial x_n}\\ \frac{\partial f_2(a)}{\partial x_1} & \frac{\partial f_2(a)}{\partial x_2} & \dots & \frac{\partial f_2(a)}{\partial x_n}\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m(a)}{\partial x_1} & \frac{\partial f_m(a)}{\partial x_2} & \dots & \frac{\partial f_m(a)}{\partial x_n} \endmatrix \right] }

nazywamy macierzą Jacobiego funkcji (odwzorowania) f:nm w punkcie an. Zwróćmy uwagę, że macierz Jacobiego jest macierzą prostokątną o n kolumnach i m wierszach. W szczególnym przypadku, gdy n=m (tj: f:nn) możemy policzyć wyznacznik macierzy Jacobiego,

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \text{jac}_a f: =\det \left[ \beginmatrix \frac{\partial f_1(a)}{\partial x_1} & \frac{\partial f_1(a)}{\partial x_2} & \dots & \frac{\partial f_1(a)}{\partial x_n}\\ \frac{\partial f_2(a)}{\partial x_1} & \frac{\partial f_2(a)}{\partial x_2} & \dots & \frac{\partial f_2(a)}{\partial x_n}\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m(a)}{\partial x_1} & \frac{\partial f_m(a)}{\partial x_2} & \dots & \frac{\partial f_m(a)}{\partial x_n} \endmatrix \right] }

który nazywamy jakobianem funkcji f w punkcie a i oznaczamy symbolami jacaf, jacf(a), Jaf, |f(a)|, |daf| lub detdaf.

Uwaga 7.21.

Autorzy podręczników używają wielu różnych (często niejednolitych) oznaczeń na oznaczenie macierzy Jacobiego i jakobianu. Pamiętajmy jednak, że jakobian jest liczbą równą wyznacznikowi macierzy Jacobiego, tj. macierzy

pochodnych cząstkowych funkcji f:nn.

Kolejny wniosek dotyczy wyrażenia różniczki złożenia dwóch funkcji. Jest bardzo często wykorzystywany w praktycznych obliczeniach

Wniosek 7.22.

Niech f=(f1,f2,,fm):nm będzie funkcją różniczkowalną w punkcie an i niech g=(g1,g2,,gk):mk będzie funkcją różniczkowalną w punkcie f(a). Wiemy już, że istnieje różniczka złożenia gf:nk w punkcie a i jest złożeniem różniczek df(a)g oraz daf. Różniczkę daf reprezentuje macierz pochodnych cząstkowych:

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[ \beginmatrix \frac{\partial f_1(a)}{\partial x_1} & \frac{\partial f_1(a)}{\partial x_2} & \dots & \frac{\partial f_1(a)}{\partial x_n}\\ \frac{\partial f_2(a)}{\partial x_1} & \frac{\partial f_2(a)}{\partial x_2} & \dots & \frac{\partial f_2(a)}{\partial x_n}\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m(a)}{\partial x_1} & \frac{\partial f_m(a)}{\partial x_2} & \dots & \frac{\partial f_m(a)}{\partial x_n} \endmatrix \right], }

a różniczkę df(a)g macierz

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[ \beginmatrix \frac{\partial g_1(b)}{\partial y_1} & \frac{\partial g_1(b)}{\partial y_2} & \dots & \frac{\partial g_1(b)}{\partial y_m}\\ \frac{\partial g_2(b)}{\partial y_1} & \frac{\partial g_2(b)}{\partial y_2} & \dots & \frac{\partial g_2(b)}{\partial y_m}\\ \dots & \dots & \dots & \dots\\ \frac{\partial g_k(b)}{\partial y_1} & \frac{\partial g_k(b)}{\partial y_2} & \dots & \frac{\partial g_k(b)}{\partial y_m}\\ \endmatrix \right], }

gdzie b=f(a). Złożenie odwzorowań liniowych df(a)gdaf reprezentuje iloczyn podanych macierzy:

Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle \left[ \beginmatrix \frac{\partial g_1(b)}{\partial y_1} & \frac{\partial g_1(b)}{\partial y_2} & \dots & \frac{\partial g_1(b)}{\partial y_m}\\ \frac{\partial g_2(b)}{\partial y_1} & \frac{\partial g_2(b)}{\partial y_2} & \dots & \frac{\partial g_2(b)}{\partial y_m}\\ \dots & \dots & \dots & \dots\\ \frac{\partial g_k(b)}{\partial y_1} & \frac{\partial g_k(b)}{\partial y_2} & \dots & \frac{\partial g_k(b)}{\partial y_m}\\ \endmatrix \right] }
Parser nie mógł rozpoznać (nieznana funkcja „\beginmatrix”): {\displaystyle \displaystyle\left[ \beginmatrix \frac{\partial f_1(a)}{\partial x_1} & \frac{\partial f_1(a)}{\partial x_2} & \dots & \frac{\partial f_1(a)}{\partial x_n}\\ \frac{\partial f_2(a)}{\partial x_1} & \frac{\partial f_2(a)}{\partial x_2} & \dots & \frac{\partial f_2(a)}{\partial x_n}\\ \dots & \dots & \dots & \dots\\ \frac{\partial f_m(a)}{\partial x_1} & \frac{\partial f_m(a)}{\partial x_2} & \dots & \frac{\partial f_m(a)}{\partial x_n} \endmatrix \right]. }

Stąd pochodną cząstkową i-tej składowej złożenia gf

wyraża suma
(gf)ixj(a)=r=1mgiyr(f(a))frxj(a).
Uwaga 7.23.

Otrzymany wzór na pochodne cząstkowe złożenia często zapisuje się bez wyszczególniania argumentów w postaci

(gf)ixj=r=1m(giyrf)frxj.

Czasem też wzór ten upraszcza się (gdy nie ma obawy nieporozumienia)

gixj=r=1mgiyrfrxj.

lub jeszcze prościej

gixj=r=1mgiyryrxj,

gdzie przez y=(y1,,yr,,ym) rozumie się zmienną niezależną (po której różniczkuje się funkcję gi w pierwszym czynniku), a równocześnie (y1,,yr,,ym)=f oznacza składowe funkcji f.

Uwaga 7.24.

W wielu klasycznych podręcznikach symbolem dxi:n(x1,x2,,xi,,xn)xi oznacza się rzutowanie na i-tą współrzędną. Zwróćmy uwagę, że każde z rzutowań dx1,dx2,,dxn jest odwzorowaniem liniowym i ciągłym z n do . Wobec tego zamiast przedstawiać wartość różniczki na wektorze h=(h1,h2,,hn) za pomocą

sumy
daf(h)=h1f(a)x1+h2f(a)x2++hnf(a)xn

możemy zapisać bezargumentowo jako kombinację liniową rzutowań dxi o współczynnikach liczbowych f(a)xi, czyli

daf=f(a)x1dx1+f(a)x2dx2++f(a)xndxn.

Wówczas wartość różniczki daf na wektorze h=(h1,h2,,hn) wyraża się tym samym wzorem, co poprzednio:

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned d_a f(h) &=\bigg(\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx\bigg)(h)\\ &=\frac{\partial f(a)}{\partial x_1}dx_1(h)+\frac{\partial f(a)}{\partial x_2}dx_2(h) +\dots+\frac{\partial f(a)}{\partial x_n}dx_n(h)\\ &=\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n .\endaligned }

Wniosek 7.25.

Jeśli f:nU jest funkcją różniczkowalną w punkcie aU, to dla dowolnego wektora hn wartość różniczki daf na wektorze h jest iloczynem skalarnym gradientu gradf(a) funkcji f w punkcie a i

wektora h, tj.
daf(h)=(gradf(a)|h)=f(a)x1h1+f(a)x2h2++f(a)xnhn,

gdzie (x|y)=x1y1+x2y2++xnyn oznacza iloczyn skalarny wektorów x=(x1,x2,,xn) i y=(y1,y2,,yn) w

przestrzeni n.

Ponieważ iloczyn skalarny wektorów x oraz y oznacza się także często za pomocą kropki: x.y albo xy, stąd wartość różniczki daf funkcji f w punkcie a na wektorze h oznacza się też czasem symbolem: daf.h zamiast daf(h).

Pamiętamy, że dla dowolnych wektorów x=(x1,x2,,xn) oraz y=(y1,y2,,yn) zachodzi nierówność

Schwarza:

|(x|y)|x y

czyli

Parser nie mógł rozpoznać (błąd składni): {\displaystyle \displaystyle |x_1 y_1+x_2y_2+\dots+x_n y_n|\leq \sqrt{|x_1|^2+|x_2|^2+\dots+|x_n|^2} \ \sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2},}

przy czym równość w tej nierówności zachodzi wówczas, gdy wektory x oraz y są liniowo zależne. Wnioskiem z nierówności Schwarza jest więc

Uwaga 7.26.

Niech v=1 będzie wektorem o jednostkowej długości w n. Pochodna kierunkowa vf(a) osiąga największą wartość (co do wartości bezwzględnej) w kierunku wektora

gradientu.

Dowód uwagi 7.26.

Skoro daf(v)=vf(a) oraz daf(v)=k=1nf(a)xkvk=(gradf(a)|v), więc vf(a)=(gradf(a)|v). Stąd na mocy nierówności Schwarza:

|vf(a)|=|(gradf(a)|v)|gradf(a) v,

przy czym funkcja Sn1v|vf(a)| osiąga wartość największą na sferze jednostkowej Sn1={vn:(v|v)=1}, gdy wektor v

jest równoległy do wektora gradientu gradf(a).

Powstaje naturalne pytanie o warunki, jakie powinny spełniać pochodne cząstkowe, aby istniała różniczka. Warunek taki podaje

Twierdzenie 7.27.

(twierdzenie o istnieniu różniczki) Niech f=(f1,f2,,fm):nm będzie funkcją określoną w pewnym otwartym otoczeniu Un punktu α. Jeśli pochodne cząstkowe fixj(α) istnieją i są ciągłe w otoczeniu punktu α, to istnieje

różniczka dαf.

Dowód twierdzenia pomijamy (można go znaleźć np. na stronie 175 podręcznika Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

Interpretacja geometryczna różniczki

Pamiętamy, że jeśli funkcja jednej zmiennej f: jest różniczkowalna w punkcie a, to jej wykres ma styczną w punkcie (a,f(a)) o równaniu yf(a)=f(a)(xa). Innymi słowy pochodna funkcji jednej zmiennej jest współczynnikiem kierunkowym stycznej do wykresu funkcji w punkcie (a,f(a)).

Uwaga 7.28.

Jeśli f:2 jest funkcją różniczkowalną w sensie Frecheta w punkcie (a,b)2, to powierzchnia o równaniu z=f(x,y), która jest wykresem funkcji f, ma płaszczyznę styczną w punkcie (a,b,f(a,b)) o równaniu

zf(a,b)=f(a,b)x(xa)+f(a,b)y(yb).

Przykład 7.29.

Płaszczyzna styczna do paraboloidy
P={(x,y,z)3:z=x2+y2}

w punkcie (a,b,a2+b2)P ma równanie

z(a2+b2)=2(xa)+2(yb).

Różniczki wyższych rzędów

Stefan Banach (1892-1945)
Zobacz biografię

Niech X,Y będą przestrzeniami Banacha i niech f:UY będzie funkcją określoną na zbiorze otwartym UX. Załóżmy, że w każdym punkcie aU istnieje różniczka dafL(X,Y), która -- przypomnijmy -- jest odwzorowaniem liniowym i ciągłym z X do Y.

Definicja 7.30.

Mówimy, że funkcja f:UY jest dwukrotnie różniczkowalna w punkcie a, jeśli różniczkowalna jest w punkcie a funkcja d.f:UxdxfL(X,Y). Różniczkę funkcji d.f w punkcie a, która jest elementem przestrzeni L(X,L(X,Y)), nazywamy drugą różniczką funkcji f (lub różniczką rzędu drugiego funkcji f) w punkcie a i oznaczamy symbolem da2f.

Uwaga 7.31.

W ramach algebry liniowej dowodzi się, że przestrzenie L(X,L(X,Y)) oraz L2(X,Y) (czyli przestrzeń odwzorowań dwuliniowych ciągłych na X o wartościach w Y) są izomorficzne. Stąd też często mówimy, że różniczka rzędu drugiego jest odwzorowaniem dwuliniowym ciągłym na X o wartościach w Y.

Podobnie jak w przypadku funkcji jednej zmiennej, nazwijmy różniczką rzędu zerowego funkcji f samą funkcję f, tzn. d0f=f. Ponadto, aby uprościć zapis i wypowiedzi twierdzeń przyjmijmy, że L0(X,Y):=Y.

Załóżmy, że w każdym punkcie aU istnieje dakf różniczka rzędu k funkcji f:UY, k0, która jest elementem przestrzeni Lk(X,Y) odwzorowań k liniowych ciągłych na X o wartościach w przestrzeni Y.

Definicja 7.32.

Mówimy, że funkcja f jest k+1 krotnie różniczkowalna w punkcie aU, jeśli w punkcie tym różniczkowalna jest funkcja d.kf:UxdxkfLk(X,Y). Różniczkę funkcji d.kf w punkcie a, która jest elementem przestrzeni (izomorficznej w przestrzenią) L(X,Lk(X,Y)), będziemy oznaczać symbolem dak+1f i będziemy nazywać różniczką rzędu k+1 funkcji f w punkcie a (lub krócej

k+1 różniczką funkcji f w punkcie a).
Uwaga 7.33.

Dowodzi się, że także przestrzenie L(X,Lk(X,Y)) oraz Lk+1(X,Y) (czyli przestrzeń odwzorowań k+1 liniowych i ciągłych na X o wartościach w przestrzeni Y) są izomorficzne, więc często różniczkę rzędu k+1 funkcji f w punkcie a będziemy nazywać odwzorowaniem

k+1 liniowym i ciągłym na X o wartościach w Y.

Pamiętamy, że jeśli X=n i Y=, to wartość różniczki dafL(n,) na wektorze h=(h1,h2,,hn)n wyraża suma

daf(h)=f(a)x1h1+f(a)x2h2++f(a)xnhn.

Sumę tę można także wyrazić bez argumentu h

daf=f(a)x1dx1+f(a)x2dx2++f(a)xndxn,

gdzie

dxi:nh=(h1,h2,,hn)dxi(h)=hi

jest rzutowaniem na i-tą współrzędną.

Podobnie jak w przypadku funkcji jednej zmiennej definiujemy funkcje klasy Ck.

Definicja 7.34.

Mówimy, że f:XUY jest klasy Ck w zbiorze U (k=0,1,2,), jeśli w każdym punkcie aU istnieje różniczka rzędu k funkcji f i odwzorowanie UadakfLk(X,Y) jest ciągłe.

Wniosek 7.35.

Jeśli f jest klasy C2(U), to w każdym punkcie tego zbioru pochodne cząstkowe mieszane są równe, tzn. zachodzi równość

xjxif(a)=xixjf(a)

dla dowolnych i,j{1,2,,n} w dowolnym punkcie aU.

Innymi słowy: druga różniczka da2f jest odwzorowaniem

dwuliniowym symetrycznym.

Załóżmy, że fCm(U), gdzie Un jest podzbiorem otwartym przestrzeni skończenie wymiarowej n. Wówczas różniczkę rzędu m można wyrazić efektywnie za pomocą pochodnych cząstkowych rzędu m.

Twierdzenie 7.36.

Jeśli fCm(U), to w dowolnym punkcie aU wartość różniczki rzędu m na m-ce jednakowych wektorów h=(h1,h2,,hn)n, wyraża suma

damf(h,h,,h)m wektorów h=|α|=m(mα)mxαf(a)hα,

gdzie sumowanie przebiega po wszystkich

możliwych wielowskaźnikach (n-wskaźnikach)
α=(α1,α2,,αn)0n

o długości

|α|=α1+α2++αn=m,

natomiast

(mα):=m!(m|α|)!α!,

jest uogólnieniem symbolu Newtona, w którym silnię wielowskaźnika α=(α1,α2,,αn) definiujemy za pomocą iloczynu silni jego współrzędnych, tj.

α!=α1!α2!αn!

oraz

hα=h1α1h2α2hnαn.
Uwaga 7.37.
Wzór
damf(h,h,,h)=|α|=m(mα)mxαf(a)hα,

który podaliśmy w tezie twierdzenia czasem zapisuje się bez wyszczególniania argumentów w następującej postaci

damf=|α|=m(mα)mf(a)xαdxα
lub
d.mf=|α|=m(mα)mfxαdxα

gdzie dxα:n

definiujemy na wektorze hn wzorem
dxα(h):=hα=h1α1h2α2hnαn.

Dowód uwagi 7.37.

Wykażemy podany wzór w przypadku funkcji dwóch zmiennych, aby uprościć notację. W ogólnym przypadku uzasadnienie jest podobne. Jeśli f:2U(x1,x2)f(x1,x2) jest różniczkowalna, to wartość jej różniczki w punkcie aU na

wektorze h=(h1,h2) wyraża suma
daf(h)=x1f(a)h1+x2f(a)h2.

Jeśli f jest dwukrotnie różniczkowalna, to

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned d^2 f & =d\bigg(\frac{\partial f}{\partial x_1}dx_1+ \frac{\partial f}{\partial x_2}dx_2\bigg) \\&=\frac{\partial }{\partial x_1} \bigg(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\bigg)dx_1 +\frac{\partial }{\partial x_2}\big(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\big)dx_2\\&= \frac{\partial ^2 f}{\partial x_1\partial x_1}dx_1dx_1+\frac{\partial ^2 f}{\partial x_2\partial x_1}dx_2dx_1+\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2\partial x_2}dx_2dx_2\\&= \frac{\partial ^2 f}{\partial x_1^2}dx_1^2+2\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2^2}dx_2^2\\&= \binom{2}{0}\frac{\partial ^2 f}{\partial x_1^2}dx_1^2+\binom{2}{1}\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\binom{2}{2}\frac{\partial ^2 f}{\partial x_2^2}dx_2^2\\&=\sum_{|\alpha|=2}\binom{2}{\alpha}\frac{\partial^\alpha f}{\partial x^\alpha}dx^\alpha,\endaligned}

gdyż pochodne cząstkowe mieszane 2fx1x2 oraz 2fx2x1 są równe wobec założenia o klasie funkcji f. Następnie zakładając, że wzór zachodzi dla różniczki rzędu 2k<m dowodzimy go dla

różniczki rzędu k+1. Szczegółowe przekształcenia pomijamy.