Analiza matematyczna 2/Wykład 7: Różniczka. Różniczki wyższych rzędów. Wzór Taylora

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Różniczkowanie funkcji wielu zmiennych

Uogólniamy znane z Analizy matematycznej I pojęcie pochodnej na przypadek funkcji wielu zmiennych. Definiujemy pochodną funkcji o wartościach wektorowych oraz różniczkę zupełną w sensie Frecheta. Dowodzimy własności różniczki zupełnej i wyrażamy ją za pomocą pochodnych cząstkowych. Definiujemy także różniczki wyższych rzędów.

Pochodna funkcji jednej zmiennej o wartościach wektorowych

Wprowadzenie pojęcia pochodnej funkcji poprzedziliśmy przypomnieniem dwóch wielkości fizycznych: prędkości średniej i prędkości chwilowej w ruchu prostoliniowym. Zwróćmy uwagę na to, że w otaczającym nas świecie ruch po prostej jest rzadkością, gdyż większość obiektów, które obserwujemy, porusza się po drodze na płaszczyźnie dwuwymiarowej, bądź w przestrzeni trójwymiarowej. Wprowadźmy więc pojęcie pochodnej, które odpowiada m.in. potrzebie opisu ruchu w realnym świecie.

Niech f:(a,b)tf(t)Y będzie funkcją określoną na przedziale otwartym o wartościach w przestrzeni unormowanej Y. Możemy mieć na myśli na przykład przestrzeń unormowaną Y=n, w której długość wektora y=(y1,y2,,yn) wyraża norma y=|y1|2+|y2|2++|yn|2.

Definicja 7.1.

Mówimy, że funkcja f:(a,b)Y jest różniczkowalna w punkcie t0(a,b), jeśli istnieje wektor y0Y taki, że iloraz różnicowy 1h(f(t0+h)f(t0)) zmierza do y0 w normie przestrzeni Y, to znaczy

1h(f(t0+h)f(t0))y00, gdy h0.
Wektor y0Y nazywamy pochodną funkcji f w punkcie t0 i oznaczamy symbolem ddtf(t0) lub f(t0).
Uwaga 7.2.

W szczególnym przypadku, gdy Y=n, funkcja

f:(a,b)tf(t)=(f1(t),f2(t),,fn(t))n

jest zestawieniem n funkcji fk:(a,b)tfk(t) o wartościach liczbowych. Stąd istnienie pochodnej ddtf(t0) jest równoważne istnieniu pochodnych wszystkich składowych funkcji f w punkcie t0. Wówczas też pochodna f jest zestawieniem pochodnych swoich składowych, tzn.

ddtf(t0)=(ddtf1(t0),ddtf2(t0),,ddtfn(t0))

Przykład 7.3.

Rozważmy ruch punktu materialnego opisany równaniami:

{x(t)=acosty(t)=bsint     gdzie ab>0.
Jak łatwo zauważyć punkt porusza się po elipsie o równaniu
x2a2+y2b2=1,

gdyż (na podstawie jedynki trygonometrycznej) mamy równość

x(t)2a2+y(t)2b2=cos2t+sin2t=1.

Ruch ten jest okresowy, wystarczy więc ograniczyć zbiór wartości parametru t do przedziału [0,2π]. Prędkość w tym ruchu jest wektorem o dwóch składowych

v(t)=(ddtx(t),ddty(t))=(asint,bcost)

Długość wektora prędkości v(t) jest pierwiastkiem z sumy kwadratów składowych tego wektora:

|v(t)|=a2sin2t+b2cos2t=(a2b2)sin2t+b2

i jest największa wówczas, gdy funkcja tsin2t przyjmuje wartość największą (równą jedności), a więc w przedziale 0t2π w chwili t=π2 oraz t=3π2, tj. w punktach (0,b) oraz (0,b) elipsy. Z kolei prędkość |v(t)| jest najmniejsza wówczas, gdy funkcja tsin2t osiąga wartość najmniejszą (równą zeru). W przedziale 0t2π zachodzi to w chwili t=0 oraz t=π, co odpowiada położeniu w punktach (a,0) oraz (a,0). Rozwiązanie zadania jest intuicyjnie oczywiste: chcąc bezpiecznie pokonać ostrzejszy zakręt, musimy zwolnić. Na łagodnym łuku (na łuku o małej krzywiźnie) można przyśpieszyć.

Przykład 7.4.

Rozważmy ruch punktu materialnego opisany równaniami:

{x(t)=cos3ty(t)=sin3t.
Punkt ten porusza się po krzywej zwanej asteroidą o równaniu
|x|23+|y|23=1,

gdyż (na mocy jedynki trygonometrycznej) mamy równość |x(t)|23+|y(t)|23=cos2t+sin2t=1. Prędkość w tym ruchu jest wektorem o dwóch składowych

v(t)=(ddtx(t),ddty(t))=(3cos2tsint,3sin2tcost)

Długość wektora prędkości v(t) jest pierwiastkiem z sumy kwadratów jego składowych:

|v(t)|=9cos4tsin2t+9sin4cos2t=9cos2tsin2t(cos2t+sin2t)=3|costsint|=32|sin2t|.

Podobnie jak w poprzednim przykładzie ruch ten jest okresowy o okresie 2π, wystarczy więc zbadać go w przedziale 0t2π. Zauważmy, że w opisanym ruchu prędkość jest największa wówczas, gdy t|sin2t| przyjmuje największą wartość (równą jedności), co w przedziale 0t2π ma miejsce w czterech chwilach: gdy t=π4, t=3π4, t=5π4, t=7π4. Punkt materialny znajduje się wówczas w jednym z punktów (a,a), (a,a), (a,a), (a,a), gdzie a=122, które -- jak nietrudno zauważyć -- leżą w środku łagodnego łuku asteroidy. Z kolei w chwili t=0, t=π2, t=π, t=3π2 funkcja t|sin2t| osiąga wartość najmniejszą równą zeru. Punkt materialny znajduje się wówczas w jednym z ostrzy asteroidy: w punkcie (1,0), (0,1), (1,0) lub (0,1). Zerowa prędkość punktu w tych położeniach jest również intuicyjnie oczywista: chcąc gładko pokonać tak ostry zakręt, na którym wręcz trzeba zawrócić, należy się na chwilę

zatrzymać.

W ramach kursu Analizy matematycznej I określiliśmy pojęcie pochodnej w punkcie a funkcji f jednej zmiennej o wartościach rzeczywistych, a na początku tego wykładu rozszerzyliśmy pojęcie pochodnej na przypadek funkcji jednej zmiennej o wartościach w dowolnej przestrzeni wektorowej Y za pomocą granicy ilorazu różnicowego

limh0f(x0+h)f(x0)h,

którą (o ile istnieje) oznaczamy symbolem f(x0) lub ddtf(x0). Zwróćmy uwagę, że w przypadku, gdy funkcja f:(a,b)Y osiąga wartości w przestrzeni wektorowej Y, pochodna f(x0)Y jest wektorem.

Różniczka zupełna

Uwaga 7.5.

Funkcja f:(a,b)Y o wartościach w przestrzeni unormowanej Y ma pochodną w punkcie x0(a,b) wtedy i tylko wtedy, gdy istnieje wektor y0Y taki, że

f(x0+h)f(x0)hy0=o(|h|), czyli
limh0f(x0+h)f(x0)hy0Y|h|=0.

Dowód 7.5.

Jeśli iloraz różnicowy
limh0f(x0+h)f(x0)h
zmierza do f(a)Y w normie przestrzeni Y, to
f(x0+h)f(x0)hf(x0)0, gdy h0,
czyli
limh0f(x0+h)f(x0)hy0Y|h|=0,

gdy y0=f(x0). Z kolei z istnienia wektora y0Y takiego, że istnieje

limh0f(x0+h)f(x0)hy0Y|h|=0

wynika, że istnieje granica ilorazu różnicowego

limh0f(x0+h)f(x0)h,
i jest równa y0, a więc f(x0)=y0, gdyż ciąg zbieżny w przestrzeni unormowanej ma granicę określoną jednoznacznie.

Zauważmy, że funkcja

hhy0Y

jest liniowa. Spostrzeżenie to prowadzi do uogólnienia pojęcia pochodnej funkcji jednej zmiennej na przypadek funkcji określonej na przestrzeni unormowanej X o wartościach w przestrzeni unormowanej Y.

Niech X oraz Y będą przestrzeniami Banacha, tj. zupełnymi przestrzeniami unormowanymi z normami odpowiednio X oraz Y. Niech U będzie podzbiorem otwartym przestrzeni X.

Definicja 7.6.

Mówimy, że funkcja f:UY jest różniczkowalna w sensie Frecheta w punkcie aU (lub krótko: jest różniczkowalna w punkcie a), jeśli istnieje odwzorowanie L liniowe i ciągłe przestrzeni X w Y takie, że f(a+h)f(a)L(h)Y=o(hX), to znaczy

f(a+h)f(a)L(h)YhX0, gdy 0.

Odwzorowanie liniowe i ciągłe L nazywamy różniczką zupełną (lub różniczką (w sensie) Frecheta, bądź pochodną (w sensie) Frecheta) funkcji f w punkcie a i oznaczamy symbolem daf bądź f(a). Wartość różniczki funkcji f w punkcie a na wektorze hX oznaczamy symbolem daf(h) lub daf.h albo też f(a).h

Do tej pory studiując odwzorowania liniowe w ramach algebry liniowej z geometrią w przypadku skończenie wymiarowym, przywykliśmy do faktu, że

Uwaga 7.7.
Każde odwzorowanie liniowe f:nm określone na przestrzeni o skończonym wymiarze jest ciągłe.

Może więc zastanawiać żądanie ciągłości odwzorowania liniowego L w definicji różniczki Frecheta. Zanim podamy przykład odwzorowania liniowego, które nie jest ciągłe, sformułujemy warunki równoważne ciągłości odwzorowania liniowego.

Uwaga 7.8.

Niech X,Y będą przestrzeniami unormowanymi. Niech L:XY będzie odwzorowaniem liniowym (tj. addytywnym i jednorodnym). Następujące warunki są równoważne

1) L jest ciągłe,

2) L jest ciągłe w zerze,

3) L jest ograniczone, tzn. supx0Lxx<.

Wobec tych uwag przykład odwzorowania liniowego, które nie jest ciągłe, musimy podać na przestrzeni unormowanej o nieskończonym wymiarze.

Przykład 7.9.

Zbiór X wszystkich funkcji ciągłych określonych na przedziale domkniętym [0,1] o wartościach w z normą

x=sup{|x(t)|,t[0,1]}

stanowi przestrzeń Banacha, gdyż jest przestrzenią unormowaną z normą (co łatwo sprawdzić) i jest zupełna, ponieważ granica (w podanej normie) ciągu funkcji ciągłych jest funkcją ciągłą. Rozważmy odwzorowanie L:ff, które funkcji ciągłej f i różniczkowalnej w X przyporządkowuje jej pochodną f. Z własności pochodnej wynika, że odwzorowanie L jest

-- addytywne, tj. L(f1+f2)=Lf1+Lf2, dla dowolnych funkcji różniczkowalnych f1, f2,

-- jednorodne, tj. L(λf)=λL(f), dla dowolnej funkcji różniczkowalnej f i stałej λ,

jest więc liniowe. Nie jest jednak ciągłe, gdyż nie jest ograniczone. Weźmy na przykład ciąg jednomianów xn:

n:xn=1.

Jednomiany te mają normę ograniczoną z góry przez 1. Gdyby odwzorowanie L było ciągłe, normy L(xn) byłyby ograniczone,

lecz nie są gdyż
L(xn)=nxn1=n, gdy n.

Wynika stąd, że L:ff nie jest ograniczone. Nie jest więc ciągłe, mimo że jest liniowe.

Kolejne twierdzenie podaje podstawowe własności różniczki Frecheta.

Twierdzenie 7.10.

Niech X,Y będą przestrzeniami Banacha.

a) Odwzorowanie afiniczne
F:Xxx0+Λ(x)Y,  gdzie ΛL(X,Y),

jest różniczkowalne w sensie Frecheta w dowolnym punkcie xX, a jego różniczką w każdym punkcie jest cześć liniowa odwzorowania afinicznego F, tzn.

xX dxF=Λ.

W szczególności różniczka odwzorowania liniowego i ciągłego jest tym samym odwzorowaniem:

dxΛ=Λ, ΛL(X,Y).
b) Zestawienie funkcji
F:XxF(x)=(f1(x),f2(x))Y1×Y2

jest różniczkowalne w punkcie aX wtedy i tylko wtedy, gdy różniczkowalne w punkcie a są składowe f1:XY1 oraz f2:XY2. Zachodzi wówczas równość

daF=(daf1,daf2).

Innymi słowy różniczka zestawienia funkcji jest zestawieniem różniczek składowych odwzorowania. W szczególnym przypadku, gdy

F:Xx(f1(x),f2(x),,fn(x))n,

mamy równość

daF=(daf1,daf2,,dafn).

c) Suma funkcji różniczkowalnych f:XY, g:XY w punkcie a jest funkcją różniczkowalną. Różniczką sumy jest suma różniczek, tzn.

da(f+g)=daf+dag.

d) Iloczyn stałej C i funkcji różniczkowalnej f:XY w punkcie aX jest funkcją różniczkowalną w tym punkcie, przy czym

da(Cf)=Cdaf.

Innymi słowy, stałą można wyłączyć przed różniczkę.

e) Jeśli funkcja f:XY jest różniczkowalna w sensie Frecheta w punkcie a, to w tym punkcie jest ciągła.

Dowód 7.10.

Podane własności różniczki wynikają bezpośrednio z definicji.

Szczegółowe uzasadnienia pomijamy.

Kolejne twierdzenie dotyczy istnienia różniczki złożenia funkcji.

Twierdzenie 7.11.

Niech X,Y,Z będą przestrzeniami Banacha. Jeśli funkcja f:XY jest różniczkowalna w punkcie a, a funkcja g:YY jest różniczkowalna w punkcie f(a), to złożenie gf:XZ jest różniczkowalne w punkcie a i zachodzi równość:
da(gf)=df(a)gdaf.
Innymi słowy, różniczka złożenia funkcji jest złożeniem ich różniczek.

Dowód 7.11.

Funkcja f jest różniczkowalna w punkcie a, a funkcja g -- w punkcie y=f(a), więc

f(a+h)f(a)daf(h)Y=o(hX)g(y+k)g(y)dyg(k)Z=o(kY).

Stąd wobec ograniczoności różniczek daf oraz dyg dostajemy

g(f(a+h))g(f(a))(dygdaf)(h)Z=o(hX), gdzie y=f(a),

co dowodzi różniczkowalności złożenia gf w punkcie a oraz równości da(gf)=df(a)gdaf. Szczegółowe przekształcenia pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977).

Ważnym twierdzeniem w teorii różniczki Frecheta jest twierdzenie o różniczce odwzorowania odwrotnego.

Twierdzenie 7.12.

Niech f:XUxf(x)Y będzie funkcją określoną na otwartym podzbiorze U przestrzeni Banacha X o wartościach w przestrzeni Banacha Y.

Jeśli w pewnym otoczeniu U1 punktu aX funkcja f ma ciągłą różniczkę
U1xdxfL(X,Y)

oraz różniczka dafL(X,Y) jest izomorfizmem przestrzeni X i Y, to

1) w pewnym otoczeniu U2U1 punktu a funkcja f:U2Y jest różnowartościowa;

2) funkcja odwrotna g:Yf(U2)U2X do funkcji f (zacieśnionej do zbioru U2) jest ciągła;

3) funkcja odwrotna g jest różniczkowalna w punkcie f(a) i zachodzi równość
df(a)g=(daf)1.

Innymi słowy, różniczka funkcji odwrotnej jest odwrotnością różniczki.

Dowód 7.12.

(szkic) Szczegóły dowodu (które pomijamy) można znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977. Zauważmy, że jeśli funkcja g jest odwrotna do f, to złożenie g(f(x))=x, dla każdego xX, tzn. gf:XX jest identycznością na przestrzeni X. Ponieważ id:XX odwzorowaniem liniowym i ciągłym, więc jest różniczkowalne i jego różniczką jest id ,. Stąd na mocy twierdzenia o różniczce złożenia mamy

df(a)gdaf=da(gf)=daid=id ,.

Wobec założenia o izomorficzności dafL(X,Y) istnieje odwzorowanie odwrotne (daf)1L(Y,X), które

jest różniczką funkcji odwrotnej g w punkcie f(a), czyli df(a)g=(daf)1.

Twierdzenie, które sformułowaliśmy, nazywa się twierdzeniem o lokalnej odwracalności odwzorowania lub twierdzeniem o lokalnym dyfeomorfizmie.

Wyrażenie różniczki Frecheta za pomocą pochodnych cząstkowych

W poprzednim module zdefiniowaliśmy pochodną kierunkową funkcji f:X w punkcie a w kierunku v0. Możemy tę samą definicję powtórzyć również w przypadku funkcji f:XY, w przypadku, gdy zbiorem wartości funkcji f:XY, jest dowolna przestrzeń unormowana Y:

vf(a)=limt0f(a+tv)f(a)t,

gdzie t, a zbieżność ilorazów różnicowych do granicy vf(a)Y przy t0 rozumiemy w sensie zbieżności w normie przestrzeni Y.

Uwaga 7.13.

Niech vX będzie dowolnym wektorem jednostkowym z przestrzeni X, tzn. v=1. Jeśli funkcja f:XY jest różniczkowalna w sensie Frecheta w punkcie a, to istnieje pochodna kierunkowa vf(a) w dowolnym kierunku v,

przy czym zachodzi równość
vf(a)=daf(v) dla v=1.
Ponadto funkcja vvf(a) jest liniowa i ciągła.

Dowód 7.13.

Skoro
f(a+h)f(a)daf(h)h0, przy h0,
więc w szczególności dla h=tv mamy
f(a+tv)f(a)daf(tv)tv0.

Wobec liniowości różniczki daf(tv)=tdaf(v) oraz faktu, że tv=|t|, mamy

f(a+tv)f(a)tdaf(v)0,
czyli iloraz różnicowy f(a+tv)f(a)t zmierza przy t0 do granicy daf(v), więc istnieje pochodna kierunkowa vf(a) i jest równa wartości różniczki zupełnej funkcji f w punkcie a na wektorze v. Stąd funkcja vvf(a)=daf(v) jest liniowa i ciągła.
Uwaga 7.14.

Niech f:XY będzie funkcją różniczkowalną w punkcie aX. Wówczas daf=0 wtedy i tylko wtedy, gdy zeruje się

pochodna kierunkowa vf(a)=0 w dowolnym kierunku.

Powstaje pytanie o istnienie różniczki Frecheta funkcji f:XY w punkcie, w którym istnieją pochodne kierunkowe w dowolnym kierunku. Negatywną odpowiedź na to pytanie podaje

Przykład 7.15.

Funkcja f(x,y)=x3+y33 ma w punkcie 02 pochodne kierunkowe vf(0) w dowolnym kierunku v=1, nie jest jednak różniczkowalna w sensie Frecheta w tym punkcie. Zauważmy, że dowolny wektor v=1 można na płaszczyźnie 2 jednoznacznie przedstawić w postaci v=(cosφ,sinφ), gdzie 0φ<2π. Stąd limt0f(0+tv)f(0)t=cos3φ+sin3φ.

Jednak funkcja vvf(0) nie jest liniowa.

Przykład 7.16.

Funkcja
f(x,y)={x2yx2+y2, dla (x,y)00, dla (x,y)=0.
ma w punkcie 0 pochodną kierunkową w każdym kierunku, nie ma jednak różniczki Frecheta w tym punkcie.

Z praktycznego punktu widzenia w zastosowaniach najważniejsza jest możliwość wyrażenia różniczki w sensie Frecheta za pomocą pochodnych cząstkowych.

Twierdzenie 7.17.

Niech f=(f1,f2,,fm):nUm będzie funkcją różniczkowalną w sensie Frecheta w punkcie aU. Istnieją wówczas pochodne cząstkowe

f1x1(a),f1x2(a),,f1xn(a)f2x1(a),f2x2(a),,f2xn(a)fmx1(a),fmx2(a),,fmxn(a)

i są one wyrazami macierzy odwzorowania liniowego dafL(n,m) w bazie kanonicznej, to znaczy, dla dowolnego wektora hn wartość daf(h) odwzorowania daf na wektorze h jest wektorem z m o współrzędnych

(j=1nf1xj(a)hj,j=1nf2xj(a)hj,,j=1nfmxj(a)hj).

Dowód 7.17.

Wykazaliśmy, że zachodzi równość vf(a)=daf(v). Ponieważ daf=(daf1,daf2,,dafm), więc wystarczy wykazać twierdzenie dla składowych odwzorowania f, tj. dla funkcji fi:n. W dalszym ciągu dowodu będziemy pomijać indeks dolny i, zakładając, że fi=f jest funkcją o wartościach w zbiorze liczb rzeczywistych. Dla dowolnego wektora ei, i=1,2,,n bazy kanonicznej przestrzeni n mamy (z definicji pochodnej cząstkowej) równość eif(a)=fxi(a), więc dla dowolnego wektora h=h1e1+h2e2++hnen mamy

daf(h)=daf(h1e1+h2e2++hnen)=h1daf(e1)+h2daf(e2)++hndaf(en)=h1fx1(a)+h2fx2(a)++hnfxn(a).
Uwaga 7.18.

W ramach kursu algebry liniowej zwykliśmy zapisywać wektory h=(h1,h2,,hn)n w postaci macierzy kolumnowej:

[h1h2hn].

Jeśli w taki sam sposób zapiszemy również zestawienie różniczek funkcji f=(f1,f2,,fm):

[daf1daf2dafm],

to macierz pochodnych cząstkowych fixj(a), i=1,2,,m, j=1,2,,n, powinniśmy zapisać następująco:

[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)],

aby móc stosować algorytm mnożenia (składania) macierzy:

[daf1daf2dafm]=[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)][h1h2hn],

który w tym przypadku prowadzi do uzyskanego przez nas wzoru:

dafi(h)=fix1(a)h1+fix2(a)h2++fixn(a)hn=k=1nfixk(a)hk,

gdzie i=1,2,,m.

Definicja 7.19.

Macierz [fixj(a)], i=1,2,,m, j=1,2,,n, tj. macierz

[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)],

nazywamy macierzą Jacobiego funkcji (odwzorowania) f:nm w punkcie an. Zwróćmy uwagę, że macierz Jacobiego jest macierzą prostokątną o n kolumnach i m wierszach. W szczególnym przypadku, gdy n=m (tj: f:nn) możemy policzyć wyznacznik macierzy Jacobiego

jacaf:=det[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)],

który nazywamy jakobianem funkcji f w punkcie a i oznaczamy symbolami jacaf, jacf(a), Jaf, |f(a)|, |daf| lub detdaf.

Uwaga 7.20.

Autorzy podręczników używają wielu różnych (często niejednolitych) oznaczeń na oznaczenie macierzy Jacobiego i jakobianu. Pamiętajmy jednak, że jakobian jest liczbą równą wyznacznikowi macierzy Jacobiego, tj. macierzy

pochodnych cząstkowych funkcji f:nn.

Kolejny wniosek dotyczy wyrażenia różniczki złożenia dwóch funkcji. Jest bardzo często wykorzystywany w praktycznych obliczeniach

Wniosek 7.21.

Niech f=(f1,f2,,fm):nm będzie funkcją różniczkowalną w punkcie an i niech g=(g1,g2,,gk):mk będzie funkcją różniczkowalną w punkcie f(a). Wiemy już, że istnieje różniczka złożenia gf:nk w punkcie a i jest złożeniem różniczek df(a)g oraz daf. Różniczkę daf reprezentuje macierz pochodnych cząstkowych:

[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)],

a różniczkę df(a)g macierz

[g1x1(b)g1x2(b)g1xn(b)g2x1(b)g2x2(b)g2xn(b)gmx1(b)gmx2(b)gmxn(b)],

gdzie b=f(a). Złożenie odwzorowań liniowych df(a)gdaf reprezentuje iloczyn podanych macierzy:

[g1x1(b)g1x2(b)g1xn(b)g2x1(b)g2x2(b)g2xn(b)gmx1(b)gmx2(b)gmxn(b)],


[f1x1(a)f1x2(a)f1xn(a)f2x1(a)f2x2(a)f2xn(a)fmx1(a)fmx2(a)fmxn(a)],

Stąd pochodną cząstkową i-tej składowej złożenia gf wyraża suma

(gf)ixj(a)=r=1mgiyr(f(a))frxj(a).
Uwaga 7.22.

Otrzymany wzór na pochodne cząstkowe złożenia często zapisuje się bez wyszczególniania argumentów w postaci

(gf)ixj=r=1m(giyrf)frxj.

Czasem też wzór ten upraszcza się (gdy nie ma obawy nieporozumienia)

gixj=r=1mgiyrfrxj.

lub jeszcze prościej

gixj=r=1mgiyryrxj,

gdzie przez y=(y1,,yr,,ym) rozumie się zmienną niezależną (po której różniczkuje się funkcję gi w pierwszym czynniku), a równocześnie (y1,,yr,,ym)=f oznacza składowe funkcji f.

Uwaga 7.23.

W wielu klasycznych podręcznikach symbolem dxi:n(x1,x2,,xi,,xn)xi oznacza się rzutowanie na i-tą współrzędną. Zwróćmy uwagę, że każde z rzutowań dx1,dx2,,dxn jest odwzorowaniem liniowym i ciągłym z n do . Wobec tego zamiast przedstawiać

wartość różniczki na wektorze h=(h1,h2,,hn) za pomocą sumy
daf(h)=h1f(a)x1+h2f(a)x2++hnf(a)xn

możemy zapisać bezargumentowo jako kombinację liniową rzutowań dxi o współczynnikach liczbowych f(a)xi, czyli

daf=f(a)x1dx1+f(a)x2dx2++f(a)xndxn.

Wówczas wartość różniczki daf na wektorze h=(h1,h2,,hn) wyraża się tym samym wzorem, co poprzednio:

daf(h)=(f(a)x1dx1+f(a)x2dx2++f(a)xndx)(h)=f(a)x1dx1(h)+f(a)x2dx2(h)++f(a)xndxn(h)=f(a)x1h1+f(a)x2h2++f(a)xnhn.

Wniosek 7.24.

Jeśli f:nU jest funkcją różniczkowalną w punkcie aU, to dla dowolnego wektora hn wartość różniczki daf na wektorze h jest iloczynem skalarnym gradientu gradf(a) funkcji f w punkcie a i wektora h, tj.

daf(h)=(gradf(a)|h)=f(a)x1h1+f(a)x2h2++f(a)xnhn,

gdzie (x|y)=x1y1+x2y2++xnyn oznacza iloczyn skalarny wektorów x=(x1,x2,,xn) i y=(y1,y2,,yn) w

przestrzeni n.

Ponieważ iloczyn skalarny wektorów x oraz y oznacza się także często za pomocą kropki: x.y albo xy, stąd wartość różniczki daf funkcji f w punkcie a na wektorze h oznacza się też czasem symbolem: daf.h zamiast daf(h).

Pamiętamy, że dla dowolnych wektorów x=(x1,x2,,xn) oraz y=(y1,y2,,yn) zachodzi nierówność Schwarza:

|(x|y)|x y,

czyli

|x1y1+x2y2++xnyn||x1|2+|x2|2++|xn|2|y1|2+|y2|2++|yn|2,

przy czym równość w tej nierówności zachodzi wówczas, gdy wektory x oraz y są liniowo zależne. Wnioskiem z nierówności Schwarza jest więc

Uwaga 7.25.
Niech v=1 będzie wektorem o jednostkowej długości w n. Pochodna kierunkowa vf(a) osiąga największą wartość (co do wartości bezwzględnej) w kierunku wektora gradientu.

Dowód 7.25.

Skoro daf(v)=vf(a) oraz daf(v)=k=1nf(a)xkvk=(gradf(a)|v), więc vf(a)=(gradf(a)|v). Stąd na mocy nierówności Schwarza:

|vf(a)|=|(gradf(a)|v)|gradf(a) v,
przy czym funkcja Sn1v|vf(a)| osiąga wartość największą na sferze jednostkowej Sn1={vn:(v|v)=1}, gdy wektor v jest równoległy do wektora gradientu gradf(a).

Powstaje naturalne pytanie o warunki, jakie powinny spełniać pochodne cząstkowe, aby istniała różniczka. Warunek taki podaje

Twierdzenie 7.26.

(twierdzenie o istnieniu różniczki) Niech f=(f1,f2,,fm):nm będzie funkcją określoną w pewnym

otwartym otoczeniu Un punktu α. Jeśli pochodne cząstkowe fixj(α) istnieją i są ciągłe w otoczeniu punktu α, to istnieje różniczka dαf.

Dowód twierdzenia pomijamy (można go znaleźć np. na stronie 175. podręcznika Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

Interpretacja geometryczna różniczki

Pamiętamy, że jeśli funkcja jednej zmiennej f: jest różniczkowalna w punkcie a, to jej wykres ma styczną w punkcie (a,f(a)) o równaniu yf(a)=f(a)(xa). Innymi słowy pochodna funkcji jednej zmiennej jest współczynnikiem kierunkowym stycznej do wykresu funkcji w punkcie (a,f(a)).

Uwaga 7.27.

Jeśli f:2 jest funkcją różniczkowalną w sensie Frecheta w punkcie (a,b)2, to powierzchnia o równaniu z=f(x,y), która jest wykresem funkcji f, ma płaszczyznę styczną w punkcie (a,b,f(a,b)) o równaniu

zf(a,b)=f(a,b)x(xa)+f(a,b)y(yb).

Przykład 7.28.

Płaszczyzna styczna do paraboloidy
P={(x,y,z)3:z=x2+y2}

w punkcie (a,b,a2+b2)P ma równanie

z(a2+b2)=2(xa)+2(yb).

Różniczki wyższych rzędów

Stefan Banach (1892-1945)
Zobacz biografię

Niech X,Y będą przestrzeniami Banacha i niech f:UY będzie funkcją określoną na zbiorze otwartym UX. Załóżmy, że w każdym punkcie aU istnieje różniczka dafL(X,Y), która -- przypomnijmy -- jest odwzorowaniem liniowym i ciągłym z X do Y.

Definicja 7.29.

Mówimy, że funkcja f:UY jest dwukrotnie różniczkowalna w punkcie a, jeśli różniczkowalna jest w punkcie a funkcja d.f:UxdxfL(X,Y). Różniczkę funkcji d.f w punkcie a, która jest elementem przestrzeni L(X,L(X,Y)), nazywamy drugą różniczką funkcji f (lub różniczką rzędu drugiego funkcji f) w punkcie a i oznaczamy symbolem da2f.

Uwaga 7.30.

W ramach algebry liniowej dowodzi się, że przestrzenie L(X,L(X,Y)) oraz L2(X,Y) (czyli przestrzeń odwzorowań dwuliniowych ciągłych na X o wartościach w Y) są izomorficzne. Stąd też często mówimy, że różniczka rzędu drugiego jest odwzorowaniem dwuliniowym ciągłym na X o wartościach w Y.

Podobnie jak w przypadku funkcji jednej zmiennej, nazwijmy różniczką rzędu zerowego funkcji f samą funkcję f, tzn. d0f=f. Ponadto, aby uprościć zapis i wypowiedzi twierdzeń, przyjmijmy, że L0(X,Y):=Y.

Załóżmy, że w każdym punkcie aU istnieje dakf różniczka rzędu k funkcji f:UY, k0, która jest elementem przestrzeni Lk(X,Y) odwzorowań k liniowych ciągłych na X o wartościach w przestrzeni Y.

Definicja 7.31.

Mówimy, że funkcja f jest k+1 krotnie różniczkowalna w punkcie aU, jeśli w punkcie tym różniczkowalna jest funkcja d.kf:UxdxkfLk(X,Y). Różniczkę funkcji d.kf w punkcie a, która jest elementem przestrzeni (izomorficznej w przestrzenią) L(X,Lk(X,Y)), będziemy oznaczać symbolem dak+1f i będziemy nazywać różniczką rzędu k+1 funkcji f w punkcie a (lub krócej:

k+1 różniczką funkcji f w punkcie a).
Uwaga 7.32.
Dowodzi się, że także przestrzenie L(X,Lk(X,Y)) oraz Lk+1(X,Y) (czyli przestrzeń odwzorowań k+1 liniowych i ciągłych na X o wartościach w przestrzeni Y) są izomorficzne, więc często różniczkę rzędu k+1 funkcji f w punkcie a będziemy nazywać odwzorowaniem k+1 liniowym i ciągłym na X o wartościach w Y.

Pamiętamy, że jeśli X=n i Y=, to wartość różniczki dafL(n,) na wektorze h=(h1,h2,,hn)n wyraża suma

daf(h)=f(a)x1h1+f(a)x2h2++f(a)xnhn

Sumę tę można także wyrazić bez argumentu h

daf=f(a)x1dx1+f(a)x2dx2++f(a)xndxn

gdzie

dxi:nh=(h1,h2,,hn)dxi(h)=hi

jest rzutowaniem na i-tą współrzędną.

Podobnie jak w przypadku funkcji jednej zmiennej definiujemy funkcje klasy Ck.

Definicja 7.33.

Mówimy, że f:XUY jest klasy Ck w zbiorze U (k=0,1,2,), jeśli w każdym punkcie aU istnieje różniczka rzędu k funkcji f i odwzorowanie UadakfLk(X,Y) jest ciągłe.

Wniosek 7.34.

Jeśli f jest klasy C2(U), to w każdym punkcie tego zbioru pochodne cząstkowe mieszane są równe, tzn. zachodzi równość

xjxif(a)=xixjf(a)

dla dowolnych i,j{1,2,,n} w dowolnym punkcie aU.

Innymi słowy: druga różniczka da2f jest odwzorowaniem dwuliniowym symetrycznym.

Załóżmy, że fCm(U), gdzie Un jest podzbiorem otwartym przestrzeni skończenie wymiarowej n. Wówczas różniczkę rzędu m można wyrazić efektywnie za pomocą pochodnych cząstkowych rzędu m.

Twierdzenie 7.35.

Jeśli fCm(U), to w dowolnym punkcie aU wartość różniczki rzędu m na m-ce jednakowych wektorów h=(h1,h2,,hn)n wyraża suma

damf(h,h,,h)m wektorów h=|α|=m(mα)mxαf(a)hα,

gdzie sumowanie przebiega po wszystkich

możliwych wielowskaźnikach (n-wskaźnikach)
α=(α1,α2,,αn)0n

o długości

|α|=α1+α2++αn=m,

natomiast

(mα):=m!(m|α|)!α!,

jest uogólnieniem symbolu Newtona, w którym silnię wielowskaźnika α=(α1,α2,,αn) definiujemy za pomocą iloczynu silni jego współrzędnych, tj.

α!=α1!α2!αn!

oraz

hα=h1α1h2α2hnαn.
Uwaga 7.36.
Wzór
damf(h,h,,h)=|α|=m(mα)mxαf(a)hα,

który podaliśmy w tezie twierdzenia czasem zapisuje się bez wyszczególniania argumentów w następującej postaci

damf=|α|=m(mα)mf(a)xαdxα
lub
d.mf=|α|=m(mα)mfxαdxα,

gdzie dxα:n

definiujemy na wektorze hn wzorem
dxα(h):=hα=h1α1h2α2hnαn.

Dowód 7.36.

Wykażemy podany wzór w przypadku funkcji dwóch zmiennych, aby uprościć notację. W ogólnym przypadku uzasadnienie jest podobne. Jeśli f:2U(x1,x2)f(x1,x2) jest różniczkowalna, to wartość jej różniczki w punkcie aU na

wektorze h=(h1,h2) wyraża suma
daf(h)=x1f(a)h1+x2f(a)h2

Jeśli f jest dwukrotnie różniczkowalna, to

d2f=d(fx1dx1+fx2dx2)=x1(fx1dx1+fx2dx2)dx1+x2(fx1dx1+fx2dx2)dx2=2fx1x1dx1dx1+2fx2x1dx2dx1+2fx1x2dx1dx2+2fx2x2dx2dx2=2fx12dx12+22fx1x2dx1dx2+2fx22dx22=(20)2fx12dx12+(21)2fx1x2dx1dx2+(22)2fx22dx22=|α|=2(2α)αfxαdxα,

gdyż pochodne cząstkowe mieszane 2fx1x2 oraz 2fx2x1 są równe wobec założenia o klasie funkcji f. Następnie zakładając,

że wzór zachodzi dla różniczki rzędu 2k<m, dowodzimy go dla różniczki rzędu k+1. Szczegółowe przekształcenia pomijamy.