Analiza matematyczna 2/Wykład 9: Twierdzenie o funkcjach uwikłanych. Ekstrema warunkowe

From Studia Informatyczne

Spis treści

Twierdzenie o funkcjach uwikłanych.

Rozważamy funkcje zadane niejawnie. Formułujemy twierdzenie o funkcji uwikłanej i przedstawiamy metody badania takiej funkcji. Podajemy metodę mnożników Lagrange'a badania ekstremów warunkowych funkcji wielu zmiennych.

Punkty regularne poziomicy

Niech \displaystyle X,Y, Z będą przestrzeniami Banacha i niech \displaystyle U\subset X\times Y będzie zbiorem otwartym. Rozważmy funkcję

\displaystyle F: X\times Y\supset U\ni (x,y)\mapsto F(x,y)\in Z

oraz jej poziomicę zerową tj. zbiór

\displaystyle \{F=0\}=\{(x,y)\in U: F(x,y)=0\}.

Ustalmy pewien punkt \displaystyle P=(a,b)\in \{F=0\}, \displaystyle a\in X, \displaystyle b\in Y, na tej poziomicy.

Definicja 9.1.

Mówimy, że punkt \displaystyle P\in \{F=0\} jest punktem regularnym zbioru \displaystyle \{F=0\}, jeśli różniczka \displaystyle d_P F jest suriekcją przestrzeni \displaystyle X\times Y na przestrzeń \displaystyle Z. Punkt poziomicy \displaystyle \{F=0\}, który nie jest regularny, będziemy nazywać punktem nieregularnym tej poziomicy.

Przypomnijmy fakt z algebry liniowej:

Uwaga 9.2.

W przypadku przestrzeni o skończonym wymiarze \displaystyle X=\mathbb{R}^n, \displaystyle Y=\mathbb{R}^m odwzorowanie liniowe \displaystyle L:X\times Y\mapsto Y jest suriekcją wtedy i tylko wtedy, gdy rząd (macierzy) odwzorowania \displaystyle L jest maksymalny, tj. równy \displaystyle m.

Przykład 9.3.

Niech \displaystyle X=Y=\mathbb{R}. Rozważmy \displaystyle F(x,y)=x^2+y^2-1 i poziomicę zerową tej funkcji

\displaystyle  \{F=0\}=\{x^2+y^2=1\},

czyli okrąg o środku w punkcie \displaystyle (0,0) i promieniu jednostkowym. Różniczka

\displaystyle \aligned d_{(x_0, y_0)}F&=\frac{\partial F}{\partial x}(x_0, y)dx+\frac{\partial F}{\partial y}(x_0, y)dy\\&=2x_0 dx+2y_0 dy\endaligned

w dowolnym punkcie \displaystyle (x_0, y_0)\in\{F=0\} ma rząd maksymalny. Rząd różniczki \displaystyle d_{(x_0, y_0)}F nie jest maksymalny tylko w punkcie, w którym obie pochodne cząstkowe \displaystyle \frac{\partial F}{\partial x}, \displaystyle \frac{\partial F}{\partial y} zerują się, czyli gdy

\displaystyle  \left\{\aligned 2x_0=0\\2y_0=0,\endaligned\right.

ale punkt \displaystyle (0,0) nie leży na okręgu \displaystyle \{F=0\}.

Przykład 9.4.

Niech \displaystyle X=Y=\mathbb{R} i niech \displaystyle F(x,y)=x^3+y^3-3xy. Pamiętamy, że poziomicą zerową tej funkcji

\displaystyle  \{F=0\}=\{x^3+y^3=3xy\}

jest krzywa, którą nazywamy liściem Kartezjusza. Zauważmy, że różniczka

\displaystyle d_{(x_0, y_0)}F=3(x_0^2-y_0)dx+3(y_0^2-x_0)dy
nie ma maksymalnego rzędu, gdy
\displaystyle  \left\{\alignedx_0^2-y_0=0\\y_0^2-x_0=0,\endaligned\right.

czyli w punktach \displaystyle (0,0) i \displaystyle (1, 1). Stąd punkt \displaystyle (0,0) jest punktem nieregularnym

liścia Kartezjusza. Drugi punkt \displaystyle (1,1) nie leży na poziomicy \displaystyle \{F=0\}.

Przykład 9.5.

Niech \displaystyle X=Y=\mathbb{R} i niech \displaystyle F(x,y)=(x^2+y^2)^2-2(x^2-y^2). Poziomicę zerową tej funkcji już także poznaliśmy. Krzywą

\displaystyle  \{F=0\}=\left\{(x^2+y^2)^2=2(x^2-y^2)\right\}

nazywamy lemniskatą Bernoullego. Różniczka

\displaystyle  \aligned d_{(x_0,y_0)}F&=\left(2(x_0^2+y_0^2)2x_0-4x_0\right)dx+\left(2(x_0^2+y_0^2)2y_0+4y_0\right)dy \\&=4x_0(x_0^2+y_0^2-1)dx+4y_0(x_0^2+y_0^2+1)dy\endaligned

nie ma maksymalnego rzędu tylko wtedy, gdy

\displaystyle  \left\{\aligned x_0(x_0^2+y_0^2-1)=0\\ y_0(x_0^2+y_0^2+1)=0,\endaligned\right.

czyli w trzech punktach \displaystyle (0,0), \displaystyle (-1, 0) i \displaystyle (1,0), spośród których tylko pierwszy \displaystyle (0,0) leży na lemniskacie Bernoullego. Nie jest więc jej punktem regularnym.

Przykład 9.6.

Poziomicą zerową funkcji

\displaystyle  F:\mathbb{R}^3\ni(x,y,z)\mapsto F(x,y,z)=x^2+y^2+z^2-1\in\mathbb{R}

jest sfera o środku w początku układu współrzędnych \displaystyle (0,0,0) i promieniu jednostkowym:

\displaystyle  \{F=0\}=\{(x,y,z): x^2+y^2+z^2=1\}.

Różniczka odwzorowania \displaystyle F dana wzorem

\displaystyle  \aligned d_{(x,y,z)}F&=\frac{\partial F}{\partial x}(x,y,z)dx+\frac{\partial F}{\partial y}(x,y,z)dy+\frac{\partial F}{\partial z}(x,y,z)dz\\&= 2xdx+2ydy+2zdz\endaligned

jest odwzorowaniem liniowym i ciągłym z \displaystyle \mathbb{R}^3 do \displaystyle \mathbb{R} i ma rząd maksymalny (równy 1) we wszystkich punktach \displaystyle \mathbb{R}^3 poza początkiem układu współrzędnych \displaystyle (0,0,0), w którym rząd ten wynosi zero. Punkt \displaystyle (0,0,0) nie należy jednak do sfery \displaystyle \{F=0\}, stąd każdy jej punkt jest regularny.

Przykład 9.7.

Niech \displaystyle F:\mathbb{R}^3\ni (x,y,z)\mapsto F(x,y,z)=(x^2+z^2-1, y^2+z^2-1)\in \mathbb{R}^2. Wówczas poziomicą zerową funkcji \displaystyle F jest zbiór

\displaystyle  \{F=0\}=\{(x,y,z)\in \mathbb{R}^3, x^2+z^2=1, y^2+z^2=1\},

który powstaje z przecięcia walca \displaystyle x^2+z^2=1 o osi obrotu \displaystyle OY z walcem \displaystyle y^2+z^2=1 o osi obrotu \displaystyle OX. Zauważmy, że różniczka

\displaystyle  d_{(x,y,z)} F=(2x dx+0dy+2z dz, 0dx+2ydy+2zdz)

jest odwzorowaniem liniowym i ciągłym z \displaystyle \mathbb{R}^3 do \displaystyle \mathbb{R}^2. Jest więc maksymalnego rzędu, gdy rząd macierzy jej współczynników

\displaystyle  A=\left[\begin{array}{rrr} 2x &0 &2z\\ 0 &2y &2z \end{array} \right]

wynosi 2. Zauważmy, że rząd macierzy \displaystyle A wynosi zero, gdy \displaystyle x=y=z=0 (punkt \displaystyle (0,0,0) nie należy do poziomicy zerowej \displaystyle \{F=0\}). Z kolei, rząd tej macierzy wynosi jeden, gdy

\displaystyle  \aligned &&x=y=0, z\neq0\\ &\text{lub}&\\ &&x=z=0, y\neq0 \\ &\text{lub}& \\ &&y=z=0,x\neq0,\endaligned

co ma miejsce w dwóch punktach poziomicy \displaystyle \{F=0\}, a mianowicie w punktach \displaystyle (0,0, 1) oraz \displaystyle (0,0, -1). Są to jedyne punkty poziomicy, które nie są regularne, gdyż rząd różniczki \displaystyle d_{(x, y, z)} F w pozostałych punktach poziomicy jest maksymalny (tj. wynosi \displaystyle 2).
Grafika:Wykres.gif wykres

Przykład 9.8.

Niech \displaystyle F: \mathbb{R}^3\ni (x,y,z)\mapsto F(x,y,z)=(x^2+y^2+z^2)^2-3xyz\in \mathbb{R}. Poziomicą zerową tej funkcji jest powierzchnia o równaniu

\displaystyle  \{(x,y,z)=\{(x, y,z)\in \mathbb{R}^3: (x^2+y^2+z^2)^2=3xyz\}.

Różniczka \displaystyle d_{(x, y, z)} F=\frac{\partial F}{\partial x}dx+\frac{\partial F}{\partial y}dy+\frac{\partial F}{\partial z}dz jest odwzorowaniem liniowym i ciągłym z \displaystyle \mathbb{R}^3 do \displaystyle \mathbb{R}, nie ma więc rzędu maksymalnego w punktach \displaystyle (x, y, z), w których rząd różniczki jest niższy niż jeden, czyli w punktach, w których zerują się wszystkie trzy pochodne cząstkowe \displaystyle \frac{\partial F}{\partial x}=0, \frac{\partial F}{\partial y}=0, \frac{\partial F}{\partial z}=0, tzn. gdy

\displaystyle \left\{\aligned 4x(x^2+y^2+z^2)=3yz\\ 4y(x^2+y^2+z^2)=3xz\\ 4z(x^2+y^2+z^2)=3xy.\endaligned \right.

Układ ten spełnia punkt o współrzędnych \displaystyle (0,0,0), a także punkty o współrzędnych \displaystyle (x,y,z), które spełniają układ

\displaystyle  \left\{\aligned x^2&=y^2\\y^2&=z^2\\z^2&=x^2,\endaligned\right.

czyli \displaystyle |x|=|y|=|z|. Spośród punktów poziomicy \displaystyle \{F=0\} warunek ten spełniają poza punktem \displaystyle (0,0,0) także punkty \displaystyle (a,a,a), \displaystyle (-a,-a,a), \displaystyle (-a,a,-a), \displaystyle (a,-a,-a), gdzie \displaystyle a=\frac{1}{3}. Poza wskazanymi pięcioma punktami poziomicy \displaystyle \{F=0\} pozostałe punkty są regularne, gdyż różniczka odwzorowania \displaystyle F ma w nich rząd maksymalny (równy \displaystyle 1).



Poziomica zerowa funkcji \displaystyle f(x,y,z)=(x^2+y^2+z^2)^2-3xyz


Twierdzenie o funkcji uwikłanej

Niech \displaystyle X, \displaystyle Y będą przestrzeniami Banacha i niech \displaystyle F: U\mapsto Y będzie funkcją różniczkowalną w zbiorze otwartym \displaystyle U\subset X\times Y. Niech \displaystyle (a,b)\in\{F=0\} będzie punktem poziomicy zerowej funkcji \displaystyle F, gdzie \displaystyle a\in X, b\in Y. Powstaje naturalne pytanie o warunki, przy których poziomicę \displaystyle \{F=0\} w otoczeniu punktu \displaystyle (a,b) można przedstawić jako wykres pewnej funkcji \displaystyle f: X\mapsto Y takiej, że \displaystyle F(x, f(x))=0 w pewnym otoczeniu otwartym punktu \displaystyle a\in X.

Rozważmy dwa proste przykłady.

Przykład 9.9.

Niech \displaystyle (a,b) będzie punktem okręgu \displaystyle x^2+y^2=1, który stanowi poziomicę zerową funkcji

\displaystyle  \mathbb{R}\times\mathbb{R} \ni (x,y)\mapsto F(x,y)=x^2+y^2-1\in\mathbb{R}.

Jeśli \displaystyle b>0, to w otoczeniu punktu \displaystyle a\in (-1,1) można określić funkcję

\displaystyle  f_1: x\mapsto f_1(x)=\sqrt{1-x^2}

taką, że

\displaystyle  F(x,f_1(x))=x^2+(\sqrt{1-x^2})^2-1=0 \ \text{ oraz } \ f_1(a)=b.

Z kolei, jeśli \displaystyle b<0, to w otoczeniu punktu \displaystyle a\in (-1,1) znajdziemy funkcję

\displaystyle  f_2: x\mapsto f_2(x)=-\sqrt{1-x^2}

taką, że

\displaystyle  F(x, f_2(x))=x^2+(-\sqrt{1-x^2})^2-1=0 \ \text{ oraz } \f_2(a)=b.

Jedynymi punktami \displaystyle (a,b) okręgu \displaystyle x^2+y^2=1, w otoczeniu których nie znajdziemy funkcji \displaystyle f: x\mapsto f(x) takiej, że \displaystyle f(a)=b i \displaystyle F(x, f(x))=0, są punkty \displaystyle (-1,0) oraz

\displaystyle (1,0). Zauważmy, że w punktach tych zeruje się pochodna cząstkowa \displaystyle \frac{\partial F}{\partial y}.

Przykład 9.10.

Niech \displaystyle a=(a_1,a_2)\in \mathbb{R}^2, \displaystyle b\in \mathbb{R}. Niech \displaystyle (a,b)\in \mathbb{R}^3 będzie punktem sfery \displaystyle x_1^2+x_2^2+z^2=1, która stanowi poziomicę zerową funkcji \displaystyle F(x_1, x_2 , z)=x_1^2+x_2^2+z^2-1. Jeśli \displaystyle b>0, to w otoczeniu punktu \displaystyle a=(a_1, a_2) wewnątrz okręgu \displaystyle x_1^2+x_2^2 <1 można określić funkcję

\displaystyle  f_1: (x_1, x_2)\mapsto f_1(x_1,x_2)=\sqrt{1-x_1^2-x_2^2}

taką, że

\displaystyle  F(x_1, x_2, f_1(x_1,x_2))=x_1^2+x_2^2 +\big(\sqrt{1-x_1^2-x_2^2}\big)^2-1=0 \ \text{ oraz } \ f_1(a)=b.

Z kolei, jeśli \displaystyle b<0 znajdziemy funkcję

\displaystyle  f_2: (x_1, x_2)\mapsto f_1(x_1, x_2)=-\sqrt{1-x_1^2-x_2^2}

taką, że

\displaystyle  F(x_1, x_2, f_2(x_1, x_2))=x_1^2+x_2^2+\big(-\sqrt{1-x_1^2-x_2^2}\big)^2-1=0\ \text{ oraz } \f_2(a)=b.

Jedynymi punktami \displaystyle (a,b) sfery \displaystyle x_1^2+x_2^2+z^2=1, w otoczeniu których nie znajdziemy funkcji \displaystyle f: (x_1, x_2)\mapsto f(x_1, x_2) takiej, że \displaystyle f(a)=b i \displaystyle F(x_1, x_2, f(x_1,x_2))=0, są punkty okręgu \displaystyle x_1^2+x_2^2=1 zawartego w płaszczyźnie \displaystyle z=0. Zauważmy, że w punktach tych zeruje się pochodna cząstkowa \displaystyle \frac{\partial F}{\partial z}=2z.

Uogólnijmy to spostrzeżenie, formułując

Twierdzenie 9.11.[twierdzenie o funkcji uwikłanej]

Niech \displaystyle F:U\mapsto Y będzie funkcją różniczkowalną o ciągłej różniczce na zbiorze otwartym \displaystyle U\subset X\times Y. Niech \displaystyle (a,b)\in \{F=0\} (gdzie \displaystyle a\in X, b\in Y) będzie punktem poziomicy zerowej funkcji \displaystyle F takim, że zacieśnienie różniczki \displaystyle d_{(a,b)}F_{|Y} do podprzestrzeni \displaystyle Y\subset X\times Y jest izomorfizmem. Wówczas

1) istnieje pewne otoczenie otwarte \displaystyle V\subset X punktu \displaystyle a oraz istnieje dokładnie jedna funkcja określona w tym otoczeniu \displaystyle f:V\mapsto Y taka, że \displaystyle f(a)=b oraz \displaystyle F(x, f(x))=0 dla dowolnego \displaystyle x\in V. Ponadto

2) funkcja \displaystyle f jest różniczkowalna i ma ciągłą różniczkę w zbiorze

\displaystyle V daną wzorem
\displaystyle d_x f=-\big(d_{(x,y)}F_{|Y} \big)^{-1}\circ \big(d_{(x,y)}F_{|X}\big),
gdzie \displaystyle y=f(x), natomiast

\displaystyle d_{(x,y)}F_{|X} oznacza zacieśnienie różniczki \displaystyle d_{(x,y)}F do podprzestrzeni \displaystyle X\subset X\times Y a \displaystyle (d_{(x,y)}F_{|Y})^{-1} jest izomorfizmem odwrotnym do zacieśnienia różniczki \displaystyle d_{(x,y)}F_{|Y}.

Dowód 9.11.

[Szkic] Pominiemy dowód istnienia funkcji \displaystyle f. Wyprowadzimy jednak wzór, który określa jej różniczkę, w trzech przypadkach najczęściej spotykanych w konkretnych zastosowaniach. Przypomnijmy

wpierw jednak, że image:End_of_proof.gif
Uwaga 9.12.

Jeśli \displaystyle Y=\mathbb{R}^n, to odwzorowanie liniowe \displaystyle  L:Y\mapsto Y jest izomorfizmem wtedy i tylko wtedy, gdy wyznacznik tego odwzorowania jest różny od zera, tj. \displaystyle \det L\neq 0.

Przypadek I. Niech \displaystyle X=Y=\mathbb{R} i niech \displaystyle F: \mathbb{R}^2\ni(x,y)\mapsto F(x,y)\in \mathbb{R}. Jeśli funkcja \displaystyle f:\mathbb{R}\mapsto \mathbb{R} spełnia równanie \displaystyle F(x, f(x))=0, to przy założeniu, że jest różniczkowalna, na mocy twierdzenia o różniczce złożenia funkcji otrzymamy równość

\displaystyle  0=\frac{d}{dx}F(x, f(x))=\frac{\partial F}{\partial x}(x,y)+\frac{\partial F}{\partial y}(x,y)\frac{df}{dx}(x), \text{ gdzie } y=f(x).

Stąd

\displaystyle  -\frac{\partial F}{\partial x}(x,y)=\frac{\partial,F}{\partial y}(x,y)\frac{df}{dx}(x).

Z założenia zacieśnienie różniczki \displaystyle d_{(x,y)}F_{|Y} jest izomorfizmem przestrzeni \displaystyle \mathbb{R} do \displaystyle \mathbb{R}, co oznacza w tym przypadku, że pochodna cząstkowa \displaystyle \dfrac{\partial F}{\partial y}\neq 0. Stąd pochodna funkcji uwikłanej wyraża się wzorem

\displaystyle  \frac{df}{dx}(x)=-\left(\frac{\partial F}{\partial y}(x,y)\right)^{-1}\frac{\partial F}{\partial x}(x,y), \text{ gdzie } y=f(x).

Przypadek II. Niech \displaystyle F: \mathbb{R}^3\ni(x_1, x_2, y)\mapsto F(x_1, x_2, y)\in \mathbb{R}. Jeśli funkcja \displaystyle f:\mathbb{R}^2 \mapsto \mathbb{R} spełnia równanie \displaystyle F(x_1, x_2, f(x_1,x_2))=0, to przy założeniu, że jest różniczkowalna, na mocy twierdzenia o różniczce złożenia funkcji otrzymamy równość prawdziwą w punktach \displaystyle (x_1, x_2, y) poziomicy \displaystyle \{F=0\}

\begin{array}{lll}\displaystyle  0=\frac{\partial }{\partial x_1}F\big(x_1, x_2, f(x_1, x_2)\big) &=&\displaystyle \frac{\partial F}{\partial x_1}\frac{\partial x_1}{\partial x_1}+\frac{\partial F}{\partial x_2}\frac{\partial x_2}{\partial x_1}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_1}\\&=&\displaystyle \frac{\partial F}{\partial x_1}+0+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_1} \end{array}

oraz

\begin{array}{lll}\displaystyle  0=\frac{\partial }{\partial x_2}F\big(x_1, x_2, f(x_1, x_2)\big) &=&\displaystyle \frac{\partial F}{\partial x_1}\frac{\partial x_1}{\partial x_2}+\frac{\partial F}{\partial x_2}\frac{\partial x_2}{\partial x_2}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_2}\\&=&\displaystyle 0+\frac{\partial F}{\partial x_2}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_2} \end{array}

Izomorficzność zawężenia różniczki \displaystyle d_{(x_1, x_2, y)}F_{|Y} również w tym przypadku oznacza po prostu, że pochodna cząstkowa \displaystyle \dfrac{\partial F}{\partial y}(x_1, x_2, y)\neq 0. Wówczas z powyższych równości dostajemy

\displaystyle  \frac{\partial f}{\partial x_1}(x_1, x_2)=-\left(\frac{\partial F}{\partial y}(x_1, x_2, y)\right)^{-1}\frac{\partial F}{\partial x_1}(x_1, x_2, y)

oraz

\displaystyle  \frac{\partial f}{\partial x_2}(x_1, x_2)=-\left(\frac{\partial F}{\partial y}(x_1, x_2, y)\right)^{-1}\frac{\partial F}{\partial x_2}(x_1, x_2, y),

gdzie \displaystyle y=f(x_1, x_2). Pomijając argument w zapisie pochodnych cząstkowych, można te wzory podać w skróconej formie (łatwiejszej do zapamiętania):

\displaystyle  \frac{\partial f}{\partial x_1}=-\left(\frac{\partial F}{\partial y}\right)^{-1}\frac{\partial F}{\partial x_1}
oraz
\displaystyle \frac{\partial f}{\partial x_2}=-\left(\frac{\partial F}{\partial y}\right)^{-1}\frac{\partial F}{\partial x_2}.

Przypadek III. Niech \displaystyle X=\mathbb{R}, \displaystyle Y=\mathbb{R}^2 i niech

\displaystyle  F: \mathbb{R}\times \mathbb{R}^2 \ni (x, y_1, y_2)\mapsto F(x, y_1, y_2)=\left(F_1(x, y_1, y_2), F_2(x, y_1, y_2)\right)\in \mathbb{R}^2.

Załóżmy, że istnieje funkcja różniczkowalna

\displaystyle  f: \mathbb{R}\ni x\mapsto (f_1(x), f_2(x))\in\mathbb{R}^2

taka, że

\displaystyle  0=F(x,f(x))=\bigg(F_1\big(x, f_1(x), f_2(x)\big), \ F_2\big(x, f_1(x), f_2(x)\big)\bigg),

to znaczy

\displaystyle  \left\{\aligned 0&=F_1(x, f_1(x), f_2 (x))\\ 0&=F_1(x, f_1(x), f_2 (x)).\endaligned \right.

Stąd - korzystając z twierdzenia o różniczkowaniu złożenia funkcji - dostajemy

\displaystyle  \aligned 0=\frac{d}{dx}F_1(x, f_1(x), f_2 (x))&=\frac{\partial F_1}{\partial  x}\frac{dx}{dx}+\frac{\partial F_1}{\partial y_1}\frac{df_1}{dx}+\frac{\partial F_1}{\partial y_2}\frac{df_2}{dx}\\&= \frac{\partial F_1}{\partial x}+\frac{\partial F_1}{\partial y_1}f_1'+\frac{\partial F_1}{\partial y_2}f_2'\endaligned

oraz

\displaystyle  \aligned 0=\frac{d}{dx}F_2(x, f_1(x), f_2 (x))&=\frac{\partial F_2}{\partial x}\frac{dx}{dx}+\frac{\partial F_2}{\partial y_1}\frac{df_1}{dx}+\frac{\partial F_2}{\partial y_2}\frac{df_2}{dx}\\&= \frac{\partial F_2}{\partial x}+\frac{\partial F_2}{\partial y_1}f_1'+\frac{\partial F_2}{\partial y_2}f_2'.\endaligned

Otrzymujemy układ dwóch równań z niewiadomymi \displaystyle f_1', \displaystyle f_2', które są pochodnymi składowych funkcji uwikłanej \displaystyle f=(f_1, f_2):

\displaystyle  \left\{\aligned -\frac{\partial F_1}{\partial x}=\frac{\partial F_1}{\partial y_1}f_1'+\frac{\partial F_1}{\partial y_2}f_2'\\ -\frac{\partial F_2}{\partial x}=\frac{\partial F_2}{\partial y_1}f_1'+\frac{\partial F_2}{\partial y_2}f_2' . \endaligned\right.

Zapiszmy ten układ w formie macierzowej

\displaystyle  \displaystyle -\left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x}\\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array} \right] =\left[ \begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} &\displaystyle\frac{\partial F_1}{\partial y_2}\\&\\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right] \, \left[\begin{array}{r} f_1' \\f_2 '\end{array} \right].

W rozważanym przypadku założenie o izomorficzności zacieśnienia różniczki \displaystyle d_{(x,y)}F do podprzestrzeni \displaystyle Y\subset X\times Y oznacza po prostu fakt, że macierz pochodnych cząstkowych, która reprezentuje \displaystyle d_{(x,y)F_{|Y}}:

\displaystyle  \left[ \begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} &\displaystyle\frac{\partial F_1}{\partial y_2}\\&\\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right]

jest nieosobliwa, tj. jej wyznacznik jest różny od zera. Z kolei macierz kolumnowa

\displaystyle  \left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x}\\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array} \right]

reprezentuje zacieśnienie różniczki \displaystyle d_{(x,y)}F do podprzestrzeni \displaystyle X\subset X\times Y. Macierz niewiadomych \displaystyle f_1', \displaystyle f_2':

\displaystyle  \left[\begin{array}{r} f_1' \\f_2'\end{array} \right]

reprezentuje różniczkę \displaystyle d_x f funkcji uwikłanej \displaystyle f=(f_1, f_2). Stąd układ równań z niewiadomymi \displaystyle f_1', \displaystyle f_2' przedstawia równanie

\displaystyle  -d_{(x,y)}F_{|X}=d_{(x,y)}F_{|Y}\circ d_x f, \ \ \ \ \ \text{ gdzie }y=f(x),

w którym niewiadomą jest różniczka \displaystyle d_x f. Izomorficzność zacieśnienia \displaystyle d_{(x,y)}F_{|Y} gwarantuje istnienie odwzorowania odwrotnego \displaystyle \left(d_{(x,y)}F_{|Y}\right)^{-1}, dzięki czemu otrzymujemy

\displaystyle  d_xf=-\left(d_{(x,y)}F_{|Y}\right)^{-1}\circ d_{(x,y)}F_{|X}.

W języku algebry nieosobliwość macierzy

\displaystyle  \left[\begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} &\displaystyle \frac{\partial F_1}{\partial y_2}\\&\\\displaystyle \frac{\partial F_2}{\partial y_1} &\displaystyle\frac{\partial F_2}{\partial y_2}\end{array} \right]

gwarantuje istnienie macierzy do niej odwrotnej. Stąd rozwiązaniem równania

\displaystyle  \displaystyle-\left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x}\\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array} \right] =\left[ \begin{array}{rr}\displaystyle  \frac{\partial F_1}{\partial y_1} &\displaystyle  \frac{\partial F_1}{\partial y_2}\\&\\\displaystyle  \frac{\partial F_2}{\partial y_1} &\displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right] \, \left[\begin{array}{r} f_1' \\f_2 '\end{array} \right]

jest

\displaystyle  \displaystyle\left[\begin{array}{r} f_1' \\f_2 '\end{array} \right] =-\left(\left[ \begin{array} {rr}\displaystyle \frac{\partial F_1}{\partial y_1} &\displaystyle \frac{\partial F_1}{\partial y_2}\\&\\ \displaystyle \frac{\partial F_2}{\partial y_1} &\displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right]\right)^{-1} \left[\begin{array}{r} \displaystyle \frac{\partial F_1}{\partial x}\\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array} \right]

lub równoważnie:

\displaystyle  d_x f=-\left(d_{(x,y)}F_{|Y}\right)^{-1}\circ d_{(x,y)}F_{|X}.

Ekstrema funkcji uwikłanej

Niech \displaystyle X=\mathbb{R}^n,  Y=\mathbb{R} i niech

\displaystyle  F: X\times \mathbb{R}\ni (x_1, x_2,\dots, x_n, y)\mapsto F(x_1, x_2, \dots, x_n, y)\in \mathbb{R}

będzie funkcją określoną w pewnym zbiorze otwartym \displaystyle U\subset X\times \mathbb{R}.

Zauważmy, że do wyznaczenia różniczki funkcji \displaystyle f uwikłanej równaniem \displaystyle F(x, f(x))=0 nie potrzebujemy znać jawnej postaci funkcji \displaystyle f. Co więcej, potrafimy wyznaczyć punkty, w których funkcja \displaystyle f może osiągać ekstrema, korzystając ze znanego warunku koniecznego istnienia ekstremum.

Twierdzenie 9.13.[warunek konieczny istnienia ekstremum funkcji uwikłanej]

Jeśli funkcja \displaystyle f uwikłana równaniem \displaystyle F(x,f(x))=0 osiąga ekstremum w pewnym punkcie \displaystyle a\in X takim, że pochodna cząstkowa \displaystyle \frac{\partial F}{\partial y}(a, f(a))\neq 0, to w punkcie \displaystyle (a, f(a)) zerują się pochodne cząstkowe funkcji \displaystyle F po zmiennych \displaystyle x_1, x_2, \dots, x_n, tzn.

\displaystyle \displaystyle  \foralli\in\{1,2,\dots, n\} \ \ \frac{\partial F}{\partial x_i}(a,f(a))=0.

Dowód

Warunek ten jest konsekwencją wzoru na różniczkę funkcji \displaystyle f, który stanowi tezę twierdzenia o funkcji uwikłanej. Ponieważ zachodzi równość

\displaystyle \displaystyle  d_x f=-\left(d_{(x,y)}F_{|Y}\right)^{-1}\circd_{(x,y)}F_{|X},

to wobec izomorficzności \displaystyle d_{(x,y)}F_{|Y} która w tym przypadku jest równoważna stwierdzeniu, że \displaystyle \frac{\partial F}{\partial y}(x, y)\neq 0) różniczka \displaystyle d_a f zeruje się wtedy i tylko wtedy, gdy \displaystyle d_{(a,f(a))}F_{|X}=0. Warunek ten jest z kolei równoważny zerowaniu się w punkcie \displaystyle (a, f(a)) pochodnych cząstkowych funkcji \displaystyle F po zmiennych \displaystyle x_1, x_2, \dots, x_n, czyli

\displaystyle  \left\{\aligned &\frac{\partial F}{\partial x_1}(a, f(a))=0 \\ &\frac{\partial F}{\partial x_2}(a, f(a))=0\\ &\vdots \\ &\frac{\partial F}{\partial x_n}(a, f(a))=0.\endaligned \right.
image:End_of_proof.gif

Wyznaczymy również drugą różniczkę funkcji uwikłanej \displaystyle f, aby z jej określoności wywnioskować, czy funkcja \displaystyle f osiąga maksimum, minimum, czy też w ogóle nie osiąga ekstremum w punktach, które spełniają warunek konieczny istnienia ekstremum.

Rozważmy dwa najczęściej spotykane przypadki:

Przypadek I. Niech \displaystyle F:\mathbb{R}^2\mapsto \mathbb{R} będzie funkcją dwukrotnie różniczkowalną. Rozważmy funkcję \displaystyle f uwikłaną równaniem \displaystyle F(x, f(x))=0. Różniczkując tę równość po zmiennej \displaystyle x, otrzymamy (na podstawie twierdzenia o różniczkowaniu złożenia) równość

\displaystyle  0=\frac{\partial F}{\partial x}+\frac{\partial F}{\partial y}f'.

Różniczkując względem zmiennej \displaystyle x powtórnie obie strony powyższej nierówności, otrzymamy

\displaystyle  \aligned 0=\frac{d}{dx}\bigg(\frac{\partial F}{\partial x}+\frac{\partial F}{\partial y}f'\bigg)&=\frac{d}{dx}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{d}{dx}\bigg(\frac{\partial F}{\partial y}f'\bigg)\\&= \frac{d}{dx}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{d}{dx}\bigg(\frac{\partial F}{\partial y}\bigg)f'+\frac{\partial F}{\partial y}f''\\&=\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial y\partial x}f'+\bigg(\frac{\partial^2 F}{\partial x\partial y}+\frac{\partial^2 F}{\partial y^2}f'\bigg)f'+\frac{\partial F}{\partial y}f''.\endaligned

Otrzymane wyrażenie znacznie upraszcza się w punkcie \displaystyle x_0, w którym \displaystyle f'(x_0)=0. Otrzymamy wówczas równość

\displaystyle  0=\frac{\partial^2 F}{\partial x^2}(x_0, y_0)+\frac{\partial F}{\partial y}(x_0, y_0)f''(x_0),

z której - wobec założenia, że \displaystyle \dfrac{\partial F}{\partial y}(x_0, y_0)\neq 0 - otrzymamy

\displaystyle  f''(x_0)=-\bigg(\frac{\partial F}{\partial y}(x_0, y_0)\bigg)^{-1}\frac{\partial^2 F}{\partial x^2}(x_0, y_0),

gdzie \displaystyle y_0=f(x_0).

Przypadek II. Niech \displaystyle f:\mathbb{R}^2\mapsto \mathbb{R} będzie funkcją uwikłaną równaniem \displaystyle F(x,y, f(x,y))=0, gdzie \displaystyle F:\mathbb{R}^3\mapsto \mathbb{R} jest funkcją dwukrotnie różniczkowalną. Wówczas w punktach poziomicy \displaystyle \{F=0\} otrzymamy równości zawierające pochodne cząstkowe \displaystyle \dfrac{\partial f}{\partial x} oraz \displaystyle \dfrac{\partial f}{\partial y}:

\displaystyle  0=\frac{\partial F}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial x}
\displaystyle  0=\frac{\partial F}{\partial y}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial y}.

Policzymy pochodną cząstkową \displaystyle \frac{\partial }{\partial x} po zmiennej \displaystyle x obu stron pierwszej z tych równości. Ze wzorów na pochodną złożenia funkcji wyznaczymy wpierw:

\displaystyle  \frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)=\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial z\partial x}\frac{\partial f }{\partial x}

oraz

\displaystyle  \frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\bigg)=\frac{\partial^2 F}{\partial x\partial z}+\frac{\partial^2 F}{\partial z^2}\frac{\partial f}{\partial x}.

Wobec tego

\displaystyle  \aligned 0=\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial x} \bigg)&=\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\frac{\partial f}{\partial x}\bigg)\\ &=\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\bigg)\frac{\partial f}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial^2 f}{\partial x^2}\\&=\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial z\partial x}\frac{\partial f}{\partial x}+\bigg(\frac{\partial^2 F}{\partial x\partial z}+\frac{\partial^2 F}{\partial z^2}\frac{\partial f}{\partial x} \bigg)\frac{\partial f}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial^2 f}{\partial x^2}.\endaligned

W punkcie \displaystyle (x_0, y_0), w którym zeruje się różniczka funkcji uwikłanej, mamy \displaystyle \dfrac{\partial f}{\partial x}(x_0, y_0)=0, \displaystyle \dfrac{\partial f}{\partial y}(x_0, y_0)=0, a powyższy wzór upraszcza się i przyjmuje postać:

\displaystyle  0=\frac{\partial ^2 F}{\partial x^2}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial x^2}(x_0, y_0),

gdzie \displaystyle z_0=f(x_0, y_0). W podobny sposób dostajemy równości zawierające pozostałe pochodne cząstkowe rzędu drugiego funkcji uwikłanej \displaystyle f, które przy założeniu zerowania się różniczki funkcji uwikłanej w punkcie \displaystyle (x_0, y_0) przyjmują postać:

\displaystyle  0=\frac{\partial ^2 F}{\partial x\partial y}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial x\partial y}(x_0, y_0),
\displaystyle  0=\frac{\partial ^2 F}{\partial y\partial x}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial y\partial x}(x_0, y_0),
\displaystyle  0=\frac{\partial ^2 F}{\partial y^2}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial y^2}(x_0, y_0).

Stąd - wobec założenia, że \displaystyle \frac{\partial F}{\partial z}(x_0, y_0, z_0)\neq 0 - otrzymujemy:

\displaystyle  \left[\aligned &\frac{\partial^2 f}{\partial x^2}(x_0, y_0) & \ &\frac{\partial^2 f}{\partial x\partial y}(x_0, y_0)\\ &\frac{\partial^2 f}{\partial y\partial x}(x_0, y_0) \ & \ &\frac{\partial^2 f}{\partial y^2}(x_0, y_0)\endaligned\right]=-\bigg(\frac{\partial F}{\partial z}(x_0, y_0, z_0)\bigg)^{-1} \left[\aligned &\frac{\partial^2 F}{\partial x^2}(x_0, y_0, z_0) & \ &\frac{\partial^2 F}{\partial x\partial y}(x_0, y_0, z_0)\\ &\frac{\partial^2 F}{\partial y\partial x}(x_0, y_0, z_0) \ & \ &\frac{\partial^2 F}{\partial y^2}(x_0, y_0, z_0)\endaligned\right]

W podobny sposób (szczegółowe rachunki pomijamy) można wykazać ogólny wzór wyrażający drugą różniczkę funkcji uwikłanej.

Wniosek 9.14.

Niech \displaystyle f: x\mapsto f(x), \displaystyle x=(x_1, x_2, \dots,x_n) będzie funkcją uwikłaną równaniem \displaystyle F(x, f(x))=0, gdzie \displaystyle F: \mathbb{R}^n\times \mathbb{R}\ni (x,y)\mapsto F(x,y)\in \mathbb{R} jest funkcją dwukrotnie różniczkowalną w pewnym otoczeniu punktu \displaystyle (a,b), gdzie \displaystyle b=f(a). Niech \displaystyle \frac{\partial F}{\partial y}(a,b)\neq 0 i niech różniczka \displaystyle d_a f=0. Wówczas druga różniczka funkcji uwikłanej \displaystyle f w punkcie \displaystyle a wynosi

\displaystyle d_a^2 f=-\bigg(\frac{\partial F}{\partial y}(a,b)\bigg)^{-1}d_{(a, b)}F_{|X},
czyli
\displaystyle \frac{\partial^2 f}{\partial x_i \partial x_j}(a)=-\bigg(\frac{\partial F}{\partial y}(a,b)\bigg)^{-1}\frac{\partial^2 F}{\partial x_i \partial x_j}(a,b),
dla dowolnych \displaystyle i, j\in\{1,2,\dots, n\}.

Przykład 9.15.

Wyznaczmy ekstrema funkcji \displaystyle f danej w postaci uwikłanej \displaystyle F(x,y, f(x,y))=0, gdzie

\displaystyle  F(x,y,z)=(x^2+y^2+z^2)^2 -3 xyz.

Obserwacja poziomicy zerowej \displaystyle \{F=0\} każe przypuszczać, że w otoczeniu czterech punktów tej poziomicy da się wskazać otoczenia ich rzutów na płaszczyznę zmiennych \displaystyle (x,y) oraz jednoznacznie określone funkcje w tych otoczeniach takie, że dwie z nich będą osiągać maksima, a pozostałe dwie - minima.

Zgodnie z wykazanymi uwagami, aby wyznaczyć punkty ekstremalne funkcji uwikłanej \displaystyle f szukamy punktów \displaystyle (x,y), których współrzędne spełniają układ równań:

\displaystyle  \left\{\aligned  &\frac{\partial F}{\partial x}(x,y,z)=0 \\ &\frac{\partial F}{\partial y}(x,y,z)=0\\&(x,y,z)\in\{F=0\} \endaligned \right. \text{ czyli } \left\{\aligned &4x(x^2+y^2+z^2)-3yz=0 \\ &4y(x^2+y^2+z^2)-3xz=0\\ &(x^2+y^2+z^2)^2 -3 xyz=0. \endaligned \right.

Możliwość skorzystania z twierdzenia o funkcji uwikłanej (aby mieć gwarancję istnienia funkcji uwikłanej \displaystyle f) wymaga sprawdzenia założenia:

\displaystyle  \frac{\partial F}{\partial z}(x,y,z)=4z(x^2+y^2+z^2)-3xy\neq 0.

Nietrudno zauważyć, że początek układu współrzędnych \displaystyle (0,0,0) spełnia układ równań, ale nie spełnia założenia twierdzenia o funkcji uwikłanej, gdyż \displaystyle \frac{\partial F}{\partial z}(0,0,0)=0. Obserwacja poziomicy \displaystyle \{F=0\} wyraźnie pokazuje, że nie ma możliwości jednoznacznego odwikłania funkcji \displaystyle (x,y)\mapsto f(x,y) z równania \displaystyle F(x,y, f(x,y))=0 w żadnym otoczeniu punktu \displaystyle (0,0,0). Ponadto układ spełniają cztery punkty o współrzędnych

\displaystyle  \aligned &x=y=\frac{3\sqrt{2}}{16}, \ &&z=\frac{3}{8},\\ &x=y=-\frac{3\sqrt{2}}{16}, \ &&z=\frac{3}{8},\\ &x=-y=\frac{3\sqrt{2}}{16}, \ &&z=-\frac{3}{8},\\ &x=-y=-\frac{3\sqrt{2}}{16}, \ &&z=-\frac{3}{8},\endaligned

w których spełniony jest warunek \displaystyle \frac{\partial F}{\partial z}(x,y,z)\neq 0. Na mocy twierdzenia o funkcji uwikłanej w pewnych otoczeniach \displaystyle U_1, U_2, U_3, U_4\subset\mathbb{R}^2 odpowiednio punktów

\displaystyle  \aligned &A_1=\big(\frac{3\sqrt{2}}{16}, \frac{3\sqrt{2}}{16}\big), \\ &A_2=\big(-\frac{3\sqrt{2}}{16}, -\frac{3\sqrt{2}}{16}\big), \\ &A_3=\big(-\frac{3\sqrt{2}}{16}, \frac{3\sqrt{2}}{16}\big), \\ &A_4=\big(\frac{3\sqrt{2}}{16}, -\frac{3\sqrt{2}}{16}\big), \endaligned

istnieją jedyne funkcje \displaystyle f_1: U_1\mapsto\mathbb{R}, \displaystyle f_2: U_2\mapsto\mathbb{R}, \displaystyle f_3: U_3\mapsto\mathbb{R}, \displaystyle f_4: U_4\mapsto\mathbb{R}, które spełniają warunek

\displaystyle  F\big(x, y, f_i(x,y)\big)=0, \text{ gdy } (x,y)\in U_i, \ i\in\{1,2,3,4\}

oraz odpowiednio \displaystyle f_1(A_1)=f_2(A_2)=\frac{3}{8}, \displaystyle f_3(A_3)=f_4(A_4)=-\frac{3}{8}. Analiza poziomicy \displaystyle \{F=0\} (lub określoności drugiej różniczki \displaystyle d_{A_i}^2 f, \ i\in\{1,2,3,4\}) pozwala stwierdzić, że funkcje \displaystyle f_1 i \displaystyle f_2 osiągają w punktach \displaystyle A_1, \displaystyle A_2 maksimum, zaś \displaystyle f_3 i \displaystyle f_4 osiągają w punktach \displaystyle A_3, \displaystyle A_4 minimum.

Dalsze przykłady wyznaczania ekstremów funkcji uwikłanej analizujemy w ramach ćwiczeń.

Ekstrema warunkowe. Metoda mnożników Lagrange'a

Dotychczas wyznaczaliśmy ekstrema funkcji określonej w pewnym otwartym podzbiorze \displaystyle U przestrzeni unormowanej \displaystyle X (przy czym w praktycznych przykładach zajmowaliśmy się przykładami, gdy \displaystyle X=\mathbb{R}^n, \displaystyle n=1,2,3,\dots). Równie ważne z praktycznego punktu widzenia są także rozważania polegające na wyznaczaniu ekstremów funkcji \displaystyle F:X\mapsto\mathbb{R} zacieśnionej do zbioru, który nie jest otwarty w \displaystyle X.

Przykład 9.16.

Wyznaczmy najmniejszą i największą wartość funkcji

\displaystyle  F(x,y,z)=x -2y +2z

na sferze

\displaystyle  x^2+y^2+z^2=1.

Sfera ta jest zbiorem domkniętym i ograniczonym, jest więc zwarta. Stąd na na mocy twierdzenia Weierstassa o osiąganiu kresów przez funkcję ciągłą wnioskujemy, że wielomian \displaystyle F(x,y,z)=x -2y +2z osiąga na tej sferze zarówno wartość najmniejszą, jak i największą. Nasze dotychczasowe doświadczenie podpowiada nam, że zadanie można by sprowadzić do badania funkcji dwóch zmiennych np. poprzez odwikłanie zmiennej

\displaystyle  z(x,y)=\sqrt{1-x^2-y^2} \text{ lub } z(x,y)=-\sqrt{1-x^2-y^2}

z równania sfery i zbadania funkcji dwóch zmiennych \displaystyle (x,y) danych w kole \displaystyle x^2+y^2<1 wzorami:

\displaystyle  f_1: (x,y)\mapsto F\big(x,y,\sqrt{1-x^2-y^2}\big)=x-2y+2\sqrt{1-x^2-y^2},
\displaystyle  f_2: (x,y)\mapsto F\big(x,y,-\sqrt{1-x^2-y^2}\big)=x-2y-2\sqrt{1-x^2-y^2}.

Niezbyt skomplikowane (choć nieco żmudne rachunki) prowadzą do wyznaczenia ekstremów tych funkcji, a co za tym idzie: wartości ekstremalnych funkcji \displaystyle F na danej sferze.

Podamy jednak pewną metodę, która pozwala wyznaczać ekstremum funkcji \displaystyle F: X\mapsto \mathbb{R} zacieśnionej do poziomicy zerowej \displaystyle \{G=0\} pewnej funkcji \displaystyle G: X\mapsto Y również w przypadku, gdy odwikłanie zmiennej z równania \displaystyle G=0 nie jest tak proste jak w podanym przykładzie.

Sprecyzujmy jednak wpierw problem.

Niech \displaystyle X, Y będą przestrzeniami Banacha i niech \displaystyle G: X\mapsto Y, \displaystyle F:X\mapsto \mathbb{R} będą funkcjami.

Definicja 9.17.

Mówimy, że funkcja \displaystyle F osiąga ekstremum warunkowe w punkcie \displaystyle a przy warunku \displaystyle a\in \{G=0\}, jeśli zacieśnienie funkcji \displaystyle F do poziomicy \displaystyle \{G=0\} osiąga ekstremum w tym punkcie.

Prawdziwe jest następujące twierdzenie, które stanowi podstawę metody mnożników Lagrange'a.

Niech \displaystyle X, Y będą przestrzeniami Banacha.

Twierdzenie 9.18.

Niech \displaystyle F: X\mapsto \mathbb{R}, \displaystyle G: X\mapsto Y będą funkcjami różniczkowalnymi w otoczeniu punktu regularnego \displaystyle a poziomicy \displaystyle \{G=0\} (co - przypomnijmy - oznacza, że różniczka \displaystyle d_a G jest suriekcją przestrzeni \displaystyle X na \displaystyle Y). Jeśli funkcja \displaystyle F osiąga ekstremum warunkowe w punkcie regularnym \displaystyle a poziomicy zerowej funkcji \displaystyle G, to istnieje funkcjonał liniowy i ciągły \displaystyle \Lambda: Y\mapsto\mathbb{R} taki, że zachodzi równość \displaystyle d_a F=\Lambda \circ d_a G.

Prawdziwe jest również twierdzenie, które na podstawie określoności drugiej różniczki pozwala stwierdzić, czy funkcja \displaystyle F osiąga minimum, czy maksimum warunkowe w punkcie \displaystyle a\in\{G=0\}.

Twierdzenie 9.19.

Niech \displaystyle F: X\mapsto \mathbb{R}, \displaystyle G: X\mapsto Y będą funkcjami dwukrotnie różniczkowalnymi w otoczeniu punktu regularnego \displaystyle a poziomicy \displaystyle \{G=0\}. Jeśli istnieje funkcjonał liniowy i ciągły \displaystyle \Lambda: Y\mapsto\mathbb{R} taki, że zachodzi równość \displaystyle d_a F=\Lambda \circ d_a G oraz forma kwadratowa

\displaystyle  X\ni h\mapsto\big(d^2_a F-\Lambda \circ d_a^2 G \big)(h,h)\in\mathbb{R}

jest dodatnio określona (odpowiednio: ujemnie określona) na podprzestrzeni \displaystyle X_1:=\{h\in X, d_aG(h)=0\} przestrzeni \displaystyle X, to funkcja \displaystyle F osiąga w punkcie \displaystyle a minimum (odpowiednio: maksimum) warunkowe.

Definicja 9.20.

Funkcjonał \displaystyle \Lambda, który występuje w wypowiedzi obu powyższych twierdzeń, nazywamy funkcjonałem Lagrange'a.

Dowody obu twierdzeń pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977). Podamy jednak interpretację tego twierdzenia w kilku najczęściej spotykanych sytuacjach.

Uwaga 9.21.

Jeśli \displaystyle f, g : \mathbb{R}^2\mapsto \mathbb{R} są funkcjami różniczkowalymi, problem znalezienia ekstremum warunkowego funkcji \displaystyle f przy warunku \displaystyle \{g=0\} sprowadza się do znalezienia punktu \displaystyle a na poziomicy \displaystyle \{g=0\} oraz stałej \displaystyle \lambda, która reprezentuje funkcjonał Lagrange'a. Jeśli bowiem ekstremum to jest realizowane, to - zgodnie z podanym twierdzeniem - istnieje funkcjonał liniowy \displaystyle \Lambda : \mathbb{R}\mapsto \mathbb{R} dany wzorem \displaystyle \Lambda (x)=\lambda x taki, że różniczka \displaystyle d_a f=\lambda d_a g, o ile punkt \displaystyle a jest punktem regularnym poziomicy \displaystyle \{g=0\}. Przypomnijmy, że w przypadku, gdy \displaystyle g: \mathbb{R}^2\mapsto \mathbb{R}, punkt \displaystyle a jest regularny, jeśli rząd różniczki

\displaystyle  d_a g=\frac{\partial g(a)}{\partial x}dx+\frac{\partial g(a)}{\partial y}dy

wynosi 1. Wystarczy więc sprawdzić, czy w punkcie \displaystyle a różniczka \displaystyle d_a g\neq 0, czyli czy którakolwiek pochodna cząstkowa \displaystyle \frac{\partial g(a)}{\partial x} lub \displaystyle \frac{\partial g(a)}{\partial y} jest różna od zera. Zagadnienie sprowadza się do znalezienia punktów, w których zeruje się różniczka funkcji pomocniczej

\displaystyle  \Phi(x,y): =f(x,y)-\lambda g(x,y),

gdzie stałą \displaystyle \lambda (nazywaną tradycyjnie mnożnikiem Lagrange'a) wyznaczamy z układu równań

\displaystyle  \left\{\aligned d_{(x,y)}\Phi=0\\g(x,y)=0\endaligned \right. \text{ czyli } \left\{\aligned  & \displaystyle \frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\& \displaystyle \frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\& \displaystyleg(x,y)=0.\endaligned \right.
Uwaga 9.22.

Jeśli \displaystyle f, g : \mathbb{R}^3\mapsto \mathbb{R} są funkcjami różniczkowalnymi, problem znalezienia ekstremum warunkowego funkcji \displaystyle f przy warunku \displaystyle \{g=0\} sprowadza się do znalezienia - podobnie jak w poprzednim przypadku - punktu \displaystyle a na poziomicy \displaystyle \{g=0\} oraz stałej \displaystyle \lambda, która reprezentuje funkcjonał Lagrange'a. Jeśli bowiem ekstremum to jest realizowane to - zgodnie z podanym twierdzeniem - istnieje funkcjonał liniowy \displaystyle \Lambda : \mathbb{R}\mapsto \mathbb{R} dany wzorem \displaystyle \Lambda (x)=\lambda x, taki, że różniczka \displaystyle d_a f=\lambda d_a g, o ile punkt \displaystyle a jest punktem regularnym poziomicy \displaystyle \{g=0\}. Przypomnijmy, że w przypadku, gdy \displaystyle g: \mathbb{R}^3\mapsto \mathbb{R} punkt \displaystyle a jest regularny, jeśli rząd \displaystyle d_a g (odwzorowania liniowego z \displaystyle \mathbb{R}^3 do \displaystyle \mathbb{R}) jest maksymalny, czyli wynosi \displaystyle 1. Wystarczy więc sprawdzić, czy w punkcie \displaystyle a różniczka

\displaystyle  d_a g=\frac{\partial g(a)}{\partial x}dx+\frac{\partial g(a)}{\partial y}dy+\frac{\partial g(a)}{\partial z}dz

nie zeruje się, czyli czy któraś z pochodnych cząstkowych \displaystyle \frac{\partial g(a)}{\partial x}, \displaystyle \frac{\partial g(a)}{\partial y}, \displaystyle \frac{\partial g(a)}{\partial z} jest różna od zera. Zagadnienie można sprowadzić do znalezienia punktów, w których zeruje się różniczka funkcji pomocniczej

\displaystyle  \Phi(x,y,z): =f(x,y,z)-\lambda g(x,y,z),

gdzie stałą \displaystyle \lambda wyznaczamy z układu równań

\displaystyle  \left\{\aligned d_{(x,y,z)}\Phi=0\\g(x,y,z)=0\endaligned \right. \text{ czyli } \left\{\aligned  & \displaystyle\frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\ & \displaystyle\frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\ & \displaystyle\frac{\partial f}{\partial z}=\lambda \frac{\partial g}{\partial z} \\ & \displaystyleg(x,y,z)=0.\endaligned \right.

Przykład 9.23.

Powróćmy do zadania polegającego na wyznaczeniu najmniejszej i największej wartości funkcji \displaystyle f(x,y,z)=x -2y +2z na sferze \displaystyle x^2+y^2+z^2=1. Rozwiążemy je metodą mnożników Lagrange'a opisaną w poprzednich uwagach. Dana sfera jest poziomicą zerową funkcji \displaystyle g(x,y,z)=x^2+y^2+z^2-1. Wykazaliśmy już, że każdy punkt sfery jest regularny. Niech \displaystyle \Phi(x,y,z)=f(x,y,z)-\lambda g(x,y,z). Rozwiązujemy układ równań

\displaystyle  \left\{\aligned & \displaystyle \frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x}\\ & \displaystyle \frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y}\\ & \displaystyle \frac{\partial f}{\partial z}=\lambda \frac{\partial g}{\partial z} \\& \displaystyle g(x,y,z)=0\endaligned \right. \text{ czyli }  \left\{\aligned  & \displaystyle 1=2\lambda x \\ & \displaystyle-2=2\lambda y\\ & \displaystyle 2=2\lambda z\\ & \displaystyle x^2+y^2+z^2=1. \endaligned \right.

Układ ten spełniają liczby

\displaystyle  x=-\frac{1}{3},y=\frac{2}{3}, z=-\frac{2}{3}, \lambda=-\frac{3}{2}

oraz

\displaystyle  x=\frac{1}{3}, y=-\frac{2}{3}, z=\frac{2}{3}, \lambda=\frac{3}{2}.

Ponieważ sfera jest zbiorem zwartym, wystarczy wyznaczyć wartości funkcji w obu punktach i porównać je, gdyż zgodnie z twierdzeniem Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym, w jednym z tych dwóch punktów funkcja \displaystyle f musi osiągać kres dolny, a w drugim kres górny wartości na sferze \displaystyle \{g=0\}. Mamy

\displaystyle  f\big(-\frac{1}{3}, \frac{2}{3}, -\frac{2}{3} \big)=-3, \ \ f\big(\frac{1}{3}, -\frac{2}{3}, \frac{2}{3} \big)=3,

czyli \displaystyle f osiąga w pierwszym z tych punktów wartość najmniejszą równą \displaystyle -3, a w drugim punkcie - wartość największą na sferze równą \displaystyle 3.

Uwaga 9.24.

Jeśli funkcja \displaystyle F: \mathbb{R}^3\mapsto \mathbb{R}, zaś \displaystyle G:\mathbb{R}^3\mapsto \mathbb{R}^2, zagadnienie znalezienia ekstremów warunkowych funkcji \displaystyle F przy warunku \displaystyle \{G=0\} sprowadza się do znalezienia punktów zbioru \displaystyle \{G=0\}, w których zeruje się różniczka funkcji \displaystyle \Phi(x,y,z):=F(x,y,z)-\Lambda \circ G(x,y,z). Funkcjonał Lagrange'a \displaystyle \Lambda w tym przypadku jest odwzorowaniem liniowym z \displaystyle \mathbb{R}^2\mapsto \mathbb{R}, jest więc reprezentowany przez macierz złożoną z dwóch liczb: \displaystyle \lambda_1, \displaystyle \lambda_2. Funkcja \displaystyle G=(g_1, g_2) jest zestawieniem dwóch funkcji \displaystyle g_1, g_2 o wartościach rzeczywistych, stąd

\displaystyle  \Phi(x,y,z)=F(x,y,z)-\Lambda G(x,y,z)=F(x,y,z)-\lambda_1 g_1 (x,y,z)-\lambda_2 g_2 (x,y,z).

Metoda mnożników Lagrange'a sprowadza się więc do znalezienia rozwiązań układu równań

\displaystyle  \left\{\aligned d_{(x,y,z)}\Phi=0\\G(x,y,z)=0\endaligned \right. \text{ czyli } \left\{\aligned  & \displaystyle\frac{\partial F}{\partial x}=\lambda_1 \frac{\partial g_1}{\partial x}+\lambda_2 \frac{\partial g_2}{\partial x} \\ & \displaystyle\frac{\partial F}{\partial y}=\lambda_1 \frac{\partial g_1}{\partial y}+\lambda_2 \frac{\partial g_2}{\partial y} \\ & \displaystyle\frac{\partial F}{\partial z}=\lambda_1 \frac{\partial g_1}{\partial z} +\lambda_2 \frac{\partial g_2}{\partial z} \\ & \displaystyle g_1(x,y,z)=0 \\ & \displaystyle g_2(x,y,z)=0\endaligned \right.

w punktach regularnych poziomicy \displaystyle \{G=0\}, czyli tych, w których rząd różniczki \displaystyle d_{(x,y,z)}G jest maksymalny (tj. równy \displaystyle 2, gdyż różniczka \displaystyle d_{(x,y,z)}G jest odwzorowaniem liniowym z \displaystyle \mathbb{R}^3 do \displaystyle \mathbb{R}^2). Zwróćmy uwagę, że funkcja \displaystyle F może osiągać ekstremum w punktach, które należą do poziomicy \displaystyle \{G=0\} a nie są regularne. Metoda mnożników Lagrange'a nie rozstrzyga w tym przypadku o istnieniu ekstremum.

Przykład 9.25.

Wyznaczmy najmniejszą i największą wartość funkcji

\displaystyle  F(x,y,z)=x-y-2z

na przecięciu się dwóch walców

\displaystyle  x^2+z^2=1, \ \ y^2+z^2=1.

Zauważmy, że każdy z walców z osobna nie jest zbiorem zwartym, gdyż nie jest ograniczony, lecz ich przecięcie jest zbiorem zwartym (gdyż jest zbiorem domkniętym i ograniczonym, zawartym między innymi w sześcianie \displaystyle [-1,1]\times [-1,1]\times [-1,1]). Podany warunek można opisać za pomocą poziomicy zerowej funkcji \displaystyle G(x,y,z)=(x^2+z^2-1, y^2+z^2-1). Zbadaliśmy już, że spośród punktów poziomicy \displaystyle \{G=0\} tylko dwa nie są regularne: \displaystyle (0,0, 1) oraz \displaystyle (0,0,-1). Poza tymi dwoma punktami możemy zastosować metodę mnożników Lagrange'a, która sprowadza się do wyznaczenia rozwiązań układu równań:

\displaystyle  \left\{\aligned & \displaystyle \frac{\partial F}{\partial x}=\lambda_1 \frac{\partial g_1}{\partial x}+\lambda_2 \frac{\partial g_2}{\partial x} \\ & \displaystyle \frac{\partial F}{\partial y}=\lambda_1 \frac{\partial g_1}{\partial y}+\lambda_2 \frac{\partial g_2}{\partial y} \\ & \displaystyle \frac{\partial f}{\partial z}=\lambda_1 \frac{\partial g_1}{\partial z} +\lambda_2 \frac{\partial g_2}{\partial z} \\ & \displaystyle g_1(x,y,z)=0 \\ & \displaystyle g_2(x,y,z)=0\endaligned \right. \text{ czyli } \left\{\aligned  & \displaystyle 1=2\lambda_1 x\\ & \displaystyle -1=2\lambda_2 y\\  & \displaystyle-2=2(\lambda_1+\lambda_2)z\\  & \displaystyle x^2+z^2-1=0\\ & \displaystyle y^2+z^2-1=0. \endaligned\right.

Układ ten ma dwa rozwiązania

\displaystyle  -x=y=z=\frac{\sqrt{2}}{2}, \text{ przy czym } \lambda_1=\lambda_2=-\frac{\sqrt{2}}{2}

oraz

\displaystyle  x=-y=-z=\frac{\sqrt{2}}{2}, \text{ przy czym } \lambda_1=\lambda_2=\frac{\sqrt{2}}{2}.

Wartość funkcji \displaystyle F w tych punktach wynosi

\displaystyle  F\big(-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\big)=-2\sqrt{2} \text{ oraz } F\big(\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}\big)=2\sqrt{2}.

W obu punktach nieregularnych poziomicy \displaystyle \{G=0\} mamy

\displaystyle  F(0,0,-1)=2 \text{ oraz } F(0,0,1)=-2.

Po porównaniu tych wartości: \displaystyle -2\sqrt{2}<-2<2<2\sqrt{2} stwierdzamy, że największą wartość na na poziomicy \displaystyle \{G=0\} równą \displaystyle 2\sqrt{2} funkcja \displaystyle F osiąga w punkcie \displaystyle  (\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}), a najmniejszą, równą \displaystyle -2\sqrt{2}, w punkcie \displaystyle  (-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}).