Aktualna wersja na dzień 11:13, 12 wrz 2023

Równania nieliniowe

<<< Powrót do strony głównej przedmiotu Metody numeryczne

W wielu zadaniach, m.in. matematyki stosowanej, spotykamy się z problemem rozwiązania skalarnego równania nieliniowego postaci $f (x) = 0$ . Oto kilka przykładów:

Przykład

Równanie Keplera

f (x) \equiv x - ϵ \sin (x) - M = 0

jest bardzo ważne w astronomii, jego rozwiązanie pozwala wyznaczyć przyszłe położenie planety. Parametr $ϵ$ odpowiada ekscentryczności orbity i przyjmuje wartości z przedziału $[0, 1]$ . Poza paru prostymi przypadkami, w ogólności równanie Keplera nie daje się rozwiązać w terminach funkcji elementarnych.

Przykład

Znajdowanie miejsc zerowych wielomianu

f (x) \equiv a_{n} x^{n} + \dots + a_{1} x + a_{0} = 0

Bardzo wiele modeli matematycznych wymaga rozwiązania równania z wielomianową nieliniowością. Piękne kwadratury (Gaussa) opierają się na węzłach będących zerami pewnego wielomianu. Wielomiany są bardzo szczególnymi funkcjami i dla nich istnieje szereg wyspecjalizowanych metod znajdowania ich pierwiastków, m.in. metoda Laguerre'a, metoda Bairstow'a (o nich tu nie będziemy mówić), a także zaskakujące metody sprowadzające zadanie poszukiwania miejsc zerowych wielomianu do zupełnie innego zadania matematycznego --- o nich jednak będzie mowa dopiero w wykładzie dotyczącym znajdowania wartości własnych macierzy.

Przykład

Obliczanie pierwiastka kwadratowego z zadanej liczby $a$ , czyli sposób na implementację funkcji "sqrt()". Można to zadanie wyrazić, jako rozwiązywanie równania

f (x) \equiv x^{2} - a = 0

Szybkie algorytmy wyznaczania pierwiastka kwadratowego były znane już starożytnym. W wykładzie zrozumiemy, dlaczego metoda Herona,

x_{k + 1} = \frac{1}{2} (x_{k} + \frac{a}{x_{k}})

daje bardzo dobre przybliżenie $\sqrt{a}$ już po kilku iteracjach.

Przykład

Implementacja wyznaczania odwrotności liczby $a$ (bez dzielenia!) jest możliwa, gdy odpowiednią metodą będziemy poszukiwać rozwiązania równania

f (x) \equiv \frac{1}{x} - a = 0

To zadanie jest ważne praktycznie, np. tak można poprawić precyzję funkcji wektorowych stosowanych w niektórych procesorach AMD. Okazuje się, że instrukcja procesora służąca do równoległego obliczania odwrotności sekwencji liczb umieszczonych w 128-bitowym rejestrze wektorowym daje wynik z małą precyzją (oczywiście po to, by wykonywała się szybciej!). Jeśli taka dokładność wyniku nie odpowiada nam, możemy ją --- zgodnie z manualem procesora --- poprawić, rozwiązując właśnie takie równanie jak powyżej, metodą korzystającą wyłącznie z (wektorowych) operacji mnożenia i dodawania.

Bisekcja

Metoda bisekcji, czyli połowienia, często stosowana w innych działach informatyki, jest dość naturalną metodą obliczania zer skalarnych funkcji ciągłych określonych na danym przedziale $[a, b]$ i zmieniających znak. Dokładniej, rozpatrzmy klasę funkcji

F = {f \in C ([a, b]) : f (a) \cdot f (b) < 0}

,

to znaczy $f \in F$ przyjmują w krańcach przedziału wartości przeciwnego znaku. Oczywiście, każda funkcja $f \in F$ ma, na mocy twierdzenia Darboux, co najmniej jedno zero w $[a, b]$ . Startując z przedziału $[a, b]$ , w kolejnych krokach metody bisekcji obliczamy informację o wartości $f$ w środku przedziału, co pozwala nam w następnym kroku zmniejszyć o połowę przedział, w którym na pewno znajduje się zero funkcji.

Bisekcję realizuje następujący ciąg poleceń, po wykonaniu którego $x$ jest przybliżeniem zera funkcji $f$ z zadaną dokładnością $ϵ$ .

Algorytm Metoda bisekcji

lewy = a; prawy = b;
flewy = f(lewy); fprawy = f(prawy);
x = (a+b)/2; 	/* przybliżenie rozwiązania */
e = (b-a)/2; 	/* przedział lokalizujący rozwiązanie dokładne */
while (e > <math>\epsilon</math>) 
{
	fx = f(x);   	/* reszta */
	if ( abs(fx) == 0 ) /* trafiliśmy dokładnie w miejsce zerowe */
		return(x); 
	if ( sign(fx) != sign(flewy) ) /* tzn. f(lewy)*f(x) < 0 */
	{
		prawy = x;
		fprawy = fx;
	}
	else
	{
		lewy = x;
		flewy = fx;
	}
	x = (lewy+prawy)/2; /* najlepsze przybliżenie rozwiązania przy danym przedziale */
	e = e/2;
}
return(x);

Z konstrukcji metody łatwo wynika, że po wykonaniu $k$ obrotów pętli while (czyli po obliczeniu $k + 2$ wartości funkcji) otrzymujemy $x$ , które odległe jest od pewnego rozwiązania $x^{*}$ o co najwyżej

| x - x^{*} | \leq (\frac{1}{2})^{k} (\frac{b - a}{2})

Metoda bisekcji jest więc zbieżna liniowo z ilorazem $1 / 2$ . Choć ta zbieżność nie jest imponująca, bisekcja ma kilka istotnych zalet. Oprócz jej prostoty, należy podkreślić fakt, że bisekcja jest w pewnym sensie uniwersalna. Jeśli tylko dysponujemy dwoma punktami $a$ i $b$ takimi, że $f$ przyjmuje w nich wartości przeciwnych znaków, to metoda bisekcji z pewnością znajdzie miejsce zerowe funkcji, choćby początkowa długość przedziału $| b - a |$ była bardzo duża: zbieżność metody bisekcji jest globalna. Co ważniejsze, dla zbieżności metody bisekcji wystarcza jedynie ciągłość funkcji. Poza tym możemy łatwo kontrolować błąd bezwzględny aproksymacji miejsca zerowego. Konsekwencją powyższego oszacowania błędu jest bowiem następujący wniosek.

Wniosek

Dla znalezienia zera $x^{*}$ z dokładnością $ϵ > 0$ , wystarczy obliczyć w metodzie bisekcji

k = k (ϵ) = ⌈ \log_{2} \frac{(b - a)}{ϵ} ⌉ - 1

wartości funkcji.

Iteracja prosta Banacha

Zupełnie inne, i jak się okaże --- przy odrobinie sprytu bardzo skuteczne --- podejście do wyznaczania miejsca zerowego jest oparte na metodzie Banacha. Dla większej ogólności, będziemy zakładać teraz, że $f : D \to R^{N}$ i $D$ jest otwartym, niepustym podzbiorem $R^{N}$ .

Najpierw nasze równanie nieliniowe

f (x) = 0

przekształcamy (dobierając odpowiednią funkcję $ϕ$ ) do równania równoważnego (tzn. mającego te same rozwiązania)

x = ϕ (x)

Taki $x$ , dla którego zachodzi powyższa równość, nazywamy punktem stałym odwzorowania $ϕ$ .

Następnie, startując z pewnego przybliżenia początkowego $x_{0} \in D$ , konstruujemy ciąg kolejnych przybliżeń $x_{k}$ według wzoru

x_{k} = ϕ (x_{k - 1}), k \geq 1

Twierdzenie Banacha, o kontrakcji

Niech $D_{0}$ będzie domkniętym podzbiorem dziedziny $D$ ,

{\overline{D}}_{0} = D_{0} \subset D

w którym $ϕ$ jest odwzorowaniem zwężającym. To znaczy, $ϕ (D_{0}) \subset D_{0}$ , oraz istnieje stała $0 \leq L < 1$ taka, że

‖ ϕ (x) - ϕ (y) ‖ \leq L ‖ x - y ‖, \forall x, y \in D_{0}

Wtedy równanie

x = ϕ (x)

ma dokładnie jedno rozwiązanie $x^{*}$ , oraz

x^{*} = \lim_{k \to \infty} x_{k}

dla dowolnego przybliżenia początkowego $x_{0} \in D_{0}$ .

Dowód

Wobec

\begin{aligned} ‖ x_{k} - x_{k - 1} ‖ & = ‖ ϕ (x_{k - 1}) - ϕ (x_{k - 2}) ‖ \leq L ‖ x_{k - 1} - x_{k - 2} ‖ \\ \leq & \dots \leq L^{k - 1} ‖ x_{1} - x_{0} ‖, \end{aligned}

dla $k \geq s$ mamy

\begin{aligned} ‖ x_{k} - x_{s} ‖ & \leq \sum_{j = s + 1}^{k} ‖ x_{j} - x_{j - 1} ‖ \leq \sum_{j = s + 1}^{k} L^{j - 1} ‖ x_{1} - x_{0} ‖ \\ = L^{s} (1 + L + \dots + L^{k - s - 1}) ‖ x_{1} - x_{0} ‖ \leq \frac{L^{s}}{1 - L} ‖ x_{1} - x_{0} ‖ . \end{aligned}

Ciąg ${x_{k}}_{k}$ jest więc ciągiem Cauchy'ego. Stąd istnieje granica $α = \lim_{k \to \infty} x_{k}$ , która należy do $D_{0}$ , wobec domkniętości tego zbioru. Ponieważ lipschitzowskość $ϕ$ implikuje jej ciągłość, mamy też

ϕ (α) = ϕ (\lim_{k \to \infty} x_{k}) = \lim_{k \to \infty} ϕ (x_{k}) = \lim_{k \to \infty} x_{k} = α

,

tzn. $α$ jest punktem stałym odwzorowania $ϕ$ . Dla jednoznaczności zauważmy, że jeśliby istniał drugi, różny od $α$ , punkt stały $β$ , to mielibyśmy

‖ α - β ‖ = ‖ ϕ (α) - ϕ (β) ‖ \leq L ‖ α - β ‖

Stąd $1 < L$ , co jest sprzeczne z założeniem, że

ϕ

jest zwężająca.

Z powyższych rozważań otrzymujemy natychmiastowy wniosek dotyczący zbieżności iteracji prostych.

Wniosek

Przy założeniach twierdzenia Banacha, metoda iteracji prostych jest zbieżna co najmniej liniowo z ilorazem $L$ , tzn.

‖ x_{k} - x^{*} ‖ \leq L^{k} ‖ x_{0} - x^{*} ‖

Przykład

Dla ilustracji, rozpatrzmy równanie Keplera, gdy $0 < ϵ < 1$ :

x = M + ϵ \sin (x), dla x \in R

Graficzna ilustracja równania Keplera dla $M = 1$ i $ϵ = \frac{1}{4}$ .

W tym przypadku $ϕ (x) = M + ϵ \sin (x)$ . Zauważmy, że w funkcja $ϕ$ jest zwężająca ze stałą

L \leq \max_{x} | ϕ^{'} (x) | \leq ϵ < 1

Ponieważ obrazem prostej przy przekształceniu $ϕ$ jest odcinek $D = [M - ϵ, M + ϵ]$ , to znaczy, że $ϕ$ --- ograniczona do $D$ --- spełnia założenia twierdzenia Banacha o kontrakcji. Stąd istnieje dokładnie jedno rozwiązanie naszego równania w przedziale $D$ . Rozwiązanie to może być aproksymowane z dowolnie małym błędem przy pomocy iteracji prostych, startując z dowolnego przybliżenia początkowego $x_{0} \in D$ . Jednak, gdy $ϵ \approx 1$ , zbieżność może być bardzo powolna... (Wkrótce przekonasz się, że są szybsze metody).

Zaletą iteracji prostych jest fakt, że zbieżność nie zależy od wymiaru $n$ zadania, ale tylko od stałej Lipschitza $L$ (jednak w praktyce czasem sama stała Lipschitza może zależeć od wymiaru zadania...). Metoda Banacha ma szczególne zastosowanie w przypadku, gdy funkcja $ϕ$ jest zwężająca na całym zbiorze $D$ , tzn. $D_{0} = D$ . Jeśli ponadto $D$ ma skończoną średnicę, $diam (D) < + \infty$ , to dla osiągnięcia $ϵ$ -aproksymacji zera funkcji $f$ wystarczy wykonać

k = k (ϵ) = ⌈ \frac{\log (‖ x_{0} - x^{*} ‖ / ϵ)}{\log (1 / L)} ⌉ = ⌈ \frac{\log (diam (D) / ϵ)}{\log (1 / L)} ⌉

iteracji, niezależnie od $x_{0}$ . Metody zbieżne dla dowolnego przybliżenia początkowego nazywamy zbieżnymi globalnie. Obie przedstawione dotychczas metody: bisekcji i Banacha, przy rozsądnych założeniach, są zbieżne globalnie.

Okazuje się, że metoda iteracji prostej może być --- w bardzo szczególnych przypadkach --- zbieżna szybciej niż liniowo. Z taką sytuacją będziemy mieli do czynienia, gdy rozpatrzymy metodę Newtona.

Metoda Newtona

Zarówno metoda Banacha, jak i bisekcja, są zbieżnie liniowo, co w praktyce może okazać się zbieżnością dość powolną (np. dla metody zbieżnej liniowo z ilorazem $1 / 2$ dopiero po piątej iteracji dostajemy kolejną dokładną cyfrę wyniku). Wykorzystując więcej informacji o funkcji $f$ , której miejsca zerowego poszukujemy, możemy istotnie przyspieszyć zbieżność metody. Ceną, jaką przyjdzie nam zapłacić, będzie utrata globalnej zbieżności.

Plik:Newton.jpg

Isaac Newton
Zobacz biografię

W dalszych rozważaniach będziemy zakładać dla uproszczenia, że dziedzina $D = R$ .

Idea metody Newtona opiera się na popularnym wśród inżynierów pomyśle linearyzacji: zamiast szukać miejsca zerowego skomplikowanej $f$ , przybliżmy ją linią prostą, a dla niej już umiemy znaleźć miejsce zerowe!

Startując z pewnego przybliżenia początkowego $x_{0}$ , w kolejnych krokach metody, $k$ -te przybliżenie $x_{k}$ jest punktem przecięcia stycznej do wykresu $f$ w punkcie $x_{k - 1}$ . Ponieważ równanie stycznej wynosi $y (x) = f (x_{k - 1}) + f^{'} (x_{k - 1}) (x - x_{k - 1})$ , otrzymujemy wzór

Algorytm Metoda Newtona (stycznych)

for k = 1,2,...
	<math>x_k\,=\,x_{k-1}\,-\,\frac{f(x_{k-1})}{f'(x_{k-1})}</math>;

Oczywiście, aby metoda Newtona była dobrze zdefiniowana, musimy założyć, że $f^{'} (x_{k - 1})$ istnieje i nie jest zerem.

<flash>file=Newtononestep.swf|width=550|height=300</flash>

Postęp iteracji Newtona

Zauważmy, że metodę Newtona można traktować jako szczególny przypadek iteracji prostych, gdzie

ϕ (x) = x - \frac{f (x)}{f^{'} (x)} .

Widać też, że nie jest ona zbieżna globalnie.

Metoda Newtona i jej podobne należą do grupy metod zbieżnych lokalnie. Znaczy to, że zbieżność ciągu ${x_{k}}_{k}$ do zera danej funkcji $f$ jest zapewniona jedynie wtedy, gdy przybliżenia początkowe zostały wybrane dostatecznie blisko $x^{*}$ .

Nawet jeśli pochodna w $x_{k - 1}$ się nie zeruje, ciąg ${x_{k}}_{k}$ może nie zbiegać do zera funkcji $f$ . Okazuje się jednak, że jeśli wystartujemy dostatecznie blisko rozwiązania $x^{*}$ , to metoda Newtona jest zbieżna. Dokładniej, załóżmy najpierw, że

f (x^{*}) = 0 oraz f^{'} (x^{*}) \neq 0 .

Ponadto załóżmy, że $f$ jest dwukrotnie różniczkowalna w sposób ciągły, $f \in C^{2} (D)$ . Rozwijając $ϕ$ w szereg Taylora w punkcie $x^{*}$ , otrzymujemy

x_{k} - x^{*} = ϕ (x_{k - 1}) - ϕ (x^{*}) = (x_{k - 1} - x^{*}) ϕ^{'} (x^{*}) + (x_{k - 1} - x^{*})^{2} ϕ^{″} (ξ_{k}) / 2,

gdzie $\min (x^{*}, x_{k - 1}) \leq ξ_{k} \leq \max (x^{*}, x_{k - 1})$ . Wobec tego, że $ϕ^{'} (x^{*}) = f (x) f^{″} (x) / (f^{'} (x))^{2} = 0$ i $ϕ^{″} (ξ_{k}) = f^{″} (ξ_{k}) / f^{'} (ξ_{k})$ , mamy

x_{k} - x^{*} = (x_{k - 1} - x^{*})^{2} \frac{f^{″} (ξ_{k})}{2 f^{'} (ξ_{k})}

Zdefiniujmy liczbę

R_{f} = \sup_{r \geq 0} \sup_{{x : | x - x^{*} | \leq r}} | \frac{2 (x - x^{*}) f^{″} (x)}{f^{'} (x)} | < 1 .

Oczywiście $R_{f} > 0$ . Dla $x_{k - 1}$ spełniającego $| x_{k - 1} - x^{*} | \leq R < R_{f}$ , mamy z poprzedniej równości

| x_{k} - x^{*} | \leq q | x_{k - 1} - x^{*} |

,

gdzie $q < 1$ i $q$ zależy tylko od $R$ .

Niech teraz $x^{*}$ będzie zerem $m$ -krotnym,

f (x^{*}) = f^{'} (x^{*}) = \dots = f^{(m - 1)} (x^{*}) = 0 \neq f^{(m)} (x^{*})

,

gdzie $m \geq 2$ , oraz niech $f$ będzie $m$ -krotnie różniczkowalna w sposób ciągły. Wtedy

\begin{aligned} x_{k} - x^{*} & = (x_{k - 1} - x^{*}) - \frac{(x_{k - 1} - x^{*})^{m} \frac{f^{(m)} (η_{k}^{(1)})}{m!}}{(x_{k - 1} - x^{*})^{m - 1} \frac{f^{(m - 1)} (η_{k}^{(2)})}{(m - 1)!}} \\ = (x_{k - 1} - x^{*}) (1 - \frac{1}{m} \frac{f^{(m)} (η_{k}^{(1)})}{f^{(m)} (η_{k}^{(2)})}) \\ \approx & (x_{k - 1} - x^{*}) (1 - \frac{1}{m}), \end{aligned}

o ile $x_{k - 1}$ jest "blisko" $x^{*}$ .

Metoda Newtona jest więc zbieżna lokalnie. Gdy $x_{0}$ jest zbyt daleko od rozwiązania może zdarzyć się, że iteracja Newtona zacznie nas oddalać od miejsca zerowego, co ilustruje poniższy przykład:

<flash>file=Newtononestepdiv.swf|width=550|height=300</flash>

Metoda Newtona: jeśli startujemy zbyt daleko od miejsca zerowego

f

, zamiast przybliżać się do niego, zaczynamy się oddalać! (gdzie będzie

x_{3}

?...)

Z powyższego można też wywnioskować, jaki jest charakter zbieżności metody Newtona. Dla zera jednokrotnego $x^{*}$ oraz $f^{″} (x^{*}) \neq 0$ mamy bowiem

| x_{k} - x^{*} | \approx | x - x_{k - 1} |^{2} \frac{| f^{″} (x^{*}) |}{2 | f^{'} (x^{*}) |}

Mówimy, że zbieżność metody Newtona, gdy $f^{'} (x^{*}) \neq 0$ jest kwadratowa.

Stwierdzenie

Jeśli $f^{'} (x^{*}) \neq 0$ oraz $f^{″} (x^{*}) = 0$ to zbieżność jest nawet szybsza. Z kolei dla zera $m$ -krotnego (tzn. $f (x^{*}) = f^{'} (x^{*}) = \dots f^{(m)} (x^{*}) = 0$ , $m > 1$ ) zbieżność jest liniowa z ilorazem $(1 - \frac{1}{m})$ .

Metoda Newtona jest pierwszą poznaną tutaj metodą iteracyjną, która jest (dla zer jednokrotnych) zbieżna szybciej niż liniowo. Dla takich metod wprowadza się pojęcie wykładnika zbieżności, który jest zdefiniowany następująco.

Porównanie zbieżności metody bisekcji i stycznych dla równania $e^{x} - 1 = 0$ . Błąd kolejnych przybliżeń wyświetlany jest w skali logarytmicznej, dzięki czemu lepiej widać różnicę między zbieżnością liniową a kwadratową.

Powiemy, że metoda iteracyjna $ϕ$ jest w klasie funkcji $F$ rzędu co najmniej $p \geq 1$ , gdy spełniony jest następujący warunek. Niech $f \in F$ i $f (x^{*}) = 0$ . Wtedy istnieje stała $C < \infty$ taka, że dla dowolnych przybliżeń początkowych $x_{0}, \dots, x_{s - 1}$ dostatecznie bliskich $x^{*}$ , kolejne przybliżenia $x_{k} = ϕ (x_{k - 1}, \dots, x_{k - s})$ generowane tą metodą spełniają

| x_{k} - x^{*} | \leq C | x_{k - 1} - x^{*} |^{p}

Ponadto, jeśli $p = 1$ to dodatkowo żąda się, aby $C < 1$ .

Definicja

Wykładnikiem zbieżności metody iteracyjnej $ϕ$ w klasie $F$ nazywamy liczbę $p^{*}$ zdefiniowaną równością

p^{*} = \sup {p \geq 1 : ϕ jest rzędu co najmniej p}

Możemy teraz sformułować następujące twierdzenie, które natychmiast wynika z poprzednich rozważań.

Twierdzenie O rzędzie zbieżności metody Newtona

Wykładnik zbieżności metody Newtona (stycznych) wynosi $p^{*} = 2$ w klasie funkcji o zerach jednokrotnych, oraz $p^{*} = 1$ w klasie funkcji o zerach wielokrotnych.

Zbieżność metody Newtona dla zer wielokrotnych $f (x) = (x - 1)^{5}$ jest liniowa z ilorazem $\frac{4}{5}$ (końcowe załamanie wykresu spowodowane jest przypadkowym trafieniem w dokładne miejsce zerowe). Metoda bisekcji nie jest na to czuła i dalej zbiega z ilorazem $\frac{1}{2}$ .

Metoda siecznych

Inną znaną i często używaną metodą iteracyjną, opartą na podobnym pomyśle linearyzacyjnym co metoda Newtona, jest metoda siecznych, w której zamiast przybliżenia wykresu $f$ przez styczną, stosuje się przybliżenie sieczną.

Metoda ta wykorzystuje więc do konstrukcji $x_{k}$ przybliżenia $x_{k - 1}$ i $x_{k - 2}$ . Musimy również wybrać dwa różne punkty startowe $x_{0}$ i $x_{1}$ . Ponieważ sieczna dla $f$ w punktach $x_{k - 1}$ i $x_{k - 2}$ ma wzór

y (x) = \frac{x - x_{k - 2}}{x_{k - 1} - x_{k - 2}} f (x_{k - 1}) + \frac{x - x_{k - 1}}{x_{k - 2} - x_{k - 1}} f (x_{k - 2})

,

otrzymujemy

Algorytm Metoda siecznych

for k = 1,2,...
	<math>x_k\,=\,x_{k-1}\,-\,\frac{x_{k-1}-x_{k-2}} {f(x_{k-1})-f(x_{k-2})}\,f(x_{k-1})</math>;
end

Zauważmy, że jeśli $x_{k - 1}$ i $x_{k - 2}$ są blisko siebie, to $x_{k}$ jest podobny do tego z metody Newtona, bowiem wtedy iloraz różnicowy przybliża pochodną $f$ ,

\frac{f (x_{k - 1}) - f (x_{k - 2})}{x_{k - 1} - x_{k - 2}} \approx f^{'} (x_{k - 1})

Nie wystarcza to jednak, aby osiągnąć zbieżność z wykładnikiem $2$ . Można pokazać, że przy podobnych założeniach o funkcji, wykładnik zbieżności metody siecznych dla zer jednokrotnych i dostatecznie gładkich funkcji wynosi $p^{*} = \frac{1 + \sqrt{5}}{2} = 1.618 \dots$ . Jako wariant metody Newtona, metoda siecznych jest również zbieżna lokalnie.

Porównanie zbieżności metody bisekcji, stycznych i siecznych dla równania $e^{x} - 1 = 0$ . Błąd kolejnych przybliżeń wyświetlany jest w skali logarytmicznej.

Niewątpliwą zaletą metody siecznych jest jednak to, że nie wymaga obliczania pochodnej funkcji (bywa, że dokładne wyznaczenie pochodnej jest niemożliwe, gdy np. funkcja jest zadana zewnętrzną procedurą, do której kodu źródłowego nie mamy dostępu; zwykle też koszt obliczenia wartości pochodnej jest wyższy od kosztu obliczenia wartości funkcji). Jest to również istotne w pakietach numerycznych, gdzie czasem nie chcemy wymagać od użytkownika czegokolwiek, oprócz podania wzoru na funkcję i przybliżonej lokalizacji miejsca zerowego.

Ponadto, często zdarza się, że wyznaczenie wartości pochodnej, $f^{'} (x_{k})$ , jest tak samo, albo i bardziej kosztowne od wyznaczenia wartości $f (x_{k})$ . W takim wypadku okazuje się, że metoda siecznych --- choć wolniej zbieżna niż metoda Newtona --- dzięki temu, że jej iteracja wymaga jedynie wyznaczenia jednej wartości $f$ , jest bardziej efektywna od metody Newtona: koszt osiągnięcia zadanej dokładności jest w takim przypadku mniejszy od analogicznego kosztu dla metody Newtona.

Jednak gdy żądane przez użytkownika dokładności są bardzo wielkie, a sama funkcja "złośliwa", metoda siecznych może cierpieć z powodu redukcji cyfr przy odejmowaniu.

Metoda Brenta

Naturalnie, uważny student zaczyna zadawać sobie pytanie, czy nie można w jakiś sposób połączyć globalnej zbieżności metody bisekcji z szybką zbieżnością metody siecznych tak, by uzyskać metodę zbieżną globalnie, a jednocześnie istotnie szybciej niż liniowo.

Okazuje się, że można to zrobić, wprowadzając metodę opartą na trzech punktach lokalizujących miejsce zerowe: dwóch odcinających zero tak jak w metodzie bisekcji i trzecim, konstruowanym np. jak w metodzie stycznych. W kolejnej iteracji wymieniamy jeden z punktów albo wedle metody siecznych (i wtedy zapewne szybciej zbliżamy się do zera), albo wykonując bisekcję (aby zagwarantować sobie, że w wiadomym przedziale miejsce zerowe rzeczywiście się znajduje).

Ten prosty pomysł metody hybrydowej wymaga jednak subtelnego dopracowania. Zostało to zrobione w 1973 roku przez Richarda Brenta. Funkcja MATLABa (i Octave'a) fzero implementują właśnie metodę Brenta. Autorem implementacji w Octave jest ówczesny student matematyki na Uniwersytecie Warszawskim, Łukasz Bodzon. Fortranowski kod metody Brenta można znaleźć także w Netlibie. Inną funkcją Octave'a służącą rozwiązywaniu równań nieliniowych jest fsolve:

octave:1> [X, MSG, INFO] = fsolve ('cos', 1)
X =  1.5708
MSG =  1
INFO = solution converged within specified tolerance

octave:2> cos(X)
ans =  6.1230e-17

Metody dla układów równań nieliniowych

Niektóre z poznanych metod można łatwo rozszerzyć na przypadek układu $N$ równań z $N$ niewiadomymi, to znaczy

F (x) = 0

,

gdzie $F : R^{N} \to R^{N}$ .

Metoda Banacha

Jak pamiętamy, metodę Banacha sformułowaliśmy od razu dla zagadnienia wielowymiarowego. Analiza i własności metody są zatem już omówione.

Wielowymiarowa metoda Newtona

Okazuje się, że metodę Newtona można uogólnić na przypadek układu $N$ równań nieliniowych z $N$ niewiadomymi. Zapiszmy wzór na skalarną metodę Newtona odrobinę inaczej:

x_{k + 1} = x_{k} - [F^{'} (x_{k})]^{- 1} F (x_{k})

Niezwykłe jest, że taki wzór nie tylko ma sens w przypadku, gdy $F : R^{N} \to R^{N}$ (wtedy $F^{'} (x_{k})$ jest macierzą Jakobianu $F$ w punkcie $x_{k}$ ), ale dodatkowo ta metoda zachowuje wszystkie własności metody stycznych dla przypadku skalarnego:

Twierdzenie O zbieżności wielowymiarowej metody Newtona

Załóżmy, że $F : R^{N} \to R^{N}$ i istnieje $x^{*} \in R^{N}$ taki, że

F (x^{*}) = 0

Załóżmy ponadto, że $F$ jest różniczkowalna, a jej pochodna $F^{'} : R^{N} \to R^{N \times N}$ jest lipschitzowska i dodatkowo

F^{'} (x^{*}) jest nieosobliwa

Wówczas, jeśli tylko $x_{0}$ jest dostatecznie blisko rozwiązania $x^{*}$ , to ciąg kolejnych przybliżeń $x_{k}$ , generowany wielowymiarową metodą Newtona, jest zbieżny do $x^{*}$ . Co więcej, szybkość zbieżności jest kwadratowa.

Implementacja wielowymiarowej metody Newtona

Implementując wielowymiarową metodę Newtona, musimy dysponować nie tylko funkcją obliczającą $N$ współrzędnych wektora wartości $F$ , ale także funkcją wyznaczającą $N^{2}$ elementów macierzy pochodnej $F$ w zadanym punkcie $x \in R^{N}$ . Zwróćmy uwagę na to, że w implementacji metody nie trzeba wyznaczać $F^{'} (x_{k})^{- 1}$ , tylko rozwiązać układ równań:

Algorytm Wielowymiarowa metoda Newtona

while (!stop)
{
	rozwiąż (względem <math>s</math>) układ równań liniowych <math>F'(x_k)\, s = -F(x_k)</math>;
	<math>x_{k+1}</math> = <math>x_k</math> + <math>s</math>;
}

O tym, jak skutecznie rozwiązywać układy równań liniowych, dowiesz się z kolejnych wykładów. Dowiesz się także, dlaczego nie należy w implementacji korzystać z wyznaczonej explicite macierzy odwrotnej do macierzy Jakobianu.

Literatura

W celu dogłębnego zapoznania się z omawianym na wykładzie materiałem, przeczytaj rozdział 3 w

D. Kincaid, W. Cheney Analiza numeryczna, Wydawnictwa Naukowo-Techniczne, Warszawa 2006, ISBN 83-204-3078-X.

Rozdziały 3.5 i 3.6 nie są obowiązkowe.

Wiele wariantów metod rozwiązywania układów równań nieliniowych jest przedstawionych w znakomitej monografii

C.T.Kelley, Iterative Solution of Systems of Linear and Nonlinear Equations, SIAM, 1995.

Opis metody Brenta znajdziesz w książce

R. Brent, Algorithms for Minimization Without Derivatives, Prentice-Hall, 1973.

MN02: Różnice pomiędzy wersjami

Aktualna wersja na dzień 11:13, 12 wrz 2023

Spis treści

Równania nieliniowe

Bisekcja

Iteracja prosta Banacha

Metoda Newtona

Metoda siecznych

Metoda Brenta

Metody dla układów równań nieliniowych

Metoda Banacha

Wielowymiarowa metoda Newtona

Implementacja wielowymiarowej metody Newtona

Literatura

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia

@@ Linia 1: / Linia 1: @@
+<!--
+Konwertowane  z pliku LaTeX przez latex2mediawiki, zob. http://www.ii.uj.edu.pl/&nbsp;pawlik1/latex2mediawiki.php.
+Niezb�dne rozszerzenia i modyfikacje oryginalnego latex2mediawiki
+wprowadzi� przykry@mimuw.edu.pl
+-->
 =Równania nieliniowe=
-W wielu zadaniach, m.in. z matematyki stosowanej, spotykamy się z problemem
+{{powrot |Metody numeryczne | do strony głównej
-rozwiązania skalarnego równania nieliniowego postaci <math>\displaystyle f(x) = 0</math>:
+przedmiotu <strong>Metody numeryczne</strong>}}
-* rozwiązywanie równania Keplera
+W wielu zadaniach, m.in. matematyki stosowanej, spotykamy się z problemem
+rozwiązania skalarnego równania nieliniowego postaci <math>f(x) = 0</math>. Oto kilka przykładów:
+<div style="margin-top:1em; padding-top,padding-bottom:1em;">
+<span  style="font-variant:small-caps;">Przykład</span>
+<div class="solution" style="margin-left,margin-right:3em;">
+Równanie Keplera
+<center><math>f(x) \equiv x - \epsilon \sin(x) - M = 0
+</math></center>
+jest bardzo ważne w astronomii, jego rozwiązanie pozwala wyznaczyć przyszłe położenie planety. Parametr <math>\epsilon</math> odpowiada ekscentryczności orbity i przyjmuje wartości z przedziału <math>[0,1]</math>. Poza paru prostymi przypadkami, w ogólności równanie Keplera nie daje się rozwiązać w terminach funkcji elementarnych.
-<center><math>\displaystyle f(x) \equiv x - \epsilon \sin(x) = 0</math></center>
+[[grafika:Kepler.jpg|thumb|right||Johann Kepler<br>  [[Biografia Kepler|Zobacz biografię]]]]
+</div></div>
-To równanie jest bardzo ważne w astronomii.
+<div style="margin-top:1em; padding-top,padding-bottom:1em;">
-* znajdowanie miejsc zerowych wielomianu:
+<span  style="font-variant:small-caps;">Przykład</span>
+<div class="solution" style="margin-left,margin-right:3em;">
-<center><math>\displaystyle f(x) \equiv a_nx^n + \ldots +
+Znajdowanie miejsc zerowych wielomianu
-a_1x + a_0 = 0</math></center>
-Bardzo wiele modeli matematycznych wymaga rozwiązania równania z wielomianową
+<center><math>f(x) \equiv a_nx^n + \ldots + a_1x + a_0 = 0</math></center>
-nieliniowością. [[sec:kwadratury|Dodaj link: Piękne kwadratury]] (Gaussa) opierają się na węzłach będących
-zerami pewnego wielomianu. Wielomiany są bardzo szczególnymi funkcjami i dla
-nich istnieje szereg specjalizowanych metod znajdowania ich pierwiastków, m.in.
-metoda Laguerre'a, metoda Bairstow'a (o nich tu nie będziemy mówić), a także
-zaskakujące metody sprowadzające zadanie poszukiwania miejsc zerowych wielomianu
-do zupełnie innego zadania matematycznego  --- o nich jednak
-będzie mowa dopiero w wykładzie dotyczącym [[sec:eigenvalue|Dodaj link: znajdowania wartości własnych
-macierzy]].
-* znajdowanie miejsc zerowych trójmianu kwadratowego:
-<center><math>\displaystyle f(x) \equiv a_2x^2 +
+Bardzo wiele modeli matematycznych wymaga rozwiązania równania z wielomianową nieliniowością. Piękne [[MN14|kwadratury]] (Gaussa) opierają się na węzłach będących zerami pewnego wielomianu. Wielomiany są bardzo szczególnymi funkcjami i dla nich istnieje szereg wyspecjalizowanych metod znajdowania ich pierwiastków, m.in. metoda Laguerre'a, metoda Bairstow'a (o nich tu nie będziemy mówić), a także zaskakujące metody sprowadzające zadanie poszukiwania miejsc zerowych wielomianu do zupełnie innego zadania matematycznego  --- o nich jednak będzie mowa dopiero w wykładzie dotyczącym [[MN13|znajdowania wartości własnych macierzy]].
-a_1x + a_0 = 0.
+</div></div>
-</math></center>
-Jest to szczególny, ale oczywiście bardzo ważny (takie równania m.in. trzeba
+<div style="margin-top:1em; padding-top,padding-bottom:1em;">
-było kiedyś rozwiązywać w artylerii) przypadek poprzedniego zadania. Chociaż
+<span  style="font-variant:small-caps;">Przykład</span>
-wydawać by  się mogło, że to umiemy już robić (wszyscy znamy wzory "z deltą")
+<div class="solution" style="margin-left,margin-right:3em;">
-ale --- jak wkrótce się przekonamy --- i tutaj mogą spotkać nas niespodzianki!
-* obliczanie pierwiastka kwadratowego z zadanej liczby <math>\displaystyle a</math>:
-<center><math>\displaystyle f(x) \equiv
+Obliczanie pierwiastka kwadratowego z zadanej liczby <math>a</math>, czyli sposób na implementację funkcji "<code>sqrt()</code>".  Można to zadanie wyrazić, jako rozwiązywanie równania
-x^2 - a = 0</math></center>
-czyli sposób na implementację funkcji "<code>sqrt()</code>". Szybkie algorytmy
+<center><math>f(x) \equiv x^2 - a = 0</math></center>
-wyznaczania pierwiastka kwadratowego były znane już starożytnym. W wykładzie
-zrozumiemy, dlaczego metoda Herona,
-[[grafika:Heron.jpg|thumb|right|| Heron<br>  [[Biografia Heron|Zobacz biografię]]]]
+Szybkie algorytmy wyznaczania pierwiastka kwadratowego były znane już starożytnym. W wykładzie zrozumiemy, dlaczego <strong>metoda Herona</strong>,
-<center><math>\displaystyle
+<center><math>
 x_{k+1} = \frac{1}{2}\left(x_k + \frac{a}{x_k}\right)
 </math></center>
+daje bardzo dobre przybliżenie <math>\sqrt{a}</math> już po kilku iteracjach.
+</div></div>
+<div style="margin-top:1em; padding-top,padding-bottom:1em;">
+<span  style="font-variant:small-caps;">Przykład</span>
+<div class="solution" style="margin-left,margin-right:3em;">
-daje bardzo dobre przybliżenie <math>\displaystyle \sqrt{a}</math> już po kilku iteracjach.
+Implementacja wyznaczania odwrotności liczby <math>a</math> (<strong>bez</strong> dzielenia!) jest możliwa, gdy odpowiednią metodą będziemy poszukiwać rozwiązania równania
-* implementacja wyznaczania odwrotności liczby <math>\displaystyle a</math> (<strong>bez</strong> dzielenia!):
-<center><math>\displaystyle f(x) \equiv
+<center><math>f(x) \equiv \frac{1}{x} - a = 0</math></center>
-\frac{1}{x} - a = 0</math></center>
-Wciąż spotykane zadanie, np. tak można w praktyce poprawić precyzję
+To zadanie jest ważne praktycznie, np. tak można poprawić precyzję
-[http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/21928.pdf  funkcji
+[http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/21928.pdf  funkcji wektorowych stosowanych w niektórych procesorach AMD]. Okazuje się, że instrukcja procesora służąca do równoległego obliczania odwrotności sekwencji liczb umieszczonych w 128-bitowym rejestrze wektorowym daje wynik z małą precyzją (oczywiście po to, by wykonywała się szybciej!). Jeśli taka dokładność wyniku nie odpowiada nam, możemy ją --- zgodnie z manualem procesora --- poprawić, rozwiązując właśnie takie równanie jak powyżej, metodą korzystającą wyłącznie z (wektorowych) operacji mnożenia i dodawania.
-wektorowych stosowanych w niektórych procesorach AMD]. Instrukcja procesora służąca do obliczania
+</div></div>
-odwrotności sekwencji liczb umieszczonych w 128-bitowym rejestrze wektorowym
-daje wynik z małą precyzją (oczywiście po to, by wykonywała się szybciej!).
-Jeśli taka dokładność wyniku nie odpowiada nam, możemy ją --- zgodnie z manualem
-procesora --- poprawić, rozwiązując właśnie takie równanie jak powyżej, metodą
-korzystającą wyłącznie z (wektorowych) operacji mnożenia i dodawania.
 ==Bisekcja==
@@ Linia 67: / Linia 74: @@
 działach informatyki, jest dość
 naturalną metodą obliczania zer skalarnych funkcji
-ciągłych określonych na danym przedziale <math>\displaystyle [a,b]</math>
+ciągłych określonych na danym przedziale <math>[a,b]</math>
 i zmieniających znak. Dokładniej, rozpatrzmy klasę
 funkcji
-<center><math>\displaystyle
+<center><math>
-   F\,=\,\{\,f\in C([a,b])\,:\;f(a)\cdot f(b) < 0\,\}.
+   F\,=\,\{\,f\in C([a,b])\,:\;f(a)\cdot f(b) < 0\,\}</math>,</center>
-</math></center>
-Oczywiście, każda funkcja <math>\displaystyle f\in F</math> ma co najmniej jedno
+to znaczy <math>f \in F</math> przyjmują w krańcach przedziału wartości przeciwnego znaku.
-zero w <math>\displaystyle [a,b]</math>. Startując z przedziału <math>\displaystyle [a,b]</math>, w
+Oczywiście, każda funkcja <math>f\in F</math> ma, na mocy twierdzenia Darboux, co najmniej jedno zero w <math>[a,b]</math>. Startując z przedziału <math>[a,b]</math>, w kolejnych krokach metody bisekcji obliczamy informację o wartości <math>f</math> w środku przedziału, co pozwala nam w następnym kroku zmniejszyć o połowę przedział, w którym na pewno znajduje się zero funkcji.
-kolejnych krokach metody bisekcji obliczamy informację
-o wartości <math>\displaystyle f</math> w środku przedziału, co pozwala nam
-w zależności od znaku obliczonej wartości zmniejszyć
-o połowę przedział, w którym na pewno znajduje się
-zero funkcji.
 Bisekcję realizuje następujący ciąg
-poleceń, po wykonaniu którego <math>\displaystyle x</math> jest przybliżeniem
+poleceń, po wykonaniu którego <math>x</math> jest przybliżeniem
-zera funkcji <math>\displaystyle f</math> z zadaną dokładnością <math>\displaystyle \epsilon</math>.
+zera funkcji <math>f</math> z zadaną dokładnością <math>\epsilon</math>.
-{{algorytm|Metoda bisekcji||
+{{algorytm|Metoda bisekcji|Metoda bisekcji|
-<pre>
+<Source>
+lewy = a; prawy = b;
-xl <nowiki> =</nowiki>    a; xr <nowiki> =</nowiki>    b;
+flewy = f(lewy); fprawy = f(prawy);
-x <nowiki> =</nowiki>    (a+b)/2;  e <nowiki> =</nowiki>    (b-a)/2;
+x = (a+b)/2; 	/* przybliżenie rozwiązania */
-while (e > <math>\displaystyle \epsilon</math>)
+e = (b-a)/2; 	/* przedział lokalizujący rozwiązanie dokładne */
+while (e > <math>\epsilon</math>)
 {
-	if (f(x)*f(xl) < 0)
+	fx = f(x);   	/* reszta */
-		xr <nowiki> =</nowiki>    x;
+	if ( abs(fx) == 0 ) /* trafiliśmy dokładnie w miejsce zerowe */
+		return(x);
+	if ( sign(fx) != sign(flewy) ) /* tzn. f(lewy)*f(x) < 0 */
+	{
+		prawy = x;
+		fprawy = fx;
+	}
 	else
-		xl <nowiki> =</nowiki>    x;
+	{
-	x <nowiki> =</nowiki>    (xl+xr)/2; e <nowiki> =</nowiki>    e/2;
+		lewy = x;
-}
+		flewy = fx;
-</pre>}}
+	}
+	x = (lewy+prawy)/2; /* najlepsze przybliżenie rozwiązania przy danym przedziale */
+	e = e/2;
+}
+return(x);
+</Source>}}
-Z konstrukcji metody wyraźnie wynika, że po wykonaniu
+Z konstrukcji metody łatwo wynika, że po wykonaniu
-<math>\displaystyle k</math> iteracji (czyli po obliczeniu <math>\displaystyle k</math> wartości funkcji)
+<math>k</math> obrotów pętli <code>while</code> (czyli po obliczeniu <math>k+2</math> wartości funkcji)
-otrzymujemy <math>\displaystyle x</math>, które odległe jest od pewnego
+otrzymujemy <math>x</math>, które odległe jest od pewnego rozwiązania <math>x^*</math> o co najwyżej
-rozwiązania <math>\displaystyle x^*</math> o co najwyżej
-<center><math>\displaystyle
+<center><math>
    |x-x^*|\,\le\,\Big(\frac 12\Big)^k
-                   \Big(\frac{b-a}{2}\Big).
+                   \Big(\frac{b-a}{2}\Big)</math></center>
-</math></center>
 Metoda bisekcji jest więc zbieżna <strong>liniowo</strong> z
-ilorazem <math>\displaystyle 1/2</math>. Choć ta zbieżność nie jest
+ilorazem <math>1/2</math>. Choć ta zbieżność nie jest
 imponująca, bisekcja ma kilka istotnych zalet. Oprócz
 jej prostoty, należy podkreślić fakt, że bisekcja jest
-w pewnym sensie uniwersalna. Jeśli tylko dysponujemy dwoma punktami <math>\displaystyle a</math> i <math>\displaystyle b</math>
+w pewnym sensie uniwersalna. Jeśli tylko dysponujemy dwoma punktami <math>a</math> i <math>b</math>
-takimi, że <math>\displaystyle f</math> przyjmuje w nich wartości przeciwnych znaków, to metoda bisekcji
+takimi, że <math>f</math> przyjmuje w nich wartości przeciwnych znaków, to metoda bisekcji
 z pewnością znajdzie miejsce zerowe funkcji, choćby początkowa długość
-przedziału <math>\displaystyle |b-a|</math> była bardzo duża: zbieżność metody bisekcji jest <strong>globalna</strong>. Co ważniejsze, dla zbieżności metody bisekcji
+przedziału <math>|b-a|</math> była bardzo duża: zbieżność metody bisekcji jest <strong>globalna</strong>. Co ważniejsze, dla zbieżności metody bisekcji
 wystarcza jedynie <strong>ciągłość</strong> funkcji. Poza tym
 możemy łatwo kontrolować <strong>błąd bezwzględny aproksymacji miejsca zerowego</strong>. Konsekwencją
@@ Linia 125: / Linia 136: @@
 {{wniosek|||
-Dla znalezienia zera <math>\displaystyle x^*</math> z dokładnością
+Dla znalezienia zera <math>x^*</math> z dokładnością
-<math>\displaystyle \epsilon>0</math>, wystarczy obliczyć w metodzie bisekcji
+<math>\epsilon>0</math>, wystarczy obliczyć w metodzie bisekcji
-<center><math>\displaystyle k\,=\,k(\epsilon)\,=\,
+<center><math>k\,=\,k(\epsilon)\,=\,
      \Big\lceil{\log_2\frac{(b-a)}{\epsilon}}\Big\rceil - 1
 </math></center>
@@ Linia 138: / Linia 149: @@
 Zupełnie inne, i jak się okaże --- przy odrobinie sprytu bardzo skuteczne ---
-podejście do wyznaczania miejsca zerowego jest oparte na <strong>metodzie Banacha</strong>.
+podejście do wyznaczania miejsca zerowego jest oparte na <strong>metodzie Banacha</strong>. Dla większej ogólności, będziemy zakładać teraz, że <math>f: D\rightarrow R^N</math> i <math>D</math> jest otwartym, niepustym podzbiorem <math>R^N</math>.
 Najpierw nasze równanie nieliniowe
-<center><math>\displaystyle
+<center><math>
 f(x) = 0
 </math></center>
-przekształcamy (dobierając odpowiednią funkcję <math>\displaystyle \phi</math>) do równania równoważnego
+przekształcamy (dobierając odpowiednią funkcję <math>\phi</math>) do równania równoważnego
 (tzn. mającego te same rozwiązania)
-<center><math>\displaystyle
+<center><math>
-    x\,=\,\phi( x).
+    x\,=\,\phi( x)
 </math></center>
- Następnie, startując z pewnego przybliżenia
+Taki <math>x</math>, dla którego zachodzi powyższa równość, nazywamy <strong>punktem stałym</strong> odwzorowania <math>\phi</math>.
- początkowego <math>\displaystyle  x_0</math>, konstruujemy ciąg kolejnych
-przybliżeń <math>\displaystyle  x_k</math> według wzoru
-<center><math>\displaystyle x_k\,=\,\phi( x_{k-1}),\qquad k\ge 1.
+Następnie, startując z pewnego przybliżenia
-</math></center>
+początkowego <math>x_0 \in D</math>, konstruujemy ciąg kolejnych
+przybliżeń <math>x_k</math> według wzoru
+<center><math>x_k\,=\,\phi( x_{k-1}),\qquad k\ge 1</math></center>
 [[grafika:Banach.jpg|thumb|right||Stefan Banach<br>  [[Biografia Banach|Zobacz biografię]]]]
-{{twierdzenie|Banacha, o zbieżności iteracji prostej||
+{{twierdzenie|Banacha, o kontrakcji|Banacha, o kontrakcji|
-Niech <math>\displaystyle D_0</math> będzie domkniętym
+Niech <math>D_0</math> będzie domkniętym
-podzbiorem dziedziny <math>\displaystyle D</math>,
+podzbiorem dziedziny <math>D</math>,
-<center><math>\displaystyle \overline D_0\,=\,D_0\subset D,
+<center><math>\overline D_0\,=\,D_0\subset D
 </math></center>
-w którym <math>\displaystyle \phi</math> jest odwzorowaniem zwężającym.
+w którym <math>\phi</math> jest odwzorowaniem zwężającym.
-To znaczy, <math>\displaystyle \phi(D_0)\subset D_0</math>, oraz istnieje stała
+To znaczy, <math>\phi(D_0)\subset D_0</math>, oraz istnieje stała
-<math>\displaystyle 0\le L<1</math> taka, że
+<math>0\le L<1</math> taka, że
-<center><math>\displaystyle \|\phi( x)-\phi( y)\|\,\le\,L\,\| x- y\|,
+<center><math>\|\phi( x)-\phi( y)\|\,\le\,L\,\| x- y\|,
-     \qquad\forall x, y\in D_0.
+ \qquad\forall x, y\in D_0
 </math></center>
 Wtedy równanie
-<center><math>\displaystyle
+<center><math>
-   x\,=\,\phi( x).
+ x\,=\,\phi( x)
 </math></center>
 ma dokładnie jedno
-rozwiązanie <math>\displaystyle  x^*</math>, oraz
+rozwiązanie <math>x^*</math>, oraz
-<center><math>\displaystyle x^*\,=\,\lim_{k\to\infty} x_k,
+<center><math>x^*\,=\,\lim_{k\to\infty} x_k
 </math></center>
 dla dowolnego przybliżenia początkowego
-<math>\displaystyle  x_0\in D_0</math>.
+<math>x_0\in D_0</math>.
 }}
@@ Linia 197: / Linia 209: @@
 Wobec
-<center><math>\displaystyle \aligned \| x_k- x_{k-1}\| &=
+<center><math>\begin{align} \| x_k- x_{k-1}\| &= \|\phi( x_{k-1})-\phi( x_{k-2})\| \,\le\,L\,\| x_{k-1}- x_{k-2}\| \\
-   \|\phi( x_{k-1})-\phi( x_{k-2})\|
+&\le &\cdots\;\le\;L^{k-1}\| x_1- x_0\|,
-   \,\le\,L\,\| x_{k-1}- x_{k-2}\| \\
+\end{align}</math></center>
-  &\le &\cdots\;\le\;L^{k-1}\| x_1- x_0\|,
-\endaligned</math></center>
-dla <math>\displaystyle k\ge s</math> mamy
+dla <math>k\ge s</math> mamy
-<center><math>\displaystyle \aligned \| x_k- x_s\|
+<center><math>\begin{align} \| x_k- x_s\| &&\le \sum_{j=s+1}^k\| x_j- x_{j-1}\| \,\le\,\sum_{j=s+1}^k L^{j-1}\| x_1- x_0\| \\
-   &\le & \sum_{j=s+1}^k\| x_j- x_{j-1}\|
+&&=  L^s(1+L+\cdots+L^{k-s-1})\| x_1- x_0\| \,\le\,\frac{L^s}{1-L}\| x_1- x_0\|.
-    \,\le\,\sum_{j=s+1}^k L^{j-1}\| x_1- x_0\| \\
+\end{align}</math></center>
-   &=  L^s(1+L+\cdots+L^{k-s-1})\| x_1- x_0\|
-    \,\le\,\frac{L^s}{1-L}\| x_1- x_0\|.
-\endaligned</math></center>
-Ciąg <math>\displaystyle \{ x_k\}_k</math> jest więc ciągiem Cauchy'ego.
+Ciąg <math>\{ x_k\}_k</math> jest więc ciągiem Cauchy'ego.
 Stąd istnieje granica
-<math>\displaystyle \alpha=\lim_{k\to\infty} x_k</math>, która należy do
+<math>\alpha=\lim_{k\to\infty} x_k</math>, która należy do
-<math>\displaystyle D_0</math>, wobec domkniętości tego zbioru. Ponieważ
+<math>D_0</math>, wobec domkniętości tego zbioru. Ponieważ
-"lipschitzowskość" <math>\displaystyle \phi</math> implikuje jej ciągłość,
+lipschitzowskość <math>\phi</math> implikuje jej ciągłość,
 mamy też
-<center><math>\displaystyle \phi(\alpha)\,=\,\phi\Big(\lim_{k\to\infty} x_k\Big)
+<center><math>\phi(\alpha)\,=\,\phi\Big(\lim_{k\to\infty} x_k\Big)
     \,=\,\lim_{k\to\infty}\phi( x_k)
-    \,=\,\lim_{k\to\infty} x_k\,=\,\alpha,
+    \,=\,\lim_{k\to\infty} x_k\,=\,\alpha</math>,</center>
-</math></center>
-tzn. <math>\displaystyle \alpha</math> jest punktem stałym odwzorowania <math>\displaystyle \phi</math>.
+tzn. <math>\alpha</math> jest punktem stałym odwzorowania <math>\phi</math>.
 Dla jednoznaczności zauważmy, że jeśliby istniał
-drugi, różny od <math>\displaystyle \alpha</math>, punkt stały <math>\displaystyle \beta</math>,
+drugi, różny od <math>\alpha</math>, punkt stały <math>\beta</math>,
 to mielibyśmy
-<center><math>\displaystyle \|\alpha-\beta\|\,=\,
+<center><math>\|\alpha-\beta\|\,=\,
     \|\phi(\alpha)-\phi(\beta)\|
-    \,\le\,L\,\|\alpha-\beta\|.
+    \,\le\,L\,\|\alpha-\beta\|
 </math></center>
-Stąd <math>\displaystyle 1<L</math>, co jest sprzeczne z założeniem, że
+Stąd <math>1<L</math>, co jest sprzeczne z założeniem, że
-<math>\displaystyle \phi</math> jest zwężająca. }}
+<math>\phi</math> jest zwężająca. }}
 Z powyższych rozważań otrzymujemy natychmiastowy
@@ Linia 241: / Linia 247: @@
 {{wniosek|||
-Przy założeniach [[twit|Dodaj link: twierdzenia Banacha]],
+Przy założeniach [[#Banacha, o kontrakcji|twierdzenia Banacha]],
 metoda iteracji prostych jest zbieżna co
-najmniej liniowo z ilorazem <math>\displaystyle L</math>, tzn.
+najmniej liniowo z ilorazem <math>L</math>, tzn.
-<center><math>\displaystyle \| x_k- x^*\|\,\le\,L^k\,\| x_0- x^*\|.
+<center><math>\| x_k- x^*\|\,\le\,L^k\,\| x_0- x^*\|</math></center>
-</math></center>
 }}
@@ Linia 252: / Linia 257: @@
 <div style="margin-top:1em; padding-top,padding-bottom:1em;">
 <span  style="font-variant:small-caps;">Przykład</span>
-<div class="solution">
+<div class="solution" style="margin-left,margin-right:3em;">
-Dla ilustracji, rozpatrzmy natępujące proste
+Dla ilustracji, rozpatrzmy
-równanie skalarne:
+równanie Keplera, gdy <math>0 < \epsilon < 1</math>:
-<center><math>\displaystyle
+<center><math>
-   x\,=\,\cos(x), \qquad \mbox{dla} \qquad x\in D= R.
+   x\,=\,M+\epsilon\sin(x), \qquad \mbox{dla} \qquad x\in R
 </math></center>
-W tym przypadku <math>\displaystyle \phi(x)=\cos(x)</math>. Zauważamy, że w
+[[Image:MNrownaniekeplera.png|thumb|550px|center|Graficzna ilustracja równania Keplera dla <math>M=1</math> i <math>\epsilon = \frac{1}{4}</math>.]]
-przedziale <math>\displaystyle [0,1]</math> funkcja <math>\displaystyle \phi</math> jest zwężająca ze
-stałą
+W tym przypadku <math>\phi(x)=M+\epsilon\,\sin(x)</math>. Zauważmy, że w
+funkcja <math>\phi</math> jest zwężająca ze stałą
-<center><math>\displaystyle L\,=\,\max_{0\le x\le 1}|\cos'(x)|\,=\,\sin(1)\,<\,1.
+<center><math>L \leq \max_{x} |\phi'(x)| \leq \epsilon < 1</math></center>
-</math></center>
+Ponieważ obrazem prostej przy przekształceniu <math>\phi</math> jest odcinek <math>D = [M-\epsilon, M+\epsilon]</math>, to znaczy, że <math>\phi</math> --- ograniczona do <math>D</math> --- spełnia założenia [[#Banacha, o kontrakcji|twierdzenia Banacha o kontrakcji]].
 Stąd istnieje dokładnie jedno rozwiązanie naszego równania
-w przedziale <math>\displaystyle [0,1]</math>. Rozwiązanie to może
+w przedziale <math>D</math>. Rozwiązanie to może
 być aproksymowane z dowolnie małym błędem przy pomocy
 iteracji prostych, startując z dowolnego przybliżenia
-początkowego <math>\displaystyle  x_0\in [0,1]</math>.
+początkowego <math>x_0\in D</math>. Jednak, gdy <math>\epsilon \approx 1</math>, zbieżność może być bardzo powolna... (Wkrótce przekonasz się, że są szybsze metody).
 </div></div>
 Zaletą iteracji prostych jest fakt, że zbieżność
-nie zależy od wymiaru <math>\displaystyle n</math> zadania, ale tylko od stałej
+nie zależy od wymiaru <math>n</math> zadania, ale tylko od stałej
-Lipschitza <math>\displaystyle L</math> (jednak w praktyce czasem sama stała Lipschitza może zależeć od
+Lipschitza <math>L</math> (jednak w praktyce czasem sama stała Lipschitza może zależeć od
 wymiaru zadania...). Metoda Banacha ma szczególne zastosowanie w
-przypadku, gdy funkcja <math>\displaystyle \phi</math> jest zwężająca na całym
+przypadku, gdy funkcja <math>\phi</math> jest zwężająca na całym
-zbiorze <math>\displaystyle D</math>, tzn. <math>\displaystyle D_0=D</math>. Jeśli ponadto <math>\displaystyle D</math> ma
+zbiorze <math>D</math>, tzn. <math>D_0=D</math>. Jeśli ponadto <math>D</math> ma
-skończoną średnicę <math>\displaystyle  \mbox{diam} (D)</math>, to dla
+skończoną średnicę, <math>\mbox{diam} (D) < +\infty</math>, to dla
-osiągnięcia <math>\displaystyle \epsilon</math>-aproksymacji zera funkcji <math>\displaystyle f</math>
+osiągnięcia <math>\epsilon</math>-aproksymacji zera funkcji <math>f</math>
 wystarczy wykonać
-<center><math>\displaystyle k\,=\,k(\epsilon)\,=\,\Big\lceil\frac
+<center><math>k\,=\,k(\epsilon)\,=\,\Big\lceil\frac
    {\log(\| x_0- x^*\|/\epsilon)}{\log(1/L)}\Big\rceil
     \,=\,\Big\lceil\frac
@@ Linia 291: / Linia 297: @@
 </math></center>
-iteracji, niezależnie od <math>\displaystyle x_0</math>. Metody zbieżne dla
+iteracji, niezależnie od <math>x_0</math>. Metody zbieżne dla
 dowolnego przybliżenia początkowego nazywamy
 <strong>zbieżnymi globalnie</strong>. Obie przedstawione dotychczas metody: bisekcji i
-Banacha przy rozsądnych
+Banacha, przy rozsądnych
-założeniach są zbieżne globalnie.
+założeniach, są zbieżne globalnie.
 Okazuje się, że metoda iteracji prostej może być --- w bardzo szczególnych
-przypadkach --- zbieżna szybciej niż liniowo. Z taką sytuacją będziemy mieli do czynienia,
+przypadkach --- zbieżna szybciej niż liniowo. Z taką sytuacją będziemy mieli do czynienia, gdy rozpatrzymy metodę Newtona.
-gdy korzystać będziemy z metody Newtona.
 ==Metoda Newtona==
-Zarówno metoda Banacha, jak i bisekcja są zbieżnie liniowo, co w praktyce może
+Zarówno metoda Banacha, jak i bisekcja, są zbieżnie liniowo, co w praktyce może
 okazać się zbieżnością dość powolną (np. dla metody zbieżnej liniowo z ilorazem
-<math>\displaystyle \frac{1}{2}</math> dopiero po piątej iteracji dostajemy kolejną
+<math>1/2</math> dopiero po piątej iteracji dostajemy kolejną
-dokładną cyfrę wyniku). Wykorzystując więcej informacji o funkcji <math>\displaystyle f</math>, której
+dokładną cyfrę wyniku). Wykorzystując więcej informacji o funkcji <math>f</math>, której
 miejsca zerowego poszukujemy, możemy istotnie przyspieszyć zbieżność metody.
 Ceną, jaką przyjdzie nam zapłacić, będzie utrata globalnej zbieżności.
-Metoda Newtona i jej podobne należą do
+[[grafika:Newton.jpg|thumb|right||Isaac Newton<br>  [[Biografia Newton|Zobacz biografię]]]]
-grupy metod <strong>zbieżnych lokalnie</strong>. Znaczy to, że
-zbieżność ciągu <math>\displaystyle \{x_k\}_k</math> do zera danej funkcji <math>\displaystyle f</math>
-jest zapewniona jedynie wtedy, gdy przybliżenia początkowe
-zostały wybrane dostatecznie blisko <math>\displaystyle x^*</math>.
 W dalszych rozważaniach będziemy zakładać dla
-uproszczenia, że dziedzina <math>\displaystyle D=R</math>.
+uproszczenia, że dziedzina <math>D=R</math>.
-Idea metody Newtona opiera się na popularnym wśród inżynierów pomyśle <strong>linearyzacji</strong>: zamiast szukać miejsca zerowego skomplikowanej <math>\displaystyle f</math>, przybliżmy ją
+Idea <strong>metody Newtona</strong> opiera się na popularnym wśród inżynierów pomyśle <strong>linearyzacji</strong>: zamiast szukać miejsca zerowego skomplikowanej <math>f</math>, przybliżmy ją
 linią prostą, a dla niej już umiemy znaleźć miejsce zerowe!
-[[grafika:Newton.jpg|thumb|right||Isaac Newton<br> Przypisywanie metody
+<!--
+Przypisywanie metody
 stycznych Newtonowi jest pewną przesadą. Metodę Newtona taką, jaką znamy (z
 pochodną w mianowniku), zaproponował w 1740 roku Simpson (ten od kwadratury), kilknaście lat po śmierci Newtona. Żeby było jeszcze zabawniej, odkrywcą
 metody siecznych zdaje się być... Newton! Więcej na ten temat przeczytasz w
-artykule T.Ypma w SIAM Review 37, 1995. [[Biografia Newton|Zobacz biografię]]]]
+artykule T.Ypma w SIAM Review 37, 1995.
+-->
 Startując z pewnego przybliżenia
-początkowego <math>\displaystyle x_0</math>, w kolejnych krokach metody, <math>\displaystyle k</math>-te
+początkowego <math>x_0</math>, w kolejnych krokach metody, <math>k</math>-te
-przybliżenie <math>\displaystyle x_k</math> jest punktem przecięcia stycznej do
+przybliżenie <math>x_k</math> jest punktem przecięcia stycznej do
-wykresu <math>\displaystyle f</math> w punkcie <math>\displaystyle x_{k-1}</math>. Ponieważ równanie
+wykresu <math>f</math> w punkcie <math>x_{k-1}</math>. Ponieważ równanie
-stycznej wynosi <math>\displaystyle y(x)=f(x_{k-1})+f'(x_{k-1})(x-x_{k-1})</math>,
+stycznej wynosi <math>y(x)=f(x_{k-1})+f'(x_{k-1})(x-x_{k-1})</math>,
 otrzymujemy wzór
-<center><math>\displaystyle x_k\,=\,x_{k-1}\,-\,\frac{f(x_{k-1})}{f'(x_{k-1})}.
+{{algorytm|Metoda Newtona (stycznych)|Metoda Newtona (stycznych)|
-</math></center>
+<pre>for k = 1,2,...
+	<math>x_k\,=\,x_{k-1}\,-\,\frac{f(x_{k-1})}{f'(x_{k-1})}</math>;
+</pre>}}
 Oczywiście, aby metoda Newtona była dobrze zdefiniowana,
-musimy założyć, że <math>\displaystyle f'(x_{k-1})</math> istnieje i nie
+musimy założyć, że <math>f'(x_{k-1})</math> istnieje i nie
 jest zerem.
-<div class="thumb tright"><div><flash>file=Newton.swf</flash><div.thumbcaption>Postęp iteracji Newtona</div></div></div>
+<!--
+[[Image:MNnewtononestep.png|thumb|550px|center|Metoda Newtona: pierwszy krok]]
+-->
+<div class="center"><div class="thumb tnone"><div style="width:552px;"><flash>file=Newtononestep.swf|width=550|height=300</flash> <div class="thumbcaption">Postęp iteracji Newtona</div></div></div></div>
 Zauważmy, że metodę Newtona można traktować jako
 szczególny przypadek iteracji prostych, gdzie
-<center><math>\displaystyle \phi(x)\,=\,x-\frac{f(x)}{f'(x)}.
+<center><math>\phi(x)\,=\,x-\frac{f(x)}{f'(x)}.
 </math></center>
 Widać też, że nie jest ona zbieżna globalnie.
-Nawet jeśli pochodna w <math>\displaystyle x_{k-1}</math> się nie zeruje,
+Metoda Newtona i jej podobne należą do
-ciąg <math>\displaystyle \{x_k\}_k</math> może nie zbiegać do zera funkcji <math>\displaystyle f</math>.
+grupy metod <strong>zbieżnych lokalnie</strong>. Znaczy to, że
+zbieżność ciągu <math>\{x_k\}_k</math> do zera danej funkcji <math>f</math>
+jest zapewniona jedynie wtedy, gdy przybliżenia początkowe
+zostały wybrane dostatecznie blisko <math>x^*</math>.
+Nawet jeśli pochodna w <math>x_{k-1}</math> się nie zeruje,
+ciąg <math>\{x_k\}_k</math> może nie zbiegać do zera funkcji <math>f</math>.
 Okazuje się jednak, że jeśli
-wystartujemy dostatecznie blisko rozwiązania <math>\displaystyle x^*</math>, to
+wystartujemy dostatecznie blisko rozwiązania <math>x^*</math>, to
-metoda Newtona jest zbieżna. Załóżmy
+metoda Newtona jest zbieżna. Dokładniej, załóżmy
-najpierw, że <math>\displaystyle f(x^*)=0</math> oraz
+najpierw, że
-<center><math>\displaystyle f'(x^*)\,\ne\,0.
+<center><math>f(x^*)=0\quad  \mbox{ oraz } \quad f'(x^*)\,\ne\,0.
 </math></center>
-Ponadto załóżmy, że <math>\displaystyle f</math> jest dwukrotnie
+Ponadto załóżmy, że <math>f</math> jest dwukrotnie
-różniczkowalna w sposób ciągły, <math>\displaystyle f\in C^2(D)</math>.
+różniczkowalna w sposób ciągły, <math>f\in C^2(D)</math>.
-Rozwijając <math>\displaystyle \phi</math> w szereg Taylora w punkcie <math>\displaystyle x^*</math>,
+Rozwijając <math>\phi</math> w szereg Taylora w punkcie <math>x^*</math>,
 otrzymujemy
-<center><math>\displaystyle x_k-x^*\,=\,\phi(x_{k-1})-\phi(x^*)\,=\,
+<center><math>x_k-x^*\,=\,\phi(x_{k-1})-\phi(x^*)\,=\,
    (x_{k-1}-x^*)\phi'(x^*)+(x_{k-1}-x^*)^2\phi''(\xi_k)/2,
 </math></center>
-gdzie <math>\displaystyle \min(x^*,x_{k-1})\le\xi_k\le\max(x^*,x_{k-1})</math>.
+gdzie <math>\min(x^*,x_{k-1})\le\xi_k\le\max(x^*,x_{k-1})</math>.
-Wobec tego, że <math>\displaystyle \phi'(x^*)=f(x)f''(x)/(f'(x))^2=0</math> i
+Wobec tego, że <math>\phi'(x^*)=f(x)f''(x)/(f'(x))^2=0</math> i
-<math>\displaystyle \phi''(\xi_k)=f''(\xi_k)/f'(\xi_k)</math>, mamy
+<math>\phi''(\xi_k)=f''(\xi_k)/f'(\xi_k)</math>, mamy
-<center><math>\displaystyle
+<center><math>
-   x_k-x^*\,=\,(x_{k-1}-x^*)^2\frac{f''(\xi_k)}{2f'(\xi_k)}.
+   x_k-x^*\,=\,(x_{k-1}-x^*)^2\frac{f''(\xi_k)}{2f'(\xi_k)}</math></center>
-</math></center>
 Zdefiniujmy liczbę
-<center><math>\displaystyle R_f\,=\,\sup_{r\ge 0}\sup_{\{x:|x-x^*|\le r\}}
+<center><math>R_f\,=\,\sup_{r\ge 0}\sup_{\{x:|x-x^*|\le r\}}
     \Big|\frac{2(x-x^*)f''(x)}{f'(x)}\Big|\,<\,1.
 </math></center>
-Oczywiście <math>\displaystyle R_f>0</math>. Dla <math>\displaystyle x_{k-1}</math> spełniającego
+Oczywiście <math>R_f>0</math>. Dla <math>x_{k-1}</math> spełniającego
-<math>\displaystyle |x_{k-1}-x^*|\le R<R_f</math>, mamy z poprzedniej równości
+<math>|x_{k-1}-x^*|\le R<R_f</math>, mamy z poprzedniej równości
-<center><math>\displaystyle |x_k-x^*|\,\le\,q\,|x_{k-1}-x^*|,
+<center><math>|x_k-x^*|\,\le\,q\,|x_{k-1}-x^*|</math>,</center>
-</math></center>
-gdzie <math>\displaystyle q<1</math> i <math>\displaystyle q</math> zależy tylko od <math>\displaystyle R</math>.
+gdzie <math>q<1</math> i <math>q</math> zależy tylko od <math>R</math>.
-Niech teraz <math>\displaystyle x^*</math> będzie zerem <math>\displaystyle m</math>-krotnym,
+Niech teraz <math>x^*</math> będzie zerem <math>m</math>-krotnym,
-<center><math>\displaystyle f(x^*)=f'(x^*)=\cdots =f^{(m-1)}(x^*)=0\ne f^{(m)}(x^*),
+<center><math>f(x^*)=f'(x^*)=\cdots =f^{(m-1)}(x^*)=0\ne f^{(m)}(x^*)</math>,</center>
-</math></center>
-gdzie <math>\displaystyle m\ge 2</math>, oraz niech <math>\displaystyle f</math> będzie <math>\displaystyle m</math>-krotnie
+gdzie <math>m\ge 2</math>, oraz niech <math>f</math> będzie <math>m</math>-krotnie
 różniczkowalna w sposób ciągły. Wtedy
-<center><math>\displaystyle \aligned x_k-x^* &= (x_{k-1}-x^*)\,-\,\frac{(x_{k-1}-x^*)^m
+<center><math>\begin{align} x_k-x^* &= (x_{k-1}-x^*)\,-\,\frac{(x_{k-1}-x^*)^m
     \frac{f^{(m)}  (\eta_k^{(1)})}{m!}}{(x_{k-1}-x^*)^{m-1}
-    \frac{f^{(m-1)}(\eta_k^{(2)})}{(m-1)!}} \nonumber \\
+    \frac{f^{(m-1)}(\eta_k^{(2)})}{(m-1)!}}  \\
     &= (x_{k-1}-x^*)\left(1-\frac 1m\frac
-        {f^{(m)}(\eta_k^{(1)})}{f^{(m)}(\eta_k^{(2)})}
+        {f^{(m)}(\eta_k^{(1)})}{f^{(m)}(\eta_k^{(2)})}\right)  \\
-       \right) \nonumber \\
+&\approx & (x_{k-1}-x^*)\Big( 1-\frac 1m\Big),
-   &\approx & (x_{k-1}-x^*)\Big( 1-\frac 1m\Big),
+\end{align}</math></center>
-\endaligned</math></center>
+o ile <math>x_{k-1}</math> jest "blisko" <math>x^*</math>.
+Metoda Newtona jest więc zbieżna lokalnie. Gdy <math>x_0</math> jest zbyt daleko od rozwiązania może zdarzyć się, że iteracja Newtona zacznie nas oddalać od miejsca zerowego, co ilustruje poniższy przykład:
-o ile <math>\displaystyle x_{k-1}</math> jest "blisko" <math>\displaystyle x^*</math>.
+<!--
+[[Image:MNnewtononestepdiv.png|thumb|550px|center|Metoda Newtona: jeśli startujemy zbyt daleko od miejsca zerowego <math>f</math>, zamiast przybliżać się do niego, zaczynamy się oddalać! (gdzie będzie <math>x_3</math>?...)]]
+-->
+<div class="center"><div class="thumb tnone"><div style="width:552px;"><flash>file=Newtononestepdiv.swf|width=550|height=300</flash> <div class="thumbcaption">Metoda Newtona: jeśli startujemy zbyt daleko od miejsca zerowego <math>f</math>, zamiast przybliżać się do niego, zaczynamy się oddalać! (gdzie będzie <math>x_3</math>?...)</div></div></div></div>
-Metoda Newtona jest więc zbieżna lokalnie.
 Z powyższego można też wywnioskować,
 jaki jest charakter zbieżności metody Newtona. Dla zera
-jednokrotnego <math>\displaystyle x^*</math> oraz <math>\displaystyle f''(x^*)\ne 0</math> mamy bowiem
+jednokrotnego <math>x^*</math> oraz <math>f''(x^*)\ne 0</math> mamy bowiem
-<center><math>\displaystyle |x_k-x^*|\, \approx \,|x-x_{k-1}|^2 \frac{|f''(x^*)|}{2|f'(x^*)|}.
+<center><math>|x_k-x^*|\, \approx \,|x-x_{k-1}|^2 \frac{|f''(x^*)|}{2|f'(x^*)|}</math></center>
-</math></center>
-Mówimy, że zbieżność metody Newtona, gdy <math>\displaystyle f(x^*)\neq 0</math> jest <strong>kwadratowa</strong>.
+Mówimy, że zbieżność metody Newtona, gdy <math>f'(x^*)\neq 0</math> jest <strong>kwadratowa</strong>.
 {{stwierdzenie|||
-Jeśli <math>\displaystyle f(x^*)\neq 0</math> oraz
+Jeśli <math>f'(x^*)\neq 0</math> oraz
-<math>\displaystyle f''(x^*)=0</math> to zbieżność jest nawet szybsza. Z kolei dla
+<math>f''(x^*)=0</math> to zbieżność jest nawet szybsza. Z kolei dla
-zera <math>\displaystyle m</math>-krotnego (tzn. <math>\displaystyle f(x^*) = f'(x^*)= \ldots f^{(m)}(x^*)= 0</math>, <math>\displaystyle m>1</math>)
+zera <math>m</math>-krotnego (tzn. <math>f(x^*) = f'(x^*)= \ldots f^{(m)}(x^*)= 0</math>, <math>m>1</math>)
-zbieżność jest liniowa z ilorazem <math>\displaystyle (1-\frac{1}{m})</math>.
+zbieżność jest liniowa z ilorazem <math>(1-\frac{1}{m})</math>.
 }}
@@ Linia 435: / Linia 452: @@
 zdefiniowany następująco.
-[[Image:MNstycznebisekcja.png|thumb|450px|center|Porównanie zbieżności metody bisekcji i stycznych
+[[Image:MNstycznebisekcja.png|thumb|550px|center|Porównanie zbieżności metody bisekcji i stycznych
-dla równania <math>\displaystyle e^x - 1 = 0</math>. Błąd kolejnych przybliżeń wyświetlany jest w skali
+dla równania <math>e^x - 1 = 0</math>. Błąd kolejnych przybliżeń wyświetlany jest w skali
 logarytmicznej, dzięki czemu lepiej widać różnicę między zbieżnością liniową a
 kwadratową.]]
-Powiemy, że metoda iteracyjna <math>\displaystyle \phi</math> jest w klasie funkcji <math>\displaystyle F</math>
+Powiemy, że metoda iteracyjna <math>\phi</math> jest w klasie funkcji <math>F</math>
-rzędu co najmniej <math>\displaystyle p\ge 1</math>, gdy spełniony jest następujący
+<strong>rzędu co najmniej <math>p\ge 1</math></strong>, gdy spełniony jest następujący
-warunek. Niech <math>\displaystyle f\in F</math> i <math>\displaystyle f(x^*)=0</math>. Wtedy istnieje stała
+warunek. Niech <math>f\in F</math> i <math>f(x^*)=0</math>. Wtedy istnieje stała
-<math>\displaystyle C<\infty</math> taka, że dla dowolnych przybliżeń początkowych
+<math>C<\infty</math> taka, że dla dowolnych przybliżeń początkowych
-<math>\displaystyle x_0,\ldots,x_{s-1}</math> dostatecznie bliskich <math>\displaystyle x^*</math>, kolejne
+<math>x_0,\ldots,x_{s-1}</math> dostatecznie bliskich <math>x^*</math>, kolejne
-przybliżenia <math>\displaystyle x_k=\phi(x_{k-1},\ldots,x_{k-s})</math> generowane
+przybliżenia <math>x_k=\phi(x_{k-1},\ldots,x_{k-s})</math> generowane
 tą metodą spełniają
-<center><math>\displaystyle |x_k-x^*|\,\le\,C\,|x_{k-1}-x^*|^p.
+<center><math>|x_k-x^*|\,\le\,C\,|x_{k-1}-x^*|^p</math></center>
-</math></center>
-Ponadto, jeśli <math>\displaystyle p=1</math> to dodatkowo żąda się, aby <math>\displaystyle C<1</math>.
+Ponadto, jeśli <math>p=1</math> to dodatkowo żąda się, aby <math>C<1</math>.
 {{definicja|||
-Wykładnikiem zbieżności metody
+<strong>Wykładnikiem zbieżności</strong> metody
-iteracyjnej <math>\displaystyle \phi</math> w klasie <math>\displaystyle F</math> nazywamy liczbę <math>\displaystyle p^*</math>
+iteracyjnej <math>\phi</math> w klasie <math>F</math> nazywamy liczbę <math>p^*</math>
 zdefiniowaną równością
-<center><math>\displaystyle p^*\,=\,\sup\,\{\,p\ge 1:\,\phi
+<center><math>p^*\,=\,\sup\,\{\,p\ge 1:\,\phi
-      \mbox{ jest rzędu co najmniej  }  p\,\}.
+      \mbox{ jest rzędu co najmniej  }  p\,\}</math></center>
-</math></center>
 }}
@@ Linia 467: / Linia 482: @@
 które natychmiast wynika z poprzednich rozważań.
-{{twierdzenie|||
+{{twierdzenie|O rzędzie zbieżności metody Newtona|O rzędzie zbieżności metody Newtona|
 Wykładnik zbieżności metody Newtona
-(stycznych) wynosi <math>\displaystyle p^*=2</math> w klasie funkcji o zerach
+(stycznych) wynosi <math>p^*=2</math> w klasie funkcji o zerach
-jednokrotnych, oraz <math>\displaystyle p^*=1</math> w klasie funkcji o zerach
+jednokrotnych, oraz <math>p^*=1</math> w klasie funkcji o zerach
 wielokrotnych.
 }}
-[[Image:MNmultiplezeros.png|thumb|450px|center|Zbieżność metody Newtona dla zer wielokrotnych <math>\displaystyle f(x)
+[[Image:MNmultiplezeros.png|thumb|550px|center|Zbieżność metody Newtona dla zer wielokrotnych <math>f(x)
-= (x-1)^5</math> jest liniowa z ilorazem <math>\displaystyle \frac{4}{5}</math> (końcowe załamanie wykresu
+= (x-1)^5</math> jest liniowa z ilorazem <math>\frac{4}{5}</math> (końcowe załamanie wykresu
 spowodowane jest przypadkowym trafieniem w dokładne miejsce zerowe). Metoda bisekcji nie jest na to czuła i dalej zbiega z ilorazem
-<math>\displaystyle \frac{1}{2}</math>.]]
+<math>\frac{1}{2}</math>.]]
 ==Metoda siecznych==
-Inną znaną i często używaną metodą iteracyjną opartą na podobnym pomyśle
+Inną znaną i często używaną metodą iteracyjną, opartą na podobnym pomyśle
-linearyzacyjnych '''??''' , co metoda Newtona
+linearyzacyjnym co metoda Newtona,
-jest <strong>metoda siecznych</strong>, w której zamiast przybliżenia wykresu <math>\displaystyle f</math> przez
+jest <strong>metoda siecznych</strong>, w której zamiast przybliżenia wykresu <math>f</math> przez
-styczną, stosuje się przybliżenie sieczną.
+styczną,  stosuje się  przybliżenie sieczną.
 Metoda ta
-wykorzystuje więc do konstrukcji <math>\displaystyle x_k</math> przybliżenia
+wykorzystuje więc do konstrukcji <math>x_k</math> przybliżenia
-<math>\displaystyle x_{k-1}</math> i <math>\displaystyle x_{k-2}</math>. Musimy również wybrać dwa różne
+<math>x_{k-1}</math> i <math>x_{k-2}</math>. Musimy również wybrać dwa różne
-punkty startowe <math>\displaystyle x_0</math> i <math>\displaystyle x_1</math>. Ponieważ prosta interpolująca
+punkty startowe <math>x_0</math> i <math>x_1</math>. Ponieważ sieczna dla
-<math>\displaystyle f</math> w <math>\displaystyle x_{k-1}</math> i <math>\displaystyle x_{k-2}</math> ma wzór
+<math>f</math> w punktach <math>x_{k-1}</math> i <math>x_{k-2}</math> ma wzór
-<center><math>\displaystyle y(x)\,=\,\frac{x-x_{k-2}}{x_{k-1}-x_{k-2}}f(x_{k-1})+
+<center><math>y(x)\,=\,\frac{x-x_{k-2}}{x_{k-1}-x_{k-2}}f(x_{k-1})+
-            \frac{x-x_{k-1}}{x_{k-2}-x_{k-1}}f(x_{k-2}),
+            \frac{x-x_{k-1}}{x_{k-2}-x_{k-1}}f(x_{k-2})</math>,</center>
-</math></center>
 otrzymujemy
-<center><math>\displaystyle x_k\,=\,x_{k-1}\,-\,\frac{x_{k-1}-x_{k-2}}
+{{algorytm|Metoda siecznych|Metoda siecznych|
-      {f(x_{k-1})-f(x_{k-2})}\,f(x_{k-1}).
+<pre>for k = 1,2,...
-</math></center>
+	<math>x_k\,=\,x_{k-1}\,-\,\frac{x_{k-1}-x_{k-2}} {f(x_{k-1})-f(x_{k-2})}\,f(x_{k-1})</math>;
+end
+</pre>}}
-Zauważmy, że jeśli <math>\displaystyle x_{k-1}</math> i <math>\displaystyle x_{k-2}</math> są blisko
+Zauważmy, że jeśli <math>x_{k-1}</math> i <math>x_{k-2}</math> są blisko
-siebie, to <math>\displaystyle x_k</math> jest podobny do tego z metody Newtona,
+siebie, to <math>x_k</math> jest podobny do tego z metody Newtona,
-bowiem wtedy iloraz różnicowy
+bowiem wtedy iloraz różnicowy [[MN14#Różniczkowanie|przybliża pochodną]] <math>f</math>,
-<center><math>\displaystyle
+<center><math>
-\frac{f(x_{k-1})-f(x_{k-2})}{x_{k-1}-x_{k-2}} \approx f'(x_{k-1}).
+\frac{f(x_{k-1})-f(x_{k-2})}{x_{k-1}-x_{k-2}} \approx f'(x_{k-1})</math></center>
-</math></center>
-Nie wystarcza to
+Nie wystarcza to jednak, aby osiągnąć zbieżność z wykładnikiem
-jednak, aby osiągnąć zbieżność z wykładnikiem
+<math>2</math>. Można pokazać, że przy podobnych założeniach o funkcji, wykładnik zbieżności metody siecznych dla zer jednokrotnych i dostatecznie gładkich funkcji wynosi <math>p^*=\frac{1+\sqrt{5}}{2}=1.618\ldots</math>. Jako wariant metody Newtona, metoda siecznych jest również zbieżna lokalnie.
-<math>\displaystyle 2</math>. Można pokazać, że wykładnik
-zbieżności metody siecznych dla zer jednokrotnych dostatecznie gładkich funkcji
+[[Image:MNstycznesiecznebisekcja.png|thumb|550px|center|Porównanie zbieżności metody bisekcji,
-wynosi <math>\displaystyle p^*=\frac{1+\sqrt{5}}{2}=1.618\ldots</math>. Jako wariant metody Newtona metoda
+stycznych i siecznych
-siecznych jest również zbieżna lokalnie.
+dla równania <math>e^x - 1 = 0</math>. Błąd kolejnych przybliżeń wyświetlany jest w skali
+logarytmicznej.]]
-Niewątpliwą zaletą metody siecznych jest jednak to,
+Niewątpliwą zaletą metody siecznych jest jednak to, że <strong>nie wymaga obliczania pochodnej funkcji</strong> (bywa, że dokładne wyznaczenie pochodnej jest niemożliwe, gdy np. funkcja jest zadana zewnętrzną procedurą, do której kodu źródłowego nie mamy dostępu; zwykle też koszt obliczenia wartości pochodnej jest wyższy od kosztu obliczenia wartości funkcji). Jest to również istotne w pakietach numerycznych, gdzie czasem nie chcemy wymagać od użytkownika czegokolwiek, oprócz podania wzoru na funkcję i przybliżonej lokalizacji miejsca zerowego.
-że nie wymaga ona obliczania pochodnej funkcji (co
-w praktyce jest często bardzo trudne, a niekiedy
-nawet niemożliwe), a tylko jej wartości. Jest to również istotne w pakietach
-numerycznych, gdzie czasem nie chcemy wymagać od użytkownika czegokolwiek ponad
-podanie funkcji i przybliżonej lokalizacji miejsca zerowego.
-Ponadto, często zdarza się, że wyznaczenie wartości pochodnej, <math>\displaystyle f'(x_k)</math>, jest
+Ponadto, często zdarza się, że wyznaczenie wartości pochodnej, <math>f'(x_k)</math>, jest
-tak samo, albo i bardziej kosztowne od wyznaczenia wartości <math>\displaystyle f(x_k)</math>. W takim
+tak samo, albo i bardziej kosztowne od wyznaczenia wartości <math>f(x_k)</math>. W takim
-wypadku okazuje się, że metoda stycznych --- choć wolniej zbieżna niż metoda
+wypadku okazuje się, że metoda siecznych --- choć wolniej zbieżna niż metoda
-stycznych --- dzięki temu, że
+Newtona --- dzięki temu, że jej iteracja wymaga jedynie wyznaczenia jednej wartości <math>f</math>, jest <strong>bardziej efektywna</strong> od metody Newtona: koszt osiągnięcia zadanej dokładności jest w takim przypadku mniejszy od analogicznego kosztu dla metody Newtona.
-jej iteracja wymaga jedynie wyznaczenia jednej wartości <math>\displaystyle f</math>, jest <strong>bardziej
-efektywna</strong> od metody Newtona: koszt osiągnięcia zadanej dokładności jest w
-takim przypadku mniejszy od analogicznego kosztu dla metody Newtona.
-Jednak, gdy żądane przez użytkownika dokładności są bardzo wielkie, a sama
+Jednak gdy żądane przez użytkownika dokładności są bardzo wielkie, a sama
 funkcja "złośliwa", metoda siecznych może cierpieć z powodu redukcji cyfr
 przy odejmowaniu.
-[[Image:MNstycznesiecznebisekcja.png|thumb|450px|center|Porównanie zbieżności metody bisekcji,
-stycznych i siecznych
-dla równania <math>\displaystyle e^x - 1 = 0</math>. Błąd kolejnych przybliżeń wyświetlany jest w skali
-logarytmicznej.]]
 ==Metoda Brenta==
@@ Linia 545: / Linia 549: @@
 sposób połączyć globalnej zbieżności metody bisekcji z szybką zbieżnością
 metody siecznych tak, by uzyskać metodę zbieżną globalnie, a jednocześnie
-istotnie szybciej niż liniowo (wariant odwrotny: opracowanie metody łączącej
+istotnie szybciej niż liniowo.
-wolną zbieżność bisekcji z lokalną zbieżnością siecznych pozostawiamy
-studentom gorszych uczelni).
 Okazuje się, że można to zrobić, wprowadzając metodę opartą na <strong>trzech</strong> punktach lokalizujących miejsce zerowe: dwóch odcinających zero tak jak
-w metodzie bisekcji i trzecim, konstruowanym jak np. w metodzie stycznych. W
+w metodzie bisekcji i trzecim, konstruowanym np. jak w metodzie stycznych. W
-kolejnej iteracji konstruujemy '''??''' wymieniamy jeden z punktów albo wedle metody
+kolejnej iteracji wymieniamy jeden z punktów albo wedle metody
-siecznych (i wtedy zapewne szybciej zbliżamy się do zera), albo robiąc bisekcję
+siecznych (i wtedy zapewne szybciej zbliżamy się do zera), albo wykonując bisekcję (aby zagwarantować sobie, że w wiadomym przedziale miejsce zerowe rzeczywiście się znajduje).
-(aby zagwarantować sobie, że w wiadomym przedziale miejsce zerowe rzeczywiście
-się znajduje).
+Ten prosty pomysł <strong>metody hybrydowej</strong> wymaga jednak subtelnego dopracowania. Zostało to zrobione w 1973 roku przez [http://www.rpbrent.com  Richarda Brenta]. Funkcja MATLABa (i Octave'a) <code style="color: #006">fzero</code> implementują właśnie metodę Brenta.
+Autorem implementacji w Octave jest ówczesny student [http://www.mimuw.edu.pl  matematyki] na Uniwersytecie Warszawskim, Łukasz Bodzon. Fortranowski kod metody Brenta można znaleźć także w [http://www.netlib.org/go/zeroin.f  Netlibie]. Inną funkcją Octave'a służącą rozwiązywaniu równań nieliniowych jest <code style="color: #006">fsolve</code>:
+<div style="font-family: monospace; white-space: pre; border-style: dashed; border-width: thin; border-color: black; margin: 1em; padding:1em; color: #444; background-color:#fdfdfd;"><nowiki>octave:1> [X, MSG, INFO] = fsolve ('cos', 1)
+X =  1.5708
+MSG =  1
+INFO = solution converged within specified tolerance
-Ten prosty pomysł metody hybrydowej wymaga jednak subtelnego dopracowania, co
+octave:2> cos(X)
-zostało zrobione w 1973 roku przez Richarda Brenta, który twórczo rozwinął wcześniejsze idee
+ans =  6.1230e-17
-Dekkera, van Wijngaardena i Dijkstry.
+</nowiki></div>
+==Metody dla układów równań nieliniowych==
-[[grafika:Brent.jpg|thumb|right||Richard Brent<br>  [[Biografia Brent|Zobacz biografię]]]]
+Niektóre z poznanych metod można łatwo rozszerzyć na przypadek układu <math>N</math> równań z <math>N</math> niewiadomymi, to znaczy
-Funkcja MATLABa (i Octave'a) <code>fzero</code> implementuje właśnie metodę Brenta.
+<center><math>F(x) = 0</math>,</center>
-Ciekawostką jest, że autorem implementacji w Octave jest ówczesny student
-matematyki na Uniwersytecie Warszawskim, Łukasz Bodzon.
-==Metody dla układów równań nieliniowych==
+gdzie <math>F: R^N \rightarrow R^N</math>.
+===Metoda Banacha===
+Jak pamiętamy, [[#Banacha, o kontrakcji|metodę Banacha]] sformułowaliśmy od razu dla zagadnienia wielowymiarowego. Analiza i własności metody są zatem już [[#Banacha, o kontrakcji|omówione]].
+===Wielowymiarowa metoda Newtona===
+Okazuje się, że metodę Newtona można uogólnić na przypadek układu <math>N</math> równań nieliniowych z <math>N</math> niewiadomymi. Zapiszmy wzór na skalarną metodę Newtona odrobinę inaczej:
+<center><math>x_{k+1} = x_k - [F'(x_k)]^{-1}\, F(x_k)</math></center>
+Niezwykłe jest, że taki wzór nie tylko ma sens w przypadku, gdy <math>F: R^N \rightarrow R^N</math> (wtedy <math>F'(x_k)</math> jest macierzą Jakobianu <math>F</math> w punkcie <math>x_k</math>), ale dodatkowo ta metoda zachowuje wszystkie własności metody stycznych dla przypadku skalarnego:
+{{twierdzenie|O zbieżności wielowymiarowej metody Newtona|O zbieżności wielowymiarowej metody Newtona|
+Załóżmy, że <math>F: R^N \rightarrow R^N</math> i istnieje <math>x^* \in R^N</math> taki, że
+<center><math>F(x^*) = 0</math></center>
+Załóżmy ponadto, że <math>F</math> jest różniczkowalna, a jej pochodna <math>F': R^N \rightarrow R^{N\times N}</math> jest lipschitzowska i dodatkowo
+<center><math>F'(x^*)  \mbox{ jest nieosobliwa} </math></center>
+Wówczas, jeśli tylko <math>x_0</math> jest dostatecznie blisko rozwiązania <math>x^*</math>, to ciąg kolejnych przybliżeń <math>x_k</math>, generowany wielowymiarową metodą Newtona, jest zbieżny do <math>x^*</math>. Co więcej, szybkość zbieżności jest kwadratowa.
+}}
+===Implementacja wielowymiarowej metody Newtona===
+Implementując wielowymiarową metodę Newtona, musimy dysponować nie tylko funkcją obliczającą <math>N</math> współrzędnych wektora wartości <math>F</math>, ale także funkcją wyznaczającą <math>N^2</math> elementów macierzy pochodnej <math>F</math> w zadanym punkcie <math>x \in R^N</math>. Zwróćmy uwagę na to, że w implementacji metody nie trzeba wyznaczać <math>F'(x_k)^{-1}</math>, tylko rozwiązać układ równań:
+{{algorytm|Wielowymiarowa metoda Newtona|Wielowymiarowa metoda Newtona|
+<Source>while (!stop)
+{
+	rozwiąż (względem <math>s</math>) układ równań liniowych <math>F'(x_k)\, s = -F(x_k)</math>;
+	<math>x_{k+1}</math> = <math>x_k</math> + <math>s</math>;
+}
+</Source>}}
+O tym, [[MN05|jak skutecznie rozwiązywać układy równań liniowych]], dowiesz się z kolejnych wykładów. Dowiesz się także, dlaczego ''nie należy'' w implementacji korzystać z wyznaczonej ''explicite'' macierzy odwrotnej do macierzy Jakobianu.
+==Literatura==
+W celu dogłębnego zapoznania się z omawianym na wykładzie materiałem, przeczytaj <b>rozdział 3</b> w
+* D. Kincaid, W. Cheney <cite>Analiza numeryczna</cite>, Wydawnictwa Naukowo-Techniczne, Warszawa 2006, ISBN 83-204-3078-X.
+Rozdziały 3.5 i 3.6 nie są obowiązkowe.
+Wiele wariantów metod rozwiązywania <strong>układów</strong> równań nieliniowych jest przedstawionych w znakomitej monografii
+* <span style="font-variant:small-caps">C.T.Kelley</span>, <cite>Iterative Solution of Systems of Linear and Nonlinear Equations</cite>, SIAM, 1995.
+Opis metody Brenta znajdziesz w książce
+* <span style="font-variant:small-caps">R. Brent</span>, <cite>Algorithms for Minimization Without Derivatives</cite>, Prentice-Hall, 1973.