MN12: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Dorota (dyskusja | edycje)
Nie podano opisu zmian
Przykry (dyskusja | edycje)
Nie podano opisu zmian
Linia 1: Linia 1:
<!--
Konwertowane  z pliku LaTeX przez latex2mediawiki, zob. http://www.ii.uj.edu.pl/&nbsp;pawlik1/latex2mediawiki.php.
Niezb�dne rozszerzenia i modyfikacje oryginalnego latex2mediawiki
wprowadzi� przykry@mimuw.edu.pl
-->
=Nadokreślone układy równań liniowych=
=Nadokreślone układy równań liniowych=


Zajmiemy się zadaniem wygładzania liniowego  
{{powrot |Metody numeryczne | do strony głównej
nazywanym też liniowym zadaniem najmniejszych kwadratów.   
przedmiotu <strong>Metody numeryczne</strong>}}
 
Zajmiemy się zadaniem wygładzania liniowego,
nazywanym też <strong>liniowym zadaniem najmniejszych kwadratów</strong>.   
Jest ono uogólnieniem zadania rozwiązywania kwadratowych układów  
Jest ono uogólnieniem zadania rozwiązywania kwadratowych układów  
równań liniowych do przy\-pa\-dku, gdy układ jest nadokreślony.  
równań liniowych do przypadku, gdy układ jest nadokreślony --- to znaczy, jest więcej równań niż niewiadomych. W takim przypadku nie należy liczyć na to, że uda się nam wskazać rozwiązanie spełniające ''wszystkie'' równania (jest ich za dużo!), dlatego będziemy szukać rozwiązania <math>\displaystyle x</math>, które minimalizuje resztę,
 
<center><math>\displaystyle ||b-Ax||_2.
</math></center>


Jest to praktycznie bardzo często pojawiające się zadanie (pewien jego wariant
Jest to praktycznie bardzo często pojawiające się zadanie, a autorem pierwszego
rozwiązują np. nasze przenośne odbiorniki GPS), a autorem pierwszego rozwiązania
rozwiązania był nie kto inny jak sam wielki Gauss.
był nie kto inny jak sam wielki Gauss.


[[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss<br>  [[Biografia Gauss|Zobacz biografię]]]]
[[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss<br>  [[Biografia Gauss|Zobacz biografię]]]]


==Układ normalny==
Okazuje się bowiem, że jeśli np. potraktować <math>\displaystyle b</math> jako dane eksperymentalne (obarczone pewnym losowym błędem pomiaru o rozkładzie normalnym), a <math>\displaystyle x</math> --- parametrami zależności liniowej dla punktów pomiaru zadanych w macierzy <math>\displaystyle A</math>, to <math>\displaystyle x</math> minimalizujący <math>\displaystyle ||b-Ax||_2</math> (właśnie w ''tej'' normie!) jest jednocześnie najbardziej prawdopodobnym zestawem współczynników tej zależności. W języku statystyki takie zadanie nazywa się zadaniem regresji liniowej i jest w tym kontekście bardzo często znajdowane w najrozmaitszych gałęziach nauki --- wszędzie tam, gdzie zachodzi potrzeba dopasowania parametrów liniowego modelu do wyników uzyskanych na drodze eksperymentu.


Niech <math>\displaystyle A</math> będzie daną macierzą o <math>\displaystyle m</math> wierszach i <math>\displaystyle n</math> kolumnach,
Stąd zresztą nazwa zadania: wygładzanie liniowe, bo chodzi nam o to, by dopasowując parametry krzywej do wyników eksperymentu, wygładzić ewentualne błędy pomiarowe.
<math>\displaystyle A\inR^{m\times n}</math>, taką, że


<center><math>\displaystyle m\,\ge\,n\,=\, \mbox{rank} (A),
==Dopasowanie krzywej minimalizującej błąd średniokwadratowy==
</math></center>
 
albo równoważnie, taką że jej wektory kolumny są liniowo
niezależne. Niech także dany będzie wektor <math>\displaystyle  b\inR^m</math>.
Jasne jest, że wtedy układ równań <math>\displaystyle A x= b</math> nie zawsze
ma rozwiązanie - mówimy, że układ jest <strong>nadokreślony</strong>.
 
<strong>Zadanie wygładzania liniowego</strong> polega na znalezieniu wektora
<math>\displaystyle  x^*\inR^n</math>, który minimalizuje <strong>wektor residualny</strong>
<math>\displaystyle  r= b-A x</math> w normie drugiej, tzn.
 
<center><math>\displaystyle \| b\,-\,A x^*\|_2\,=\,\min_{ x\inR^n}
    \| b\,-\,A x\|_2.
</math></center>


<div style="margin-top:1em; padding-top,padding-bottom:1em;">
<div style="margin-top:1em; padding-top,padding-bottom:1em;">
<span  style="font-variant:small-caps;">Przykład</span>  
<span  style="font-variant:small-caps;">Przykład</span>  
<div class="solution" style="margin-left:1em;">
<div class="solution" style="margin-left,margin-right:3em;">


Przypuśćmy, że dla pewnej funkcji   
Przypuśćmy, że dla pewnej funkcji   
<math>\displaystyle f:[a,b]\toR</math> obserwujemy jej wartości <math>\displaystyle f_i</math> (dokładne lub  
<math>\displaystyle f:[a,b]\toR</math> obserwujemy jej wartości <math>\displaystyle f_i</math> (dokładne lub  
zaburzone) w punktach <math>\displaystyle t_i</math>, <math>\displaystyle 1\le i\le m</math>. Funkcję
zaburzone) w punktach <math>\displaystyle t_i</math>, <math>\displaystyle 1\le i\le m</math>. Funkcję
chcielibyśmy przybliżyć inną funkcją <math>\displaystyle w</math> należącą do  
chcielibyśmy przybliżyć inną funkcją <math>\displaystyle w</math> należącą do  
pewnej <math>\displaystyle n</math> wymiarowej przestrzeni liniowej <math>\displaystyle W</math>, np. przestrzeni  
pewnej <math>\displaystyle n</math> wymiarowej przestrzeni liniowej <math>\displaystyle W</math>, np. przestrzeni  
wielomianów stopnia mniejszego niż <math>\displaystyle n</math>. Jakość przybliżenia  
wielomianów stopnia mniejszego niż <math>\displaystyle n</math>. Jakość przybliżenia  
mierzymy wielkością
mierzymy, sprawdzając, ''jak dokładnie spełniona jest przybliżona równość <math>\displaystyle f_i \approx w(t_i)</math>'', dokładniej, badając tzw. <strong>błąd średniokwadratowy</strong>,


<center><math>\displaystyle  
<center><math>\displaystyle  
   \sum_{i=1}^m (f_i-w(t_i))^2.
   \frac{1}{m}\sum_{i=1}^m (f_i-w(t_i))^2.
</math></center>
</math></center>


Linia 57: Linia 54:


względem <math>\displaystyle c_j</math>, a więc do zadania wygładzania liniowego.  
względem <math>\displaystyle c_j</math>, a więc do zadania wygładzania liniowego.  
Rzeczywiście, kładąc  
Rzeczywiście, kładąc  
<math>\displaystyle A=(a_{i,j})\inR^{m\times n}</math> z <math>\displaystyle a_{i,j}=w_j(t_i)</math>,  
<math>\displaystyle A=(a_{i,j})\inR^{m\times n}</math> z <math>\displaystyle a_{i,j}=w_j(t_i)</math>,  
<math>\displaystyle  b=(f_i)_{i=1}^m</math> i <math>\displaystyle  x=(c_j)_{j=1}^n</math>, wielkość
<math>\displaystyle  b=(f_i)_{i=1}^m</math> i <math>\displaystyle  x=(c_j)_{j=1}^n</math>, reszta jest równa <math>\displaystyle \| b-A x\|_2^2</math>, a minimalizacja reszty jest oczywiście równoważna minimalizacji błędu średniokwadratowego.
([[##unorm|Uzupelnic: unorm ]]) jest równa <math>\displaystyle \| b-A x\|_2^2</math>.  
 
[[Image:MNaproksymacjal2.png|thumb|550px|center|Wielomian <math>\displaystyle w</math> (czerwony) stopnia 3, aproksymujący 7 zadanych wartości (zaznaczone na zielono) danej funkcji <math>\displaystyle f</math> w sensie minimalizacji błędu średniokwadratowego]]
 
Powyższe zadanie aproksymacji średniokwadratowej w zadanych węzłach <math>\displaystyle (x_i,y_i)</math>, <math>\displaystyle i=1,\ldots,m</math>. wielomianem stopnia ''co najwyżej'' <math>\displaystyle N</math>, realizuje w Octave funkcja <code style="color: #006">polyfit(x,y,N)</code>. (Co dostaniemy, gdy <math>\displaystyle N=m-1</math>?)
 
Można pokazać, że rozwiązanie minimalizujące błąd średniokwadratowy jest najbardziej prawdopodobnym zestawem parametrów naszego (liniowego) modelu, gdy zmierzone wartości <math>\displaystyle f_i</math> mogą być zaburzone losowym błędem pomiarowym.
 
</div></div>
</div></div>
W kontekście nie-statystycznym, możemy myśleć o zadaniu wygładzania liniowego jako sposobie skrócenia listy parametrów <math>\displaystyle x</math> modelu przy zachowaniu przybliżonego spełnienia warunków modelu, tzn. <math>\displaystyle Ax\approx b</math>.
Dodajmy, że spotyka się uogólnienie tego zadania w formie następującej: dla danych wartości <math>\displaystyle b\in R^m</math>, i danej funkcji <math>\displaystyle F:R^n\rightarrow R^m</math>, znaleźć <math>\displaystyle x\in R^n</math> minimalizujący resztę:
<center><math>\displaystyle ||b-F(x)||_2.
</math></center>
Właśnie tego typu <strong>nieliniowe zadanie najmniejszych kwadratów</strong> rozwiązują np. nasze przenośne [  odbiorniki GPS]... Na marginesie zauważmy, że gdy <math>\displaystyle F</math> jest liniowa, zadanie sprowadza się do poprzedniego. W niniejszym wykładzie ograniczymy się wyłącznie do liniowego zadania najmniejszych kwadratów, nieliniowe jest omówiane na [[Metody optymalizacji|wykładzie z metod optymalizacji]].
==Układ równań normalnych==
Niech <math>\displaystyle A</math> będzie daną macierzą o <math>\displaystyle m</math> wierszach i <math>\displaystyle n</math> kolumnach,
<math>\displaystyle A\inR^{m\times n}</math>, taką, że
<center><math>\displaystyle m\,\ge\,n\,=\, \mbox{rank} (A),
</math></center>
albo równoważnie, taką że jej wektory kolumny są liniowo
niezależne. Niech także dany będzie wektor <math>\displaystyle  b\inR^m</math>.
Jasne jest, że wtedy układ równań <math>\displaystyle A x= b</math> nie zawsze
ma rozwiązanie - mówimy, że układ jest <strong>nadokreślony</strong>.
<strong>Zadanie wygładzania liniowego</strong> polega na znalezieniu wektora
<math>\displaystyle  x^*\inR^n</math>, który minimalizuje <strong>wektor residualny</strong> (wektor reszty)
<math>\displaystyle  r= b-A x</math> w normie drugiej, tzn.
<center><math>\displaystyle \| b\,-\,A x^*\|_2\,=\,\min_{ x\inR^n}
    \| b\,-\,A x\|_2.
</math></center>


{{lemat|||
{{lemat|||
Zadanie wygładzania liniowego ma jednoznaczne  
Zadanie wygładzania liniowego ma jednoznaczne  
rozwiązanie <math>\displaystyle  x^*</math>, które spełnia układ równań  
rozwiązanie <math>\displaystyle  x^*</math>, które można scharakteryzować jako rozwiązanie układu równań  


<center><math>\displaystyle  
<center><math>\displaystyle  
  A^TA x\,=\,A^T\, b.
A^TA x\,=\,A^T\, b.
</math></center>
</math></center>


Linia 78: Linia 112:
rozwiązywania kwadratowych układów równań liniowych.  
rozwiązywania kwadratowych układów równań liniowych.  


Równanie ([[##unormal|Uzupelnic: unormal ]]) nazywa się układem <strong>normalnym</strong>.  
Równanie powyższe nazywa się <strong>układem równań normalnych</strong>.  
Może ono nam sugerować sposób rozwiązania zadania wygładzania  
Może ono nam sugerować sposób rozwiązania zadania wygładzania  
liniowego. Wystarczy bowiem pomnożyć macierz <math>\displaystyle A^T</math> przez <math>\displaystyle A</math> i  
liniowego. Wystarczy bowiem pomnożyć macierz <math>\displaystyle A^T</math> przez <math>\displaystyle A</math> i  
Linia 89: Linia 123:
<math>\displaystyle A^T</math> przez <math>\displaystyle A</math> wystarczy więc obliczyć tylko elementy na głównej  
<math>\displaystyle A^T</math> przez <math>\displaystyle A</math> wystarczy więc obliczyć tylko elementy na głównej  
przekątnej i pod nią, a do rozwiązania równania z macierzą  
przekątnej i pod nią, a do rozwiązania równania z macierzą  
<math>\displaystyle A^TA</math> można zastosować algorytm Banachiewicza-Choleskiego
<math>\displaystyle A^TA</math> można zastosować [[MN05LAB|algorytm Cholesky'ego-Banachiewicza]]. Jak łatwo się przekonać, koszt takiego  
opisany w U. [[##BC|Uzupelnic: BC ]]. Jak łatwo się przekonać, koszt takiego  
algorytmu wynosi <math>\displaystyle n^2(m+n/3)</math>, przy czym dominuje koszt mnożenia  
algorytmu wynosi <math>\displaystyle n^2(k+n/3)</math>, przy czym dominuje koszt mnożenia  
obliczenia macierzy <math>\displaystyle A^TA</math>.  
obliczenia macierzy <math>\displaystyle A^TA</math>.  


Ma on jednak pewne wady. Mnożenie macierzy powoduje w <math>\displaystyle fl_\nu</math>  
Ma on jednak pewne wady. Mnożenie macierzy powoduje w <math>\displaystyle fl_\nu</math>  
powstanie po drodze dodatkowych błędów, które mogą nawet  
powstanie po drodze dodatkowych błędów, które mogą nawet  
zmienić rząd macierzy. Na przykład dla macierzy  
zmienić rząd macierzy. Na przykład, dla macierzy  


<center><math>\displaystyle A\,=\,\left(\begin{array} {cccc}
<center><math>\displaystyle A\,=\,\left(\begin{array} {cccc}
Linia 117: Linia 150:
Jeśli <math>\displaystyle \epsilon^2<\nu</math> to <math>\displaystyle fl_\nu(1+\epsilon^2)=1</math>, co implikuje  
Jeśli <math>\displaystyle \epsilon^2<\nu</math> to <math>\displaystyle fl_\nu(1+\epsilon^2)=1</math>, co implikuje  
<math>\displaystyle  \mbox{rank} (fl_\nu(A^TA))=1</math>, podczas, gdy <math>\displaystyle  \mbox{rank} (fl_\nu(A))=4</math>.  
<math>\displaystyle  \mbox{rank} (fl_\nu(A^TA))=1</math>, podczas, gdy <math>\displaystyle  \mbox{rank} (fl_\nu(A))=4</math>.  
Inne potencjalne wady układu równań normalnych wymieniamy w dalszej części wykładu.


Poniżej przedstawimy inną metodę rozwiązywania zadania  
Poniżej przedstawimy inną metodę rozwiązywania zadania  
Linia 126: Linia 160:
Dla danego wektora <math>\displaystyle  w\inR^m</math> o normie  
Dla danego wektora <math>\displaystyle  w\inR^m</math> o normie  
<math>\displaystyle \| w\|_2=\sqrt{ w^T w}=1</math>,  
<math>\displaystyle \| w\|_2=\sqrt{ w^T w}=1</math>,  
<strong>odbicie (macierz) Householdera</strong> zdefiniowane jest jako  
<strong>odbicie</strong> (macierz) <strong>Householdera</strong> zdefiniowane jest jako  


<center><math>\displaystyle H\,=\,I\,-\,2 w w^T.
<center><math>\displaystyle H\,=\,I\,-\,2 w w^T.
Linia 175: Linia 209:


<!--  
<!--  
[[Image:MNhouseholderidea.png|thumb|400px|Odbicie Househodera]]
[[Image:MNhouseholderidea.png|thumb|300px|center|Odbicie Householdera]]
-->
-->
   
   
<div class="thumb tright"><div><flash>file=Wektor.swf</flash><div.thumbcaption>Odbicie Househodera</div></div></div>
<div class="center"><div class="thumb tnone"><div style="width:552px;"><flash>file=Wektor.swf\PIPEREAD width=550\PIPEREAD height=300|width=550|height=300</flash> <div class="thumbcaption">Odbicie Householdera</div></div></div></div>


Załóżmy dla uproszczenia, że <math>\displaystyle \| e\|_2=1</math>.  
Załóżmy dla uproszczenia, że <math>\displaystyle \| e\|_2=1</math>.  
Linia 216: Linia 250:
Otrzymaliśmy dwa odbicia Householdera przekształcające dany wektor  
Otrzymaliśmy dwa odbicia Householdera przekształcające dany wektor  
<math>\displaystyle  x</math> na kierunek pierwszego wersora, w zależności od wybranego  
<math>\displaystyle  x</math> na kierunek pierwszego wersora, w zależności od wybranego  
znaku przy <math>\displaystyle \| x\|_2</math>. Ustalimy ten znak na plus gdy <math>\displaystyle x_1\ge 0</math>,
znaku przy <math>\displaystyle \| x\|_2</math>. Ustalimy ten znak na plus gdy <math>\displaystyle x_1\ge 0</math>
oraz na minus gdy <math>\displaystyle x_1<0</math>, co pozwoli na obliczenie <math>\displaystyle u_1</math> i <math>\displaystyle \gamma</math>  
oraz na minus gdy <math>\displaystyle x_1<0</math>, co pozwoli na obliczenie <math>\displaystyle u_1</math> i <math>\displaystyle \gamma</math>  
z małym błędem względem w <math>\displaystyle fl_\nu</math>. Wtedy bowiem mamy  
z małym błędem względem w <math>\displaystyle fl_\nu</math>. Wtedy bowiem mamy  
Linia 227: Linia 261:
oraz <math>\displaystyle \gamma=\| x\|_2^2+|x_1|\,\| x\|_2</math>, czyli zawsze  
oraz <math>\displaystyle \gamma=\| x\|_2^2+|x_1|\,\| x\|_2</math>, czyli zawsze  
dodajemy liczby tych samych znaków. Ponadto pierwsza współrzędna  
dodajemy liczby tych samych znaków. Ponadto pierwsza współrzędna  
wektora <math>\displaystyle H x</math> jest równa <math>\displaystyle -\| x\|_2</math> dla <math>\displaystyle x_1\ge 0</math> oraz
wektora <math>\displaystyle H x</math> jest równa <math>\displaystyle -\| x\|_2</math>, gdy <math>\displaystyle x_1\ge 0</math>, a
<math>\displaystyle +\| x\|_2</math> dla <math>\displaystyle x_1<0</math>.
<math>\displaystyle +\| x\|_2</math> jeśli <math>\displaystyle x_1<0</math>.  
 
 
==Rozkład QR==
==Rozkład QR==


Linia 253: Linia 287:
pierwszego wersora w <math>\displaystyle R^{m-1}</math>. Rozszerzając <math>\displaystyle  v_2\inR^{m-1}</math>  
pierwszego wersora w <math>\displaystyle R^{m-1}</math>. Rozszerzając <math>\displaystyle  v_2\inR^{m-1}</math>  
do wektora <math>\displaystyle  u_2\inR^m</math> przez dodanie zera jako pierwszej  
do wektora <math>\displaystyle  u_2\inR^m</math> przez dodanie zera jako pierwszej  
współrzędnej, <math>\displaystyle u_2=(0, v_2)^T</math>, otrzymujemy  
współrzędnej, <math>\displaystyle u_2=(0, v_2)^T</math>, otrzymujemy  
przekształcenie (macierz) Householdera  
przekształcenie (macierz) Householdera  
<math>\displaystyle H_2=I_m- u_2 u_2^T/\gamma_2</math> w <math>\displaystyle R^m</math> postaci  
<math>\displaystyle H_2=I_m- u_2 u_2^T/\gamma_2</math> w <math>\displaystyle R^m</math> postaci  
Linia 346: Linia 380:
koszt ten wynosi <math>\displaystyle (4/3)n^3</math> i jest dwa razy większy od kosztu  
koszt ten wynosi <math>\displaystyle (4/3)n^3</math> i jest dwa razy większy od kosztu  
eliminacji Gaussa.  
eliminacji Gaussa.  
===Implementacja===
Cała informacja o przekształceniu Householdera znajduje się w wektorze <math>\displaystyle u</math> oraz czynniku skalującym <math>\displaystyle \gamma</math> --- i w ten sposób najwygodniej przechowywać macierz Householdera. W żadnym miejscu algorytmu nie będzie nam potrzebne nic ponad umiejętność mnożenia zadanego wektora <math>\displaystyle x</math> przez macierz Householdera <math>\displaystyle H = I - \frac{1}{\gamma}uu^T</math>.
Nie popełnijmy jednak częstego błędu, prostodusznie implementując to mnożenie (przykładowo, w Octave) jako
<div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre>H = eye(length(u)) - (u*u') / <math>\displaystyle \gamma</math>;
y = H*x;
</pre></div>
Gdybyśmy użyli takiej implementacji, potrzebowalibyśmy aż <math>\displaystyle O(N^2)</math> miejsc w pamięci (chociaż, przypomnijmy raz jeszcze, cała informacja o <math>\displaystyle H</math> to tylko <math>\displaystyle O(N)</math> liczb). Ponadto, mnożenie przez macierz to aż <math>\displaystyle O(N^2)</math> działań arytmetycznych.
Aby znacznie lepiej skorzystać z bardzo specyficznej postaci macierzy <math>\displaystyle H</math>, która jest po prostu zaburzeniem macierzy identyczności macierzą rzędu co najwyżej 1, wystarczy w odpowiednim miejscu wstawić nawiasy:
<center><math>\displaystyle
Hx = \left(I - \frac{1}{\gamma}uu^T\right) \, x = x - \frac{1}{\gamma}uu^Tx =
x - \frac{1}{\gamma}u(u^Tx).
</math></center>
Stąd <strong>prawidłowa</strong> implementacja mnożenia przez macierz Householdera:
<div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre><math>\displaystyle \omega</math> = u'*x;
y = x - <math>\displaystyle \frac{\omega}{\gamma}</math>*u;
</pre></div>
Tym razem wcale nie potrzeba dodatkowej pamięci, a koszt algorytmu jest liniowy(!) względem <math>\displaystyle N</math> --- <math>\displaystyle N</math>-krotny zysk w porównaniu z poprzednim!
Jest to całkiem typowe w numeryce:
<blockquote  style="background-color: #fefeee; padding:1em;  margin-left,margin-right:2em;  margin-top,margin-bottom: 1em;"> 
Optymalizacja kodu źródłowego może być źródłem dużego przyspieszenia programu numerycznego. Ale największe przyspieszenie zazwyczaj jest efektem restrukturyzacji całego algorytmu (lub wręcz jego zmiany).
</blockquote>


==Uwarunkowanie==
==Uwarunkowanie==
Łatwo domyślać się, że uwarunkowanie zadania wygładzania będzie miało jakieś cechy podobieństwa do uwarunkowania zadania rozwiązywania układu równań liniowych. Ale są także różnice, gdyż, w przeciwieństwie do układu równań liniowych, wrażliwość rozwiązania na zaburzenia będzie zależna nie tylko od samej macierzy układu, ale także od prawej strony.
Najpierw jednak musimy rozszerzyć pojęcie uwarunkowania macierzy na macierze prostokątne.
{{definicja|Uwarunkowanie macierzy prostokątnej w normie euklidesowej|Uwarunkowanie macierzy prostokątnej w normie euklidesowej|
Niech <math>\displaystyle \Sigma(A)</math> będzie zbiorem wartości własnych macierzy <math>\displaystyle A^TA</math>. Definiujemy
<center><math>\displaystyle  \mbox{cond} _2(A) = \sqrt{\frac{\max\{\lambda: \lambda \in \Sigma(A)\}}{\min\{\lambda: \lambda \in \Sigma(A)\}}}.
</math></center>
(Jeśli w mianowniku pojawiłoby się zero, kładziemy <math>\displaystyle  \mbox{cond} _2(A) = +\infty</math>).
}}
Zauważmy, że jest to  rozszerzenie definicji zgodne z tym, co wcześniej definiowaliśmy dla macierzy kwadratowych.
{{twierdzenie|O uwarunkowaniu zadania wygładzania liniowego|O uwarunkowaniu zadania wygładzania liniowego|
Niech <math>\displaystyle x</math> będzie rozwiązaniem zadania najmniejszych kwadratów dla niezerowej prawej strony <math>\displaystyle b</math>,
<center><math>\displaystyle
||b-Ax||_2\rightarrow \min{} !
</math></center>
i niech <math>\displaystyle \widetilde{x}</math> będzie rozwiązaniem zadania zaburzonego <center><math>\displaystyle
||\widetilde{b}-\widetilde{A}\widetilde{x}||_2\rightarrow \min{} !,
</math></center>
przy czym zakładamy, że
<center><math>\displaystyle
\frac{||\widetilde{b}-b||_2}{||b||_2}, \quad \frac{||\widetilde{A}-A||_2}{||A||_2} \leq \epsilon,
</math></center>
gdzie <math>\displaystyle \epsilon</math> jest dostatecznie małe.
Oznaczmy
<center><math>\displaystyle \sin(\theta) = \frac{||b-Ax||_2}{||b||_2} < 1
</math></center>
--- będzie to miara, jak bardzo jesteśmy w stanie zminimalizować resztę w oryginalnym zadaniu.
Wtedy
<center><math>\displaystyle \frac{||\widetilde{x}-x||_2}{||x||_2} \lesssim \left( \frac{2 \mbox{cond} _2(A)}{\cos(\theta)} + \tan(\theta) \mbox{cond} _2^2(A)\right) \cdot \epsilon.
</math></center>
}}
Generalnie więc, jeśli reszta <math>\displaystyle ||b-Ax||_2</math> jest mała, wrażliwość na zaburzenia jest na poziomie <math>\displaystyle  \mbox{cond} (A)</math>. Ale jeśli reszta jest duża (tzn. prawa strona jest taka, że nie można dobrze spełnić równania <math>\displaystyle b\approx Ax</math> w sensie średniokwadratowym), wtedy wrażliwość może być daleko większa.
{{wniosek|||
W przypadku, gdy <math>\displaystyle m \gg n</math>, zdawać by się mogło --- zgodnie z popularnym, acz błędnym, jak za chwilę się okaże, poglądem --- że użycie układu równań normalnych jest najszybszym algorytmem, a skoro tak, to powinno dawać najmniejszą "akumulację błędu zaokrągleń". Tymczasem widzimy, że jest sens rozwiązywać nasze zadanie poprzez układ równań normalnych tylko wtedy, gdy reszta rozwiązania jest duża. W przeciwnym wypadku, gdy <math>\displaystyle \sin(\theta) \ll 1</math>, rozwiązanie obliczone (kosztowniejszym) rozkładem QR będzie miało błąd na poziomie <math>\displaystyle  \mbox{cond} _2(A)</math>, a tymczasem rozwiązanie wyznaczone z układu równań normalnych będzie obarczone błędem na poziomie <math>\displaystyle  \mbox{cond} _2^2(A) >  \mbox{cond} _2(A)</math>.
}}


==Biblioteki==
==Biblioteki==
W Octave, zadanie najmniejszych kwadratów rozwiązujemy praktycznie tak samo, jak równanie liniowe:
<div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre>x = A \ b;
</pre></div>
Dla zadania najmniejszych kwadratów mamy dwie podstawowe funkcje LAPACKa: <code style="color: #903">DGELS</code>, która rozwiązuje dokładnie zadanie takie, jak postawiliśmy w wykładzie, to znaczy w przypadku, gdy macierz <math>\displaystyle A</math> jest pełnego rzędu --- wykorzystując rozkład QR, który omówiliśmy.
Natomiast dla przypadku, <strong>gdy macierz nie jest pełnego rzędu</strong>, działa funkcja <code style="color: #903">DGELSS</code>. Wówczas, co łatwo sprawdzić, zadanie najmniejszych kwadratów tak, jak je postawiliśmy, nie musi mieć jednoznacznego rozwiązania. Jednak jeśli dołożyć wymaganie, by znalezione rozwiązanie <math>\displaystyle x</math> miało <strong>minimalną normę</strong> euklidesową spośród wszystkich spełniających warunek <math>\displaystyle ||b-Ax||_2 \rightarrow \min !</math>, to wtedy takie rozwiązanie jest już jedyne. Jednakże dla takiego zadania rozkład QR jest już niewystarczający i stosuje się inny rozkład, tzw. SVD, który wykracza poza ramy naszego wykładu.
Funkcje biblioteczne rozwiązujące zadanie wygładzania liniowego są oczywistym składnikiem wszystkich szanujących się pakietów statystycznych.
==Literatura==
W celu dogłębnego zapoznania się z omawianym na wykładzie materiałem, przeczytaj <b>rozdział 5.3</b> w
* D. Kincaid, W. Cheney <cite>Analiza numeryczna</cite>, Wydawnictwa Naukowo-Techniczne, Warszawa 2006, ISBN 83-204-3078-X.
Bardzo dużo na temat rozwiązywania liniowego zadania najmniejszych kwadratów można dowiedzieć się z książki
* <span style="font-variant:small-caps">A. Kiełbasiński, H. Schwetlick</span>, <cite>Numeryczna algebra liniowa</cite>, Wydawnictwa Naukowo-Techniczne, Warszawa, 1992.

Wersja z 20:24, 29 wrz 2006


Nadokreślone układy równań liniowych

<<< Powrót do strony głównej przedmiotu Metody numeryczne

Zajmiemy się zadaniem wygładzania liniowego, nazywanym też liniowym zadaniem najmniejszych kwadratów. Jest ono uogólnieniem zadania rozwiązywania kwadratowych układów równań liniowych do przypadku, gdy układ jest nadokreślony --- to znaczy, jest więcej równań niż niewiadomych. W takim przypadku nie należy liczyć na to, że uda się nam wskazać rozwiązanie spełniające wszystkie równania (jest ich za dużo!), dlatego będziemy szukać rozwiązania x, które minimalizuje resztę,

||bAx||2.

Jest to praktycznie bardzo często pojawiające się zadanie, a autorem pierwszego rozwiązania był nie kto inny jak sam wielki Gauss.

Carl Friedrich Gauss
Zobacz biografię

Okazuje się bowiem, że jeśli np. potraktować b jako dane eksperymentalne (obarczone pewnym losowym błędem pomiaru o rozkładzie normalnym), a x --- parametrami zależności liniowej dla punktów pomiaru zadanych w macierzy A, to x minimalizujący ||bAx||2 (właśnie w tej normie!) jest jednocześnie najbardziej prawdopodobnym zestawem współczynników tej zależności. W języku statystyki takie zadanie nazywa się zadaniem regresji liniowej i jest w tym kontekście bardzo często znajdowane w najrozmaitszych gałęziach nauki --- wszędzie tam, gdzie zachodzi potrzeba dopasowania parametrów liniowego modelu do wyników uzyskanych na drodze eksperymentu.

Stąd zresztą nazwa zadania: wygładzanie liniowe, bo chodzi nam o to, by dopasowując parametry krzywej do wyników eksperymentu, wygładzić ewentualne błędy pomiarowe.

Dopasowanie krzywej minimalizującej błąd średniokwadratowy

Przykład

Przypuśćmy, że dla pewnej funkcji Parser nie mógł rozpoznać (nieznana funkcja „\toR”): {\displaystyle \displaystyle f:[a,b]\toR} obserwujemy jej wartości fi (dokładne lub zaburzone) w punktach ti, 1im. Funkcję tę chcielibyśmy przybliżyć inną funkcją w należącą do pewnej n wymiarowej przestrzeni liniowej W, np. przestrzeni wielomianów stopnia mniejszego niż n. Jakość przybliżenia mierzymy, sprawdzając, jak dokładnie spełniona jest przybliżona równość fiw(ti), dokładniej, badając tzw. błąd średniokwadratowy,

1mi=1m(fiw(ti))2.

Wybierając pewną bazę (wj)j=1n w W i rozwijając w w tej bazie, w(t)=j=1ncjwj(t), sprowadzamy problem do minimalizacji

i=1m(fij=1ncjwj(ti))2

względem cj, a więc do zadania wygładzania liniowego.

Rzeczywiście, kładąc Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle A=(a_{i,j})\inR^{m\times n}} z ai,j=wj(ti), b=(fi)i=1m i x=(cj)j=1n, reszta jest równa bAx22, a minimalizacja reszty jest oczywiście równoważna minimalizacji błędu średniokwadratowego.

Wielomian w (czerwony) stopnia 3, aproksymujący 7 zadanych wartości (zaznaczone na zielono) danej funkcji f w sensie minimalizacji błędu średniokwadratowego

Powyższe zadanie aproksymacji średniokwadratowej w zadanych węzłach (xi,yi), i=1,,m. wielomianem stopnia co najwyżej N, realizuje w Octave funkcja polyfit(x,y,N). (Co dostaniemy, gdy N=m1?)

Można pokazać, że rozwiązanie minimalizujące błąd średniokwadratowy jest najbardziej prawdopodobnym zestawem parametrów naszego (liniowego) modelu, gdy zmierzone wartości fi mogą być zaburzone losowym błędem pomiarowym.

W kontekście nie-statystycznym, możemy myśleć o zadaniu wygładzania liniowego jako sposobie skrócenia listy parametrów x modelu przy zachowaniu przybliżonego spełnienia warunków modelu, tzn. Axb.

Dodajmy, że spotyka się uogólnienie tego zadania w formie następującej: dla danych wartości bRm, i danej funkcji F:RnRm, znaleźć xRn minimalizujący resztę:

||bF(x)||2.

Właśnie tego typu nieliniowe zadanie najmniejszych kwadratów rozwiązują np. nasze przenośne [ odbiorniki GPS]... Na marginesie zauważmy, że gdy F jest liniowa, zadanie sprowadza się do poprzedniego. W niniejszym wykładzie ograniczymy się wyłącznie do liniowego zadania najmniejszych kwadratów, nieliniowe jest omówiane na wykładzie z metod optymalizacji.

Układ równań normalnych

Niech A będzie daną macierzą o m wierszach i n kolumnach, Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle A\inR^{m\times n}} , taką, że

mn=rank(A),

albo równoważnie, taką że jej wektory kolumny są liniowo niezależne. Niech także dany będzie wektor Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle b\inR^m} . Jasne jest, że wtedy układ równań Ax=b nie zawsze ma rozwiązanie - mówimy, że układ jest nadokreślony.

Zadanie wygładzania liniowego polega na znalezieniu wektora Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle x^*\inR^n} , który minimalizuje wektor residualny (wektor reszty) r=bAx w normie drugiej, tzn.

Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle \| b\,-\,A x^*\|_2\,=\,\min_{ x\inR^n} \| b\,-\,A x\|_2. }

Lemat

Zadanie wygładzania liniowego ma jednoznaczne rozwiązanie x*, które można scharakteryzować jako rozwiązanie układu równań

ATAx=ATb.

Zauważmy, że jeśli macierz A jest kwadratowa, m=n, to rozwiązaniem jest x*=A1b i residuum jest zerem. Zadanie wygładzania liniowego jest więc uogólnieniem rozwiązywania kwadratowych układów równań liniowych.

Równanie powyższe nazywa się układem równań normalnych. Może ono nam sugerować sposób rozwiązania zadania wygładzania liniowego. Wystarczy bowiem pomnożyć macierz AT przez A i rozwiązać układ normalny. Zauważmy ponadto, że macierz ATA jest symetryczna i dodatnio określona, bo (ATA)T=ATA i dla x0 mamy xT(ATA)x=(Ax)T(Ax)=Ax2>0, przy czym ostatnia nierówność wynika z faktu, że kolumny macierzy A są liniowo niezależne i dlatego Ax0. Przy mnożeniu AT przez A wystarczy więc obliczyć tylko elementy na głównej przekątnej i pod nią, a do rozwiązania równania z macierzą ATA można zastosować algorytm Cholesky'ego-Banachiewicza. Jak łatwo się przekonać, koszt takiego algorytmu wynosi n2(m+n/3), przy czym dominuje koszt mnożenia obliczenia macierzy ATA.

Ma on jednak pewne wady. Mnożenie macierzy powoduje w flν powstanie po drodze dodatkowych błędów, które mogą nawet zmienić rząd macierzy. Na przykład, dla macierzy

A=(1111ϵϵϵϵ)

mamy

ATA=(1+ϵ211111+ϵ211111+ϵ211111+ϵ2).

Jeśli ϵ2<ν to flν(1+ϵ2)=1, co implikuje rank(flν(ATA))=1, podczas, gdy rank(flν(A))=4. Inne potencjalne wady układu równań normalnych wymieniamy w dalszej części wykładu.

Poniżej przedstawimy inną metodę rozwiązywania zadania wygładzania liniowego, która oparta jest na specjalnych przekształceniach zwanych odbiciami Householdera.

Odbicia Householdera

Dla danego wektora Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle w\inR^m} o normie w2=wTw=1, odbicie (macierz) Householdera zdefiniowane jest jako

H=I2wwT.

Zauważmy, że

Hx=x2(wTx)w,

a ponieważ (wTx)w=(x,w)2w jest rzutem prostopadłym x na kierunek wektora w ((,)2 oznacza iloczyn skalarny), to Hx jest odbiciem lustrzanym wektora x względem hiperpłaszczyzny (wymiaru m1) prostopadłej do w.

Odbicia Householdera są przekształceniami nieosobliwymi spełniającymi

H1=H=HT.

Rzeczywiście, ponieważ w ma normę jednostkową, mamy

H2=(I2wwT)2=I4wwT+4w(wTw)wT=I,

oraz

HT=(I2wwT)T=I2(wT)TwT=I.

W szczególności H jest więc przekształceniem ortogonalnym, H1=HT, czyli nie zmienia długości wektora,

Hx2=(Hx)T(Hx)=xT(HTH)x=xTx=x2.

Odbicia Householdera zastosujemy do przeprowadzenia danego wektora x0 na kierunek innego niezerowego wektora, powiedzmy e, tzn.

Hx=(I2wwT)x=αe.


<flash>file=Wektor.swf\PIPEREAD width=550\PIPEREAD height=300|width=550|height=300</flash>
Odbicie Householdera

Załóżmy dla uproszczenia, że e2=1. Aby wyznaczyć H zauważmy, że

w=xαe2(wTx),

a ponieważ α=±x2 i w2=1 to

w=xx2exx2e2.

W szczególności, jeśli e=e1 jest pierwszym wersorem, powyższe wzory dają

H=IuuTγ,

gdzie

ui={x1x2i=1,xi2im,

oraz

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned \gamma &= \frac 12\| u\|_2^2\,=\, \frac 1 2\Big((x_1\mp\| x\|_2)^2+\sum_{i=2}^m x_i^2\Big) \\ &= \frac 1 2 \Big(\sum_{i=1}^m x_i^2\,+\,\| x\|_2^2\,\mp\, 2 x_1\|x\|_2\Big) \,=\,\|x\|_2^2\,\mp\,x_1 \|x\|_2. \endaligned}

Otrzymaliśmy dwa odbicia Householdera przekształcające dany wektor x na kierunek pierwszego wersora, w zależności od wybranego znaku przy x2. Ustalimy ten znak na plus gdy x10 oraz na minus gdy x1<0, co pozwoli na obliczenie u1 i γ z małym błędem względem w flν. Wtedy bowiem mamy

u1={x1+x2x10,x1x2x1<0,

oraz γ=x22+|x1|x2, czyli zawsze dodajemy liczby tych samych znaków. Ponadto pierwsza współrzędna wektora Hx jest równa x2, gdy x10, a +x2 jeśli x1<0.

Rozkład QR

Odbić Householdera można użyć do rozkładu macierzy Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle A\inR^{m\times n}} na iloczyn ortogonalno-trójkątny.

Niech A=(a1,a2,,an), gdzie aj są wektorami-kolumnami macierzy A. Wybierzmy pierwsze odbicie Householdera H1=Imu1u1T/γ1 tak, aby przekształcało pierwszy wektor-kolumnę macierzy A na kierunek e1. Efektem pomnożenia macierzy A z lewej strony przez H1 będzie wtedy macierz

A(1)=(a1(1),,an(1))=(H1a1,,H1an),

w której pierwsza kolumna a1(1) ma niezerową tylko pierwszą współrzędną. W następnym kroku wybieramy drugie przekształcenie Householdera H¯2=Im1v2v2T/γ2 wymiaru m1 tak, aby przeprowadzało wektor (ai,2(1))i=2m na kierunek pierwszego wersora w Rm1. Rozszerzając Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle v_2\inR^{m-1}} do wektora Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle u_2\inR^m} przez dodanie zera jako pierwszej współrzędnej, u2=(0,v2)T, otrzymujemy przekształcenie (macierz) Householdera H2=Imu2u2T/γ2 w Rm postaci

H2=(10T0H¯2).

Pomnożenie macierzy A(1) z lewej strony przez H2 spowoduje teraz wyzerowanie drugiej kolumny macierzy pod elementem a2,2(1), przy czym pierwszy wiersz i pierwsza kolumna pozostaną niezmienione. Postępując tak dalej n razy (albo n1 razy gdy m=n) otrzymujemy

HnHn1H2H1A=R,

gdzie Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle R\inR^{m\times n}} jest uogólnioną macierzą trójkątną górną, tzn. ri,j=0 dla i>j. Stąd, podstawiając Q=H1H2Hn, dostajemy rozkład macierzy na iloczyn ortogonalno-trójkątny

A=QR.

Rzeczywiście, macierz Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle Q\inR^{m\times m}} jest ortogonalna, bo

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned Q^{-1} &= (H_1H_2\cdots H_n)^{-1}\,=\, H_n^{-1}\cdots H_2^{-1}H_1^{-1} \\ &= H_n^T\cdots H_2^TH_1^T \,=\, (H_1H_2\cdots H_n)^T\,=\,Q^T. \endaligned}

Dyspunując rozkładem (Uzupelnic: orttr ) zadanie wygładzania liniowego można rozwiązać następująco. Ponieważ mnożenie przez macierz ortogonalną nie zmienia normy drugiej wektora, mamy

Parser nie mógł rozpoznać (nieznana funkcja „\aligned”): {\displaystyle \displaystyle \aligned \| r\|_2 &= \| b-A x\|_2\;=\;\| b-QR x\|_2 \\ &= \|Q(Q^T b-R x)\|_2 \;=\;\| c-R x\|_2, \endaligned}

gdzie c=QTb=HnH2H1b. Rozbijając wektor c na c=(cI,cII)T, gdzie Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle c_I\inR^n} i Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle c_{II}\inR^{m-n}} , oraz macierz R na

R=(RI0),

gdzie Parser nie mógł rozpoznać (nieznana funkcja „\inR”): {\displaystyle \displaystyle R_I\inR^{n\times n}} jest macierzą trójkątną górną, a 0 jest macierzą zerową wymiaru (mn)×n, otrzymujemy

r22=cIRIx22+cII22.

Rozwiązanie x* zadania wygładzania jest więc rozwiązaniem układu liniowego trójkątnego,

x*=RI1cI,

oraz r*2=bAx*2=cII2.

Zastanówmy się nad praktyczną realizacją tego algorytmu. Każde z kolejnych przekształceń Householdera Hk wyznaczamy przez obliczenie γk oraz współrzędnych wektora uk. Wektor ten ma tylko mk+1 współrzędnych niezerowych, a ponadto uk,i=ai,k(k1) dla k+1im. Dzięki takiej reprezentacji Hk, mnożenia Hkx możemy dla dowolnego x realizować według wzoru

(Hkx)i=xisuk,i,

gdzie s=ukTx/γk.

Uwzględnizjąc obecność zerowych elementów w uk, przejście od macierzy A(k1) do A(k) kosztuje rzędu 4(mk+1)(nk) operacji arytmetycznych i obliczenie jednego pierwiastka kwadratowego. Cały rozkład A=QR kosztuje więc rzędu (dla dużych m i n)

k=1n4(mk+1)(nk)43n3+2n2(mn)=2n2(mn/3)

operacji arytmetycznych i n pierwiastków kwadratowych. Zauważmy, że w przypadku m=n, a więc dla kwadratowego układu równań, koszt ten wynosi (4/3)n3 i jest dwa razy większy od kosztu eliminacji Gaussa.

Implementacja

Cała informacja o przekształceniu Householdera znajduje się w wektorze u oraz czynniku skalującym γ --- i w ten sposób najwygodniej przechowywać macierz Householdera. W żadnym miejscu algorytmu nie będzie nam potrzebne nic ponad umiejętność mnożenia zadanego wektora x przez macierz Householdera H=I1γuuT.

Nie popełnijmy jednak częstego błędu, prostodusznie implementując to mnożenie (przykładowo, w Octave) jako

H = eye(length(u)) - (u*u') / <math>\displaystyle \gamma</math>;
y = H*x;

Gdybyśmy użyli takiej implementacji, potrzebowalibyśmy aż O(N2) miejsc w pamięci (chociaż, przypomnijmy raz jeszcze, cała informacja o H to tylko O(N) liczb). Ponadto, mnożenie przez macierz to aż O(N2) działań arytmetycznych.

Aby znacznie lepiej skorzystać z bardzo specyficznej postaci macierzy H, która jest po prostu zaburzeniem macierzy identyczności macierzą rzędu co najwyżej 1, wystarczy w odpowiednim miejscu wstawić nawiasy:

Hx=(I1γuuT)x=x1γuuTx=x1γu(uTx).

Stąd prawidłowa implementacja mnożenia przez macierz Householdera:

<math>\displaystyle \omega</math> = u'*x;
y = x - <math>\displaystyle \frac{\omega}{\gamma}</math>*u;

Tym razem wcale nie potrzeba dodatkowej pamięci, a koszt algorytmu jest liniowy(!) względem N --- N-krotny zysk w porównaniu z poprzednim!

Jest to całkiem typowe w numeryce:

Optymalizacja kodu źródłowego może być źródłem dużego przyspieszenia programu numerycznego. Ale największe przyspieszenie zazwyczaj jest efektem restrukturyzacji całego algorytmu (lub wręcz jego zmiany).

Uwarunkowanie

Łatwo domyślać się, że uwarunkowanie zadania wygładzania będzie miało jakieś cechy podobieństwa do uwarunkowania zadania rozwiązywania układu równań liniowych. Ale są także różnice, gdyż, w przeciwieństwie do układu równań liniowych, wrażliwość rozwiązania na zaburzenia będzie zależna nie tylko od samej macierzy układu, ale także od prawej strony.

Najpierw jednak musimy rozszerzyć pojęcie uwarunkowania macierzy na macierze prostokątne.

Definicja Uwarunkowanie macierzy prostokątnej w normie euklidesowej

Niech Σ(A) będzie zbiorem wartości własnych macierzy ATA. Definiujemy

cond2(A)=max{λ:λΣ(A)}min{λ:λΣ(A)}.

(Jeśli w mianowniku pojawiłoby się zero, kładziemy cond2(A)=+).

Zauważmy, że jest to rozszerzenie definicji zgodne z tym, co wcześniej definiowaliśmy dla macierzy kwadratowych.

Twierdzenie O uwarunkowaniu zadania wygładzania liniowego

Niech x będzie rozwiązaniem zadania najmniejszych kwadratów dla niezerowej prawej strony b,

||bAx||2min!
i niech x~ będzie rozwiązaniem zadania zaburzonego
||b~A~x~||2min!,

przy czym zakładamy, że

||b~b||2||b||2,||A~A||2||A||2ϵ,

gdzie ϵ jest dostatecznie małe.

Oznaczmy

sin(θ)=||bAx||2||b||2<1

--- będzie to miara, jak bardzo jesteśmy w stanie zminimalizować resztę w oryginalnym zadaniu.

Wtedy

||x~x||2||x||2(2cond2(A)cos(θ)+tan(θ)cond22(A))ϵ.

Generalnie więc, jeśli reszta ||bAx||2 jest mała, wrażliwość na zaburzenia jest na poziomie cond(A). Ale jeśli reszta jest duża (tzn. prawa strona jest taka, że nie można dobrze spełnić równania bAx w sensie średniokwadratowym), wtedy wrażliwość może być daleko większa.

Wniosek

W przypadku, gdy mn, zdawać by się mogło --- zgodnie z popularnym, acz błędnym, jak za chwilę się okaże, poglądem --- że użycie układu równań normalnych jest najszybszym algorytmem, a skoro tak, to powinno dawać najmniejszą "akumulację błędu zaokrągleń". Tymczasem widzimy, że jest sens rozwiązywać nasze zadanie poprzez układ równań normalnych tylko wtedy, gdy reszta rozwiązania jest duża. W przeciwnym wypadku, gdy sin(θ)1, rozwiązanie obliczone (kosztowniejszym) rozkładem QR będzie miało błąd na poziomie cond2(A), a tymczasem rozwiązanie wyznaczone z układu równań normalnych będzie obarczone błędem na poziomie cond22(A)>cond2(A).

Biblioteki

W Octave, zadanie najmniejszych kwadratów rozwiązujemy praktycznie tak samo, jak równanie liniowe:

x = A \ b;

Dla zadania najmniejszych kwadratów mamy dwie podstawowe funkcje LAPACKa: DGELS, która rozwiązuje dokładnie zadanie takie, jak postawiliśmy w wykładzie, to znaczy w przypadku, gdy macierz A jest pełnego rzędu --- wykorzystując rozkład QR, który omówiliśmy.

Natomiast dla przypadku, gdy macierz nie jest pełnego rzędu, działa funkcja DGELSS. Wówczas, co łatwo sprawdzić, zadanie najmniejszych kwadratów tak, jak je postawiliśmy, nie musi mieć jednoznacznego rozwiązania. Jednak jeśli dołożyć wymaganie, by znalezione rozwiązanie x miało minimalną normę euklidesową spośród wszystkich spełniających warunek ||bAx||2min!, to wtedy takie rozwiązanie jest już jedyne. Jednakże dla takiego zadania rozkład QR jest już niewystarczający i stosuje się inny rozkład, tzw. SVD, który wykracza poza ramy naszego wykładu.

Funkcje biblioteczne rozwiązujące zadanie wygładzania liniowego są oczywistym składnikiem wszystkich szanujących się pakietów statystycznych.

Literatura

W celu dogłębnego zapoznania się z omawianym na wykładzie materiałem, przeczytaj rozdział 5.3 w

  • D. Kincaid, W. Cheney Analiza numeryczna, Wydawnictwa Naukowo-Techniczne, Warszawa 2006, ISBN 83-204-3078-X.

Bardzo dużo na temat rozwiązywania liniowego zadania najmniejszych kwadratów można dowiedzieć się z książki

  • A. Kiełbasiński, H. Schwetlick, Numeryczna algebra liniowa, Wydawnictwa Naukowo-Techniczne, Warszawa, 1992.