Aktualna wersja na dzień 11:17, 12 wrz 2023

Nadokreślone układy równań liniowych

<<< Powrót do strony głównej przedmiotu Metody numeryczne

Zajmiemy się zadaniem wygładzania liniowego, nazywanym też liniowym zadaniem najmniejszych kwadratów. Jest ono uogólnieniem zadania rozwiązywania kwadratowych układów równań liniowych do przypadku, gdy układ jest nadokreślony --- to znaczy, jest więcej równań niż niewiadomych. W takim przypadku nie należy liczyć na to, że uda się nam wskazać rozwiązanie spełniające wszystkie równania (jest ich za dużo!), dlatego będziemy szukać rozwiązania $x$ , które minimalizuje resztę,

| | b - A x | |_{2}

Jest to praktycznie bardzo często pojawiające się zadanie, a autorem pierwszego rozwiązania był nie kto inny jak sam wielki Gauss.

Okazuje się bowiem, że jeśli np. potraktować $b$ jako dane eksperymentalne (obarczone pewnym losowym błędem pomiaru o rozkładzie normalnym), a $x$ --- parametrami zależności liniowej dla punktów pomiaru zadanych w macierzy $A$ , to $x$ minimalizujący $| | b - A x | |_{2}$ (właśnie w tej normie!) jest jednocześnie najbardziej prawdopodobnym zestawem współczynników tej zależności. W języku statystyki takie zadanie nazywa się zadaniem regresji liniowej i jest w tym kontekście bardzo często znajdowane w najrozmaitszych gałęziach nauki --- wszędzie tam, gdzie zachodzi potrzeba dopasowania parametrów liniowego modelu do wyników uzyskanych na drodze eksperymentu.

Stąd zresztą nazwa zadania: wygładzanie liniowe, bo chodzi nam o to, by dopasowując parametry krzywej do wyników eksperymentu, wygładzić ewentualne błędy pomiarowe.

Dopasowanie krzywej minimalizującej błąd średniokwadratowy

Przykład

Przypuśćmy, że dla pewnej funkcji $f : [a, b] \to R$ obserwujemy jej wartości $f_{i}$ (dokładne lub zaburzone) w punktach $t_{i}$ , $1 \leq i \leq m$ . Funkcję tę chcielibyśmy przybliżyć inną funkcją $w$ należącą do pewnej $n$ wymiarowej przestrzeni liniowej $W$ , np. przestrzeni wielomianów stopnia mniejszego niż $n$ . Jakość przybliżenia mierzymy, sprawdzając, jak dokładnie spełniona jest przybliżona równość $f_{i} \approx w (t_{i})$ , dokładniej, badając tzw. błąd średniokwadratowy,

\frac{1}{m} \sum_{i = 1}^{m} (f_{i} - w (t_{i}))^{2}

Wybierając pewną bazę $(w_{j})_{j = 1}^{n}$ w $W$ i rozwijając $w$ w tej bazie, $w (t) = \sum_{j = 1}^{n} c_{j} w_{j} (t)$ , sprowadzamy problem do minimalizacji

\sum_{i = 1}^{m} {(f_{i} - \sum_{j = 1}^{n} c_{j} w_{j} (t_{i}))}^{2}

względem $c_{j}$ , a więc do zadania wygładzania liniowego.

Rzeczywiście, kładąc $A = (a_{i, j}) \in R^{m \times n}$ z $a_{i, j} = w_{j} (t_{i})$ , $b = (f_{i})_{i = 1}^{m}$ i $x = (c_{j})_{j = 1}^{n}$ , reszta jest równa $‖ b - A x ‖_{2}^{2}$ , a minimalizacja reszty jest oczywiście równoważna minimalizacji błędu średniokwadratowego.

Wielomian $w$ (czerwony) stopnia 3, aproksymujący 7 zadanych wartości (zaznaczone na zielono) danej funkcji $f$ w sensie minimalizacji błędu średniokwadratowego

Powyższe zadanie aproksymacji średniokwadratowej w zadanych węzłach $(x_{i}, y_{i})$ , $i = 1, \dots, m$ . wielomianem stopnia co najwyżej $N$ , realizuje w Octave funkcja polyfit(x,y,N). (Co dostaniemy, gdy $N = m - 1$ ?)

Można pokazać, że rozwiązanie minimalizujące błąd średniokwadratowy jest najbardziej prawdopodobnym zestawem parametrów naszego (liniowego) modelu, gdy zmierzone wartości $f_{i}$ mogą być zaburzone losowym błędem pomiarowym.

W kontekście nie-statystycznym, możemy myśleć o zadaniu wygładzania liniowego jako sposobie skrócenia listy parametrów $x$ modelu przy zachowaniu przybliżonego spełnienia warunków modelu, tzn. $A x \approx b$ .

Dodajmy, że spotyka się uogólnienie tego zadania w formie następującej: dla danych wartości $b \in R^{m}$ , i danej funkcji $F : R^{n} \to R^{m}$ , znaleźć $x \in R^{n}$ minimalizujący resztę:

| | b - F (x) | |_{2}

Właśnie tego typu nieliniowe zadanie najmniejszych kwadratów rozwiązują np. nasze przenośne [ odbiorniki GPS]... Na marginesie zauważmy, że gdy $F$ jest liniowa, zadanie sprowadza się do poprzedniego. W niniejszym wykładzie ograniczymy się wyłącznie do liniowego zadania najmniejszych kwadratów, nieliniowe jest omówiane na wykładzie z metod optymalizacji.

Układ równań normalnych

Niech $A$ będzie daną macierzą o $m$ wierszach i $n$ kolumnach, $A \in R^{m \times n}$ , taką, że

m \geq n = rank (A),

albo równoważnie, taką że jej wektory kolumny są liniowo niezależne. Niech także dany będzie wektor $b \in R^{m}$ . Jasne jest, że wtedy układ równań $A x = b$ nie zawsze ma rozwiązanie - mówimy, że układ jest nadokreślony.

Zadanie wygładzania liniowego polega na znalezieniu wektora $x^{*} \in R^{n}$ , który minimalizuje wektor residualny (wektor reszty) $r = b - A x$ w normie drugiej, tzn.

‖ b - A x^{*} ‖_{2} = \min_{x \in R^{n}} ‖ b - A x ‖_{2}

Lemat

Zadanie wygładzania liniowego ma jednoznaczne rozwiązanie $x^{*}$ , które można scharakteryzować jako rozwiązanie układu równań

A^{T} A x = A^{T} b

Zauważmy, że jeśli macierz $A$ jest kwadratowa, $m = n$ , to rozwiązaniem jest $x^{*} = A^{- 1} b$ i residuum jest zerem. Zadanie wygładzania liniowego jest więc uogólnieniem rozwiązywania kwadratowych układów równań liniowych.

Równanie powyższe nazywa się układem równań normalnych. Może ono nam sugerować sposób rozwiązania zadania wygładzania liniowego. Wystarczy bowiem pomnożyć macierz $A^{T}$ przez $A$ i rozwiązać układ normalny. Zauważmy ponadto, że macierz $A^{T} A$ jest symetryczna i dodatnio określona, bo $(A^{T} A)^{T} = A^{T} A$ i dla $x \neq 0$ mamy $x^{T} (A^{T} A) x = (A x)^{T} (A x) = ‖ A x ‖_{2} > 0$ , przy czym ostatnia nierówność wynika z faktu, że kolumny macierzy $A$ są liniowo niezależne i dlatego $A x \neq 0$ . Przy mnożeniu $A^{T}$ przez $A$ wystarczy więc obliczyć tylko elementy na głównej przekątnej i pod nią, a do rozwiązania równania z macierzą $A^{T} A$ można zastosować algorytm Cholesky'ego-Banachiewicza. Jak łatwo się przekonać, koszt takiego algorytmu wynosi $n^{2} (m + n / 3)$ , przy czym dominuje koszt mnożenia obliczenia macierzy $A^{T} A$ .

Ma on jednak pewne wady. Mnożenie macierzy powoduje w $f l_{ν}$ powstanie po drodze dodatkowych błędów, które mogą nawet zmienić rząd macierzy. Na przykład, dla macierzy

A = (\begin{array}{cccc} 1 & 1 & 1 & 1 \\ ϵ \\ ϵ \\ ϵ \\ ϵ \end{array})

mamy

A^{T} A = (\begin{array}{cccc} 1 + ϵ^{2} & 1 & 1 & 1 \\ 1 & 1 + ϵ^{2} & 1 & 1 \\ 1 & 1 & 1 + ϵ^{2} & 1 \\ 1 & 1 & 1 & 1 + ϵ^{2} \end{array})

Jeśli $ϵ^{2} < ν$ to $f l_{ν} (1 + ϵ^{2}) = 1$ , co implikuje $rank (f l_{ν} (A^{T} A)) = 1$ , podczas, gdy $rank (f l_{ν} (A)) = 4$ . Inne potencjalne wady układu równań normalnych wymieniamy w dalszej części wykładu.

Poniżej przedstawimy inną metodę rozwiązywania zadania wygładzania liniowego, która oparta jest na specjalnych przekształceniach zwanych odbiciami Householdera.

Odbicia Householdera

Dla danego wektora $w \in R^{m}$ o normie $‖ w ‖_{2} = \sqrt{w^{T} w} = 1$ , odbicie (macierz) Householdera zdefiniowane jest jako

H = I - 2 w w^{T}

Zauważmy, że

H x = x - 2 (w^{T} x) w

,

a ponieważ $(w^{T} x) w = (x, w)_{2} w$ jest rzutem prostopadłym $x$ na kierunek wektora $w$ ( $(\cdot, \cdot)_{2}$ oznacza iloczyn skalarny), to $H x$ jest odbiciem lustrzanym wektora $x$ względem hiperpłaszczyzny (wymiaru $m - 1$ ) prostopadłej do $w$ .

Odbicia Householdera są przekształceniami nieosobliwymi spełniającymi

H^{- 1} = H = H^{T}

Rzeczywiście, ponieważ $w$ ma normę jednostkową, mamy

H^{2} = (I - 2 w w^{T})^{2} = I - 4 w w^{T} + 4 w (w^{T} w) w^{T} = I

,

oraz

H^{T} = (I - 2 w w^{T})^{T} = I - 2 (w^{T})^{T} w^{T} = I .

W szczególności $H$ jest więc przekształceniem ortogonalnym, $H^{- 1} = H^{T}$ , czyli nie zmienia długości wektora,

‖ H x ‖_{2} = \sqrt{(H x)^{T} (H x)} = \sqrt{x^{T} (H^{T} H) x} = \sqrt{x^{T} x} = ‖ x ‖_{2}

Odbicia Householdera zastosujemy do przeprowadzenia danego wektora $x \neq 0$ na kierunek innego niezerowego wektora, powiedzmy $e$ , tzn.

H x = (I - 2 w w^{T}) x = α e

Załóżmy dla uproszczenia, że $‖ e ‖_{2} = 1$ . Aby wyznaczyć $H$ zauważmy, że

w = \frac{x - α e}{2 (w^{T} x)},

a ponieważ $α = \pm ‖ x ‖_{2}$ i $‖ w ‖_{2} = 1$ to

w = \frac{x \mp ‖ x ‖_{2} e}{‖ x \mp ‖ x ‖_{2} e ‖_{2}}

W szczególności, jeśli $e = e_{1}$ jest pierwszym wersorem, powyższe wzory dają

H = I - \frac{u u^{T}}{γ},

gdzie

u_{i} = {\begin{cases} x_{1} \mp ‖ x ‖_{2} & i = 1, \\ x_{i} & 2 \leq i \leq m, \end{cases}

oraz

\begin{aligned} γ & = \frac{1}{2} ‖ u ‖_{2}^{2} = \frac{1}{2} ((x_{1} \mp ‖ x ‖_{2})^{2} + \sum_{i = 2}^{m} x_{i}^{2}) \\ = \frac{1}{2} (\sum_{i = 1}^{m} x_{i}^{2} + ‖ x ‖_{2}^{2} \mp 2 x_{1} ‖ x ‖_{2}) = ‖ x ‖_{2}^{2} \mp x_{1} ‖ x ‖_{2} . \end{aligned}

Otrzymaliśmy dwa odbicia Householdera przekształcające dany wektor $x$ na kierunek pierwszego wersora, w zależności od wybranego znaku przy $‖ x ‖_{2}$ . Ustalimy ten znak na plus gdy $x_{1} \geq 0$ oraz na minus gdy $x_{1} < 0$ , co pozwoli na obliczenie $u_{1}$ i $γ$ z małym błędem względem w $f l_{ν}$ . Wtedy bowiem mamy

u_{1} = {\begin{cases} x_{1} + ‖ x ‖_{2} & x_{1} \geq 0, \\ x_{1} - ‖ x ‖_{2} & x_{1} < 0, \end{cases}

oraz $γ = ‖ x ‖_{2}^{2} + | x_{1} | ‖ x ‖_{2}$ , czyli zawsze dodajemy liczby tych samych znaków. Ponadto pierwsza współrzędna wektora $H x$ jest równa $- ‖ x ‖_{2}$ , gdy $x_{1} \geq 0$ , a $+ ‖ x ‖_{2}$ jeśli $x_{1} < 0$ .

Rozkład QR

Odbić Householdera można użyć do rozkładu macierzy $A \in R^{m \times n}$ na iloczyn ortogonalno-trójkątny.

Niech $A = (a_{1}, a_{2}, \dots, a_{n})$ , gdzie $a_{j}$ są wektorami-kolumnami macierzy $A$ . Wybierzmy pierwsze odbicie Householdera $H_{1} = I_{m} - u_{1} u_{1}^{T} / γ_{1}$ tak, aby przekształcało pierwszy wektor-kolumnę macierzy $A$ na kierunek $e_{1}$ . Efektem pomnożenia macierzy $A$ z lewej strony przez $H_{1}$ będzie wtedy macierz

A^{(1)} = (a_{1}^{(1)}, \dots, a_{n}^{(1)}) = (H_{1} a_{1}, \dots, H_{1} a_{n})

,

w której pierwsza kolumna $a_{1}^{(1)}$ ma niezerową tylko pierwszą współrzędną. W następnym kroku wybieramy drugie przekształcenie Householdera ${\bar{H}}_{2} = I_{m - 1} - v_{2} v_{2}^{T} / γ_{2}$ wymiaru $m - 1$ tak, aby przeprowadzało wektor $(a_{i, 2}^{(1)})_{i = 2}^{m}$ na kierunek pierwszego wersora w $R^{m - 1}$ . Rozszerzając $v_{2} \in R^{m - 1}$ do wektora $u_{2} \in R^{m}$ przez dodanie zera jako pierwszej współrzędnej, $u_{2} = (0, v_{2})^{T}$ , otrzymujemy przekształcenie (macierz) Householdera $H_{2} = I_{m} - u_{2} u_{2}^{T} / γ_{2}$ w $R^{m}$ postaci

H_{2} = (\begin{array}{cccc} 1 & 0^{T} \\ 0 & {\bar{H}}_{2} \end{array})

Pomnożenie macierzy $A^{(1)}$ z lewej strony przez $H_{2}$ spowoduje teraz wyzerowanie drugiej kolumny macierzy pod elementem $a_{2, 2}^{(1)}$ , przy czym pierwszy wiersz i pierwsza kolumna pozostaną niezmienione. Postępując tak dalej $n$ razy (albo $n - 1$ razy gdy $m = n$ ) otrzymujemy

H_{n} H_{n - 1} \dots H_{2} H_{1} A = R

,

gdzie $R \in R^{m \times n}$ jest uogólnioną macierzą trójkątną górną, tzn. $r_{i, j} = 0$ dla $i > j$ . Stąd, podstawiając $Q = H_{1} H_{2} \dots H_{n}$ , dostajemy rozkład macierzy na iloczyn ortogonalno-trójkątny

A = Q \cdot R .

Rzeczywiście, macierz $Q \in R^{m \times m}$ jest ortogonalna, bo

\begin{aligned} Q^{- 1} & = (H_{1} H_{2} \dots H_{n})^{- 1} = H_{n}^{- 1} \dots H_{2}^{- 1} H_{1}^{- 1} \\ = H_{n}^{T} \dots H_{2}^{T} H_{1}^{T} = (H_{1} H_{2} \dots H_{n})^{T} = Q^{T} . \end{aligned}

Dyspunując rozkładem QR, zadanie wygładzania liniowego można rozwiązać następująco. Ponieważ mnożenie przez macierz ortogonalną nie zmienia normy drugiej wektora, mamy

\begin{aligned} ‖ r ‖_{2} & = ‖ b - A x ‖_{2} = ‖ b - Q R x ‖_{2} \\ = ‖ Q (Q^{T} b - R x) ‖_{2} = ‖ c - R x ‖_{2}, \end{aligned}

gdzie $c = Q^{T} b = H_{n} \dots H_{2} H_{1} b$ . Rozbijając wektor $c$ na $c = (c_{I}, c_{I I})^{T}$ , gdzie $c_{I} \in R^{n}$ i $c_{I I} \in R^{m - n}$ , oraz macierz $R$ na

R = (\begin{array}{c} R_{I} \\ 0 \end{array})

,

gdzie $R_{I} \in R^{n \times n}$ jest macierzą trójkątną górną, a $0$ jest macierzą zerową wymiaru $(m - n) \times n$ , otrzymujemy

‖ r ‖_{2}^{2} = ‖ c_{I} - R_{I} x ‖_{2}^{2} + ‖ c_{I I} ‖_{2}^{2} .

Rozwiązanie $x^{*}$ zadania wygładzania jest więc rozwiązaniem układu liniowego trójkątnego,

x^{*} = R_{I}^{- 1} c_{I}

,

oraz $‖ r^{*} ‖_{2} = ‖ b - A x^{*} ‖_{2} = ‖ c_{I I} ‖_{2}$ .

Zastanówmy się nad praktyczną realizacją tego algorytmu. Każde z kolejnych przekształceń Householdera $H_{k}$ wyznaczamy przez obliczenie $γ_{k}$ oraz współrzędnych wektora $u_{k}$ . Wektor ten ma tylko $m - k + 1$ współrzędnych niezerowych, a ponadto $u_{k, i} = a_{i, k}^{(k - 1)}$ dla $k + 1 \leq i \leq m$ . Dzięki takiej reprezentacji $H_{k}$ , mnożenia $H_{k} x$ możemy dla dowolnego $x$ realizować według wzoru

(H_{k} x)_{i} = x_{i} - s u_{k, i},

gdzie $s = u_{k}^{T} x / γ_{k}$ .

Uwzględnizjąc obecność zerowych elementów w $u_{k}$ , przejście od macierzy $A^{(k - 1)}$ do $A^{(k)}$ kosztuje rzędu $4 (m - k + 1) (n - k)$ operacji arytmetycznych i obliczenie jednego pierwiastka kwadratowego. Cały rozkład $A = Q R$ kosztuje więc rzędu (dla dużych $m$ i $n$ )

\sum_{k = 1}^{n} 4 (m - k + 1) (n - k) \approx \frac{4}{3} n^{3} + 2 n^{2} (m - n) = 2 n^{2} (m - n / 3)

operacji arytmetycznych i $n$ pierwiastków kwadratowych. Zauważmy, że w przypadku $m = n$ , a więc dla kwadratowego układu równań, koszt ten wynosi $(4 / 3) n^{3}$ i jest dwa razy większy od kosztu eliminacji Gaussa.

Implementacja

Cała informacja o przekształceniu Householdera znajduje się w wektorze $u$ oraz czynniku skalującym $γ$ --- i w ten sposób najwygodniej przechowywać macierz Householdera. W żadnym miejscu algorytmu nie będzie nam potrzebne nic ponad umiejętność mnożenia zadanego wektora $x$ przez macierz Householdera $H = I - \frac{1}{γ} u u^{T}$ .

Nie popełnijmy jednak częstego błędu, prostodusznie implementując to mnożenie (przykładowo, w Octave) jako

H = eye(length(u)) - (u*u') / <math>\gamma</math>;
y = H*x;

Gdybyśmy użyli takiej implementacji, potrzebowalibyśmy aż $O (N^{2})$ miejsc w pamięci (chociaż, przypomnijmy raz jeszcze, cała informacja o $H$ to tylko $O (N)$ liczb). Ponadto, mnożenie przez macierz to aż $O (N^{2})$ działań arytmetycznych.

Aby znacznie lepiej skorzystać z bardzo specyficznej postaci macierzy $H$ , która jest po prostu zaburzeniem macierzy identyczności macierzą rzędu co najwyżej 1, wystarczy w odpowiednim miejscu wstawić nawiasy:

H x = (I - \frac{1}{γ} u u^{T}) x = x - \frac{1}{γ} u u^{T} x = x - \frac{1}{γ} u (u^{T} x)

Stąd prawidłowa implementacja mnożenia przez macierz Householdera:

<math>\omega</math> = u'*x;
y = x - <math>\frac{\omega}{\gamma}</math>*u;

Tym razem wcale nie potrzeba dodatkowej pamięci, a koszt algorytmu jest liniowy(!) względem $N$ , a więc uzyskaliśmu $N$ -krotne przyspieszenie w porównaniu z poprzednim!

Jest to całkiem typowe w numeryce:

Optymalizacja kodu źródłowego może być źródłem dużego przyspieszenia programu numerycznego. Ale największe przyspieszenie zazwyczaj jest efektem restrukturyzacji całego algorytmu (lub wręcz jego zmiany).

Uwarunkowanie

Łatwo domyślać się, że uwarunkowanie zadania wygładzania będzie miało jakieś cechy podobieństwa do uwarunkowania zadania rozwiązywania układu równań liniowych. Ale są także różnice, gdyż, w przeciwieństwie do układu równań liniowych, wrażliwość rozwiązania na zaburzenia będzie zależna nie tylko od samej macierzy układu, ale także od prawej strony.

Najpierw jednak musimy rozszerzyć pojęcie uwarunkowania macierzy na macierze prostokątne.

Definicja Uwarunkowanie macierzy prostokątnej w normie euklidesowej

Niech $Σ (A)$ będzie zbiorem wartości własnych macierzy $A^{T} A$ . Definiujemy

{cond}_{2} (A) = \sqrt{\frac{\max {λ : λ \in Σ (A)}}{\min {λ : λ \in Σ (A)}}}

(Jeśli w mianowniku pojawiłoby się zero, kładziemy ${cond}_{2} (A) = + \infty$ ).

Zauważmy, że jest to rozszerzenie definicji zgodne z tym, co wcześniej definiowaliśmy dla macierzy kwadratowych.

Twierdzenie O uwarunkowaniu zadania wygładzania liniowego

Niech $x$ będzie rozwiązaniem zadania najmniejszych kwadratów dla niezerowej prawej strony $b$ ,

| | b - A x | |_{2} \to \min!

i niech

\tilde{x}

będzie rozwiązaniem zadania zaburzonego

| | \tilde{b} - \tilde{A} \tilde{x} | |_{2} \to \min!

,

przy czym zakładamy, że

\frac{| | \tilde{b} - b | |_{2}}{| | b | |_{2}}, \frac{| | \tilde{A} - A | |_{2}}{| | A | |_{2}} \leq ϵ

,

gdzie $ϵ$ jest dostatecznie małe.

Oznaczmy

\sin (θ) = \frac{| | b - A x | |_{2}}{| | b | |_{2}} < 1

--- będzie to miara, jak bardzo jesteśmy w stanie zminimalizować resztę w oryginalnym zadaniu.

Wtedy

\frac{| | \tilde{x} - x | |_{2}}{| | x | |_{2}} ≲ (\frac{2 {cond}_{2} (A)}{\cos (θ)} + \tan (θ) {cond}_{2}^{2} (A)) \cdot ϵ

Generalnie więc, jeśli reszta $| | b - A x | |_{2}$ jest mała, wrażliwość na zaburzenia jest na poziomie $cond (A)$ . Ale jeśli reszta jest duża (tzn. prawa strona jest taka, że nie można dobrze spełnić równania $b \approx A x$ w sensie średniokwadratowym), wtedy wrażliwość może być daleko większa.

Wniosek

W przypadku, gdy $m ≫ n$ , zdawać by się mogło --- zgodnie z popularnym, acz błędnym, jak za chwilę się okaże, poglądem --- że użycie układu równań normalnych jest najszybszym algorytmem, a skoro tak, to powinno dawać najmniejszą "akumulację błędu zaokrągleń". Tymczasem widzimy, że jest sens rozwiązywać nasze zadanie poprzez układ równań normalnych tylko wtedy, gdy reszta rozwiązania jest duża. W przeciwnym wypadku, gdy $\sin (θ) ≪ 1$ , rozwiązanie obliczone (kosztowniejszym) rozkładem QR będzie miało błąd na poziomie ${cond}_{2} (A)$ , a tymczasem rozwiązanie wyznaczone z układu równań normalnych będzie obarczone błędem na poziomie ${cond}_{2}^{2} (A) > {cond}_{2} (A)$ .

Biblioteki

W Octave, zadanie najmniejszych kwadratów rozwiązujemy praktycznie tak samo, jak równanie liniowe:

x = A \ b;

Dla zadania najmniejszych kwadratów mamy dwie podstawowe funkcje LAPACKa: DGELS, która rozwiązuje dokładnie zadanie takie, jak postawiliśmy w wykładzie, to znaczy w przypadku, gdy macierz $A$ jest pełnego rzędu --- wykorzystując rozkład QR, który omówiliśmy.

Natomiast dla przypadku, gdy macierz nie jest pełnego rzędu, działa funkcja DGELSS. Wówczas, co łatwo sprawdzić, zadanie najmniejszych kwadratów tak, jak je postawiliśmy, nie musi mieć jednoznacznego rozwiązania. Jednak jeśli dołożyć wymaganie, by znalezione rozwiązanie $x$ miało minimalną normę euklidesową spośród wszystkich spełniających warunek $| | b - A x | |_{2} \to \min!$ , to wtedy takie rozwiązanie jest już jedyne. Jednakże dla takiego zadania rozkład QR jest już niewystarczający i stosuje się inny rozkład, tzw. SVD, który wykracza poza ramy naszego wykładu.

Funkcje biblioteczne rozwiązujące zadanie wygładzania liniowego są oczywistym składnikiem wszystkich szanujących się pakietów statystycznych.

Literatura

W celu dogłębnego zapoznania się z omawianym na wykładzie materiałem, przeczytaj rozdział 5.3 w

D. Kincaid, W. Cheney Analiza numeryczna, Wydawnictwa Naukowo-Techniczne, Warszawa 2006, ISBN 83-204-3078-X.

Bardzo dużo na temat rozwiązywania liniowego zadania najmniejszych kwadratów można dowiedzieć się z książki

A. Kiełbasiński, H. Schwetlick, Numeryczna algebra liniowa, Wydawnictwa Naukowo-Techniczne, Warszawa, 1992.

MN12: Różnice pomiędzy wersjami

Aktualna wersja na dzień 11:17, 12 wrz 2023

Spis treści

Nadokreślone układy równań liniowych

Dopasowanie krzywej minimalizującej błąd średniokwadratowy

Układ równań normalnych

Odbicia Householdera

Rozkład QR

Implementacja

Uwarunkowanie

Biblioteki

Literatura

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia

@@ Linia 14: / Linia 14: @@
 nazywanym też <strong>liniowym zadaniem najmniejszych kwadratów</strong>.
 Jest ono uogólnieniem zadania rozwiązywania kwadratowych układów
-równań liniowych do przypadku, gdy układ jest nadokreślony --- to znaczy, jest więcej równań niż niewiadomych. W takim przypadku nie należy liczyć na to, że uda się nam wskazać rozwiązanie spełniające ''wszystkie'' równania (jest ich za dużo!), dlatego będziemy szukać rozwiązania <math>\displaystyle x</math>, które minimalizuje resztę,
+równań liniowych do przypadku, gdy układ jest nadokreślony --- to znaczy, jest więcej równań niż niewiadomych. W takim przypadku nie należy liczyć na to, że uda się nam wskazać rozwiązanie spełniające ''wszystkie'' równania (jest ich za dużo!), dlatego będziemy szukać rozwiązania <math>x</math>, które minimalizuje resztę,
-<center><math>\displaystyle ||b-Ax||_2.
+<center><math>||b-Ax||_2</math></center>
-</math></center>
 Jest to praktycznie bardzo często pojawiające się zadanie, a autorem pierwszego
@@ Linia 24: / Linia 23: @@
 [[grafika:Gauss.jpg|thumb|right||Carl Friedrich Gauss<br>  [[Biografia Gauss|Zobacz biografię]]]]
-Okazuje się bowiem, że jeśli np. potraktować <math>\displaystyle b</math> jako dane eksperymentalne (obarczone pewnym losowym błędem pomiaru o rozkładzie normalnym), a <math>\displaystyle x</math> --- parametrami zależności liniowej dla punktów pomiaru zadanych w macierzy <math>\displaystyle A</math>, to <math>\displaystyle x</math> minimalizujący <math>\displaystyle ||b-Ax||_2</math> (właśnie w ''tej'' normie!) jest jednocześnie najbardziej prawdopodobnym zestawem współczynników tej zależności. W języku statystyki takie zadanie nazywa się zadaniem regresji liniowej i jest w tym kontekście bardzo często znajdowane w najrozmaitszych gałęziach nauki --- wszędzie tam, gdzie zachodzi potrzeba dopasowania parametrów liniowego modelu do wyników uzyskanych na drodze eksperymentu.
+Okazuje się bowiem, że jeśli np. potraktować <math>b</math> jako dane eksperymentalne (obarczone pewnym losowym błędem pomiaru o rozkładzie normalnym), a <math>x</math> --- parametrami zależności liniowej dla punktów pomiaru zadanych w macierzy <math>A</math>, to <math>x</math> minimalizujący <math>||b-Ax||_2</math> (właśnie w ''tej'' normie!) jest jednocześnie najbardziej prawdopodobnym zestawem współczynników tej zależności. W języku statystyki takie zadanie nazywa się zadaniem regresji liniowej i jest w tym kontekście bardzo często znajdowane w najrozmaitszych gałęziach nauki --- wszędzie tam, gdzie zachodzi potrzeba dopasowania parametrów liniowego modelu do wyników uzyskanych na drodze eksperymentu.
 Stąd zresztą nazwa zadania: wygładzanie liniowe, bo chodzi nam o to, by dopasowując parametry krzywej do wyników eksperymentu, wygładzić ewentualne błędy pomiarowe.
@@ Linia 35: / Linia 34: @@
 Przypuśćmy, że dla pewnej funkcji
-<math>\displaystyle f:[a,b]\toR</math> obserwujemy jej wartości <math>\displaystyle f_i</math> (dokładne lub
+<math>f:[a,b]\to R</math> obserwujemy jej wartości <math>f_i</math> (dokładne lub
-zaburzone) w punktach <math>\displaystyle t_i</math>, <math>\displaystyle 1\le i\le m</math>. Funkcję tę
+zaburzone) w punktach <math>t_i</math>, <math>1\le i\le m</math>. Funkcję tę
-chcielibyśmy przybliżyć inną funkcją <math>\displaystyle w</math> należącą do
+chcielibyśmy przybliżyć inną funkcją <math>w</math> należącą do
-pewnej <math>\displaystyle n</math> wymiarowej przestrzeni liniowej <math>\displaystyle W</math>, np. przestrzeni
+pewnej <math>n</math> wymiarowej przestrzeni liniowej <math>W</math>, np. przestrzeni
-wielomianów stopnia mniejszego niż <math>\displaystyle n</math>. Jakość przybliżenia
+wielomianów stopnia mniejszego niż <math>n</math>. Jakość przybliżenia
-mierzymy, sprawdzając, ''jak dokładnie spełniona jest przybliżona równość <math>\displaystyle f_i \approx w(t_i)</math>'', dokładniej, badając tzw. <strong>błąd średniokwadratowy</strong>,
+mierzymy, sprawdzając, ''jak dokładnie spełniona jest przybliżona równość <math>f_i \approx w(t_i)</math>'', dokładniej, badając tzw. <strong>błąd średniokwadratowy</strong>,
-<center><math>\displaystyle
+<center><math>
-   \frac{1}{m}\sum_{i=1}^m (f_i-w(t_i))^2.
+   \frac{1}{m}\sum_{i=1}^m (f_i-w(t_i))^2</math></center>
-</math></center>
-Wybierając pewną bazę <math>\displaystyle (w_j)_{j=1}^n</math> w <math>\displaystyle W</math> i rozwijając <math>\displaystyle w</math>
+Wybierając pewną bazę <math>(w_j)_{j=1}^n</math> w <math>W</math> i rozwijając <math>w</math>
-w tej bazie, <math>\displaystyle w(t)=\sum_{j=1}^n c_jw_j(t)</math>, sprowadzamy problem
+w tej bazie, <math>w(t)=\sum_{j=1}^n c_jw_j(t)</math>, sprowadzamy problem
 do minimalizacji
-<center><math>\displaystyle \sum_{i=1}^m\left(f_i-\sum_{j=1}^n c_jw_j(t_i)\right)^2
+<center><math>\sum_{i=1}^m\left(f_i-\sum_{j=1}^n c_jw_j(t_i)\right)^2
 </math></center>
-względem <math>\displaystyle c_j</math>, a więc do zadania wygładzania liniowego.
+względem <math>c_j</math>, a więc do zadania wygładzania liniowego.
 Rzeczywiście, kładąc
-<math>\displaystyle A=(a_{i,j})\inR^{m\times n}</math> z <math>\displaystyle a_{i,j}=w_j(t_i)</math>,
+<math>A=(a_{i,j})\in R^{m\times n}</math> z <math>a_{i,j}=w_j(t_i)</math>,
-<math>\displaystyle  b=(f_i)_{i=1}^m</math> i <math>\displaystyle  x=(c_j)_{j=1}^n</math>, reszta jest równa <math>\displaystyle \| b-A x\|_2^2</math>, a minimalizacja reszty jest oczywiście równoważna minimalizacji błędu średniokwadratowego.
+<math>b=(f_i)_{i=1}^m</math> i <math>x=(c_j)_{j=1}^n</math>, reszta jest równa <math>\| b-A x\|_2^2</math>, a minimalizacja reszty jest oczywiście równoważna minimalizacji błędu średniokwadratowego.
-[[Image:MNaproksymacjal2.png|thumb|550px|center|Wielomian <math>\displaystyle w</math> (czerwony) stopnia 3, aproksymujący 7 zadanych wartości (zaznaczone na zielono) danej funkcji <math>\displaystyle f</math> w sensie minimalizacji błędu średniokwadratowego]]
+[[Image:MNaproksymacjal2.png|thumb|550px|center|Wielomian <math>w</math> (czerwony) stopnia 3, aproksymujący 7 zadanych wartości (zaznaczone na zielono) danej funkcji <math>f</math> w sensie minimalizacji błędu średniokwadratowego]]
-Powyższe zadanie aproksymacji średniokwadratowej w zadanych węzłach <math>\displaystyle (x_i,y_i)</math>, <math>\displaystyle i=1,\ldots,m</math>. wielomianem stopnia ''co najwyżej'' <math>\displaystyle N</math>, realizuje w Octave funkcja <code style="color: #006">polyfit(x,y,N)</code>. (Co dostaniemy, gdy <math>\displaystyle N=m-1</math>?)
+Powyższe zadanie aproksymacji średniokwadratowej w zadanych węzłach <math>(x_i,y_i)</math>, <math>i=1,\ldots,m</math>. wielomianem stopnia ''co najwyżej'' <math>N</math>, realizuje w Octave funkcja <code style="color: #006">polyfit(x,y,N)</code>. (Co dostaniemy, gdy <math>N=m-1</math>?)
-Można pokazać, że rozwiązanie minimalizujące błąd średniokwadratowy jest najbardziej prawdopodobnym zestawem parametrów naszego (liniowego) modelu, gdy zmierzone wartości <math>\displaystyle f_i</math> mogą być zaburzone losowym błędem pomiarowym.
+Można pokazać, że rozwiązanie minimalizujące błąd średniokwadratowy jest najbardziej prawdopodobnym zestawem parametrów naszego (liniowego) modelu, gdy zmierzone wartości <math>f_i</math> mogą być zaburzone losowym błędem pomiarowym.
 </div></div>
-W kontekście nie-statystycznym, możemy myśleć o zadaniu wygładzania liniowego jako sposobie skrócenia listy parametrów <math>\displaystyle x</math> modelu przy zachowaniu przybliżonego spełnienia warunków modelu, tzn. <math>\displaystyle Ax\approx b</math>.
+W kontekście nie-statystycznym, możemy myśleć o zadaniu wygładzania liniowego jako sposobie skrócenia listy parametrów <math>x</math> modelu przy zachowaniu przybliżonego spełnienia warunków modelu, tzn. <math>Ax\approx b</math>.
-Dodajmy, że spotyka się uogólnienie tego zadania w formie następującej: dla danych wartości <math>\displaystyle b\in R^m</math>, i danej funkcji <math>\displaystyle F:R^n\rightarrow R^m</math>, znaleźć <math>\displaystyle x\in R^n</math> minimalizujący resztę:
+Dodajmy, że spotyka się uogólnienie tego zadania w formie następującej: dla danych wartości <math>b\in R^m</math>, i danej funkcji <math>F:R^n\rightarrow R^m</math>, znaleźć <math>x\in R^n</math> minimalizujący resztę:
-<center><math>\displaystyle ||b-F(x)||_2.
+<center><math>||b-F(x)||_2</math></center>
-</math></center>
-Właśnie tego typu <strong>nieliniowe zadanie najmniejszych kwadratów</strong> rozwiązują np. nasze przenośne [  odbiorniki GPS]... Na marginesie zauważmy, że gdy <math>\displaystyle F</math> jest liniowa, zadanie sprowadza się do poprzedniego. W niniejszym wykładzie ograniczymy się wyłącznie do liniowego zadania najmniejszych kwadratów, nieliniowe jest omówiane na [[Metody optymalizacji|wykładzie z metod optymalizacji]].
+Właśnie tego typu <strong>nieliniowe zadanie najmniejszych kwadratów</strong> rozwiązują np. nasze przenośne [  odbiorniki GPS]... Na marginesie zauważmy, że gdy <math>F</math> jest liniowa, zadanie sprowadza się do poprzedniego. W niniejszym wykładzie ograniczymy się wyłącznie do liniowego zadania najmniejszych kwadratów, nieliniowe jest omówiane na [[Metody optymalizacji|wykładzie z metod optymalizacji]].
 ==Układ równań normalnych==
-Niech <math>\displaystyle A</math> będzie daną macierzą o <math>\displaystyle m</math> wierszach i <math>\displaystyle n</math> kolumnach,
+Niech <math>A</math> będzie daną macierzą o <math>m</math> wierszach i <math>n</math> kolumnach,
-<math>\displaystyle A\inR^{m\times n}</math>, taką, że
+<math>A\in R^{m\times n}</math>, taką, że
-<center><math>\displaystyle m\,\ge\,n\,=\, \mbox{rank} (A),
+<center><math>m\,\ge\,n\,=\, \mbox{rank} (A),
 </math></center>
 albo równoważnie, taką że jej wektory kolumny są liniowo
-niezależne. Niech także dany będzie wektor <math>\displaystyle  b\inR^m</math>.
+niezależne. Niech także dany będzie wektor <math>b\in R^m</math>.
-Jasne jest, że wtedy układ równań <math>\displaystyle A x= b</math> nie zawsze
+Jasne jest, że wtedy układ równań <math>A x= b</math> nie zawsze
 ma rozwiązanie - mówimy, że układ jest <strong>nadokreślony</strong>.
 <strong>Zadanie wygładzania liniowego</strong> polega na znalezieniu wektora
-<math>\displaystyle  x^*\inR^n</math>, który minimalizuje <strong>wektor residualny</strong> (wektor reszty)
+<math>x^*\in R^n</math>, który minimalizuje <strong>wektor residualny</strong> (wektor reszty)
-<math>\displaystyle  r= b-A x</math> w normie drugiej, tzn.
+<math>r= b-A x</math> w normie drugiej, tzn.
-<center><math>\displaystyle \| b\,-\,A x^*\|_2\,=\,\min_{ x\inR^n}
+<center><math>\| b\,-\,A x^*\|_2\,=\,\min_{ x\in R^n}
-     \| b\,-\,A x\|_2.
+     \| b\,-\,A x\|_2</math></center>
-</math></center>
 {{lemat|||
 Zadanie wygładzania liniowego ma jednoznaczne
-rozwiązanie <math>\displaystyle  x^*</math>, które można scharakteryzować jako rozwiązanie układu równań
+rozwiązanie <math>x^*</math>, które można scharakteryzować jako rozwiązanie układu równań
-<center><math>\displaystyle
+<center><math>
-A^TA x\,=\,A^T\, b.
+A^TA x\,=\,A^T\, b</math></center>
-</math></center>
 }}
-Zauważmy, że jeśli macierz <math>\displaystyle A</math> jest kwadratowa, <math>\displaystyle m=n</math>, to
+Zauważmy, że jeśli macierz <math>A</math> jest kwadratowa, <math>m=n</math>, to
-rozwiązaniem jest <math>\displaystyle  x^*=A^{-1} b</math> i residuum jest zerem.
+rozwiązaniem jest <math>x^*=A^{-1} b</math> i residuum jest zerem.
 Zadanie wygładzania liniowego jest więc uogólnieniem
 rozwiązywania kwadratowych układów równań liniowych.
@@ Linia 114: / Linia 109: @@
 Równanie powyższe nazywa się <strong>układem równań normalnych</strong>.
 Może ono nam sugerować sposób rozwiązania zadania wygładzania
-liniowego. Wystarczy bowiem pomnożyć macierz <math>\displaystyle A^T</math> przez <math>\displaystyle A</math> i
+liniowego. Wystarczy bowiem pomnożyć macierz <math>A^T</math> przez <math>A</math> i
-rozwiązać układ normalny. Zauważmy ponadto, że macierz <math>\displaystyle A^TA</math>
+rozwiązać układ normalny. Zauważmy ponadto, że macierz <math>A^TA</math>
-jest symetryczna i dodatnio określona, bo <math>\displaystyle (A^TA)^T=A^TA</math> i dla
+jest symetryczna i dodatnio określona, bo <math>(A^TA)^T=A^TA</math> i dla
-<math>\displaystyle  x\ne 0</math> mamy
+<math>x\ne 0</math> mamy
-<math>\displaystyle  x^T(A^TA) x=(A x)^T(A x)=\|A x\|_2>0</math>, przy
+<math>x^T(A^TA) x=(A x)^T(A x)=\|A x\|_2>0</math>, przy
-czym ostatnia nierówność wynika z faktu, że kolumny macierzy <math>\displaystyle A</math>
+czym ostatnia nierówność wynika z faktu, że kolumny macierzy <math>A</math>
-są liniowo niezależne i dlatego <math>\displaystyle A x\ne 0</math>. Przy mnożeniu
+są liniowo niezależne i dlatego <math>A x\ne 0</math>. Przy mnożeniu
-<math>\displaystyle A^T</math> przez <math>\displaystyle A</math> wystarczy więc obliczyć tylko elementy na głównej
+<math>A^T</math> przez <math>A</math> wystarczy więc obliczyć tylko elementy na głównej
 przekątnej i pod nią, a do rozwiązania równania z macierzą
-<math>\displaystyle A^TA</math> można zastosować [[MN05LAB|algorytm Cholesky'ego-Banachiewicza]]. Jak łatwo się przekonać, koszt takiego
+<math>A^TA</math> można zastosować [[MN05LAB|algorytm Cholesky'ego-Banachiewicza]]. Jak łatwo się przekonać, koszt takiego
-algorytmu wynosi <math>\displaystyle n^2(m+n/3)</math>, przy czym dominuje koszt mnożenia
+algorytmu wynosi <math>n^2(m+n/3)</math>, przy czym dominuje koszt mnożenia
-obliczenia macierzy <math>\displaystyle A^TA</math>.
+obliczenia macierzy <math>A^TA</math>.
-Ma on jednak pewne wady. Mnożenie macierzy powoduje w <math>\displaystyle fl_\nu</math>
+Ma on jednak pewne wady. Mnożenie macierzy powoduje w <math>fl_\nu</math>
 powstanie po drodze dodatkowych błędów, które mogą nawet
 zmienić rząd macierzy. Na przykład, dla macierzy
-<center><math>\displaystyle A\,=\,\left(\begin{array} {cccc}
+<center><math>A\,=\,\left(\begin{array} {cccc}
   &  1  &  1  &  1  \\
    \epsilon  \\
@@ Linia 141: / Linia 136: @@
 mamy
-<center><math>\displaystyle A^TA\,=\,\left(\begin{array} {cccc}
+<center><math>A^TA\,=\,\left(\begin{array} {cccc}
 +\epsilon^2 & 1 & 1 & 1 \\
 & 1+\epsilon^2 & 1 & 1 \\
 & 1 & 1+\epsilon^2 & 1 \\
-& 1 & 1 & 1+\epsilon^2 \end{array} \right).
+& 1 & 1 & 1+\epsilon^2 \end{array} \right)</math></center>
-</math></center>
-Jeśli <math>\displaystyle \epsilon^2<\nu</math> to <math>\displaystyle fl_\nu(1+\epsilon^2)=1</math>, co implikuje
+Jeśli <math>\epsilon^2<\nu</math> to <math>fl_\nu(1+\epsilon^2)=1</math>, co implikuje
-<math>\displaystyle  \mbox{rank} (fl_\nu(A^TA))=1</math>, podczas, gdy <math>\displaystyle  \mbox{rank} (fl_\nu(A))=4</math>.
+<math>\mbox{rank} (fl_\nu(A^TA))=1</math>, podczas, gdy <math>\mbox{rank} (fl_\nu(A))=4</math>.
 Inne potencjalne wady układu równań normalnych wymieniamy w dalszej części wykładu.
 Poniżej przedstawimy inną metodę rozwiązywania zadania
 wygładzania liniowego, która oparta jest na specjalnych
 przekształceniach zwanych odbiciami Householdera.
 ==Odbicia Householdera==
-Dla danego wektora <math>\displaystyle  w\inR^m</math> o normie
+Dla danego wektora <math>w\in R^m</math> o normie
-<math>\displaystyle \| w\|_2=\sqrt{ w^T w}=1</math>,
+<math>\| w\|_2=\sqrt{ w^T w}=1</math>,
 <strong>odbicie</strong> (macierz) <strong>Householdera</strong> zdefiniowane jest jako
-<center><math>\displaystyle H\,=\,I\,-\,2 w w^T.
+<center><math>H\,=\,I\,-\,2 w w^T</math></center>
-</math></center>
 Zauważmy, że
-<center><math>\displaystyle H x\,=\, x\,-\,2( w^T x) w,
+<center><math>H x\,=\, x\,-\,2( w^T x) w</math>,</center>
-</math></center>
-a ponieważ <math>\displaystyle ( w^T x) w=( x, w)_2 w</math>
+a ponieważ <math>( w^T x) w=( x, w)_2 w</math>
-jest rzutem prostopadłym <math>\displaystyle  x</math> na kierunek wektora <math>\displaystyle  w</math>
+jest rzutem prostopadłym <math>x</math> na kierunek wektora <math>w</math>
-(<math>\displaystyle (\cdot,\cdot)_2</math> oznacza iloczyn skalarny), to <math>\displaystyle H x</math> jest
+(<math>(\cdot,\cdot)_2</math> oznacza iloczyn skalarny), to <math>H x</math> jest
-odbiciem lustrzanym wektora <math>\displaystyle  x</math> względem hiperpłaszczyzny
+odbiciem lustrzanym wektora <math>x</math> względem hiperpłaszczyzny
-(wymiaru <math>\displaystyle m-1</math>) prostopadłej do <math>\displaystyle  w</math>.
+(wymiaru <math>m-1</math>) prostopadłej do <math>w</math>.
 Odbicia Householdera są przekształceniami nieosobliwymi
 spełniającymi
-<center><math>\displaystyle H^{-1}\,=\,H\,=\,H^T.
+<center><math>H^{-1}\,=\,H\,=\,H^T</math></center>
-</math></center>
-Rzeczywiście, ponieważ <math>\displaystyle  w</math> ma normę jednostkową, mamy
+Rzeczywiście, ponieważ <math>w</math> ma normę jednostkową, mamy
-<center><math>\displaystyle H^2 \,=\, (I-2 w w^T)^2\,=\,
+<center><math>H^2 \,=\, (I-2 w w^T)^2\,=\,
-    I-4 w w^T+4 w( w^T w) w^T \,=\, I,
+    I-4 w w^T+4 w( w^T w) w^T \,=\, I</math>,</center>
-</math></center>
 oraz
-<center><math>\displaystyle H^T\,=\,(I-2 w w^T)^T\,=\,I-2( w^T)^T w^T\,=\,I.
+<center><math>H^T\,=\,(I-2 w w^T)^T\,=\,I-2( w^T)^T w^T\,=\,I.
 </math></center>
-W szczególności <math>\displaystyle H</math> jest więc przekształceniem <strong>ortogonalnym</strong>,
+W szczególności <math>H</math> jest więc przekształceniem <strong>ortogonalnym</strong>,
-<math>\displaystyle H^{-1}=H^T</math>, czyli nie zmienia długości wektora,
+<math>H^{-1}=H^T</math>, czyli nie zmienia długości wektora,
-<center><math>\displaystyle \|H x\|_2\,=\,\sqrt{(H x)^T(H x)}\,=\,
+<center><math>\|H x\|_2\,=\,\sqrt{(H x)^T(H x)}\,=\,
      \sqrt{ x^T(H^TH) x}\,=\,\sqrt{ x^T x}\,=\,
-     \| x\|_2.
+     \| x\|_2</math></center>
-</math></center>
 Odbicia Householdera zastosujemy do przeprowadzenia danego wektora
-<math>\displaystyle  x\ne 0</math> na kierunek innego niezerowego wektora, powiedzmy
+<math>x\ne 0</math> na kierunek innego niezerowego wektora, powiedzmy
-<math>\displaystyle  e</math>, tzn.
+<math>e</math>, tzn.
-<center><math>\displaystyle H x\,=\,(I-2 w w^T) x\,=\,\alpha\, e.
+<center><math>H x\,=\,(I-2 w w^T) x\,=\,\alpha\, e</math></center>
-</math></center>
 <!--
@@ Linia 212: / Linia 200: @@
 -->
-Załóżmy dla uproszczenia, że <math>\displaystyle \| e\|_2=1</math>.
+Załóżmy dla uproszczenia, że <math>\| e\|_2=1</math>.
-Aby wyznaczyć <math>\displaystyle H</math> zauważmy, że
+Aby wyznaczyć <math>H</math> zauważmy, że
-<center><math>\displaystyle w\,=\,\frac{ x-\alpha e}{2( w^T x)},
+<center><math>w\,=\,\frac{ x-\alpha e}{2( w^T x)},
 </math></center>
-a ponieważ <math>\displaystyle \alpha=\pm\| x\|_2</math> i <math>\displaystyle \| w\|_2=1</math> to
+a ponieważ <math>\alpha=\pm\| x\|_2</math> i <math>\| w\|_2=1</math> to
-<center><math>\displaystyle w\,=\,\frac{ x\mp\| x\|_2 e}
+<center><math>w\,=\,\frac{ x\mp\| x\|_2 e}
-                 {\| x\mp\| x\|_2 e\|_2}.
+                 {\| x\mp\| x\|_2 e\|_2}</math></center>
-</math></center>
-W szczególności, jeśli <math>\displaystyle  e= e_1</math> jest pierwszym
+W szczególności, jeśli <math>e= e_1</math> jest pierwszym
 wersorem, powyższe wzory dają
-<center><math>\displaystyle H\,=\,I\,-\,\frac{ u u^T}{\gamma},
+<center><math>H\,=\,I\,-\,\frac{ u u^T}{\gamma},
 </math></center>
 gdzie
-<center><math>\displaystyle u_i\,=\,\left\{\begin{array} {ll}
+<center><math>u_i\,=\,\left\{\begin{array} {ll}
          x_1\mp\| x\|_2  &\quad i=1, \\
                         x_i  &\quad 2\le i\le m,
-          \end{array} \right.
+          \end{array} \right.</math></center>
-</math></center>
 oraz
-<center><math>\displaystyle \aligned \gamma &= \frac 12\| u\|_2^2\,=\,
+<center><math>\begin{align} \gamma &= \frac 12\| u\|_2^2\,=\,
        \frac 1 2\Big((x_1\mp\| x\|_2)^2+\sum_{i=2}^m x_i^2\Big) \\
    &= \frac 1 2 \Big(\sum_{i=1}^m x_i^2\,+\,\| x\|_2^2\,\mp\,
 x_1\|x\|_2\Big) \,=\,\|x\|_2^2\,\mp\,x_1 \|x\|_2.
-\endaligned</math></center>
+\end{align}</math></center>
 Otrzymaliśmy dwa odbicia Householdera przekształcające dany wektor
-<math>\displaystyle  x</math> na kierunek pierwszego wersora, w zależności od wybranego
+<math>x</math> na kierunek pierwszego wersora, w zależności od wybranego
-znaku przy <math>\displaystyle \| x\|_2</math>. Ustalimy ten znak na plus gdy <math>\displaystyle x_1\ge 0</math>
+znaku przy <math>\| x\|_2</math>. Ustalimy ten znak na plus gdy <math>x_1\ge 0</math>
-oraz na minus gdy <math>\displaystyle x_1<0</math>, co pozwoli na obliczenie <math>\displaystyle u_1</math> i <math>\displaystyle \gamma</math>
+oraz na minus gdy <math>x_1<0</math>, co pozwoli na obliczenie <math>u_1</math> i <math>\gamma</math>
-z małym błędem względem w <math>\displaystyle fl_\nu</math>. Wtedy bowiem mamy
+z małym błędem względem w <math>fl_\nu</math>. Wtedy bowiem mamy
-<center><math>\displaystyle u_1\,=\,\left\{\begin{array} {ll}
+<center><math>u_1\,=\,\left\{\begin{array} {ll}
         x_1+\|x\|_2 & \quad x_1\ge 0, \\
-        x_1-\|x\|_2 & \quad x_1<0, \end{array} \right.
+        x_1-\|x\|_2 & \quad x_1<0, \end{array} \right.</math></center>
-</math></center>
-oraz <math>\displaystyle \gamma=\| x\|_2^2+|x_1|\,\| x\|_2</math>, czyli zawsze
+oraz <math>\gamma=\| x\|_2^2+|x_1|\,\| x\|_2</math>, czyli zawsze
 dodajemy liczby tych samych znaków. Ponadto pierwsza współrzędna
-wektora <math>\displaystyle H x</math> jest równa <math>\displaystyle -\| x\|_2</math>, gdy <math>\displaystyle x_1\ge 0</math>, a
+wektora <math>H x</math> jest równa <math>-\| x\|_2</math>, gdy <math>x_1\ge 0</math>, a
-<math>\displaystyle +\| x\|_2</math> jeśli <math>\displaystyle x_1<0</math>.
+<math>+\| x\|_2</math> jeśli <math>x_1<0</math>.
 ==Rozkład QR==
 Odbić Householdera można użyć do rozkładu macierzy
-<math>\displaystyle A\inR^{m\times n}</math> na iloczyn ortogonalno-trójkątny.
+<math>A\in R^{m\times n}</math> na iloczyn ortogonalno-trójkątny.
-Niech <math>\displaystyle A=( a_1, a_2,\ldots, a_n)</math>, gdzie <math>\displaystyle  a_j</math> są
+Niech <math>A=( a_1, a_2,\ldots, a_n)</math>, gdzie <math>a_j</math> są
-wektorami-kolumnami macierzy <math>\displaystyle A</math>. Wybierzmy pierwsze odbicie
+wektorami-kolumnami macierzy <math>A</math>. Wybierzmy pierwsze odbicie
-Householdera <math>\displaystyle H_1=I_m- u_1 u_1^T/\gamma_1</math> tak, aby
+Householdera <math>H_1=I_m- u_1 u_1^T/\gamma_1</math> tak, aby
-przekształcało pierwszy wektor-kolumnę macierzy <math>\displaystyle A</math> na kierunek
+przekształcało pierwszy wektor-kolumnę macierzy <math>A</math> na kierunek
-<math>\displaystyle  e_1</math>. Efektem pomnożenia macierzy <math>\displaystyle A</math> z lewej strony przez
+<math>e_1</math>. Efektem pomnożenia macierzy <math>A</math> z lewej strony przez
-<math>\displaystyle H_1</math> będzie wtedy macierz
+<math>H_1</math> będzie wtedy macierz
-<center><math>\displaystyle A^{(1)}\,=\,( a^{(1)}_1,\ldots, a^{(1)}_n)
+<center><math>A^{(1)}\,=\,( a^{(1)}_1,\ldots, a^{(1)}_n)
-    \,=\,(H_1 a_1,\ldots, H_1 a_n),
+    \,=\,(H_1 a_1,\ldots, H_1 a_n)</math>,</center>
-</math></center>
-w której pierwsza kolumna <math>\displaystyle  a^{(1)}_1</math> ma niezerową tylko
+w której pierwsza kolumna <math>a^{(1)}_1</math> ma niezerową tylko
 pierwszą współrzędną. W następnym kroku wybieramy drugie
 przekształcenie Householdera
-<math>\displaystyle \bar H_2=I_{m-1}- v_2 v_2^T/\gamma_2</math> wymiaru <math>\displaystyle m-1</math> tak,
+<math>\bar H_2=I_{m-1}- v_2 v_2^T/\gamma_2</math> wymiaru <math>m-1</math> tak,
-aby przeprowadzało wektor <math>\displaystyle (a^{(1)}_{i,2})_{i=2}^m</math> na kierunek
+aby przeprowadzało wektor <math>(a^{(1)}_{i,2})_{i=2}^m</math> na kierunek
-pierwszego wersora w <math>\displaystyle R^{m-1}</math>. Rozszerzając <math>\displaystyle  v_2\inR^{m-1}</math>
+pierwszego wersora w <math>R^{m-1}</math>. Rozszerzając <math>v_2\in R^{m-1}</math>
-do wektora <math>\displaystyle  u_2\inR^m</math> przez dodanie zera jako pierwszej
+do wektora <math>u_2\in R^m</math> przez dodanie zera jako pierwszej
-współrzędnej, <math>\displaystyle u_2=(0, v_2)^T</math>, otrzymujemy
+współrzędnej, <math>u_2=(0, v_2)^T</math>, otrzymujemy
 przekształcenie (macierz) Householdera
-<math>\displaystyle H_2=I_m- u_2 u_2^T/\gamma_2</math> w <math>\displaystyle R^m</math> postaci
+<math>H_2=I_m- u_2 u_2^T/\gamma_2</math> w <math>R^m</math> postaci
-<center><math>\displaystyle H_2\,=\,\left(\begin{array} {cccc}
+<center><math>H_2\,=\,\left(\begin{array} {cccc}
 &  0^T \\
-& \bar H_2  \end{array} \right).
+& \bar H_2  \end{array} \right)</math></center>
-</math></center>
-Pomnożenie macierzy <math>\displaystyle A^{(1)}</math> z lewej strony przez <math>\displaystyle H_2</math> spowoduje
+Pomnożenie macierzy <math>A^{(1)}</math> z lewej strony przez <math>H_2</math> spowoduje
 teraz wyzerowanie drugiej kolumny macierzy pod elementem
-<math>\displaystyle a^{(1)}_{2,2}</math>, przy czym pierwszy wiersz i pierwsza kolumna
+<math>a^{(1)}_{2,2}</math>, przy czym pierwszy wiersz i pierwsza kolumna
-pozostaną niezmienione. Postępując tak dalej <math>\displaystyle n</math> razy
+pozostaną niezmienione. Postępując tak dalej <math>n</math> razy
-(albo <math>\displaystyle n-1</math> razy gdy <math>\displaystyle m=n</math>) otrzymujemy
+(albo <math>n-1</math> razy gdy <math>m=n</math>) otrzymujemy
-<center><math>\displaystyle H_nH_{n-1}\cdots H_2H_1A\,=\,R,
+<center><math>H_nH_{n-1}\cdots H_2H_1A\,=\,R</math>,</center>
-</math></center>
-gdzie <math>\displaystyle R\inR^{m\times n}</math> jest uogólnioną macierzą trójkątną
+gdzie <math>R\in R^{m\times n}</math> jest uogólnioną macierzą trójkątną
-górną, tzn. <math>\displaystyle r_{i,j}=0</math> dla <math>\displaystyle i>j</math>. Stąd, podstawiając
+górną, tzn. <math>r_{i,j}=0</math> dla <math>i>j</math>. Stąd, podstawiając
-<math>\displaystyle Q=H_1H_2\cdots H_n</math>, dostajemy rozkład macierzy na iloczyn
+<math>Q=H_1H_2\cdots H_n</math>, dostajemy rozkład macierzy na iloczyn
 ortogonalno-trójkątny
-<center><math>\displaystyle
+<center><math>
    A\,=\,Q\cdot R.
 </math></center>
-Rzeczywiście, macierz <math>\displaystyle Q\inR^{m\times m}</math> jest ortogonalna, bo
+Rzeczywiście, macierz <math>Q\in R^{m\times m}</math> jest ortogonalna, bo
-<center><math>\displaystyle \aligned Q^{-1} &= (H_1H_2\cdots H_n)^{-1}\,=\,
+<center><math>\begin{align} Q^{-1} &= (H_1H_2\cdots H_n)^{-1}\,=\,
       H_n^{-1}\cdots H_2^{-1}H_1^{-1} \\
     &= H_n^T\cdots H_2^TH_1^T \,=\,
       (H_1H_2\cdots H_n)^T\,=\,Q^T.
-\endaligned</math></center>
+\end{align}</math></center>
 Dyspunując rozkładem QR, zadanie wygładzania liniowego
@@ Linia 324: / Linia 306: @@
 ortogonalną nie zmienia normy drugiej wektora, mamy
-<center><math>\displaystyle \aligned \| r\|_2 &= \| b-A x\|_2\;=\;\| b-QR x\|_2 \\
+<center><math>\begin{align} \| r\|_2 &= \| b-A x\|_2\;=\;\| b-QR x\|_2 \\
      &= \|Q(Q^T b-R x)\|_2 \;=\;\| c-R x\|_2,
-\endaligned</math></center>
+\end{align}</math></center>
-gdzie <math>\displaystyle  c=Q^T b=H_n\cdots H_2H_1 b</math>.
+gdzie <math>c=Q^T b=H_n\cdots H_2H_1 b</math>.
-Rozbijając wektor <math>\displaystyle  c</math> na <math>\displaystyle  c=( c_I, c_{II})^T</math>,
+Rozbijając wektor <math>c</math> na <math>c=( c_I, c_{II})^T</math>,
-gdzie <math>\displaystyle  c_I\inR^n</math> i <math>\displaystyle  c_{II}\inR^{m-n}</math>, oraz macierz
+gdzie <math>c_I\in R^n</math> i <math>c_{II}\in R^{m-n}</math>, oraz macierz
-<math>\displaystyle R</math> na
+<math>R</math> na
-<center><math>\displaystyle R\,=\,\left(\begin{array} {c} R_I \\ 0\end{array} \right),
+<center><math>R\,=\,\left(\begin{array} {c} R_I \\ 0\end{array} \right)</math>,</center>
-</math></center>
-gdzie <math>\displaystyle R_I\inR^{n\times n}</math> jest macierzą trójkątną górną, a
+gdzie <math>R_I\in R^{n\times n}</math> jest macierzą trójkątną górną, a
-<math>\displaystyle 0</math> jest macierzą zerową wymiaru <math>\displaystyle (m-n)\times n</math>, otrzymujemy
+<math>0</math> jest macierzą zerową wymiaru <math>(m-n)\times n</math>, otrzymujemy
-<center><math>\displaystyle \| r\|_2^2\;=\;\| c_I-R_I x\|_2^2\,+\,
+<center><math>\| r\|_2^2\;=\;\| c_I-R_I x\|_2^2\,+\,
       \| c_{II}\|_2^2.
 </math></center>
-Rozwiązanie <math>\displaystyle  x^*</math> zadania wygładzania jest więc
+Rozwiązanie <math>x^*</math> zadania wygładzania jest więc
 rozwiązaniem układu liniowego trójkątnego,
-<center><math>\displaystyle x^*\,=\,R_I^{-1} c_I,
+<center><math>x^*\,=\,R_I^{-1} c_I</math>,</center>
-</math></center>
-oraz <math>\displaystyle \| r^*\|_2=\| b-A x^*\|_2=\| c_{II}\|_2</math>.
+oraz <math>\| r^*\|_2=\| b-A x^*\|_2=\| c_{II}\|_2</math>.
 Zastanówmy się nad praktyczną realizacją tego algorytmu. Każde
-z kolejnych przekształceń Householdera <math>\displaystyle H_k</math> wyznaczamy przez
+z kolejnych przekształceń Householdera <math>H_k</math> wyznaczamy przez
-obliczenie <math>\displaystyle \gamma_k</math> oraz współrzędnych wektora <math>\displaystyle  u_k</math>.
+obliczenie <math>\gamma_k</math> oraz współrzędnych wektora <math>u_k</math>.
-Wektor ten ma tylko <math>\displaystyle m-k+1</math> współrzędnych niezerowych, a ponadto
+Wektor ten ma tylko <math>m-k+1</math> współrzędnych niezerowych, a ponadto
-<math>\displaystyle u_{k,i}=a^{(k-1)}_{i,k}</math> dla <math>\displaystyle k+1\le i\le m</math>. Dzięki takiej
+<math>u_{k,i}=a^{(k-1)}_{i,k}</math> dla <math>k+1\le i\le m</math>. Dzięki takiej
-reprezentacji <math>\displaystyle H_k</math>, mnożenia <math>\displaystyle H_k x</math> możemy dla dowolnego
+reprezentacji <math>H_k</math>, mnożenia <math>H_k x</math> możemy dla dowolnego
-<math>\displaystyle  x</math> realizować według wzoru
+<math>x</math> realizować według wzoru
-<center><math>\displaystyle (H_k x)_i\,=\,x_i\,-\,s\,u_{k,i},
+<center><math>(H_k x)_i\,=\,x_i\,-\,s\,u_{k,i},
 </math></center>
-gdzie <math>\displaystyle s= u_k^T x/\gamma_k</math>.
+gdzie <math>s= u_k^T x/\gamma_k</math>.
-Uwzględnizjąc obecność zerowych elementów w <math>\displaystyle  u_k</math>,
+Uwzględnizjąc obecność zerowych elementów w <math>u_k</math>,
-przejście od macierzy <math>\displaystyle A^{(k-1)}</math> do <math>\displaystyle A^{(k)}</math> kosztuje rzędu
+przejście od macierzy <math>A^{(k-1)}</math> do <math>A^{(k)}</math> kosztuje rzędu
-<math>\displaystyle 4(m-k+1)(n-k)</math> operacji arytmetycznych i obliczenie jednego
+<math>4(m-k+1)(n-k)</math> operacji arytmetycznych i obliczenie jednego
-pierwiastka kwadratowego. Cały rozkład <math>\displaystyle A=QR</math> kosztuje więc
+pierwiastka kwadratowego. Cały rozkład <math>A=QR</math> kosztuje więc
-rzędu (dla dużych <math>\displaystyle m</math> i <math>\displaystyle n</math>)
+rzędu (dla dużych <math>m</math> i <math>n</math>)
-<center><math>\displaystyle \sum_{k=1}^n 4(m-k+1)(n-k)\,\approx\,\frac 43n^3+2n^2(m-n)
+<center><math>\sum_{k=1}^n 4(m-k+1)(n-k)\,\approx\,\frac 43n^3+2n^2(m-n)
     \,=\,2n^2(m-n/3)
 </math></center>
-operacji arytmetycznych i <math>\displaystyle n</math> pierwiastków kwadratowych. Zauważmy,
+operacji arytmetycznych i <math>n</math> pierwiastków kwadratowych. Zauważmy,
-że w przypadku <math>\displaystyle m=n</math>, a więc dla kwadratowego układu równań,
+że w przypadku <math>m=n</math>, a więc dla kwadratowego układu równań,
-koszt ten wynosi <math>\displaystyle (4/3)n^3</math> i jest dwa razy większy od kosztu
+koszt ten wynosi <math>(4/3)n^3</math> i jest dwa razy większy od kosztu
 eliminacji Gaussa.
 ===Implementacja===
-Cała informacja o przekształceniu Householdera znajduje się w wektorze <math>\displaystyle u</math> oraz czynniku skalującym <math>\displaystyle \gamma</math> --- i w ten sposób najwygodniej przechowywać macierz Householdera. W żadnym miejscu algorytmu nie będzie nam potrzebne nic ponad umiejętność mnożenia zadanego wektora <math>\displaystyle x</math> przez macierz Householdera <math>\displaystyle H = I - \frac{1}{\gamma}uu^T</math>.
+Cała informacja o przekształceniu Householdera znajduje się w wektorze <math>u</math> oraz czynniku skalującym <math>\gamma</math> --- i w ten sposób najwygodniej przechowywać macierz Householdera. W żadnym miejscu algorytmu nie będzie nam potrzebne nic ponad umiejętność mnożenia zadanego wektora <math>x</math> przez macierz Householdera <math>H = I - \frac{1}{\gamma}uu^T</math>.
 Nie popełnijmy jednak częstego błędu, prostodusznie implementując to mnożenie (przykładowo, w Octave) jako
-  <div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre>H = eye(length(u)) - (u*u') / <math>\displaystyle \gamma</math>;
+  <div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre>H = eye(length(u)) - (u*u') / <math>\gamma</math>;
 y = H*x;
 </pre></div>
-Gdybyśmy użyli takiej implementacji, potrzebowalibyśmy aż <math>\displaystyle O(N^2)</math> miejsc w pamięci (chociaż, przypomnijmy raz jeszcze, cała informacja o <math>\displaystyle H</math> to tylko <math>\displaystyle O(N)</math> liczb). Ponadto, mnożenie przez macierz to aż <math>\displaystyle O(N^2)</math> działań arytmetycznych.
+Gdybyśmy użyli takiej implementacji, potrzebowalibyśmy aż <math>O(N^2)</math> miejsc w pamięci (chociaż, przypomnijmy raz jeszcze, cała informacja o <math>H</math> to tylko <math>O(N)</math> liczb). Ponadto, mnożenie przez macierz to aż <math>O(N^2)</math> działań arytmetycznych.
-Aby znacznie lepiej skorzystać z bardzo specyficznej postaci macierzy <math>\displaystyle H</math>, która jest po prostu zaburzeniem macierzy identyczności macierzą rzędu co najwyżej 1, wystarczy w odpowiednim miejscu wstawić nawiasy:
+Aby znacznie lepiej skorzystać z bardzo specyficznej postaci macierzy <math>H</math>, która jest po prostu zaburzeniem macierzy identyczności macierzą rzędu co najwyżej 1, wystarczy w odpowiednim miejscu wstawić nawiasy:
-<center><math>\displaystyle
+<center><math>
 Hx = \left(I - \frac{1}{\gamma}uu^T\right) \, x = x - \frac{1}{\gamma}uu^Tx =
-x - \frac{1}{\gamma}u(u^Tx).
+x - \frac{1}{\gamma}u(u^Tx)</math></center>
-</math></center>
 Stąd <strong>prawidłowa</strong> implementacja mnożenia przez macierz Householdera:
-  <div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre><math>\displaystyle \omega</math> = u'*x;
+  <div style="margin: 1em; padding:1em; color: #006; background-color:#fcfcfc;"><pre><math>\omega</math> = u'*x;
-y = x - <math>\displaystyle \frac{\omega}{\gamma}</math>*u;
+y = x - <math>\frac{\omega}{\gamma}</math>*u;
 </pre></div>
-Tym razem wcale nie potrzeba dodatkowej pamięci, a koszt algorytmu jest liniowy(!) względem <math>\displaystyle N</math>, a więc uzyskaliśmu <math>\displaystyle N</math>-krotne przyspieszenie w porównaniu z poprzednim!
+Tym razem wcale nie potrzeba dodatkowej pamięci, a koszt algorytmu jest liniowy(!) względem <math>N</math>, a więc uzyskaliśmu <math>N</math>-krotne przyspieszenie w porównaniu z poprzednim!
 Jest to całkiem typowe w numeryce:
@@ Linia 410: / Linia 389: @@
 <blockquote  style="background-color: #fefeee; padding:1em;  margin-left,margin-right:2em;  margin-top,margin-bottom: 1em;">
 Optymalizacja kodu źródłowego może być źródłem dużego przyspieszenia programu numerycznego. Ale największe przyspieszenie zazwyczaj jest efektem restrukturyzacji całego algorytmu (lub wręcz jego zmiany).
 </blockquote>
 ==Uwarunkowanie==
@@ Linia 420: / Linia 399: @@
 {{definicja|Uwarunkowanie macierzy prostokątnej w normie euklidesowej|Uwarunkowanie macierzy prostokątnej w normie euklidesowej|
-Niech <math>\displaystyle \Sigma(A)</math> będzie zbiorem wartości własnych macierzy <math>\displaystyle A^TA</math>. Definiujemy
+Niech <math>\Sigma(A)</math> będzie zbiorem wartości własnych macierzy <math>A^TA</math>. Definiujemy
-<center><math>\displaystyle  \mbox{cond} _2(A) = \sqrt{\frac{\max\{\lambda: \lambda \in \Sigma(A)\}}{\min\{\lambda: \lambda \in \Sigma(A)\}}}.
+<center><math>\mbox{cond} _2(A) = \sqrt{\frac{\max\{\lambda: \lambda \in \Sigma(A)\}}{\min\{\lambda: \lambda \in \Sigma(A)\}}}</math></center>
-</math></center>
-(Jeśli w mianowniku pojawiłoby się zero, kładziemy <math>\displaystyle  \mbox{cond} _2(A) = +\infty</math>).
+(Jeśli w mianowniku pojawiłoby się zero, kładziemy <math>\mbox{cond} _2(A) = +\infty</math>).
 }}
@@ Linia 432: / Linia 410: @@
 {{twierdzenie|O uwarunkowaniu zadania wygładzania liniowego|O uwarunkowaniu zadania wygładzania liniowego|
-Niech <math>\displaystyle x</math> będzie rozwiązaniem zadania najmniejszych kwadratów dla niezerowej prawej strony <math>\displaystyle b</math>,
+Niech <math>x</math> będzie rozwiązaniem zadania najmniejszych kwadratów dla niezerowej prawej strony <math>b</math>,
-<center><math>\displaystyle
+<center><math>
 ||b-Ax||_2\rightarrow \min{} !
 </math></center>
-i niech <math>\displaystyle \widetilde{x}</math> będzie rozwiązaniem zadania zaburzonego <center><math>\displaystyle
+i niech <math>\widetilde{x}</math> będzie rozwiązaniem zadania zaburzonego <center><math>
-||\widetilde{b}-\widetilde{A}\widetilde{x}||_2\rightarrow \min{} !,
+||\widetilde{b}-\widetilde{A}\widetilde{x}||_2\rightarrow \min{} !</math>,</center>
-</math></center>
 przy czym zakładamy, że
-<center><math>\displaystyle
+<center><math>
-\frac{||\widetilde{b}-b||_2}{||b||_2}, \quad \frac{||\widetilde{A}-A||_2}{||A||_2} \leq \epsilon,
+\frac{||\widetilde{b}-b||_2}{||b||_2}, \quad \frac{||\widetilde{A}-A||_2}{||A||_2} \leq \epsilon</math>,</center>
-</math></center>
-gdzie <math>\displaystyle \epsilon</math> jest dostatecznie małe.
+gdzie <math>\epsilon</math> jest dostatecznie małe.
 Oznaczmy
-<center><math>\displaystyle \sin(\theta) = \frac{||b-Ax||_2}{||b||_2} < 1
+<center><math>\sin(\theta) = \frac{||b-Ax||_2}{||b||_2} < 1
 </math></center>
@@ Linia 457: / Linia 433: @@
 Wtedy
-<center><math>\displaystyle \frac{||\widetilde{x}-x||_2}{||x||_2} \lesssim \left( \frac{2 \mbox{cond} _2(A)}{\cos(\theta)} + \tan(\theta) \mbox{cond} _2^2(A)\right) \cdot \epsilon.
+<center><math>\frac{||\widetilde{x}-x||_2}{||x||_2} \lesssim \left( \frac{2 \mbox{cond} _2(A)}{\cos(\theta)} + \tan(\theta) \mbox{cond} _2^2(A)\right) \cdot \epsilon</math></center>
-</math></center>
 }}
-Generalnie więc, jeśli reszta <math>\displaystyle ||b-Ax||_2</math> jest mała, wrażliwość na zaburzenia jest na poziomie <math>\displaystyle  \mbox{cond} (A)</math>. Ale jeśli reszta jest duża (tzn. prawa strona jest taka, że nie można dobrze spełnić równania <math>\displaystyle b\approx Ax</math> w sensie średniokwadratowym), wtedy wrażliwość może być daleko większa.
+Generalnie więc, jeśli reszta <math>||b-Ax||_2</math> jest mała, wrażliwość na zaburzenia jest na poziomie <math>\mbox{cond} (A)</math>. Ale jeśli reszta jest duża (tzn. prawa strona jest taka, że nie można dobrze spełnić równania <math>b\approx Ax</math> w sensie średniokwadratowym), wtedy wrażliwość może być daleko większa.
 {{wniosek|||
-W przypadku, gdy <math>\displaystyle m \gg n</math>, zdawać by się mogło --- zgodnie z popularnym, acz błędnym, jak za chwilę się okaże, poglądem --- że użycie układu równań normalnych jest najszybszym algorytmem, a skoro tak, to powinno dawać najmniejszą "akumulację błędu zaokrągleń". Tymczasem widzimy, że jest sens rozwiązywać nasze zadanie poprzez układ równań normalnych tylko wtedy, gdy reszta rozwiązania jest duża. W przeciwnym wypadku, gdy <math>\displaystyle \sin(\theta) \ll 1</math>, rozwiązanie obliczone (kosztowniejszym) rozkładem QR będzie miało błąd na poziomie <math>\displaystyle  \mbox{cond} _2(A)</math>, a tymczasem rozwiązanie wyznaczone z układu równań normalnych będzie obarczone błędem na poziomie <math>\displaystyle  \mbox{cond} _2^2(A) >  \mbox{cond} _2(A)</math>.
+W przypadku, gdy <math>m \gg n</math>, zdawać by się mogło --- zgodnie z popularnym, acz błędnym, jak za chwilę się okaże, poglądem --- że użycie układu równań normalnych jest najszybszym algorytmem, a skoro tak, to powinno dawać najmniejszą "akumulację błędu zaokrągleń". Tymczasem widzimy, że jest sens rozwiązywać nasze zadanie poprzez układ równań normalnych tylko wtedy, gdy reszta rozwiązania jest duża. W przeciwnym wypadku, gdy <math>\sin(\theta) \ll 1</math>, rozwiązanie obliczone (kosztowniejszym) rozkładem QR będzie miało błąd na poziomie <math>\mbox{cond} _2(A)</math>, a tymczasem rozwiązanie wyznaczone z układu równań normalnych będzie obarczone błędem na poziomie <math>\mbox{cond} _2^2(A) >  \mbox{cond} _2(A)</math>.
 }}
@@ Linia 475: / Linia 450: @@
 </pre></div>
-Dla zadania najmniejszych kwadratów mamy dwie podstawowe funkcje LAPACKa: <code style="color: #903">DGELS</code>, która rozwiązuje dokładnie zadanie takie, jak postawiliśmy w wykładzie, to znaczy w przypadku, gdy macierz <math>\displaystyle A</math> jest pełnego rzędu --- wykorzystując rozkład QR, który omówiliśmy.
+Dla zadania najmniejszych kwadratów mamy dwie podstawowe funkcje LAPACKa: <code style="color: #903">DGELS</code>, która rozwiązuje dokładnie zadanie takie, jak postawiliśmy w wykładzie, to znaczy w przypadku, gdy macierz <math>A</math> jest pełnego rzędu --- wykorzystując rozkład QR, który omówiliśmy.
-Natomiast dla przypadku, <strong>gdy macierz nie jest pełnego rzędu</strong>, działa funkcja <code style="color: #903">DGELSS</code>. Wówczas, co łatwo sprawdzić, zadanie najmniejszych kwadratów tak, jak je postawiliśmy, nie musi mieć jednoznacznego rozwiązania. Jednak jeśli dołożyć wymaganie, by znalezione rozwiązanie <math>\displaystyle x</math> miało <strong>minimalną normę</strong> euklidesową spośród wszystkich spełniających warunek <math>\displaystyle ||b-Ax||_2 \rightarrow \min !</math>, to wtedy takie rozwiązanie jest już jedyne. Jednakże dla takiego zadania rozkład QR jest już niewystarczający i stosuje się inny rozkład, tzw. SVD, który wykracza poza ramy naszego wykładu.
+Natomiast dla przypadku, <strong>gdy macierz nie jest pełnego rzędu</strong>, działa funkcja <code style="color: #903">DGELSS</code>. Wówczas, co łatwo sprawdzić, zadanie najmniejszych kwadratów tak, jak je postawiliśmy, nie musi mieć jednoznacznego rozwiązania. Jednak jeśli dołożyć wymaganie, by znalezione rozwiązanie <math>x</math> miało <strong>minimalną normę</strong> euklidesową spośród wszystkich spełniających warunek <math>||b-Ax||_2 \rightarrow \min !</math>, to wtedy takie rozwiązanie jest już jedyne. Jednakże dla takiego zadania rozkład QR jest już niewystarczający i stosuje się inny rozkład, tzw. SVD, który wykracza poza ramy naszego wykładu.
 Funkcje biblioteczne rozwiązujące zadanie wygładzania liniowego są oczywistym składnikiem wszystkich szanujących się pakietów statystycznych.