Sztuczna inteligencja/SI Ćwiczenia 12: Różnice pomiędzy wersjami

← poprzednia edycja

WizualnieWikikod

Aktualna wersja na dzień 22:15, 11 wrz 2023

Zadanie 1

Narysować trójwymiarowy wykres przedstawiający funkcję realizowaną przez aproksymator - sieć neuronową z rozdziału 12.

Rozwiązanie

Zadanie 2

Z czego wynika potrzeba rozdzielenia zbioru danych na dane uczące i testowe?

Rozwiązanie

Zadanie 3

Załóżmy, że mamy dwie różne sieci neuronowe, uczone niezależnie od siebie na tym samym zbiorze uczącym. Załóżmy też, że rozkład błędu obu sieci na zbiorze testowym jest rozkładem normalnym o zerowej wartości oczekiwanej i standardowych odchyleniach odpowiednio: $σ_{1}$ i $σ_{2}$ . Jaki jest rozkład na zbiorze testowym wartości $0, 5 (y_{1} + y_{2})$ gdzie $y_{1}$ , $y_{2}$ oznaczają wyjścia obu sieci? Jak można wykorzystać ten wynik do poprawy jakości aproksymacji?

Rozwiązanie

Odchylenie standardowe funkcji błędu średniej arytmetycznej wyjść obu sieci będzie równe $0, 5 \sqrt{σ_{1}^{2} + σ_{2}^{2}}$ , wartość średnia zaś równa będzie zero. Takie odchylenie standardowe jest na pewno mniejsze od $m a x (σ_{1}, σ_{2})$ (ponieważ jeśli $σ_{1} > σ_{2}$ to $σ_{1}^{2} + σ_{1}^{2} > σ_{1}^{2} + σ_{2}^{2}$ a zatem $σ_{1} > \frac{\sqrt{2}}{2} * σ_{1} > \sqrt{σ_{1}^{2} + σ_{2}^{2}}$ ). Oznacza to, że korzystając ze średniej artytmetycznej wyjść dwóch sieci możemy otrzymać mniejsze odchylenie standardowe błędu, niż gdybyśmy korzystali z jednej tylko sieci. Jeśli nie wiemy, która sieć powoduje większy błąd aproksymacji, to w ten sposób możemy uniknąć ryzyka wybrania gorszej sieci kosztem niewybrania sieci lepszej.

Zadanie 4

Załóżmy, że mamy użyć sieci neuronowej do prognozowania przyszłej wartości pewnego procesu zmiennego w czasie, charakteryzującego się tym, że jego przyszłe wartości zależą od przeszłych zgodnie z równaniem:

$y (t) = f (y (t - 1), y (t - 2), . . ., y (t - h))$

gdzie $t$ oznacza czas, $f$ jest nieznaną funkcją, zaś $h$ stałą, określającą najdalszą zależność między przeszłością a przyszłością (taki proces jest przykładem tzw. szeregu czasowego).

Zaproponować sposób użycia sieci neuronowej do wykonania prognozy. Jak stworzyć zbiór trenujący dla sieci?

Rozwiązanie

Użyta zostanie sieć neuronowa o h wejściach i jednym wyjściu. Komplikacja budowy wewnętrznej sieci (ilość i wielkość warstw ukrytych) pozostaje do zdefiniowania. Mając danych $n$ kolejnych wartości funkcji możemy utworzyć $n - h + 1$ $h$ -elementowych wektorów wejściowych, który to zbiór należy podzielić na dane trenujące oraz testujące i za ich pomocą dobrać parametry aproksymatora (wagi neuronów).

Zadanie 5

Czym skutkuje obecność w zbiorze trenującym elementów powtarzających się?

Rozwiązanie

Zadanie 6

Funkcja błędu minimalizowana w czasie uczenia sieci neuronowej ma minima lokalne i punkty siodłowe (w których gradient zeruje się), a także obszary płaskie o bardzo małych wartościach modułu gradientu. Z czego wynikają te zjawiska? Dla jakich wartości wag da się je zaobserwować?

Rozwiązanie

@@ Linia 6: / Linia 6: @@
 '''Rozwiązanie'''
 <div class="mw-collapsible-content" style="display:none">
+Dla przykładowego zestawu wag otrzymano wykres odpowiedzi sieci jak na rysunku poniżej. [[Media:M12_Z1.m|Stąd]] pobrać można źródła programu napisanego w języku [http://en.wikipedia.org/wiki/GNU_Octave Octave]. Zmieniając wagi (zapisane w zmiennych W, V i Y) modyfikuje się wygląd funkcji. Zachęcamy do eksperymentów!
+[[Grafika:M12_Z1.png]]
 </div>
 </div>
@@ Linia 29: / Linia 32: @@
 '''Rozwiązanie'''
 <div class="mw-collapsible-content" style="display:none">
-Odchylenie standardowe funkcji błędu średniej arytmetycznej wyjść obu sieci będzie równe <math>0,5\sqrt{\sigma_1^2 + \sigma_2^2}\,</math>, wartość średnia zaś równa będzie zero. Takie odchylenie standardowe jest na pewno mniejsze od <math>max(\sigma_1,\sigma_2)\,</math> (ponieważ jeśli <math>\sigma_1 > \sigma_2</math> to <math> \sigma_1^2 + \sigma_1^2 > \sigma_1^2 + \sigma_2^2</math> a zatem <math> \sigma_1 > {\sqrt{2} \over 2} * \sigma_1 > \sqrt{\sigma_1^2 + \sigma_2^2}</math>). Oznacza to, że korzystając ze średniej artytmetycznej wyjść dwóch sieci możemy otrzymać mniejsze odchylenie standardowe błędu, niż gdybyśmy korzystali z jednej tylko sieci. Jeśli nie wiemy, która sieć powoduje większy błąd aproksymacji, to w ten sposób możemy uniknąć ryzyka wybrania gorszej sieci kosztem niewybrania sieci lepszej.
+Odchylenie standardowe funkcji błędu średniej arytmetycznej wyjść obu sieci będzie równe <math>0,5\sqrt{\sigma_1^2 + \sigma_2^2}\,</math>, wartość średnia zaś równa będzie zero. Takie odchylenie standardowe jest na pewno mniejsze od <math>max(\sigma_1,\sigma_2)\,</math> (ponieważ jeśli <math>\sigma_1 > \sigma_2</math> to <math>\sigma_1^2 + \sigma_1^2 > \sigma_1^2 + \sigma_2^2</math> a zatem <math>\sigma_1 > {\sqrt{2} \over 2} * \sigma_1 > \sqrt{\sigma_1^2 + \sigma_2^2}</math>). Oznacza to, że korzystając ze średniej artytmetycznej wyjść dwóch sieci możemy otrzymać mniejsze odchylenie standardowe błędu, niż gdybyśmy korzystali z jednej tylko sieci. Jeśli nie wiemy, która sieć powoduje większy błąd aproksymacji, to w ten sposób możemy uniknąć ryzyka wybrania gorszej sieci kosztem niewybrania sieci lepszej.
 </div>
 </div>
@@ Linia 57: / Linia 60: @@
 '''Rozwiązanie'''
 <div class="mw-collapsible-content" style="display:none">
+Jest to zjawisko "nadreprezentacji" - nadmiernej reprezentacji pewnej części dziedziny aproksymowanej funkcji. Jest ono niepożądane, ponieważ algorytm doboru parametrów aproksymatora może mieć tendencję do "skupiania się" na tych punktach - ewentualny błąd aproksymacji funkcji w owych punktach będzie miał większą wagę i zostanie zminimalizowany w pierwszej kolejności. Wynik może być podobny, jak przy braku zbioru testującego - w części dziedziny aproksymator będzie miał mniejszy błąd, co zapewne spowoduje (dużo) większy błąd w innych jej częściach. Jeśli nie zależy nam na szczególnie dobrej aproksymacji w wybranych elementach (w wybranej części dziedziny aproksymowanej funkcji), powinniśmy usunąć wszystkie powtórzenia z danych.
 </div>
 </div>
@@ Linia 67: / Linia 71: @@
 '''Rozwiązanie'''
 <div class="mw-collapsible-content" style="display:none">
+Zjawiska te wynikają z użytej funkcji aktywacji neuronu - tangensa hiperbolicznego. Sieć neuronowa jest aproksymatorem nieliniowym, dlatego dla pewnych zestawów wag występują lokalne minima funkcji błędu.
+Obszary o małych wartościach modułu gradientu mogą być efektem wejścia funkcji aktywacji w obszar nasycenia. Dla wartości z tego obszaru funkcje aktywacji przyjumją wartość 1 lub -1 (są to asymptoty ''tanh''). Dzieje się tak dla odpowiednio dużych lub małych wartości wag - gdy suma wejść wymnożonych przez odpowiednie wagi daje w wyniku wartość, w której otoczeniu funkcja aktywacji nieznacznie zbliża się lub oddaja od 1 lub -1.
 </div>
 </div>

Sztuczna inteligencja/SI Ćwiczenia 12: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:15, 11 wrz 2023

Spis treści

Zadanie 1

Zadanie 2

Zadanie 3

Zadanie 4

Zadanie 5

Zadanie 6

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia