Sztuczna inteligencja/SI Ćwiczenia 13: Różnice pomiędzy wersjami
Początkowa zawartość |
→Zadanie 4: Rozwiązanie |
||
(Nie pokazano 2 pośrednich wersji utworzonych przez tego samego użytkownika) | |||
Linia 9: | Linia 9: | ||
wartości funkcji wzmocnienia dla każdego stanu. | wartości funkcji wzmocnienia dla każdego stanu. | ||
<center> | |||
[[Grafika:SI M13 Zadanie 2.png]] | [[Grafika:SI M13 Zadanie 2.png]] | ||
</center> | |||
== Zadanie 3 == | == Zadanie 3 == | ||
Co się stanie jeżeli algorytm Q-learning | Co się stanie jeżeli [[../SI Moduł 13 - Uczenie się ze wzmocnieniem#Algorytm Q-learning|algorytm Q-learning]] w kolejnych krokach nie będzie wybierał akcji | ||
maksymalizujących wartość funkcji wartości akcji, a będzie maksymalizował wartość akcji w | maksymalizujących wartość funkcji wartości akcji, a będzie maksymalizował wartość akcji w | ||
następnym stanie? Czy działanie takiego algorytmu może zakończyć się sukcesem? Czy posługuje | następnym stanie? Czy działanie takiego algorytmu może zakończyć się sukcesem? Czy posługuje | ||
Linia 22: | Linia 24: | ||
Oprocentowanie bankowe wynosiło w tym czasie 5% w skali rocznej. Czy zysk (wzmocnienie) | Oprocentowanie bankowe wynosiło w tym czasie 5% w skali rocznej. Czy zysk (wzmocnienie) | ||
drugiego gracza nazwałbyś nagrodą czy karą? | drugiego gracza nazwałbyś nagrodą czy karą? | ||
<div class="mw-collapsible mw-made=collapsible mw-collapsed"> | |||
'''Rozwiązanie''' | |||
<div class="mw-collapsible-content" style="display:none"> | |||
Zysk drugiego gracza będzie nagrodą, gdyż był większy, niż kwota, którą gracz zarobiłby | |||
na oprocentowaniu bankowym. | |||
</div> | |||
</div> |
Aktualna wersja na dzień 18:41, 18 sie 2006
Zadanie 1
Czy Twoim zdaniem uczenie się ze wzmocnieniem jest właściwym modelem uczenia się człowieka?
Zadanie 2
Przyjrzyjmy się modelowi przedstawionemu na rysunku. Przejścia pomiędzy sąsiadującymi stanami są dozwolone wyłącznie w pionie lub w poziomie (nie po przekątnej) i są jednakowe dla każdego stanu sąsiedniego. Stany oznaczone +1 oraz -1 to stany końcowe z wartościami wzmocnienia odpowiednio +1 i -1. Narysuj tablicę przejść (z prawdopodobieństwami) i policz wartości funkcji wzmocnienia dla każdego stanu.
Zadanie 3
Co się stanie jeżeli algorytm Q-learning w kolejnych krokach nie będzie wybierał akcji maksymalizujących wartość funkcji wartości akcji, a będzie maksymalizował wartość akcji w następnym stanie? Czy działanie takiego algorytmu może zakończyć się sukcesem? Czy posługuje się on tą samą strategią, której się uczy?
Zadanie 4
Dwóch graczy zainwestowało na giełdzie po 100 000 PLN każdy. Po roku pierwszy gracz sprzedał swoje akcje i otrzymał za nie 200 000 PLN. Drugi gracz za swoje akcje otrzymał 130 000 PLN. Oprocentowanie bankowe wynosiło w tym czasie 5% w skali rocznej. Czy zysk (wzmocnienie) drugiego gracza nazwałbyś nagrodą czy karą?
Rozwiązanie