Sztuczna inteligencja/SI Ćwiczenia 13: Różnice pomiędzy wersjami

Aktualna wersja na dzień 18:41, 18 sie 2006

Zadanie 1

Czy Twoim zdaniem uczenie się ze wzmocnieniem jest właściwym modelem uczenia się człowieka?

Zadanie 2

Przyjrzyjmy się modelowi przedstawionemu na rysunku. Przejścia pomiędzy sąsiadującymi stanami są dozwolone wyłącznie w pionie lub w poziomie (nie po przekątnej) i są jednakowe dla każdego stanu sąsiedniego. Stany oznaczone +1 oraz -1 to stany końcowe z wartościami wzmocnienia odpowiednio +1 i -1. Narysuj tablicę przejść (z prawdopodobieństwami) i policz wartości funkcji wzmocnienia dla każdego stanu.

Zadanie 3

Co się stanie jeżeli algorytm Q-learning w kolejnych krokach nie będzie wybierał akcji maksymalizujących wartość funkcji wartości akcji, a będzie maksymalizował wartość akcji w następnym stanie? Czy działanie takiego algorytmu może zakończyć się sukcesem? Czy posługuje się on tą samą strategią, której się uczy?

Zadanie 4

Dwóch graczy zainwestowało na giełdzie po 100 000 PLN każdy. Po roku pierwszy gracz sprzedał swoje akcje i otrzymał za nie 200 000 PLN. Drugi gracz za swoje akcje otrzymał 130 000 PLN. Oprocentowanie bankowe wynosiło w tym czasie 5% w skali rocznej. Czy zysk (wzmocnienie) drugiego gracza nazwałbyś nagrodą czy karą?

Rozwiązanie

@@ Linia 9: / Linia 9: @@
 wartości funkcji wzmocnienia dla każdego stanu.
+<center>
 [[Grafika:SI M13 Zadanie 2.png]]
+</center>
 == Zadanie 3 ==
-Co się stanie jeżeli algorytm Q-learning  w kolejnych krokach nie będzie wybierał akcji
+Co się stanie jeżeli [[../SI Moduł 13 - Uczenie się ze wzmocnieniem#Algorytm Q-learning|algorytm Q-learning]] w kolejnych krokach nie będzie wybierał akcji
 maksymalizujących wartość funkcji wartości akcji, a będzie maksymalizował wartość akcji w
 następnym stanie? Czy działanie takiego algorytmu może zakończyć się sukcesem? Czy posługuje
@@ Linia 22: / Linia 24: @@
 Oprocentowanie bankowe wynosiło w tym czasie 5% w skali rocznej. Czy zysk (wzmocnienie)
 drugiego gracza nazwałbyś nagrodą czy karą?
+<div class="mw-collapsible mw-made=collapsible mw-collapsed">
+'''Rozwiązanie'''
+<div class="mw-collapsible-content" style="display:none">
+Zysk drugiego gracza będzie nagrodą, gdyż był większy, niż kwota, którą gracz zarobiłby
+na oprocentowaniu bankowym.
+</div>
+</div>

Sztuczna inteligencja/SI Ćwiczenia 13: Różnice pomiędzy wersjami

Aktualna wersja na dzień 18:41, 18 sie 2006

Spis treści

Zadanie 1

Zadanie 2

Zadanie 3

Zadanie 4

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia