ED-4.2-m08-1.0-Slajd12

From Studia Informatyczne

Przykład (5)

Przykład (5)


Rozważmy kolejny punkt podziału dla atrybutu Wiek, Wiek<=32. Ten punkt podziału dzieli zbiór treningowy na dwie partycje. Pierwsza partycja składa się z czterech rekordów, trzy z nich należą do klasy Ryzyko = High, oraz jeden do klasy Ryzyko = Low. Druga partycja zawiera dwa rekordy, po jednym z każdej klasy. Wartość indeksu Gini dla pierwszej partycji wynosi 3/8. Wartość indeksu Gini dla drugiej partycji wynosi 1. Wartość indeksu podziału GiniSplit wynosi 7/24. Pomińmy w naszych rozważaniach pozostałe punkty podziału. Z dotychczas rozważanych punktów podziału najmniejszą wartość indeksu podziału GiniSplit posiada punkt podziału Wiek<=23. Załóżmy również, że wartości indeksu podziału dla wszystkich punktów podziału dla deskryptora Typ_samochodu są większe aniżeli wartości indeksu dla punktów podziału dla atrybutu Wiek. Ponieważ najmniejszą wartość indeksu podziału GiniSplit posiada punkt podziału Wiek<=23 stąd tworzymy wierzchołek drzewa decyzyjnego. Jak ma wyglądać test dla takiego wierzchołka?. Atrybut Wiek jest atrybutem numerycznym, zatem test będzie wyglądał w następujący sposób: ‘Wiek <= ?’. Pojawia się pytanie czy ? Ma przyjąć wartość punktu podziału czyli wartość 23 czy też inną. Zastanówmy się nad następującym przypadkiem: Mamy nowego kierowcę w wieku 24 lat. Czy kierowca będzie się zachowywał jak kierowca 23 letni, dla którego ryzyko wypadku jest wysokie, czy też będzie się zachowywał jak kierowca 32 letni, dla którego ryzyko wypadku jest niskie. Odwróćmy sytuacje, mamy nowy przypadek: kierowca mający lat 31, czy kierowca będzie się zachowywał jak kierowca 32 letni, czy też jak kierowca 23 letni. Zauważmy, że pomiędzy wartościami 23 i 32 następuje punkt przecięcia. Stąd też tworzymy wierzchołek drzewa decyzyjnego dla punktu podziału, w którym wartość testu jest równa wartości (23 (przechowywana w bazie)+32(gdzie następuje zmiana przynależności do klasy))/2. Zatem punktem podziału, który będzie związany z nowym wierzchołkiem drzewa decyzyjnego będzie 27.5.


<< Poprzedni slajd | Spis treści | Następny slajd >>