ED-4.2-m08-1.0-Slajd10

From Studia Informatyczne

Przykład (3)

Przykład (3)


Zgodnie z procedurą Partition sprawdzamy, czy wszystkie rekordy zbioru treningowego należą do jednej klasy. Odpowiedź brzmi „nie”, ponieważ 4 rekordy zbioru treningowego należą do klasy Ryzyko = High i 2 rekordy należą do klasy Ryzyko = Low. Stąd przechodzimy do analizy atrybutów deskryptorów i wszystkich możliwych punktów podziału tych atrybutów. Rozpocznijmy od analizy atrybutu Wiek. Atrybut Wiek jest atrybutem numerycznym, stąd punkt podziału dla atrybutu numerycznego ma postać ‘wartość atrybutu numerycznego’ < lub <=. Przeanalizujmy wszystkie możliwe punkty podziału dla atrybutu Wiek:

Wiek <= 17, Wiek <= 20, Wiek <= 23, Wiek <= 32,Wiek <= 43, Wiek <= 68.

Ostatni punkt podziału Wiek <= 68 de facto tworzy nam podział na dwie partycje, z których jedna jest partycją pustą.

Rozpoczniemy od analizy pierwszego możliwego punktu podziału, Wiek <= 17. Zauważmy, że ten punkt podziału dzieli nam zbiór treningowy S na dwie partycje. Warunek Wiek <= 17 spełnia tylko jedna krotka, która należy do klasy Ryzyko = High. Pozostałe krotki należą do partycji S2 czyli spełniają warunek Wiek > 17. Takich krotek w zbiorze treningowym jest 5, z których trzy należą do klasy Ryzyko = High oraz dwie należą do klasy Ryzyko = Low. Obliczamy wartość indeksu Gini dla partycji pierwszej, czyli takiej, która spełnia predykat Wiek <= 17. Wartość ta wynosi 0. Następnie obliczamy wartość indeksu Gini dla drugiej partycji (Wiek>17). Wartość indeksu Gini wynosi 0.73. W oparciu o te wartości możemy następnie obliczyć wartość indeksu podziału Gini Split, który dla tego punktu podziału wynosi 0.4.


<< Poprzedni slajd | Spis treści | Następny slajd >>