ED-4.2-m08-1.0-Slajd11

Z Studia Informatyczne
Wersja z dnia 10:04, 10 wrz 2006 autorstwa ALesniewska (dyskusja | edycje)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Przykład (4)

Przykład (4)


Rozważmy kolejny punkt podziału dla atrybutu Wiek. Jest nim punkt podziału Wiek<=20. Punkt podziału dzieli zbiór treningowy na partycje składająca się z dwóch rekordów. Oba rekordy należą do klasy Ryzyko = High. Partycja druga (Wiek>20), składa się z 4 rekordów, z których 2 rekordy należą do klasy Ryzyko = High i 2 rekordy należą do klasy Ryzyko = Low. Wartość indeksu Gini dla partycji pierwszej wynosi 0 – partycja czysta. Wartość indeksu Gini dla drugiej partycji, która jest równomiernie rozłożona pomiędzy klasy High i Low wynosi 1. Wartość indeksu podziału GiniSplit wynosi 1/3. Kolejny punkt podziału dla atrybutu Wiek to punkt podziału Wiek <= 23. Ten punkt podziału dzieli zbiór danych treningowych na partycje S1 składającą się z trzech rekordów. Wszystkie trzy rekordy należą do klasy Ryzyko = High. Natomiast partycja druga składa się również z trzech rekordów, jeden rekord należy do klasy Ryzyko = High oraz dwa rekordy Ryzyko = Low. Wartość indeksu Gini dla klasy pierwszej wynosi 0, czyli mamy klasę czystą (wszystkie rekordy należą do tej samej klasy). Wartość indeksu Gini dla drugiej partycji wynosi 4/9. Indeks podziału Gini wynosi 2/9.


<< Poprzedni slajd | Spis treści | Następny slajd >>