ED-4.2-m08-1.0-Slajd4

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Indeks Gini (3)

Indeks Gini (3)


Przykładem algorytmu klasyfikacyjnego, który wykorzystuje mechanizm indukcji drzew decyzyjnych, który konstruuje binarne drzewo decyzyjne, który do oceny punktów podziału wykorzystuje indeks gini jest algorytm SPRINT. Algorytm SPRINT, jak już wspominaliśmy jest wykorzystywany w znanym i popularnym produkcie komercyjnym IBM Intelligent Miner. Konstrukcja drzewa decyzyjnego zgodnie z algorytmem SPRINT przebiega w następujący sposób: Podstawową procedurą tego algorytmu jest procedura Partition, której argumentem jest zbiór danych S. Jeżeli wszystkie próbki ze zbioru treningowego S należą do tej samej klasy, wówczas algorytm kończy działanie. Tworzy wierzchołek liścia i jego etykietą jest klasa, do której należą wszystkie obiekty należące do zbioru S. W przeciwnym wypadku algorytm, dla każdego atrybutu A analizuje wszystkie możliwe punkty podziału dla tego atrybutu. Następnie wybiera najlepszy punkt podziału spośród wszystkich możliwych punktów podziału dla wszystkich atrybutów. Wybieramy najlepszy punkt podziału i punkt ten dzieli nam zbiór S na partycje S1 i S2. Następnie wywoływana jest procedura Partition dla zbioru S1 i dla zbioru S2. Procedura jest wykonywana tak długo, aż każda z partycji zawiera dane należące wyłącznie do jednej klasy lub gdy liczba elementów partycji dostatecznie mała (spada poniżej pewnego zadanego progu).



<< Poprzedni slajd | Spis treści | Następny slajd >>