ED-4.2-m08-1.0-Slajd5: Różnice pomiędzy wersjami
Nie podano opisu zmian |
|||
Linia 4: | Linia 4: | ||
Zanim przedstawimy szczegółowo mechanizm konstrukcji binarnego drzewa decyzyjnego zgodnie z algorytmem SPRINT, wprowadzimy dodatkowo dwie niezbędne definicje. Definicja 1 wartości indeksu gini dla zbioru S. Niech S oznacza zbiór przykładów należących do n klas. W danym węźle pj określa względną częstość występowania klasy j w zbiorze S. Wówczas wartość indeksu gini dla zbioru S jest równa różnicy przedstawionej na slajdzie | Zanim przedstawimy szczegółowo mechanizm konstrukcji binarnego drzewa decyzyjnego zgodnie z algorytmem SPRINT, wprowadzimy dodatkowo dwie niezbędne definicje. Definicja 1 wartości indeksu gini dla zbioru S. Niech S oznacza zbiór przykładów należących do n klas. W danym węźle pj określa względną częstość występowania klasy j w zbiorze S. Wówczas wartość indeksu gini dla zbioru S jest równa różnicy przedstawionej na slajdzie. Przykładowo, jeżeli założymy, że zbiór S zawiera tylko i wyłącznie dwie klasy oznaczone Pos (pozytywne) i Neg (negatywne). Zakładamy, że mamy p elementów należących do klasy Pos i n elementów należących do klasy Neg, wówczas względna częstość występowania klasy Pos w zbiorze S wynosi p/(p+n). Natomiast względna częstość występowania klasy Neg w zbiorze S wynosi n/(n+p). Wartość indeksu gini dla zbioru S jest równa 1 - Ppos^2 - Pneg^2. | ||
Aktualna wersja na dzień 10:07, 10 wrz 2006
Indeks Gini (4)
Zanim przedstawimy szczegółowo mechanizm konstrukcji binarnego drzewa decyzyjnego zgodnie z algorytmem SPRINT, wprowadzimy dodatkowo dwie niezbędne definicje. Definicja 1 wartości indeksu gini dla zbioru S. Niech S oznacza zbiór przykładów należących do n klas. W danym węźle pj określa względną częstość występowania klasy j w zbiorze S. Wówczas wartość indeksu gini dla zbioru S jest równa różnicy przedstawionej na slajdzie. Przykładowo, jeżeli założymy, że zbiór S zawiera tylko i wyłącznie dwie klasy oznaczone Pos (pozytywne) i Neg (negatywne). Zakładamy, że mamy p elementów należących do klasy Pos i n elementów należących do klasy Neg, wówczas względna częstość występowania klasy Pos w zbiorze S wynosi p/(p+n). Natomiast względna częstość występowania klasy Neg w zbiorze S wynosi n/(n+p). Wartość indeksu gini dla zbioru S jest równa 1 - Ppos^2 - Pneg^2.