ED-4.2-m08-1.0-Slajd30
Przykład 2 (7)
Okazuje się z dalszych obliczeń, że najlepszym atrybutem testowym dla partycji S1 jest atrybut Student, charakteryzujący się największym zyskiem informacyjnym, który dzieli partycję S1 na dwie partycje, które są partycjami czystymi. Dla wartości atrybutu Student = nie otrzymujemy partycję, której wszystkie rekordy należą do klasy C2. Natomiast dla wartości atrybutu Student = tak wszystkie rekordy należą do klasy kupi komputer = tak. W przypadku partycji S3 najlepszym atrybutem testowym jest atrybut Status, który dzieli rekordy partycji S3 na dwie partycje. Pierwsza partycja zawiera wszystkie rekordy, dla których Status = żonaty. Druga partycja zawiera rekordy, dla których Status = kawaler. Obie otrzymane partycje są czyste. Partycja związana z atrybutem Status z wartością żonaty tworzy wszystkie rekordy należą do C2. Natomiast w przypadku atrybutu Status = kawaler, wszystkie rekordy należą do klasy C1. Ostateczna postać drzewa decyzyjnego, uzyskanego metodą indukcji z wykorzystaniem jako kryterium miary zysku informacyjnego jest przedstawiona na slajdzie. Zauważmy, że pojawiły się dwa nowe wierzchołki (punkty podziału) związane z atrybutem Status oraz z atrybutem Student. To kończy konstrukcję drzewa decyzyjnego i rozważany przez nas przykład.
<< Poprzedni slajd | Spis treści | Następny slajd >>