ED-4.2-m08-1.0-Slajd23
Zysk informacyjny (6)
Zauważmy, że definicja entropii, przedstawiona na slajdzie 21 jest zagregowaną sumą wyrażeń I(s1j,s2j,…,smj) dla każdej partycji sj. Jeżeli podział zbioru S na partycje wg atrybutu A tworzy nam partycje czyste to dla każdej partycji sj wyrażenie I(s1j,s2j,…,smj) będzie równe 0 i zagregowana suma również będzie 0. Co oznacza, że wartość entropii podziału zbioru S na partycje czyste będzie wynosiła 0. Korzystając z tego faktu możemy obecnie zdefiniować miarę zysku informacyjnego wynikającego z podziału zbioru S na partycje wg atrybutu A. Zysk informacyjny definiujemy zgodnie ze wzorem przedstawionym na slajdzie. Zysk informacyjny wynikający z podziału zbioru S na partycje wg atrybutu A jest równy oczekiwanej ilości informacji niezbędnych do zaklasyfikowania danego przykładu należącego do zbioru S minus entropia atrybutu A. Zwróćmy uwagę, że zysk informacyjny oznacza oczekiwaną redukcję nieuporządkowania spowodowaną znajomością wartości atrybutu A.