Sztuczna inteligencja/SI Moduł 9 - Wnioskowanie indukcyjne

From Studia Informatyczne


Spis treści

Wnioskowanie indukcyjne

W rozdziale tym wyjaśnimy co rozumiemy pod pojęciem wnioskowania indukcyjnego i sformalizujemy je matematycznie. Następnie przedstawimy zasadę uczenia z nauczycielem i podamy kilka przykładów.

Obiekty i atrybuty

Załóżmy, że zajmujemy się zbiorem obiektów O \, i interesuje nas zauważenie pewnych prawidłowości w tym zbiorze, opisywanych za pomocą funkcji \phi:O \rightarrow V \,.

Zbiór O \, jest zbiorem elementów związanych ze światem rzeczywistym, np. samochodów, roślin, firm, klientów banku itp. Elementy te są często charakteryzowane za pomocą pewnej liczby mierzalnych cech, zwanych atrybutami. Na przykład w przypadku klientów banku atrybutami mogą być np. numer PESEL, adres zamieszkania, stan cywilny, wysokość miesięcznych dochodów itp. Z kolei w przypadku samochodu może być to marka, typ silnika, rodzaj nadwozia, rodzaj skrzyni biegów, typowe zużycie paliwa itp.

Atrybuty charakteryzują elementy ze zbioru O \, i możemy je traktować jako funkcje postaci a: O \rightarrow A \,, gdzie A \, jest dziedziną wartości atrybutu. Ponieważ każdy element zbioru O \, może być charakteryzowany przez więcej niż jeden atrybut, przyjmiemy, że atrybuty są numerowane kolejnymi liczbami począwszy od jedności. Tak więc każdy obiekt o \in O \, jest opisany za pomocą wektora wartości atrybutów [a_1(o),...., a_n(o)] \,. .

W niektórych przypadkach identyfikacja obiektu przez zbiór wartości atrybutów jest jednoznaczna (w praktyce numer PESEL wystarcza do identyfikacji obywatela Polski). Wtedy możliwe jest z technicznego punktu widzenia utożsamienie zbioru O \, ze zbiorem D=A_1 \times ... \times A_n \,, gdzie A_1, ... , A_n \, oznaczają zbiory wartości kolejnych atrybutów.

Są jednak przypadki, gdy nie można mówić o jednoznaczności opisu obiektu za pomocą wartości atrybutów. Prostym przykładem może być baza danych osobowych, w której notuje się imiona, nazwiska i daty urodzenia, bez numeru PESEL, NIP, ani żadnego dokumentu tożsamości unikalnym numerze. Wówczas należy się liczyć z sytuacją, gdy wiele różnych osób będzie scharakteryzowanych za pomocą takiego samego zestawu danych.

Zadanie wnioskowania indukcyjnego

Przyjmijmy, że istnieje pewna nieznana funkcja \phi:O \rightarrow V \, oraz zbiór funkcji a_i \,, zwanych atrybutami, których zbiory wartości są oznaczane przez A_1,..., A_n \,. Oznaczmy D=A_1 \times ... \times A_n \,. Załóżmy także, że dysponujemy pewną liczbą obserwacji w postaci par \{{\mathbf x}, v \} \, gdzie {\mathbf x}=[a_1(o),...., a_n(o)] \, oraz v=\phi(o) \,.

W dalszym ciągu tekstu będziemy zakładać dla większej przejrzystości że zbiór atrybutów wystarcza do jednoznacznej identyfikacji obiektów, a odstępstwa od tego założenia będziemy traktować jako swoisty wyjątek. Przyjmując wspomniane założenie, można uprościć rozważania i przyjąć, że interesuje nas funkcja f:D \rightarrow V \,, która jest zdefiniowana następująco f([a_1(o),...., a_n(o)])=\phi(o) \,.

Wnioskowanie indukcyjne polega na wyznaczeniu funkcji g:D \rightarrow V \, w taki sposób, aby jak najlepiej przybliżała ona funkcję f \,. Innymi słowy, wnioskowanie indukcyjne to aproksymacja funkcji f \, funkcją g \,.

W zależności od dziedziny D \, i przeciwdziedziny V \, aproksymowanej funkcji f \,, mówi się o różnych odmianach zadania wnioskowania indukcyjnego. Wymienimy tu dwie podstawowe odmiany.

Jeśli V \, jest zbiorem skończonym (nierzadko zakłada się po prostu, że V=\{0,1\} \,), to elementy tego zbioru są często interpretowane jako etykiety klas i taką odmianę wnioskowania indukcyjnego nazywa się często uczeniem się klasyfikacji. Funkcja f \, bywa nazywana pojęciem docelowym, zaś funkcja g \, - hipotezą.

Z kolei jeśli D=R^n \, oraz V=R \, mówi się często o zadaniu regresji. Niekiedy zadanie regresji utożsamia się po prostu z zadaniem aproksymacji.

Wyróżnienie zadań regresji i klasyfikacji ma jeszcze jeden powód, związany z rodzajami modeli wykorzystywanych w tych podejściach. W przypadku realizacji zadań klasyfikacji funkcja g \, jest typowo złożonym wyrażeniem logicznym, dla wygody przetwarzania przedstawianym jako drzewo decyzyjne lub zbiór reguł decyzyjnych. Z kolei w zadaniach regresji funkcja g \, jest zazwyczaj wyrażeniem arytmetycznym, nierzadko o złożonej postaci.

Wnioskowanie indukcyjne jako zadanie przeszukiwania

Oznaczmy przez \Omega \, zbiór wszystkich funkcji postaci D \rightarrow V \,, tj. zbiór funkcji przyjmujących argumenty ze zbioru D \, i zwracających wartości ze zbioru V \,. Aproksymowana funkcja f \, jest oczywiście elementem zbioru \Omega \,.

Załóżmy, że w zbiorze \Omega \, da się „pomierzyć odległość” między dwiema dowolnymi funkcjami, a zatem istnieje funkcja |\cdot| : \Omega \times \Omega \rightarrow R_+ \, , która jest metryką w zbiorze \Omega \,. Z punktu widzenia zadania aproksymacji możemy powiedzieć, że dla dowolnych funkcji f_1, f_2 \in \Omega \, odległość |f_1, f_2| \, jest błędem aproksymacji funkcji f_1 \, za pomocą funkcji f_2 \,.

Przykład 1

Niech \Omega \, będzie zbiorem funkcji postaci [0,1] \rightarrow [-1,1] \, (a zatem D=[0,1] \,, V=[-1,1] \,). Załóżmy też, że metryka w zbiorze \Omega \, będzie miała postać

|f_1, f_2| = \int_0^1 [f_1(x)-f_2(x)]^2 d x  \,

(metrykę tę będziemy nazywać błędem kwadratowym).

Załóżmy, że aproksymowaną funkcją jest f(x)=(x-0.5)^2 \,, natomiast funkcje aproksymujące należą do zbioru funkcji opisanych wzorem g(x) = a\cos(bx+c)+d \,, gdzie a,b,c,d \, są parametrami. Zadanie aproksymacji polega na znalezieniu takich wartości parametrów, dla których błąd kwadratowy jest minimalny. Można się przekonać wykonując proste obliczenia numeryczne, że z pewnym przybliżeniem ma to miejsce dla wartości parametrów równych a=-0.25, \, b=3.06, \, c= -0.5, \, d=0.25, \, a zatem funkcja aproksymująca jest dana wzorem g(x)=-0.25 \cos(3.06x-1.53)+0.25 \,. Wykresy funkcji aproksymowanej (czerwony) i aproksymującej (niebieski) są umieszczone poniżej.

Grafika:SI M9 wykres 1.png

Zauważmy także, że przyjęta w przykładzie klasa funkcji G \, nie zawiera funkcji f \,, a zatem funkcja f \, nie da się aproksymować z zerowym błędem - jest nienauczalna.

Przykład 2

Niech \Omega \, będzie zbiorem funkcji postaci \{0,1\}^4 \rightarrow \{0,1\} \, (a zatem D=\{0,1\}^4 \,, V=\{0,1\} \,). Załóżmy też, że metryka w zbiorze \Omega \, będzie miała postać

|f_1, f_2| = \sum_{{\mathbf x} \in D} |f_1({\mathbf x})-f_2({\mathbf x})|.  \,

Zauważmy, że argumentem funkcji jest wektor czterobitowy.

Załóżmy, że aproksymowaną funkcją jest f({\mathbf x})=(x_1 \lor x_2) \land x_3 \lor x_4  \,, natomiast funkcje aproksymujące należą do zbioru funkcji opisanych wzorem g({\mathbf x}) = (x_i \land x_j) \or (x_k \land x_l)\or (x_m \land x_n) \,, gdzie i,j,k,l,m,n \, są numerami bitów wektora {\mathbf x} \,. Zadanie aproksymacji polega na znalezieniu takich wartości i,j,k,l,m,n \,, dla których błąd jest minimalny. Można się przekonać, że ma to miejsce dla i=1, j=3, k=2, l=3, m=4, n=4 \,, a zatem funkcja aproksymująca jest dana wzorem g({\mathbf x}) = (x_1 \land x_3) \lor (x_2 \land x_3)\or (x_4 \land x_4) \,. Zauważmy także, że przyjęta w przykładzie klasa funkcji G \, zawiera funkcję f \,, a zatem funkcja f \, da się aproksymować z zerowym błędem - jest nauczalna.

W indukcyjnym uczeniu zakłada się, że dysponujemy możliwością wygenerowania pewnej liczby funkcji aproksymujących. Oznaczmy zbiór wszystkich funkcji aproksymujących przez G \,. Naturalnie, każda funkcja należąca do G \, jest funkcją ze zbioru \Omega \,, a zatem G \subseteq \Omega \,. Zadanie aproksymacji polega więc na wyznaczeniu takiej funkcji g \in G \,, że wartość błędu aproksymacji |f,g| \, jest jak najmniejsza. Zadanie to jest realizowane przez przeszukiwanie zbioru G \,, a szczegóły techniczne sposobu realizacji tego zadania są omówione w wykładach poświęconych uczeniu się klasyfikacji, regresji nieliniowej i perceptronowi wielowarstwowemu.

Rzecz jasna, że jeśli f \in G \,, to istnieje dokładne rozwiązanie zadania aproksymacji (tzn. takie, dla którego f=g \,). Mówimy wówczas, że funkcja f \, jest nauczalna w klasie funkcji G \,. W przeciwnym przypadku, tzn. jeśli f \notin G \,, należy liczyć się z niezerowym błędem aproksymacji, zaś f \, jest nienauczalna.

Stopnie swobody modelu

Funkcje należące do klasy G \, są zazwyczaj reprezentowane w sposób wygodny do ich dalszego przetwarzania. Często przyjmuje się taki model funkcji aproksymującej, że jest ona dana wyrażeniem przyjmującym pewną liczbę parametrów (por. przykład 1), a zadanie aproksymacji sprowadza się do dobrania takich wartości tych parametrów, które prowadzą do minimalnego błędu aproksymacji. O parametrach tych mówi się, że są stopniami swobody modelu. W przypadku modeli nie opisywanych zbiorem parametrów, liczba stopni swobody jest pojęciem znacznie trudniejszym do wyłożenia (można ją np. wiązać z ilością danych potrzebnych do jednoznacznego określenia modelu), zdajmy się więc na intuicję i przyjmijmy, że liczba stopni swobody to miernik „komplikacji” modelu.

Zazwyczaj jest tak, że im większa liczba stopni swobody modelu, tym więcej funkcji można wyrazić za jego pomocą, a zatem tym liczniejsza jest rodzina funkcji G \,. Jest to z jednej strony zjawisko pozytywne, bo pozwala liczyć na to, że aproksymowana funkcja będzie zawarta w rodzinie G \,, albo przynajmniej w rodzinie G \, istnieje funkcja dająca mały błąd aproksymacji. Z drugiej jednak strony, im większa rodzina G \,, tym trudniejsze w realizacji jest zadanie przeszukiwania. Jak się przekonamy niżej, jest jeszcze jeden mankament wynikający z dużej liczby swobody, mianowicie zjawisko przeuczenia (lub inaczej nadmiernego dopasowania).

Możliwości pomiaru błędu aproksymacji

Pomiar błędu aproksymacji (tj. obliczenie wartości metryki dla dwóch funkcji z \Omega \,) wymaga pełnej znajomości obu rozważanych funkcji, tzn. możliwości obliczenia wartości każdej funkcji dla każdego argumentu. Jak założono wcześniej, nie jest to możliwe w przypadku funkcji aproksymowanej f \, - dla niej dysponujemy tylko zbiorem obserwacji. Tak więc w czasie realizacji wnioskowania indukcyjnego jako zadania przeszukiwania musimy się posługiwać przybliżoną wartością błędu aproksymacji, tzw. próbkowym błędem aproksymacji, lub po prostu błędem próbkowym.

Przykłady błędu próbkowego

W zbiorze \Omega \, funkcji postaci [0,1] \rightarrow [-1,1] \, zakładaliśmy, że metryka była określona jako

|f_1, f_2| = \int_0^1 [f_1(x)-f_2(x)]^2 d x  \,

Jeśli dysponujemy tylko zbiorem wartości funkcji f_1, f_2 \, w punktach należących do zbioru S \,, wówczas błąd próbkowy zdefiniujemy jako

e(f_1, f_2) = \frac{1}{N} \sum_{x \in S} [f_1(x)-f_2(x)]^2  \,

gdzie N \, jest liczebnością zbioru S \,. Błąd próbkowy opisany powyżej nosi nazwę błędu średniokwadratowego.

W zbiorze \Omega \, funkcji postaci \{0,1\}^4 \rightarrow \{0,1\} \, zakładaliśmy, że metryka była określona jako

|f_1, f_2| = \sum_{{\mathbf x} \in D} |f_1({\mathbf x})-f_2({\mathbf x})|.  \,

Jeśli dysponujemy tylko zbiorem wartości funkcji f_1, f_2 \, w punktach należących do zbioru S \,, wówczas błąd próbkowy zdefiniujemy jako

e(f_1, f_2) = \sum_{{\mathbf x} \in A} |f_1({\mathbf x})-f_2({\mathbf x})|  \,

Zauważmy, że w tym przypadku błąd próbkowy nie będzie nigdy mniejszy niż rzeczywisty błąd aproksymacji.

Fakt posługiwania się wartością przybliżoną jest źródłem poważnych kłopotów, gdyż minimalizacja błędu próbkowego niekoniecznie musi iść w parze z minimalizacją „prawdziwego” błędu aproksymacji. W szczególnie „złośliwych” przypadkach może się zdarzyć, że błąd aproksymacji wzrasta wraz ze zmniejszającym się błędem próbkowym. Typowym przykładem takiego przypadku jest zbyt duża liczba stopni swobody modelu, a co za tym idzie zbyt szeroka klasa funkcji G \, w porównaniu z zawartością całego zbioru \Omega \,. Mówi się wtedy, że zaszło nadmierne dopasowanie funkcji aproksymującej do danych albo przeuczenie modelu.

Przykład 3

Załóżmy ponownie, że \Omega \, jest zbiorem funkcji postaci [0,1] \rightarrow [-1,1] \, i że posługujemy się błędem kwadratowym i średniokwadratowym. Będziemy ponownie aproksymować funkcję f(x)=(x-0.5)^2 \,, tym razem jednak, w celu uzyskania większej dokładności, aproksymująca funkcja będzie postaci

g(x) = a_1\cos(b_1x+c_1)+a_2\cos(b_2x+c_2)+a_3\cos(b_3x+c_3)+d,  \,

jest więc opisana za pomocą jedenastu parametrów. Można się przekonać wykonując proste obliczenia numeryczne, że można uzyskać aproksymator o nieco mniejszym niż w przykładzie 1 błędzie kwadratowym przyjmując wartości parametrów: a_1=-0.110, \, b_1=3.142, \, c_1=-1.571, \, a_2=-0.660, \, b_2=2.100, \, c_2=-1.050, \, a_3=-0.076, \, b_3-3.600, \, c_3=-1.800, d=0.25 \, (jednak nie jest to raczej aproksymator o optymalnych wartościach parametrów). Wykres funkcji aproksymowanej (linia czerwona) i aproksymującej (linia niebieska) jest podany na poniższym rysunku

Grafika:SI M9 wykres 2.png

Jednak jeśli wyznaczamy parametry aproksymatora poprzez minimalizację próbkowego błędu średniokwadratowego, to może to doprowadzić do postaci funkcji g \, mającej niewiele wspólnego funkcją f \,. Jeśli aproksymator rozważany w tym przykładzie będzie wynikiem minimalizacji błędu średniokwadratowego, a zbiór trenujący ma postać


x \, f(x) \,
0 0.25
0.06 0.19
0.12 0.14
0.21 0.08
0.25 0.06
0.32 0.03
0.37 0.02
0.5 0
0.62 0.01
0.75 0.06
0.79 0.08
0.88 0.14
0.94 0.19
1 0.25

to parametry, dla których można doprowadzić do zerowego błędu aproksymacji są następujące: a_1=-0.11, \, b_1=3.14, \, c_1=-1.5708, \, a_2=-0.07, \, b_2=2.1, \, c_2=-1.0500, \, d=0.25, \, a_3=-0.08, \, b_3=46.5, \, c_3=-23.2500, d=0.25, \, a wykresy funkcji aproksymowanej (linia czerwona) i aproksymującej (linia niebieska) wyglądają jak poniżej.

Grafika:SI M9 wykres 3.png

Jak do tego doszło? Odpowiedź jest prosta - parametry aproksymatora zostały wyznaczone tak, aby wykres funkcji g \, przechodził jak najbliżej punktów zawartych w zbiorze trenującym. Określanie parametrów poprzez minimalizację błędu średniokwadratowego na zbiorze trenującym jest więc „ślepe” na punkt zawarte poza tym zbiorem, a wynik jest tym bardziej odmienny od możliwego do uzyskania przez minimalizację błędu kwadratowego, im więcej jest stopni swobody (w naszym przypadku parametrów) określających funkcję aproksymującą.

Zasada brzytwy Ockhama

Modelowanie jest procesem towarzyszącym nie tylko sztucznej inteligencji, matematyce, fizyce, chemii itp., ale również m.in. filozofii, teologii. Na gruncie tych ostatnich nauk została sformułowana słynna zasada, która mówi że „nie należy mnożyć bytów ponad potrzebę”, tzn. należy starać się tłumaczyć zjawiska w najprostszy możliwy sposób. Zasadę tę sformułował Ockham, od którego nazwiska pochodzi nazwa „brzytwy Ockhama”, którą „wycina się” zbędne byty (por. np. http://pl.wikipedia.org/wiki/Brzytwa_Ockhama).

Na gruncie sztucznej inteligencji, a w szczególności metod aproksymacji, dąży się zgodnie z zasadą brzytwy Ockhama do modeli o możliwie najmniejszej liczbie stopni swobody. Dzięki temu zmniejsza się niebezpieczeństwo przeuczenia modelu.

Zbiory trenujące i testowe

Zapobieganie nadmiernemu dopasowaniu jest przypuszczalnie najbardziej wyzywającym zadaniem uczenia z nauczycielem. Częściowe rozwiązanie tego problemu przynosi metoda polegająca na podzieleniu obserwacji, którymi się dysponuje w czasie uczenia, na dwa rozłączne podzbiory.

Pierwszy z nich, zwany zbiorem uczącym, jest wykorzystywany do szacowania próbkowego błędu aproksymacji w procesie poszukiwania funkcji aproksymującej minimalizującej ten błąd. Gdy już zostanie ona wyznaczona, przystępuje się do obliczenia próbkowego błędu aproksymacji na drugim zbiorze, zwanym zbiorem testowym.

Porównanie wartości obu błędów dostarcza pewnej informacji o tym, na ile realną groźbę stanowi nadmierne dopasowanie. Jeśli wartości obu błędów są porównywalne (zazwyczaj, choć nie zawsze, błąd na zbiorze uczącym będzie mniejszy), to niebezpieczeństwo nadmiernego dopasowania jest niewielkie. Natomiast duża różnica między oboma wartościami błędu próbkowego stanowi sygnał ostrzegawczy przed ryzykiem nadmiernego dopasowania.

Gdy zostanie powzięte podejrzenie o przeuczeniu modelu, trzeba próbować temu zaradzić. Jednym ze sposobów jest wykonanie ponownego podziału zbioru obserwacji na zbiór trenujący i testowy, i ponowne wykonanie modelu. Innym sposobem jest umiejętne zmniejszenie liczby stopni swobody wykorzystywanego modelu (a tym samym, zastąpienie zbioru funkcji aproksymujących G \, zbiorem G' \subset G \,) i powtórzenie procesu modelowania.