ED-4.2-m08-lab

From Studia Informatyczne

Laboratorium 8

Grupowanie z wykorzystaniem algorytmu K-Means.

1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych.

2. Z menu głównego wybierz Activity→Build. Na ekranie powitalnym kliknij przycisk Dalej>.

3. Z listy Function Type wybierz Clustering. Rozwiń listę Algorithm i wybierz z niej algorytm K-Means. Kliknij przycisk Dalej>.

Image:ED-4_2-m08-labWIKI_01.png

4. Wskaż schemat STUDENT i tabelę MINING_DATA_BUILD_V jako źródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. Kliknij przycisk Dalej>.

Image:ED-4_2-m08-labWIKI_02.png

5. Podaj nazwę i krótki opis procesu eksploracji. Kliknij przycisk Dalej>.

Image:ED-4_2-m08-labWIKI_03.png

6. Kliknij przycisk Advanced Settings. Upewnij się, że na zakładce Sample opcja próbkowania jest wyłączona (pole wyboru Enable Step jest odznaczone). Analogicznie upewnij się, że wyłączone są kroki Outlier Treatement, Missing Values i Normalize. Przejdź na zakładkę Build, wpisz wartość 20 jako liczba klastrów (Number of Clusters). Wybierz euklidesową funkcję odległości (Distance Function - Euclidean), oraz Split Criterion ustaw na Size. Kliknij przycisk OK.

Image:ED-4_2-m08-labWIKI_04.png

7. Upewnij się, że opcja Run upon finish jest włączona. Kliknij przycisk Zakończ.

Image:ED-4_2-m08-labWIKI_05.png

8. Kliknij na odnośnik Result w bloku Build. Zaznacz opcję Show Leaves Only.

Image:ED-4_2-m08-labWIKI_06.png

9. Przejdź na zakładkę Rules. Zaznacz opcję Only Show Rules for Leaf Clusters. Wybierz dowolny klaster i przeanalizuj atrybuty, które trafiają do wybranego klastra.

Image:ED-4_2-m08-labWIKI_07.png


Ćwiczenie samodzielne

Na podstawie tabeli PRACOWNICY zbuduj następującą perspektywę:

SQL> desc pracownicy_v

Name Null? Type


-------- --------------------

NAZWISKO VARCHAR2(15)

ETAT VARCHAR2(10)

ROK NUMBER

PLACA_POD NUMBER(6,2)

PLACA_DOD NUMBER(6,2)

ID_ZESP NUMBER(2)

ID_SZEFA NUMBER(4)

ID_PRAC NOT NULL NUMBER(4)

Utworzoną przez siebie perspektywę wykorzystaj do zbudowania modelu znajdującego n grup najbardziej podobnych do siebie pracowników (wartość n wyznacz eksperymentalnie). Do znalezienia grup zastosuj algorytm k-Means. Wyświetl informacje o uzyskanym modelu.

Aby zobaczyć działanie algorytmu, zastosuj zbudowany przez siebie model do zawartości perspektywy PRACOWNICY_V. Zwróć uwagę, jak algorytm przydziela profesorów do grup. Ostatecznym celem ćwiczenia jest napisanie zapytania, które wyświetli przypisanie pracowników do poszczególnych grup (wraz z prawdopodobieństwem przypisania pracownika do danej grupy). Postaraj się uzyskać podobny efekt:

NAZWISKO ETAT CLUSTER_ID PROBABILITY


---------- ---------- -----------

BLAZEWICZ PROFESOR 4 .9972

SLOWINSKI PROFESOR 4 .904

WEGLARZ DYREKTOR 6 .9999

BRZEZINSKI PROFESOR 7 .9343

MORZY PROFESOR 7 .9254

KROLIKOWSKI ADIUNKT 8 .6857

BIALY STAZYSTA 8 .9286

ZAKRZEWICZ STAZYSTA 8 .9791

KOSZLAJDA ADIUNKT 8 .8453

JEZIERSKI ASYSTENT 8 .7038

MATYSIAK ASYSTENT 8 .904

MAREK SEKRETARKA 9 .9575

KONOPKA ASYSTENT 9 .9036

HAPKE ASYSTENT 9 .598

UWAGA:

Pamiętaj, aby dane przetwarzane przez algorytm k-Means poddać normalizacji!