ED-4.2-m08-lab
Laboratorium 8
Grupowanie z wykorzystaniem algorytmu K-Means.
1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych.
2. Z menu głównego wybierz Activity→Build. Na ekranie powitalnym kliknij przycisk Dalej>.
3. Z listy Function Type wybierz Clustering. Rozwiń listę Algorithm i wybierz z niej algorytm K-Means. Kliknij przycisk Dalej>.
4. Wskaż schemat STUDENT i tabelę MINING_DATA_BUILD_V jako źródło danych do eksploracji. Jako klucz podstawowy wskaż atrybut CUST_ID. Kliknij przycisk Dalej>.
5. Podaj nazwę i krótki opis procesu eksploracji. Kliknij przycisk Dalej>.
6. Kliknij przycisk Advanced Settings. Upewnij się, że na zakładce Sample opcja próbkowania jest wyłączona (pole wyboru Enable Step jest odznaczone). Analogicznie upewnij się, że wyłączone są kroki Outlier Treatement, Missing Values i Normalize. Przejdź na zakładkę Build, wpisz wartość 20 jako liczba klastrów (Number of Clusters). Wybierz euklidesową funkcję odległości (Distance Function - Euclidean), oraz Split Criterion ustaw na Size. Kliknij przycisk OK.
7. Upewnij się, że opcja Run upon finish jest włączona. Kliknij przycisk Zakończ.
8. Kliknij na odnośnik Result w bloku Build. Zaznacz opcję Show Leaves Only.
9. Przejdź na zakładkę Rules. Zaznacz opcję Only Show Rules for Leaf Clusters. Wybierz dowolny klaster i przeanalizuj atrybuty, które trafiają do wybranego klastra.
Ćwiczenie samodzielne
Na podstawie tabeli PRACOWNICY zbuduj następującą perspektywę:
SQL> desc pracownicy_v
Name Null? Type
-------- --------------------
NAZWISKO VARCHAR2(15)
ETAT VARCHAR2(10)
ROK NUMBER
PLACA_POD NUMBER(6,2)
PLACA_DOD NUMBER(6,2)
ID_ZESP NUMBER(2)
ID_SZEFA NUMBER(4)
ID_PRAC NOT NULL NUMBER(4)
Utworzoną przez siebie perspektywę wykorzystaj do zbudowania modelu znajdującego n grup najbardziej podobnych do siebie pracowników (wartość n wyznacz eksperymentalnie). Do znalezienia grup zastosuj algorytm k-Means. Wyświetl informacje o uzyskanym modelu.
Aby zobaczyć działanie algorytmu, zastosuj zbudowany przez siebie model do zawartości perspektywy PRACOWNICY_V. Zwróć uwagę, jak algorytm przydziela profesorów do grup. Ostatecznym celem ćwiczenia jest napisanie zapytania, które wyświetli przypisanie pracowników do poszczególnych grup (wraz z prawdopodobieństwem przypisania pracownika do danej grupy). Postaraj się uzyskać podobny efekt:
NAZWISKO ETAT CLUSTER_ID PROBABILITY
---------- ---------- -----------
BLAZEWICZ PROFESOR 4 .9972
SLOWINSKI PROFESOR 4 .904
WEGLARZ DYREKTOR 6 .9999
BRZEZINSKI PROFESOR 7 .9343
MORZY PROFESOR 7 .9254
KROLIKOWSKI ADIUNKT 8 .6857
BIALY STAZYSTA 8 .9286
ZAKRZEWICZ STAZYSTA 8 .9791
KOSZLAJDA ADIUNKT 8 .8453
JEZIERSKI ASYSTENT 8 .7038
MATYSIAK ASYSTENT 8 .904
MAREK SEKRETARKA 9 .9575
KONOPKA ASYSTENT 9 .9036
HAPKE ASYSTENT 9 .598
UWAGA:
Pamiętaj, aby dane przetwarzane przez algorytm k-Means poddać normalizacji!