ED-4.2-m01-lab

From Studia Informatyczne

Laboratorium 1

Przygotowanie danych do eksploracji.

1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych.

2. Z menu głównego wybierz Data→Transform→Discretize.

3. Po wyświetleniu ekranu powitalnego wybierz przycisk Dalej>

Image:ED-4_2-m01-lab_01.png


4. Wybierz schemat STUDENT i tabelę MINING_BUILD_TEXT, upewnij się, że zaznaczona jest opcja Single record per case. Kliknij przycisk Dalej>.

Image:ED-4_2-m01-lab_02.png


5. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_DISCRETIZED) oraz opis słowny perspektywy. Kliknij przycisk Dalej>.

Image:ED-4_2-m01-lab_03.png

6. Upewnij się, że atrybut CUST_ID został zaznaczony jako unikalny (nie będzie brany pod uwagę w procesie eksploracji). Zwróć uwagę, że niektóre atrybuty typu NUMBER zostały zidentyfikowane jako atrybuty kategoryczne – dotyczy to atrybutów o niewielkiej liczbie różnych wartości. Kliknij przycisk Dalej>.

Image:ED-4_2-m01-lab_04.png


7. Zaznacz atrybut AGE. Zwróć uwagę na rozpiętość wartości: minimalnej, średniej i maksymalnej. Kliknij przycisk Equal Width. Wybierz opcję Specify maximum number of bins i wpisz wartość 5. Atrybut AGE zostanie podzielony na 5 przedziałów o równej szerokości. Kliknij przycisk OK.

Image:ED-4_2-m01-lab_05.png

8. Następnie, zaznacz atrybut YRS_RESIDENCE i kliknij przycisk Quantile Binning. Wybierz opcję Specify maximum number of bins i wpisz wartość 5. Atrybut YRS_RESIDENCE zostanie podzielony na 5 równolicznych grup. Aby zakończyć, kliknij przycisk OK. Kliknij przycisk Dalej>.

Image:ED-4_2-m01-lab_06.png


9. Obejrzyj listę atrybutów kategorycznych, zwróć uwagę na atrybuty o dużej liczbie wartości. Zaznacz atrybut COUNTRY_NAME. Kliknij przycisk Top N. W pole Specify maximum number of bins wpisz wartość 5. Kliknij przycisk OK. W perspektywie wynikowej pozostanie 5 najczęściej pojawiających się nazw krajów, a wszystkie pozostałe kraje zostaną umieszczone w zbiorczej kategorii Others.

Image:ED-4_2-m01-lab_07.png

10. Zaznacz atrybut CUST_MARITAL_STATUS i kliknij przycisk Define. Kliknij przycisk Add. W pole Bin Category wpisz Single. W polu All Distinct Values zaznacz wartość Divorced i kliknij przycisk Image:ED-4_2-m01-lab_08.png

Następnie zaznacz wartość NeverM i ponownie kliknij przycisk. Na koniec zaznacz wartość Widowed i kliknij przycisk. Kliknij przycisk OK. W tym momencie ekran komputera powinien wyglądać następująco.

Image:ED-4_2-m01-lab_09.png

11. W analogiczny sposób przygotuj kategorię Relationship i włącz do niej wartości Mabsetn, Married, Separ. Po zakończeniu ekran komputera powinien wyglądać następująco.

Image:ED-4_2-m01-lab_10.png

12. Kliknij przycisk Dalej>. Kliknij przycisk Zakończ. Rozwiń drzewo obiektów po lewej stronie ekranu i przejdź do student@miner→Data Sources→STUDENT→Views. Zaznacz perspektywę MINING_BUILD_TEXT_DISCRETIZED. W głównym oknie przejdź do prawego panelu i kliknij na zakładkę Data. Zwróć uwagę na wartości w atrybutach AGE, COUNTRY_NAME, CUST_MARITAL_STATUS i YRS_RESIDENCE.

Image:ED-4_2-m01-lab_11.png


13. Kliknij na zakładkę View Lineage. Przeanalizuj kod perspektywy wynikowej realizującej poszczególne kroki dyskretyzacji.

Image:ED-4_2-m01-lab_12.png

14. Z menu głównego wybierz Data→Transform→Normalize. Na ekranie powitalnym kliknij przycisk Dalej>. Wybierz schemat STUDENT. Wybierz ponownie tabelę MINING_BUILD_TEXT. Kliknij przycisk Dalej>. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_NORMALIZED) i krótki opis zawartości perspektywy (np. zawartość tabeli MINING_BUILD_TEXT po normalizacji). Kliknij przycisk Dalej>.

15. Zaznacz atrybut AGE. Przeanalizuj statystyki związane z atrybutem. Kliknij przycisk Define. Z listy dostępnych transformacji wybierz transformację MinMax (pierwsza pozycja na liście). Jako nową wartość minimalną wpisz 0 a jako nową wartość maksymalną wpisz 10. Kliknij przycisk Refresh. Kliknij przycisk OK.

Image:ED-4_2-m01-lab_13.png


16. Zaznacz atrybut YRS_RESIDENCE i kliknij przycisk Define. Z listy dostępnych transformacji wybierz normalizację przez odchylenia standardowe (druga pozycja na liście). Kliknij przycisk Refresh. Kliknij przycisk OK. Kliknij przycisk Dalej>.

Image:ED-4_2-m01-lab_14.png

17. Kliknij przycisk Preview Transform. Zwróć uwagę na wartości atrybutów AGE i YRS_RESIDENCE. Kliknij na zakładce SQL i obejrzyj kod perspektywy dokonującej normalizacji atrybutów numerycznych. Kliknij przycisk OK. Kliknij przycisk Zakończ.

Image:ED-4_2-m01-lab_15.png


18. Z menu głównego wybierz Data→Transform→Outlier Treatment. Na ekranie powitalnym kliknij przycisk Dalej>. Wybierz schemat STUDENT. Wybierz tabelę MINING_BUILD_TEXT_NORMALIZED. Kliknij przycisk Dalej>. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_NOOUTLIERS) i opis zawartości perspektywy (zawartość perspektywy MINING_BUILD_TEXT_NORMALIZED po usunięciu osobliwości). Kliknij przycisk Dalej>.

19. Upewnij się, że atrybut CUST_ID jest zaznaczony jako unikalny. Sprawdź, czy poszczególne atrybuty zostały poprawnie zaklasyfikowane jako kategoryczne lub numeryczne. Kliknij przycisk Dalej>.

20. Zaznacz atrybut AGE. Kliknij przycisk Define. Wybierz wielokrotność odchylenia standardowego jako preferowaną metodę identyfikacji osobliwości, jako wartość graniczną wpisz 3 (dane odległe o więcej niż 3 wartości odchylenia standardowego od średniej zostaną uznane za osobliwości). Upewnij się, że u dołu okna zaznaczona jest wartość Replace with nulls. Kliknij przycisk OK.

Image:ED-4_2-m01-lab_16.png

21. Zaznacz atrybut YRS_RESIDENCE. Kliknij przycisk Define. Wybierz procent wartości granicznych jako preferowaną metodę identyfikacji osobliwości, jako wartość dolnego i górnego odcięcia wpisz 5% (po 5% najniższych i najwyższych wartości zostanie uznanych za osobliwości). Upewnij się, że u dołu okna zaznaczona jest wartość Replace with edge values. Kliknij przycisk OK. Kliknij przycisk Dalej>.

22. Kliknij przycisk Preview Transform i znajdź wiersze, w których znaleziono osobliwości w atrybucie AGE. Czy możesz zidentyfikować wiersze, w których osobliwości wystąpiły w atrybucie YRS_RESIDENCE? Kliknij na zakładce SQL i obejrzyj kod perspektywy dokonującej identyfikacji osobliwości. Czy potrafisz dostrzec poważną wadę wykorzystywanego narzędzia?

23. Połącz się z bazą danych wykorzystując iSQLPlus. Wykonaj skrypt preparation.sql. Po każdym kroku przeanalizuj uzyskane wyniki (komentarz jest umieszczony wewnątrz skryptu).