Eksploracja danych
Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
Opis
Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.
Sylabus
Autorzy
Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie:
- prof. dr hab. inż. Tadeusz Morzy
- dr inż. Mikołaj Morzy
- mgr inż. Anna Leśniewska
Wymagania wstępne
- Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.
Zawartość
Wykłady:
- Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
- Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
- Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
- Czwarty moduł poświęcony jest problematyce klasyfikacji. W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
- Piąty moduł poświęcony jest tematyce grupowania. W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
- Szósty moduł poświęcony jest eksploracji tekstu. Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
- Ostatni moduł porusza tematykę eksploracji sieci Web. Przedstawiono tutaj zagadnienia związane z klasyfikacją metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.
Laboratoria:
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. Głównym zadaniem laboratorium jest ilustracja zagadnień przedstawianych podczas wykładu. W trakcie laboratorium studenci zapoznają się z komercyjnym systemem eksploracji na przykładzie Oracle Data Mining i implementują wybrane algorytmy eksploracji danych przy użyciu języka PL/SQL.
W trakcie zajęć studenci zapoznają się z następującymi zagadnieniami:
- Wstępne przetwarzanie danych: dyskretyzacja, normalizacja, identyfikacja osobliwości
- Metody określania ważności atrybutów
- Reguły asocjacyjne
- Ekstrakcja cech, algorytm NNMF
- Klasyfikacja: naiwny klasyfikator Bayesa, adaptatywna sieć Bayesa
- Klasyfikacja: indukcja drzew decyzyjnych, algorytm Support Vector Machines
- Analiza skupień: algorytmy k-średnich i O-Cluster
- Regresja i wykrywanie anomalii za pomocą algorytmu One-Class-SVM
Literatura
- Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
- Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
- Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
- Systemy uczące się, P. Cichosz, WNT, 2000
Moduły
Wykłady
- Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
- Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
- Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
- Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
- Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH
Laboratoria
- Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
- Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
- Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
- Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
- Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
- Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
- Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
- Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
- Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
- Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
- Regresja SVM DOC, PDFk, PDF, WIKI
- Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
- Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI
Materiały pomocnicze
- Przygotowanie danych
- Odkrywanie reguł asocjacyjnych
- Odkrywanie cech - algorytm Non-Negative Matrix Factorization
- Regresja - algorytm SVM
- Klasyfikacja - algorytm SVM