Eksploracja danych: Różnice pomiędzy wersjami

Wersja z 19:31, 3 wrz 2006

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.

Sylabus

Autorzy

Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie: prof. dr hab. inż. Tadeusz Morzy, dr inż. Mikołaj Morzy oraz mgr inż. Anna Leśniewska.

Wymagania wstępne

Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

Wykłady:
- Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
- Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
- Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
- Czwarty moduł poświęcony jest problematyce klasyfikacji. W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
- Piąty moduł poświęcony jest tematyce grupowania. W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
- Szósty moduł poświęcony jest eksploracji tekstu. Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
- Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.

Laboratoria:
- Przygotowanie danych przy pomocy PL/SQL
- Określenie ważności atrybutów
- Odkrywanie reguł asocjacyjnych
- Naiwny klasyfikator Bayesa
- Adaptatywna sieć Bayesa
- Drzewo decyzyjne
- Analiza skupień - algorytm k-Means
- Analiza skupień - algorytm O-Cluster
- Odkrywanie cech - algorytm Non-Negative Matrix Factorization
- Regresja - algorytm SVM
- Klasyfikacja - algorytm SVM
- Odkrywanie osobliwości - algorytm SVM
- Przetwarzanie tekstu

Literatura

Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
Systemy uczące się, P. Cichosz, WNT, 2000

Moduły

Wykłady

Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH

Laboratoria

Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
Regresja SVM DOC, PDFk, PDF, WIKI
Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI

Materiały pomocnicze

Dodatkowe zasoby

GnuPlot

@@ Linia 16: / Linia 16: @@
 * '''Wykłady:'''
-** Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych.(2 godz.) Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
+** Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
-** Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji.(6 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
+** Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
-** Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji.(4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
+** Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
-** Czwarty moduł poświęcony jest problematyce klasyfikacji.(6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
+** Czwarty moduł poświęcony jest problematyce klasyfikacji. W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
-** Piąty moduł poświęcony jest tematyce grupowania.(4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
+** Piąty moduł poświęcony jest tematyce grupowania. W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
-** Szósty moduł poświęcony jest eksploracji tekstu.(4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
+** Szósty moduł poświęcony jest eksploracji tekstu. Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
-** Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja plików logu.
+** Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.
 * '''Laboratoria:'''

Eksploracja danych: Różnice pomiędzy wersjami

Wersja z 19:31, 3 wrz 2006

Spis treści

Forma zajęć

Opis

Sylabus

Autorzy

Wymagania wstępne

Zawartość

Literatura

Moduły

Wykłady

Laboratoria

Materiały pomocnicze

Dodatkowe zasoby

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia