Eksploracja danych: Różnice pomiędzy wersjami
(Nie pokazano 57 wersji utworzonych przez 3 użytkowników) | |||
Linia 1: | Linia 1: | ||
== Forma zajęć == | |||
Wykład (30 godzin) + laboratorium (30 godzin) | |||
== Opis == | == Opis == | ||
Celem | Rozwój technologii systemów baz danych, hurtowni danych oraz repozytoriów danych, z jednej strony, z drugiej, upowszechnienie systemów informatycznych w najróżniejszych dziedzinach zastosowań, takich jak: administracja, przemysł, bankowość, handel, nauka, itp., wreszcie, powszechność korzystania z sieci WWW, jako globalnego systemu informatycznego, spowodowało nagromadzenie olbrzymich wolumenów danych i informacji. Ta eksplozja gromadzonych i przetwarzanych danych spowodowała, że „toniemy” w gromadzonych danych. Ta powódź danych i potrzeba wydobycia z tych danych użytecznej wiedzy legła u podstaw rozwoju technologii eksploracji danych, obejmującej metody i algorytmy automatycznej analizy i eksploracji danych. Celem wykładu jest zapoznanie studentów z podstawowymi pojęciami, metodami i algorytmami technologii eksploracji danych. Wykład jest ilustrowany licznymi przykładami zastosowań prezentowanych metod i algorytmów, oraz ćwiczeniami laboratoryjnymi. | ||
== Sylabus == | == Sylabus == | ||
=== Autorzy === | === Autorzy === | ||
Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie: | |||
* | * prof. dr hab. inż. Tadeusz Morzy | ||
* Mikołaj Morzy | * dr inż. Mikołaj Morzy | ||
* mgr inż. Anna Leśniewska | |||
=== Wymagania wstępne === | === Wymagania wstępne === | ||
* | * Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych. | ||
=== Zawartość === | === Zawartość === | ||
* | |||
* | '''Wykłady:''' | ||
* | |||
* | * Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. (2 godz.)Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym. | ||
* | * Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. (7 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje. | ||
* | * Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. (4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji. | ||
* | * Czwarty moduł poświęcony jest problematyce klasyfikacji. (6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji. | ||
* Piąty moduł poświęcony jest tematyce grupowania. (4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów. | |||
* Szósty moduł poświęcony jest eksploracji tekstu. (4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych. | |||
* Ostatni moduł porusza tematykę eksploracji sieci Web. (3 godz.) Przedstawiono tutaj zagadnienia związane z klasyfikacją metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów. | |||
'''Laboratoria:''' | |||
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. Głównym zadaniem laboratorium jest ilustracja zagadnień przedstawianych podczas wykładu. W trakcie laboratorium studenci zapoznają się z komercyjnym systemem eksploracji na przykładzie Oracle Data Mining i implementują wybrane algorytmy eksploracji danych przy użyciu języka PL/SQL. | |||
* Moduł pierwszy poświęcony jest procesowi przygotowaniu danych, które mają zostać poddane procesowi eksploracji. (3 godz.) Omówione zostały tutaj zagadnienia związane z wstępnym przetwarzaniem danych, takie jak dyskretyzacja, normalizacja, identyfikacja osobliwości. | |||
* Moduł drugi związany jest z dalszym etapem przetwarzania danych i przedstawia dostępne metody określania ważności atrybutów (2 godz.). | |||
* Moduł trzeci rozpoczyna cykl kursu ilustrujący wykorzystanie metod eksploracji danych. (3 godz.) Przedstawiono tutaj podstawowe metody i algorytmy odkrywania reguł asocjacyjnych. | |||
* Moduł czwarty poświęcony jest tematyce ekstrakcji cech. (2 godz.) Student zapoznaje się z tematyką odkrywania cech z wykorzystaniem algorytmu Non-Negative Matrix Factorization. | |||
* Moduł piąty przedstawia problematykę klasyfikacji. (9 godz.) Przedstawiono tutaj następujące techniki klasyfikacji: naiwny klasyfikator Bayesa, adaptatywna sieć Bayesa, indukcja drzew decyzyjnych, algorytm Support Vector Machines. | |||
* Kolejny moduł prezentuje techniki związane z problematyką analizy skupień. (4 godz.) Przedstawiono tutaj metody grupowania z wykorzystaniem algorytmów k-średnich (k-Means) oraz algorytmu O-Cluster. | |||
* Moduł siódmy poświęcony jest tematyce regresji oraz wykrywaniu anomalii. (2 godz.) W ramach tego modułu przedstawiono metodę regresji z wykorzystaniem algorytmu One-Class-SVM. | |||
* Moduł ósmy poświęcony jest problematyce odkrywania osobliwości (ang. outliers). (2 godz.) W ramach laboratorium przeprowadzono ćwiczenie z wykorzystaniem algorytmu SVM. | |||
* Ostatni moduł przybliża tematykę eksploracji danych tekstowych. (3 godz.) Moduł ten ilustruje w pierwszej części kroki wstępne niezbędne do przetwarzania tekstu w środowisku SQL, oraz za pomocą narzędzia Oracle Data Miner, jak i wykorzystanie narzędzia ODM bezpośrednio do eksploracji danych tekstowych. | |||
=== Literatura === | === Literatura === | ||
* | |||
* Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000 | |||
* Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000 | |||
* Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001 | |||
* Systemy uczące się, P. Cichosz, WNT, 2000 | |||
* Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004 | |||
== Moduły == | |||
=== Wykłady === | |||
# Wprowadzenie [[ED-4.2-m01-1.0-toc|WIKI]], [[media:ED-4.2-m01-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m01-1.0.pdf|PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m01.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m01.flash-1.0/player.html FLASH] | |||
# Odkrywanie asocjacji [[ED-4.2-m02-1.0-toc|WIKI]], [[media:ED-4.2-m02-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m02-1.0.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m02.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m02.flash-1.0/player.html FLASH] | |||
# Algorytmy odkrywania binarnych reguł asocjacyjnych [[ED-4.2-m03-1.0-toc|WIKI]], [[media:ED-4.2-m03-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m03-1.0.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m03.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m03.flash-1.0/player.html FLASH] | |||
# Wielopoziomowe i wielowymiarowe reguły asocjacyjne [[ED-4.2-m04-1.0-toc|WIKI]], [[media:ED-4.2-m04-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m04-1.0.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m04.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m04.flash-1.0/player.html FLASH] | |||
# Odkrywanie wzorców sekwencji I [[ED-4.2-m05-1.0-toc|WIKI]], [[media:ED-4.2-m05-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m05-1.0.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m05.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m05.flash-1.0/player.html FLASH] | |||
# Odkrywanie wzorców sekwencji II [[ED-4.2-m06-1.0-toc|WIKI]], [[media:ED-4.2-m06-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m06-1.0.pdf|PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m06.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m06.flash-1.0/player.html FLASH] | |||
# Klasyfikacja I [[ED-4.2-m07-1.0-toc|WIKI]], [[media:ED-4.2-m07-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m07-1.0.pdf|PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m07.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m07.flash-1.0/player.html FLASH] | |||
# Klasyfikacja II [[ED-4.2-m08-1.0-toc|WIKI]], [[media:ED-4.2-m08-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m08-1.0.pdf|PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m08.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m08.flash-1.0/player.html FLASH] | |||
# Klasyfikacja III [[ED-4.2-m09-1.0-toc|WIKI]], [[media:ED-4.2-m09-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m09-1.0.pdf|PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m09.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m09.flash-1.0/player.html FLASH] | |||
# Grupowanie I, [[ED-4.2-m10-1.0-toc |WIKI]], [[media:ED-4.2-m10-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m10-1.01.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m10.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m10.flash-1.0/player.html FLASH] | |||
# Grupowanie II, [[ED-4.2-m11-1.0-toc |WIKI]], [[media:ED-4.2-m11-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m11-1.01.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m11.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m11.flash-1.0/player.html FLASH] | |||
# Eksploracja tekstu I, [[ED-4.2-m12-1.0-toc |WIKI]], [[media:ED-4.2-m12-1.0-kolor1.pdf|PDFk]], [[media:ED-4.2-m12-1.01.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m12.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m12.flash-1.0/player.html FLASH] | |||
# Eksploracja tekstu II [[ED-4.2-M13-1.0-toc |WIKI]], [[media:ED-4.2-m13-1.0-kolor.pdf|PDFk]], [[media:ED-4.2-m13-1.01.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m13.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m13.flash-1.0/player.html FLASH] | |||
# Eksploracja sieci Web [[ED-4.2-m14-1.0-toc |WIKI]], [[media:ED-4.2-m14-1.0-kolor.pdf |PDFk]], [[media:ED-4.2-m14-1.0.pdf |PDF]], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m14.pytania-1.0/quizmaker.html TEST], [http://osilek.mimuw.edu.pl/external/ED/ED-4.2-m14.flash-1.0/player.html FLASH] | |||
===Laboratoria=== | |||
# Przygotowanie danych do eksploacji [[media:ED-4.2-m01-lab.doc|DOC]], [[media:ED-4.2-m01-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m01-lab.pdf|PDF]], [[ED-4.2-m01-lab|WIKI]] | |||
# Określanie ważności atrybutów [[media:ED-4.2-m02-lab.doc|DOC]], [[media:ED-4.2-m02-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m02-lab.pdf|PDF]], [[ED-4.2-m02-lab|WIKI]] | |||
# Odkrywanie reguł asocjacyjnych [[media:ED-4.2-m03-lab.doc|DOC]], [[media:ED-4.2-m03-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m03-lab.pdf|PDF]], [[ED-4.2-m03-lab|WIKI]] | |||
# Naiwny klasyfikator Bayesa [[media:ED-4.2-m04-lab.doc|DOC]], [[media:ED-4.2-m04-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m04-lab.pdf|PDF]], [[ED-4.2-m04-lab|WIKI]] | |||
# Adaptywna sieć Bayesa [[media:ED-4.2-m05-lab.doc|DOC]], [[media:ED-4.2-m05-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m05-lab.pdf|PDF]], [[ED-4.2-m05-lab|WIKI]] | |||
# Indukcja drzew decyzyjnych [[media:ED-4.2-m06-lab.doc|DOC]], [[media:ED-4.2-m06-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m06-lab.pdf|PDF]], [[ED-4.2-m06-lab|WIKI]] | |||
# Support Vector Machine (klasyfikacja) [[media:ED-4.2-m07-lab.doc|DOC]], [[media:ED-4.2-m07-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m07-lab.pdf|PDF]], [[ED-4.2-m07-lab|WIKI]] | |||
# Grupowanie (K-Means) [[media:ED-4.2-m08-lab.doc|DOC]], [[media:ED-4.2-m08-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m08-lab.pdf|PDF]], [[ED-4.2-m08-lab|WIKI]] | |||
# Grupowanie (O-Cluster) [[media:ED-4.2-m09-lab.doc|DOC]], [[media:ED-4.2-m09-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m09-lab.pdf|PDF]], [[ED-4.2-m09-lab|WIKI]] | |||
# Odkrywanie cech i algorytm Non-Negative Matrix Factorization [[media:ED-4.2-m10-lab.doc|DOC]], [[media:ED-4.2-m10-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m10-lab.pdf|PDF]], [[ED-4.2-m10-lab|WIKI]] | |||
# Regresja SVM [[media:ED-4.2-m11-lab.doc|DOC]], [[media:ED-4.2-m11-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m11-lab.pdf|PDF]], [[ED-4.2-m11-lab|WIKI]] | |||
# Odkrywanie osobliwości [[media:ED-4.2-m12-lab.doc|DOC]], [[media:ED-4.2-m12-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m12-lab.pdf|PDF]], [[ED-4.2-m12-lab|WIKI]] | |||
# Eksploracja danych tekstowych [[media:ED-4.2-m13-lab.doc|DOC]], [[media:ED-4.2-m13-lab-kolor.pdf|PDFk]], [[media:ED-4.2-m13-lab.pdf|PDF]], [[ED-4.2-m13-lab|WIKI]] | |||
====Materiały pomocnicze==== | |||
# [[preparation.plsql|Przygotowanie danych]] | |||
# [[ar.plsql|Odkrywanie reguł asocjacyjnych ]] | |||
# [[nnmf.plsql|Odkrywanie cech - algorytm Non-Negative Matrix Factorization]] | |||
# [[svm.reg.plsql|Regresja - algorytm SVM]] | |||
# [[svm.clas.plsql|Klasyfikacja - algorytm SVM ]] | |||
====Dodatkowe zasoby==== | |||
# [[media:gp400win32.zip|GnuPlot]] |
Aktualna wersja na dzień 09:56, 10 wrz 2006
Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
Opis
Rozwój technologii systemów baz danych, hurtowni danych oraz repozytoriów danych, z jednej strony, z drugiej, upowszechnienie systemów informatycznych w najróżniejszych dziedzinach zastosowań, takich jak: administracja, przemysł, bankowość, handel, nauka, itp., wreszcie, powszechność korzystania z sieci WWW, jako globalnego systemu informatycznego, spowodowało nagromadzenie olbrzymich wolumenów danych i informacji. Ta eksplozja gromadzonych i przetwarzanych danych spowodowała, że „toniemy” w gromadzonych danych. Ta powódź danych i potrzeba wydobycia z tych danych użytecznej wiedzy legła u podstaw rozwoju technologii eksploracji danych, obejmującej metody i algorytmy automatycznej analizy i eksploracji danych. Celem wykładu jest zapoznanie studentów z podstawowymi pojęciami, metodami i algorytmami technologii eksploracji danych. Wykład jest ilustrowany licznymi przykładami zastosowań prezentowanych metod i algorytmów, oraz ćwiczeniami laboratoryjnymi.
Sylabus
Autorzy
Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie:
- prof. dr hab. inż. Tadeusz Morzy
- dr inż. Mikołaj Morzy
- mgr inż. Anna Leśniewska
Wymagania wstępne
- Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.
Zawartość
Wykłady:
- Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. (2 godz.)Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
- Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. (7 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
- Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. (4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
- Czwarty moduł poświęcony jest problematyce klasyfikacji. (6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
- Piąty moduł poświęcony jest tematyce grupowania. (4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
- Szósty moduł poświęcony jest eksploracji tekstu. (4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
- Ostatni moduł porusza tematykę eksploracji sieci Web. (3 godz.) Przedstawiono tutaj zagadnienia związane z klasyfikacją metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.
Laboratoria:
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. Głównym zadaniem laboratorium jest ilustracja zagadnień przedstawianych podczas wykładu. W trakcie laboratorium studenci zapoznają się z komercyjnym systemem eksploracji na przykładzie Oracle Data Mining i implementują wybrane algorytmy eksploracji danych przy użyciu języka PL/SQL.
- Moduł pierwszy poświęcony jest procesowi przygotowaniu danych, które mają zostać poddane procesowi eksploracji. (3 godz.) Omówione zostały tutaj zagadnienia związane z wstępnym przetwarzaniem danych, takie jak dyskretyzacja, normalizacja, identyfikacja osobliwości.
- Moduł drugi związany jest z dalszym etapem przetwarzania danych i przedstawia dostępne metody określania ważności atrybutów (2 godz.).
- Moduł trzeci rozpoczyna cykl kursu ilustrujący wykorzystanie metod eksploracji danych. (3 godz.) Przedstawiono tutaj podstawowe metody i algorytmy odkrywania reguł asocjacyjnych.
- Moduł czwarty poświęcony jest tematyce ekstrakcji cech. (2 godz.) Student zapoznaje się z tematyką odkrywania cech z wykorzystaniem algorytmu Non-Negative Matrix Factorization.
- Moduł piąty przedstawia problematykę klasyfikacji. (9 godz.) Przedstawiono tutaj następujące techniki klasyfikacji: naiwny klasyfikator Bayesa, adaptatywna sieć Bayesa, indukcja drzew decyzyjnych, algorytm Support Vector Machines.
- Kolejny moduł prezentuje techniki związane z problematyką analizy skupień. (4 godz.) Przedstawiono tutaj metody grupowania z wykorzystaniem algorytmów k-średnich (k-Means) oraz algorytmu O-Cluster.
- Moduł siódmy poświęcony jest tematyce regresji oraz wykrywaniu anomalii. (2 godz.) W ramach tego modułu przedstawiono metodę regresji z wykorzystaniem algorytmu One-Class-SVM.
- Moduł ósmy poświęcony jest problematyce odkrywania osobliwości (ang. outliers). (2 godz.) W ramach laboratorium przeprowadzono ćwiczenie z wykorzystaniem algorytmu SVM.
- Ostatni moduł przybliża tematykę eksploracji danych tekstowych. (3 godz.) Moduł ten ilustruje w pierwszej części kroki wstępne niezbędne do przetwarzania tekstu w środowisku SQL, oraz za pomocą narzędzia Oracle Data Miner, jak i wykorzystanie narzędzia ODM bezpośrednio do eksploracji danych tekstowych.
Literatura
- Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
- Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
- Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
- Systemy uczące się, P. Cichosz, WNT, 2000
- Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004
Moduły
Wykłady
- Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
- Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
- Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
- Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
- Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
- Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
- Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
- Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH
Laboratoria
- Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
- Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
- Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
- Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
- Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
- Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
- Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
- Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
- Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
- Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
- Regresja SVM DOC, PDFk, PDF, WIKI
- Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
- Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI
Materiały pomocnicze
- Przygotowanie danych
- Odkrywanie reguł asocjacyjnych
- Odkrywanie cech - algorytm Non-Negative Matrix Factorization
- Regresja - algorytm SVM
- Klasyfikacja - algorytm SVM