Eksploracja danych: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
ALesniewska (dyskusja | edycje)
ALesniewska (dyskusja | edycje)
Linia 16: Linia 16:


* '''Wykłady:'''  
* '''Wykłady:'''  
** Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych.(2 godz.) Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
** Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
** Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji.(6 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
** Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
** Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji.(4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
** Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
** Czwarty moduł poświęcony jest problematyce klasyfikacji.(6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
** Czwarty moduł poświęcony jest problematyce klasyfikacji. W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
** Piąty moduł poświęcony jest tematyce grupowania.(4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
** Piąty moduł poświęcony jest tematyce grupowania. W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
** Szósty moduł poświęcony jest eksploracji tekstu.(4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
** Szósty moduł poświęcony jest eksploracji tekstu. Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
** Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja plików logu.
** Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.


* '''Laboratoria:'''  
* '''Laboratoria:'''  

Wersja z 19:31, 3 wrz 2006

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.

Sylabus

Autorzy

Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie: prof. dr hab. inż. Tadeusz Morzy, dr inż. Mikołaj Morzy oraz mgr inż. Anna Leśniewska.

Wymagania wstępne

  • Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

  • Wykłady:
    • Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
    • Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
    • Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
    • Czwarty moduł poświęcony jest problematyce klasyfikacji. W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
    • Piąty moduł poświęcony jest tematyce grupowania. W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
    • Szósty moduł poświęcony jest eksploracji tekstu. Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
    • Ostatni moduł porusza tematykę eksploracji sieci Web.(2 godz.) Przedstawiono tutaj klasyfikacje metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.
  • Laboratoria:
    • Przygotowanie danych przy pomocy PL/SQL
    • Określenie ważności atrybutów
    • Odkrywanie reguł asocjacyjnych
    • Naiwny klasyfikator Bayesa
    • Adaptatywna sieć Bayesa
    • Drzewo decyzyjne
    • Analiza skupień - algorytm k-Means
    • Analiza skupień - algorytm O-Cluster
    • Odkrywanie cech - algorytm Non-Negative Matrix Factorization
    • Regresja - algorytm SVM
    • Klasyfikacja - algorytm SVM
    • Odkrywanie osobliwości - algorytm SVM
    • Przetwarzanie tekstu

Literatura

  • Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
  • Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
  • Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
  • Systemy uczące się, P. Cichosz, WNT, 2000

Moduły

Wykłady

  1. Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
  2. Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
  3. Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
  4. Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
  5. Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
  6. Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
  7. Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
  8. Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
  9. Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
  10. Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
  11. Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
  12. Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
  13. Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
  14. Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH

Laboratoria

  1. Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
  2. Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
  3. Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
  4. Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
  5. Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
  6. Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
  7. Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
  8. Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
  9. Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
  10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
  11. Regresja SVM DOC, PDFk, PDF, WIKI
  12. Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
  13. Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI


Materiały pomocnicze

  1. Przygotowanie danych
  2. Odkrywanie reguł asocjacyjnych
  3. Odkrywanie cech - algorytm Non-Negative Matrix Factorization
  4. Regresja - algorytm SVM
  5. Klasyfikacja - algorytm SVM

Dodatkowe zasoby

  1. GnuPlot