Eksploracja danych: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
ALesniewska (dyskusja | edycje)
ALesniewska (dyskusja | edycje)
Nie podano opisu zmian
Linia 6: Linia 6:


== Sylabus ==
== Sylabus ==
=== Autorzy ===
=== Autorzy ===
* Tadeusz Morzy
* Tadeusz Morzy
Linia 14: Linia 15:


=== Zawartość ===
=== Zawartość ===
Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), analiza podobieństw przebiegów czasowych, indeksowanie przebiegów czasowych, eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych
 
 
Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), eksploracja tekstu oraz eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych.
 
====Wykłady====
 
* Wprowadzenie do eksploracji danych - co to jest eksploracja? metody i zastosowania
* Odkrywanie asocjacji - wprowadzenie, sformułowanie problemu, typy reguł asocjacyjnych
* Algorytmy odkrywania binarnych reguł asocjacyjnych - algorytmy A-Priori oraz FP-Growth
* Wielopoziomowe i wielowymiarowe reguły asocjacyjne - wielopoziomowe reguły asocjacyjne, wielowymiarowe reguły asocjacyjne, asocjacje vs. korelacje
* Odkrywanie wzorców sekwencji - sformułowanie problemu, algorytm GSP
* Odkrywanie wzorców sekwencji - algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji
* Klasyfikacja - sformułowanie problemu, metody klasyfikacji, kryteria oceny metod klasyfikacji
* Klasyfikacja - kryteria podziału Indeks Gini oraz Zysk Informacyjny
* Klasyfikacja - obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładność klasyfikacji
* Grupowanie - wprowadzenie, definicja problemu, klasyfikacja metod grupowania, grupowanie hierarchiczne
* Grupowanie - iteracyjno-optymalizacyjne metody grupowania, algorytm k-średnich, algorytm k-medoidów
* Eksploracja tekstu - wprowadzenie do problemu, wyszukiwanie dokumentów, reprezentacje tekstu
* Eksploracja tekstu - ukryte indeksowanie semantyczne SVD, struktury danych
* Eksploracja sieci Web - klasyfikacja metod, algorytm Page Rank, Hubs&Authorities
 
====Laboratoria====
 
* Przygotowanie danych przy pomocy
* Określenie ważności atrybutów
* Odkrywanie reguł asocjacyjnych
* Naiwny klasyfikator Bayesa
* Adaptatywna sieć Bayesa
* Drzewo decyzyjne
* Analiza skupień - algorytm k-Means
* Analiza skupień - algorytm O-Cluster
* Odkrywanie cech - algorytm Non-Negative Matrix Factorization
* Regresja - algorytm SVM
* Klasyfikacja - algorytm SVM
* Odkrywanie osobliwości - algorytm SVM
* Przetwarzanie tekstu


=== Literatura ===
=== Literatura ===
* Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
* Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
* Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
* Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000

Wersja z 10:31, 30 sie 2006

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.

Sylabus

Autorzy

  • Tadeusz Morzy
  • Mikołaj Morzy

Wymagania wstępne

  • Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), eksploracja tekstu oraz eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych.

Wykłady

  • Wprowadzenie do eksploracji danych - co to jest eksploracja? metody i zastosowania
  • Odkrywanie asocjacji - wprowadzenie, sformułowanie problemu, typy reguł asocjacyjnych
  • Algorytmy odkrywania binarnych reguł asocjacyjnych - algorytmy A-Priori oraz FP-Growth
  • Wielopoziomowe i wielowymiarowe reguły asocjacyjne - wielopoziomowe reguły asocjacyjne, wielowymiarowe reguły asocjacyjne, asocjacje vs. korelacje
  • Odkrywanie wzorców sekwencji - sformułowanie problemu, algorytm GSP
  • Odkrywanie wzorców sekwencji - algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji
  • Klasyfikacja - sformułowanie problemu, metody klasyfikacji, kryteria oceny metod klasyfikacji
  • Klasyfikacja - kryteria podziału Indeks Gini oraz Zysk Informacyjny
  • Klasyfikacja - obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładność klasyfikacji
  • Grupowanie - wprowadzenie, definicja problemu, klasyfikacja metod grupowania, grupowanie hierarchiczne
  • Grupowanie - iteracyjno-optymalizacyjne metody grupowania, algorytm k-średnich, algorytm k-medoidów
  • Eksploracja tekstu - wprowadzenie do problemu, wyszukiwanie dokumentów, reprezentacje tekstu
  • Eksploracja tekstu - ukryte indeksowanie semantyczne SVD, struktury danych
  • Eksploracja sieci Web - klasyfikacja metod, algorytm Page Rank, Hubs&Authorities

Laboratoria

  • Przygotowanie danych przy pomocy
  • Określenie ważności atrybutów
  • Odkrywanie reguł asocjacyjnych
  • Naiwny klasyfikator Bayesa
  • Adaptatywna sieć Bayesa
  • Drzewo decyzyjne
  • Analiza skupień - algorytm k-Means
  • Analiza skupień - algorytm O-Cluster
  • Odkrywanie cech - algorytm Non-Negative Matrix Factorization
  • Regresja - algorytm SVM
  • Klasyfikacja - algorytm SVM
  • Odkrywanie osobliwości - algorytm SVM
  • Przetwarzanie tekstu

Literatura

  • Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
  • Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
  • Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
  • Systemy uczące się, P. Cichosz, WNT, 2000

Moduły

Wykłady

  1. Wprowadzenie WIKI, PDFk, PDF, TEST
  2. Odkrywanie asocjacji WIKI, PDFk, PDF, TEST
  3. Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST
  4. Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST
  5. Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST
  6. Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST
  7. Klasyfikacja I WIKI, PDFk, PDF, TEST
  8. Klasyfikacja II WIKI, PDFk, PDF, TEST
  9. Klasyfikacja III WIKI, PDFk, PDF, TEST
  10. Grupowanie I, WIKI, PDFk, TEST
  11. Grupowanie II, WIKI, PDFk, TEST
  12. Eksploracja tekstu I, WIKI, PDFk, TEST
  13. Eksploracja tekstu II WIKI, PDFk, TEST
  14. Eksploracja sieci Web WIKI, PDFk, TEST

Laboratoria

  1. Przygotowanie danych do eksploacji DOC, PDFk, PDF
  2. Określanie ważności atrybutów DOC, PDFk, PDF
  3. Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF
  4. Naiwny klasyfikator Bayesa DOC, PDFk, PDF
  5. Adaptywna sieć Bayesa DOC, PDFk, PDF
  6. Indukcja drzew decyzyjnych DOC, PDFk, PDF
  7. Support Vector Machine (klasyfikacja) DOC, PDFk, PDF
  8. Grupowanie (K-Means) DOC, PDFk, PDF
  9. Grupowanie (O-Cluster) DOC, PDFk, PDF
  10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF
  11. Regresja SVM DOC, PDFk, PDF
  12. Odkrywanie osobliwości DOC, PDFk, PDF
  13. Eksploracja danych tekstowych DOC, PDFk, PDF


Materiały pomocnicze

  1. Przygotowanie danych
  2. Odkrywanie reguł asocjacyjnych
  3. Odkrywanie cech - algorytm Non-Negative Matrix Factorization
  4. Regresja - algorytm SVM
  5. Klasyfikacja - algorytm SVM

Dodatkowe zasoby

  1. GnuPlot