Eksploracja danych: Różnice pomiędzy wersjami
Nie podano opisu zmian |
|||
Linia 6: | Linia 6: | ||
== Sylabus == | == Sylabus == | ||
=== Autorzy === | === Autorzy === | ||
* Tadeusz Morzy | * Tadeusz Morzy | ||
Linia 14: | Linia 15: | ||
=== Zawartość === | === Zawartość === | ||
Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), | |||
Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), eksploracja tekstu oraz eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych. | |||
====Wykłady==== | |||
* Wprowadzenie do eksploracji danych - co to jest eksploracja? metody i zastosowania | |||
* Odkrywanie asocjacji - wprowadzenie, sformułowanie problemu, typy reguł asocjacyjnych | |||
* Algorytmy odkrywania binarnych reguł asocjacyjnych - algorytmy A-Priori oraz FP-Growth | |||
* Wielopoziomowe i wielowymiarowe reguły asocjacyjne - wielopoziomowe reguły asocjacyjne, wielowymiarowe reguły asocjacyjne, asocjacje vs. korelacje | |||
* Odkrywanie wzorców sekwencji - sformułowanie problemu, algorytm GSP | |||
* Odkrywanie wzorców sekwencji - algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji | |||
* Klasyfikacja - sformułowanie problemu, metody klasyfikacji, kryteria oceny metod klasyfikacji | |||
* Klasyfikacja - kryteria podziału Indeks Gini oraz Zysk Informacyjny | |||
* Klasyfikacja - obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładność klasyfikacji | |||
* Grupowanie - wprowadzenie, definicja problemu, klasyfikacja metod grupowania, grupowanie hierarchiczne | |||
* Grupowanie - iteracyjno-optymalizacyjne metody grupowania, algorytm k-średnich, algorytm k-medoidów | |||
* Eksploracja tekstu - wprowadzenie do problemu, wyszukiwanie dokumentów, reprezentacje tekstu | |||
* Eksploracja tekstu - ukryte indeksowanie semantyczne SVD, struktury danych | |||
* Eksploracja sieci Web - klasyfikacja metod, algorytm Page Rank, Hubs&Authorities | |||
====Laboratoria==== | |||
* Przygotowanie danych przy pomocy | |||
* Określenie ważności atrybutów | |||
* Odkrywanie reguł asocjacyjnych | |||
* Naiwny klasyfikator Bayesa | |||
* Adaptatywna sieć Bayesa | |||
* Drzewo decyzyjne | |||
* Analiza skupień - algorytm k-Means | |||
* Analiza skupień - algorytm O-Cluster | |||
* Odkrywanie cech - algorytm Non-Negative Matrix Factorization | |||
* Regresja - algorytm SVM | |||
* Klasyfikacja - algorytm SVM | |||
* Odkrywanie osobliwości - algorytm SVM | |||
* Przetwarzanie tekstu | |||
=== Literatura === | === Literatura === | ||
* Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000 | * Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000 | ||
* Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000 | * Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000 |
Wersja z 10:31, 30 sie 2006
Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
Opis
Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.
Sylabus
Autorzy
- Tadeusz Morzy
- Mikołaj Morzy
Wymagania wstępne
- Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.
Zawartość
Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), eksploracja tekstu oraz eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych.
Wykłady
- Wprowadzenie do eksploracji danych - co to jest eksploracja? metody i zastosowania
- Odkrywanie asocjacji - wprowadzenie, sformułowanie problemu, typy reguł asocjacyjnych
- Algorytmy odkrywania binarnych reguł asocjacyjnych - algorytmy A-Priori oraz FP-Growth
- Wielopoziomowe i wielowymiarowe reguły asocjacyjne - wielopoziomowe reguły asocjacyjne, wielowymiarowe reguły asocjacyjne, asocjacje vs. korelacje
- Odkrywanie wzorców sekwencji - sformułowanie problemu, algorytm GSP
- Odkrywanie wzorców sekwencji - algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji
- Klasyfikacja - sformułowanie problemu, metody klasyfikacji, kryteria oceny metod klasyfikacji
- Klasyfikacja - kryteria podziału Indeks Gini oraz Zysk Informacyjny
- Klasyfikacja - obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładność klasyfikacji
- Grupowanie - wprowadzenie, definicja problemu, klasyfikacja metod grupowania, grupowanie hierarchiczne
- Grupowanie - iteracyjno-optymalizacyjne metody grupowania, algorytm k-średnich, algorytm k-medoidów
- Eksploracja tekstu - wprowadzenie do problemu, wyszukiwanie dokumentów, reprezentacje tekstu
- Eksploracja tekstu - ukryte indeksowanie semantyczne SVD, struktury danych
- Eksploracja sieci Web - klasyfikacja metod, algorytm Page Rank, Hubs&Authorities
Laboratoria
- Przygotowanie danych przy pomocy
- Określenie ważności atrybutów
- Odkrywanie reguł asocjacyjnych
- Naiwny klasyfikator Bayesa
- Adaptatywna sieć Bayesa
- Drzewo decyzyjne
- Analiza skupień - algorytm k-Means
- Analiza skupień - algorytm O-Cluster
- Odkrywanie cech - algorytm Non-Negative Matrix Factorization
- Regresja - algorytm SVM
- Klasyfikacja - algorytm SVM
- Odkrywanie osobliwości - algorytm SVM
- Przetwarzanie tekstu
Literatura
- Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
- Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
- Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
- Systemy uczące się, P. Cichosz, WNT, 2000
Moduły
Wykłady
- Wprowadzenie WIKI, PDFk, PDF, TEST
- Odkrywanie asocjacji WIKI, PDFk, PDF, TEST
- Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST
- Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST
- Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST
- Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST
- Klasyfikacja I WIKI, PDFk, PDF, TEST
- Klasyfikacja II WIKI, PDFk, PDF, TEST
- Klasyfikacja III WIKI, PDFk, PDF, TEST
- Grupowanie I, WIKI, PDFk, TEST
- Grupowanie II, WIKI, PDFk, TEST
- Eksploracja tekstu I, WIKI, PDFk, TEST
- Eksploracja tekstu II WIKI, PDFk, TEST
- Eksploracja sieci Web WIKI, PDFk, TEST
Laboratoria
- Przygotowanie danych do eksploacji DOC, PDFk, PDF
- Określanie ważności atrybutów DOC, PDFk, PDF
- Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF
- Naiwny klasyfikator Bayesa DOC, PDFk, PDF
- Adaptywna sieć Bayesa DOC, PDFk, PDF
- Indukcja drzew decyzyjnych DOC, PDFk, PDF
- Support Vector Machine (klasyfikacja) DOC, PDFk, PDF
- Grupowanie (K-Means) DOC, PDFk, PDF
- Grupowanie (O-Cluster) DOC, PDFk, PDF
- Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF
- Regresja SVM DOC, PDFk, PDF
- Odkrywanie osobliwości DOC, PDFk, PDF
- Eksploracja danych tekstowych DOC, PDFk, PDF
Materiały pomocnicze
- Przygotowanie danych
- Odkrywanie reguł asocjacyjnych
- Odkrywanie cech - algorytm Non-Negative Matrix Factorization
- Regresja - algorytm SVM
- Klasyfikacja - algorytm SVM