Eksploracja danych

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Celem przedmiotu jest zapoznanie studentów z podstawowymi pojęciami, koncepcjami i metodami technologii eksploracji danych.

Sylabus

Autorzy

Tadeusz Morzy
Mikołaj Morzy
Anna Leśniewska

Wymagania wstępne

Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

Program przedmiotu obejmuje następujące zagadnienia: wprowadzenie do eksploracji danych; koncepcja i architektura systemów eksploracji danych; omówienie wybranych metod i algorytmów eksploracji danych, dziedziny zastosowań metod eksploracji danych. Metody te obejmują: odkrywanie asocjacji jednopoziomowych, odkrywanie asocjacji uogólnionych (wielopoziomowych), odkrywanie asocjacji ilościowych, metody dyskretyzacji atrybutów ciągłych, korelacja a asocjacje, odkrywanie wzorców sekwencji, metody klasyfikacji obiektów, wybrane metody grupowania obiektów (analiza skupień), eksploracja tekstu oraz eksploracja danych w sieci Web. Dyskusja możliwości i ograniczeń stosowalności metod eksploracji danych.

Wykłady

Wprowadzenie do eksploracji danych - co to jest eksploracja? metody i zastosowania
Odkrywanie asocjacji - wprowadzenie, sformułowanie problemu, typy reguł asocjacyjnych
Algorytmy odkrywania binarnych reguł asocjacyjnych - algorytmy A-Priori oraz FP-Growth
Wielopoziomowe i wielowymiarowe reguły asocjacyjne - wielopoziomowe reguły asocjacyjne, wielowymiarowe reguły asocjacyjne, asocjacje vs. korelacje
Odkrywanie wzorców sekwencji - sformułowanie problemu, algorytm GSP
Odkrywanie wzorców sekwencji - algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji
Klasyfikacja - sformułowanie problemu, metody klasyfikacji, kryteria oceny metod klasyfikacji
Klasyfikacja - kryteria podziału Indeks Gini oraz Zysk Informacyjny
Klasyfikacja - obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładność klasyfikacji
Grupowanie - wprowadzenie, definicja problemu, klasyfikacja metod grupowania, grupowanie hierarchiczne
Grupowanie - iteracyjno-optymalizacyjne metody grupowania, algorytm k-średnich, algorytm k-medoidów
Eksploracja tekstu - wprowadzenie do problemu, wyszukiwanie dokumentów, reprezentacje tekstu
Eksploracja tekstu - ukryte indeksowanie semantyczne SVD, struktury danych
Eksploracja sieci Web - klasyfikacja metod, algorytm Page Rank, Hubs&Authorities

Laboratoria

Przygotowanie danych przy pomocy
Określenie ważności atrybutów
Odkrywanie reguł asocjacyjnych
Naiwny klasyfikator Bayesa
Adaptatywna sieć Bayesa
Drzewo decyzyjne
Analiza skupień - algorytm k-Means
Analiza skupień - algorytm O-Cluster
Odkrywanie cech - algorytm Non-Negative Matrix Factorization
Regresja - algorytm SVM
Klasyfikacja - algorytm SVM
Odkrywanie osobliwości - algorytm SVM
Przetwarzanie tekstu

Literatura

Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
Systemy uczące się, P. Cichosz, WNT, 2000

Moduły

Wykłady

Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH

Laboratoria

Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
Regresja SVM DOC, PDFk, PDF, WIKI
Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI

Materiały pomocnicze

Dodatkowe zasoby

GnuPlot

Eksploracja danych

Spis treści

Forma zajęć

Opis

Sylabus

Autorzy

Wymagania wstępne

Zawartość

Wykłady

Laboratoria

Literatura

Moduły

Wykłady

Laboratoria

Materiały pomocnicze

Dodatkowe zasoby

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia