Integracja danych: Różnice pomiędzy wersjami
Linia 1: | Linia 1: | ||
== | == Autorzy: == | ||
Tadeusz Morzy | |||
Robert Wrembel | |||
== Typ zajęć: == | |||
Wykład (30 godz.) + laboratorium (30 godz.) | |||
== Opis: == | |||
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych. | |||
== Wymagania wstępne: == | |||
* Wstęp do programowania | |||
* Bazy danych i język SQL | |||
* XML | |||
* Wstęp do sieci komputerowych | |||
== Sylabus == | |||
* Wykłady: | |||
* Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych. | |||
* Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych). | |||
* Systemy sfederowanych baz danych oraz systemy mediacyjne. | |||
* Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf. | |||
Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML. | |||
* Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql. | |||
* Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi. | |||
* Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych. | |||
* Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu. | |||
* Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni. | |||
* Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego. | |||
* Laboratorium: | |||
Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2. | |||
Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2. | |||
Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g. | |||
Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g. | |||
Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g. | |||
Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase. | |||
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu. | |||
Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań. | |||
Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań. | |||
Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g. | |||
== Literatura: == | |||
* Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4 | |||
* Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7 | |||
* Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006 | |||
* Dokumentacja techniczna systemu Oracle10g | |||
* Dokumentacja techniczna systemu MS SQL Server 2000 | |||
* Dokumentacja techniczna systemu IBM DB2 | |||
* Dokumentacja techniczna systemu Hyperion Essbase | |||
== Sylabus == | == Sylabus == |
Wersja z 15:44, 12 cze 2006
Autorzy:
Tadeusz Morzy Robert Wrembel
Typ zajęć:
Wykład (30 godz.) + laboratorium (30 godz.)
Opis:
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.
Wymagania wstępne:
- Wstęp do programowania
- Bazy danych i język SQL
- XML
- Wstęp do sieci komputerowych
Sylabus
- Wykłady:
- Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
- Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
- Systemy sfederowanych baz danych oraz systemy mediacyjne.
- Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.
- Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
- Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
- Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
- Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
- Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
- Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
- Laboratorium:
Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2. Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2. Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g. Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g. Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g. Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase. Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu. Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań. Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań. Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.
Literatura:
- Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
- Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7
- Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006
- Dokumentacja techniczna systemu Oracle10g
- Dokumentacja techniczna systemu MS SQL Server 2000
- Dokumentacja techniczna systemu IBM DB2
- Dokumentacja techniczna systemu Hyperion Essbase
Sylabus
Autorzy
- Autor 1
- Autor 2
Wymagania wstępne
- Przedmiot 1
- Przedmiot 2
Zawartość
- Treść 1
- Treść 2
Literatura
- Pozycja 1
- Pozycja 2