Integracja danych: Różnice pomiędzy wersjami
Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Nie podano opisu zmian |
|||
(Nie pokazano 9 wersji utworzonych przez 3 użytkowników) | |||
Linia 1: | Linia 1: | ||
== Forma zajęć == | |||
Wykład (30 godzin) + laboratorium (30 godzin) | |||
== Opis == | == Opis == | ||
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych. | |||
== Sylabus == | == Sylabus == | ||
=== Autorzy === | === Autorzy === | ||
* | * Tadeusz Morzy | ||
* | * Mikołaj Morzy | ||
=== Wymagania wstępne === | === Wymagania wstępne: === | ||
* | |||
* | * Wstęp do programowania | ||
* Bazy danych i język SQL | |||
* XML | |||
* Wstęp do sieci komputerowych | |||
=== Zawartość === | === Zawartość === | ||
* | |||
* | * Wykłady: | ||
** Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych. | |||
** Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych). | |||
** Systemy sfederowanych baz danych oraz systemy mediacyjne. | |||
** Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf. | |||
** Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML. | |||
** Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql. | |||
** Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi. | |||
** Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych. | |||
** Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu. | |||
** Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni. | |||
** Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego. | |||
* Laboratorium: | |||
*Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2. | |||
*Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2. | |||
*Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
*Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
*Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | |||
*Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g. | |||
*Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g. | |||
*Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g. | |||
*Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase. | |||
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu. | |||
*Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań. | |||
*Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań. | |||
*Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g. | |||
=== Literatura === | === Literatura === | ||
* | |||
* | * Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4 | ||
* Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7 | |||
* Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006 | |||
* Dokumentacja techniczna systemu Oracle10g | |||
* Dokumentacja techniczna systemu MS SQL Server 2000 | |||
* Dokumentacja techniczna systemu IBM DB2 | |||
* Dokumentacja techniczna systemu Hyperion Essbase |
Aktualna wersja na dzień 14:30, 11 lip 2006
Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
Opis
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.
Sylabus
Autorzy
- Tadeusz Morzy
- Mikołaj Morzy
Wymagania wstępne:
- Wstęp do programowania
- Bazy danych i język SQL
- XML
- Wstęp do sieci komputerowych
Zawartość
- Wykłady:
- Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
- Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
- Systemy sfederowanych baz danych oraz systemy mediacyjne.
- Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
- Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.
- Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
- Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
- Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
- Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
- Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
- Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
- Laboratorium:
- Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
- Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
- Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
- Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
- Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.
- Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.
- Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
- Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
- Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.
Literatura
- Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
- Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7
- Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006
- Dokumentacja techniczna systemu Oracle10g
- Dokumentacja techniczna systemu MS SQL Server 2000
- Dokumentacja techniczna systemu IBM DB2
- Dokumentacja techniczna systemu Hyperion Essbase