Integracja danych: Różnice pomiędzy wersjami
Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Nie podano opisu zmian |
|||
(Nie pokazano 5 wersji utworzonych przez 3 użytkowników) | |||
Linia 1: | Linia 1: | ||
== | == Forma zajęć == | ||
Wykład (30 godzin) + laboratorium (30 godzin) | |||
== Opis == | |||
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych. | |||
== Sylabus == | |||
=== Autorzy === | |||
* Tadeusz Morzy | |||
* Mikołaj Morzy | |||
== Wymagania wstępne: == | === Wymagania wstępne: === | ||
* Wstęp do programowania | * Wstęp do programowania | ||
Linia 18: | Linia 20: | ||
* Wstęp do sieci komputerowych | * Wstęp do sieci komputerowych | ||
== | === Zawartość === | ||
* Wykłady: | * Wykłady: | ||
* Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych. | ** Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych. | ||
* Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych). | ** Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych). | ||
* Systemy sfederowanych baz danych oraz systemy mediacyjne. | ** Systemy sfederowanych baz danych oraz systemy mediacyjne. | ||
* Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf. | ** Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf. | ||
* Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML. | ** Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML. | ||
* Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql. | ** Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql. | ||
* Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi. | ** Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi. | ||
* Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych. | ** Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych. | ||
* Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu. | ** Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu. | ||
* Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni. | ** Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni. | ||
* Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego. | ** Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego. | ||
* Laboratorium: | * Laboratorium: | ||
Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2. | *Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2. | ||
Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2. | *Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2. | ||
Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | *Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | ||
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | *Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | ||
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | *Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g. | ||
Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g. | *Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g. | ||
Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g. | *Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g. | ||
Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g. | *Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g. | ||
Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase. | *Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase. | ||
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu. | Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu. | ||
Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań. | *Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań. | ||
Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań. | *Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań. | ||
Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g. | *Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g. | ||
== Literatura | === Literatura === | ||
* Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4 | * Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4 |
Aktualna wersja na dzień 14:30, 11 lip 2006
Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
Opis
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.
Sylabus
Autorzy
- Tadeusz Morzy
- Mikołaj Morzy
Wymagania wstępne:
- Wstęp do programowania
- Bazy danych i język SQL
- XML
- Wstęp do sieci komputerowych
Zawartość
- Wykłady:
- Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
- Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
- Systemy sfederowanych baz danych oraz systemy mediacyjne.
- Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
- Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.
- Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
- Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
- Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
- Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
- Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
- Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
- Laboratorium:
- Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
- Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
- Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
- Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
- Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
- Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.
- Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.
- Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
- Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
- Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.
Literatura
- Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
- Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7
- Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006
- Dokumentacja techniczna systemu Oracle10g
- Dokumentacja techniczna systemu MS SQL Server 2000
- Dokumentacja techniczna systemu IBM DB2
- Dokumentacja techniczna systemu Hyperion Essbase