Integracja danych: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Nie podano opisu zmian
 
(Nie pokazano 6 wersji utworzonych przez 3 użytkowników)
Linia 1: Linia 1:
== Autorzy: ==  
== Forma zajęć ==


Tadeusz Morzy
Wykład (30 godzin) + laboratorium (30 godzin)
Robert Wrembel


== Typ zajęć: ==
== Opis ==


Wykład (30 godz.) + laboratorium (30 godz.)
Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.  


== Opis: ==
== Sylabus ==


Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.
=== Autorzy ===
* Tadeusz Morzy
* Mikołaj Morzy


== Wymagania wstępne: ==
=== Wymagania wstępne: ===


* Wstęp do programowania
* Wstęp do programowania
Linia 19: Linia 20:
* Wstęp do sieci komputerowych
* Wstęp do sieci komputerowych


== Sylabus ==  
=== Zawartość ===


* Wykłady:  
* Wykłady:  


* Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
** Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
* Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
** Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
* Systemy sfederowanych baz danych oraz systemy mediacyjne.
** Systemy sfederowanych baz danych oraz systemy mediacyjne.
* Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
** Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
* Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.  
** Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.  
* Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
** Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
* Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
** Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
* Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
** Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
* Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
** Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
* Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
** Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
* Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
** Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.


* Laboratorium:   
* Laboratorium:   


Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
*Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
*Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
*Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
*Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
*Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
*Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
*Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.  
*Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.  
Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.
*Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.
Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.
Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
*Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
*Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.
*Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.


== Literatura: ==
=== Literatura ===


* Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
* Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4

Aktualna wersja na dzień 14:30, 11 lip 2006

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.

Sylabus

Autorzy

  • Tadeusz Morzy
  • Mikołaj Morzy

Wymagania wstępne:

  • Wstęp do programowania
  • Bazy danych i język SQL
  • XML
  • Wstęp do sieci komputerowych

Zawartość

  • Wykłady:
    • Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
    • Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
    • Systemy sfederowanych baz danych oraz systemy mediacyjne.
    • Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
    • Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.
    • Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
    • Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
    • Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
    • Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
    • Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
    • Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
  • Laboratorium:
  • Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
  • Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
  • Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
  • Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
  • Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.
  • Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.

Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.

  • Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
  • Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
  • Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.

Literatura

  • Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
  • Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7
  • Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006
  • Dokumentacja techniczna systemu Oracle10g
  • Dokumentacja techniczna systemu MS SQL Server 2000
  • Dokumentacja techniczna systemu IBM DB2
  • Dokumentacja techniczna systemu Hyperion Essbase