Integracja danych

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Forma zajęć

Wykład (30 godzin) + laboratorium (30 godzin)

Opis

Wykład obejmuje zagadnienia integracji danych pochodzących z rozproszonych i heterogenicznych źródeł. Źródłami takimi są m.in. bazy danych różnych producentów, arkusze kalkulacyjne, pliki tekstowe, pliki XML. W ramach wykładu są omawiane problemy związane z integracją danych i podstawowe architektury integracji, tj. systemy mediacyjne, sfederowane i hurtownie (magazyny) danych.

Sylabus

Autorzy

  • Tadeusz Morzy
  • Mikołaj Morzy

Wymagania wstępne:

  • Wstęp do programowania
  • Bazy danych i język SQL
  • XML
  • Wstęp do sieci komputerowych

Zawartość

  • Wykłady:
    • Problematyka integracji danych: problemy budowy rozproszonych baz danych; problemy integracji danych; architektura systemów sfederowanych; architektura systemów mediacyjnych; architektura hurtowni (magazynów) danych.
    • Komponenty programowe architektur integracji danych: oprogramowanie wrapper, integrator, monitor; rozwiązania praktyczne/komercyjne technik integracji danych (oprogramowanie typu gateway, sterowniki ODBC/OLE DB, dostęp do plików tekstowych).
    • Systemy sfederowanych baz danych oraz systemy mediacyjne.
    • Praktyczna realizacja architektury integracyjnej. Studium przypadku zrealizowanych integracji w oparciu o omówione wcześniej oprogramowanie gateway i sterowniki ODBC/OLE DB. Omawiana architektura integracyjna obejmuje bazy danych Oracle9i firmy Oracle Corp., BD2 firmy IBM, Sybase Adaptive Server Anywhere firmy Sybase Inc., pliki tekstowe i pliki w formacie dbf.
    • Integracja danych XML. Podstawowe koncepcje języka XML, problematyka integracji danych w formacie XML.
    • Replikowanie danych - mechanizmy replikowania danych, jako technologii integracji danych. Problematyka replikowania danych i jej rozwiązania w systemach komercyjnych Oracle10g, SQL Server, DB2 oraz w systemach niekomercyjnych MySQL, PostgreSql.
    • Integracja danych na platformie hurtowni danych: podstawowe architektury systemów hurtowni (magazynów danych), proces ETL jako mechanizm integracji danych, wraz z jego modułami programowymi.
    • Modelowanie danych dla hurtowni: podstawy modelowania hurtowni danych, tj. model wielowymiarowy i jego implementacje w serwerach relacyjnych i serwerach wielowymiarowych, operacje przetwarzania danych w obu modelach implementacyjnych.
    • Modelowanie konceptualne hurtowni: problematyka modelowania schematów relacyjnych dla hurtowni danych, tj. identyfikowanie faktów i wymiarów, wymiary znormalizowane, a zdenormalizowane, modelowanie czasu.
    • Zasilanie danymi i odświeżanie hurtowni: problemy i techniki pierwszego zasilenia danymi oraz problematyka odświeżania hurtowni.
    • Efektywność przetwarzania analitycznego: podstawowe techniki zwiększające efektywność przetwarzania analitycznego, tzw. OLAP. Indeksowanie danych za pomocą indeksów bitmapowych, połączeniowych i bitmapowych połączeniowych. Problematyka budowy i zarządzania indeksami bitmapowymi oraz problematyka optymalizacji zapytań gwiaździstych, techniki partycjonowania danych (tabel i indeksów) oraz mechanizmy przetwarzania równoległego.
  • Laboratorium:
  • Dostęp do rozproszonych i heterogenicznych źródeł danych. W ramach ćwiczeń zostaną przedstawione techniki dostępu do zewnętrznych źródeł danych z baz danych Oracle9i/10g, MS SQL Server, IBM DB2.
  • Techniki integracji danych. W ramach ćwiczeń zostaną omówione techniki integrowania systemów heterogenicznych z wykorzystaniem oprogramowania gateway i ODBC/OLE DB. W ćwiczeniu zostaną zintegrowane bazy danych Oracle9i/10g, MS SQL Server, IBM DB2.
  • Dostęp do źródeł nie-bazodanowych (pliki tekstowe). Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach tekstowych (procedury składowane, funkcje tablicowe i tabele zewnętrzne). Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Dostęp do źródeł nie-bazodanowych (pliki XML) cz.1. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Dostęp do źródeł nie-bazodanowych (pliki XML) cz.2. Ćwiczenia zilustrują techniki dostępu do danych przechowywanych w plikach XML. Ilustracja ta zostanie zaimplementowana w systemie Oracle10g.
  • Replikacja danych jako mechanizm synchronizacji baz danych. W ramach ćwiczeń zostaną omówione podstawowe własności replik i procesu replikowania danych. Zostaną one zilustrowane w systemie Oracle10g.
  • Inne obiekty bazy danych w integracji danych. Ćwiczenie zilustruje wykorzystanie perspektyw (ang. view) i synonimów w procesie integracji danych. Ćwiczenia zostaną wykonane w systemie Oracle10g.
  • Analiza danych ROLAP. Ćwiczenie zilustruje sposoby analizy danych relacyjnych (OLAP) z poziomu języka SQL. Przedstawiona zostanie analiza danych bieżących i predykcja trendów z wykorzystaniem regresji liniowej. Ćwiczenia zostaną wykonane w oparciu o Oracle10g.
  • Analiza danych MOLAP. Ćwiczenie zilustruje sposoby analizy danych wielowymiarowych za pomocą języka MDX w implementacji Hyperion Essbase.

Modelowanie wymiarów w implementacji ROLAP. W ramach ćwiczenia zostanie przedstawiony zbiór poleceń SQL w implementacji Oracle10g umożliwających modelowanie wymiarów w schematach gwiazdy i płatka śniegu.

  • Perspektywy zmaterializowane i optymalizacja zapytań cz.1. Ćwiczenie zapozna studentów z technikami budowy perspektyw zmaterializowanych i ich wykorzystaniem w procesie optymalizacji zapytań. Zrealizowany zestaw ćwiczeń zilustruje różne techniki przepisywania zapytań dla różnych wariantów perspektyw zmaterializowanych. Badane i analizowane będą również plany wykonywania zoptymalizowanych zapytań.
  • Perspektywy zmaterializowane i optymalizacja zapytań cz.2. Ćwiczenie przedstawi narzędzie Access Advisor umożliwiające automatyczne wyznaczenie zbioru perspektyw do materializacji i zbioru indeksów dla optymalizacji konkretnego zbioru zapytań.
  • Partycjonowanie danych. Ćwiczenie ma na celu zapoznanie studentów z różnymi technikami partycjonowania tabel i indeksów. Zostanie ono zilustrowane w systemie Oracle10g.

Literatura

  • Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2003, ISBN 3-540-42089-4
  • Wrembel R., Bębel B.: Oracle - Projektowanie rozproszonych baz danych. HELION, 2003, ISBN 83-7197-951-7
  • Wrembel R., Koncilia C.: Data Warehouses and OLAP: Concepts, Architectures and Solutions. Idea Group, Inc., USA, 2006
  • Dokumentacja techniczna systemu Oracle10g
  • Dokumentacja techniczna systemu MS SQL Server 2000
  • Dokumentacja techniczna systemu IBM DB2
  • Dokumentacja techniczna systemu Hyperion Essbase