Sr-11-wyk-1.0-Slajd2

From Studia Informatyczne

Tolerowanie awarii

Tolerowanie awarii


Systemy rozproszone potencjalnie mogą charakteryzować się wyższą odpornością na awarie. Wynika to z rozproszenia i być może zwielokrotnienia pewnych zasobów. Awaria częściowa (ang. partial failure ) może w systemie rozproszonym spowodować uszkodzenie pojedynczej składowej systemu, która może być zastąpiona inną i nie musi powodować zatrzymania całego systemu. W systemach scentralizowanych awaria częściowa z reguły powoduje unieruchomienie całej aplikacji.

Większa odporność na awarie systemów rozproszonych jest tylko potencjalna i wymaga zastosowania różnych dodatkowych mechanizmów w celu automatycznego podejmowania czynności naprawczych w przypadku stwierdzeni awarii. Uodpornienie procesów może powodować, że awaria jednych nie będzie propagowała się na inne procesy. Problem ten pojawia się np. w kontekście komunikacji, szczególnie przy realizacji niezawodnego rozsyłania do grupy procesów.

Ważną cechą wielu aplikacji jest niepodzielność. Dotyczy to np. realizacji transakcji, której poszczególne kroki powinny zostać wykonane w całości. Realizacja niepodzielności w systemie rozproszonym wymaga zastosowania rozproszonego zatwierdzania, które jest równoważne problemowi konsensusu.

Jeżeli w systemie dochodzi już do awarii (węzła, procesu) to można podjąć próby automatycznego usunięcia skutków takiej awarii. Można w tym celu zastosować metody odtwarzania w celu przywrócenia stanu systemu rozproszonego sprzed awarii.


<< Poprzedni slajd | Spis treści | Następny slajd >>