Rachunek prawdopodobieństwa i statystyka/Wykład 6: Rozkłady prawdopodobieństwa i zmienne losowe
Zajmiemy się tak zwanymi zmiennymi losowymi. Ponieważ każda taka zmienna generuje przestrzeń probabilistyczną na zbiorze liczb rzeczywistych, najpierw przyjrzymy się miarom probabilistycznym na , czyli tak zwanym rozkładom. Zajmiemy się dwiema klasami rozkładów: rozkładami dyskretnymi i rozkładami ciągłymi. Zdefiniujemy pojęcie niezależności zmiennych losowych.
Rozkład prawdopodobieństwa
Prawie wszystkie wielkości, z którymi mamy do czynienia, mają (mniej lub bardziej) losowy charakter. Wzrost pierwszej osoby spotkanej po wyjściu z domu, ocena otrzymana na najbliższym egzaminie, cena kostki masła w najbliższym sklepie oraz wiele innych wielkości stanowi przykład tak zwanych zmiennych losowych. Każda taka zmienna ma swój specyficzny charakter. Wzrost mężczyzny może przybierać wszystkie wartości z przedziału , a nawet spoza tego przedziału, przy czym, przykładowo, przedział jest bardziej prawdopodobny niż następujące przedziały o tej samej długości: czy . Podobnie ocena z najbliższego egzaminu może przyjmować skończenie wiele wartości, na przykład 2, 3, 4 lub 5, przy czym dla danego studenta (i egzaminatora) nie są one na ogół jednakowo prawdopodobne - dla stypendysty MEN oceny 5 i 4 są dużo bardziej prawdopodobne niż 3, zaś ocena 2 jest niemal nieprawdopodobna. Tak więc każda zmienna losowa ma swój rozkład, który najłatwiej jest przedstawić graficznie. Przykładowo, hipotetyczny rozkład zmiennej losowej będącej wzrostem mężczyzny mógłby odpowiadać polu pod wykresem funkcji z następującego rysunku:
61.eps (wykres prawdopodobieństwa
przy czym pole całkowite figury ograniczonej osią i wykresem funkcji wynosi , zaś prawdopodobieństwo (na przykład) tego, że wzrost ten zawiera się w przedziale , jest równe polu zakreskowanej figury. Natomiast rozkład spodziewanej oceny dla dobrego studenta może wyglądać tak:
zaś dla studenta słabego - nieco inaczej:
Tutaj prawdopodobieństwo uzyskania danej oceny odpowiada długości danego odcinka.
Każdy rozkład zmiennej losowej można scharakteryzować pewnymi standardowymi parametrami, co z kolei umożliwia porównywanie rozkładów między sobą. Ważnym zagadnieniem jest także badanie i mierzenie współzależności zmiennych losowych - wiadomo, że wzrost i waga studenta są ze sobą silniej związane niż wzrost studenta i jego ocena na najbliższym egzaminie.
Miary probabilistyczne w
Prosta rzeczywista, płaszczyzna i ogólniej przestrzeń , są często traktowane jako zbiór zdarzeń elementarnych pewnej przestrzeni probabilistycznej. Przyjmuje się najczęściej, że -sigma algebrę stanowią zbiory borelowskie (patrz przykład 3.4), natomiast miary określone na tej -algebrze mogą być bardzo różne. Mówi o tym następująca:
Definicja 6.1 [rozkład prawdopodobieństwa]
Omówimy teraz dwa podstawowe rodzaje rozkładów -wymiarowych: rozkłady dyskretne oraz rozkłady ciągłe. Chociaż najczęściej mamy do czynienia z takimi właśnie rozkładami, należy wyraźnie podkreślić, że nie wyczerpują one wszystkich możliwych rozkładów.
Rozkład dyskretny
Zaczniemy od rozkładu dyskretnego, poznanego już w szkole.
Definicja 6.2 [Rozkład dyskretny]
Rozkład -wymiarowy nazywamy rozkładem dyskretnym, jeżeli istnieje zbiór borelowski taki, że:
{uwaga|6.3|uw 6.3|
Występujący w powyższej definicji zbiór jest skończony lub przeliczalny. Żeby to stwierdzić, zauważmy, że można przedstawić jako przeliczalną sumę zbiorów skończonych. Dokładniej:
gdzie
Widzimy, że , a więc
}}
Z powyższej uwagi wynika, iż możemy zbiór ustawić w ciąg, powiedzmy , gdzie jest liczbą naturalną lub , i oznaczyć . Mamy wtedy:
Zdefiniowane w ten sposób ciągi i
wyznaczają jednoznacznie rozkład . Mianowicie, dla każdego zbioru borelowskiego A mamy (dlaczego?) i dalej:
(6.1)
W związku z powyższym, często używa się sformułowania: rozkład dyskretny zadany przez ciągi i .
Przykładami rozkładów dyskretnych są wspomniane już rozkłady przewidywanej oceny, jaką otrzyma student na zbliżającym się egzaminie. Są one skupione w punktach , , i , jak (przykładowo) pokazano na ostatnich dwóch rysunkach.
Podamy teraz dwa inne, na pozór trochę banalne przykłady rozkładów dyskretnych.
{przyklad|6.4 [Rozkład jednopunktowy]|przy 6.4| Rozkład jest jednopunktowy, jeżeli istnieje punkt taki, że .}}
Przykład 6.5 [Rozkład dwupunktowy]
Rozkład jest rozkładem dwupunktowym, jeżeli istnieją punkty oraz liczby takie, że oraz:
Przykład 6.6 [Rozkład dwumianowy]
Wiemy już, że zajście sukcesów w schemacie Bernoulliego z doświadczeniami wyraża się wzorem (5.2). Mamy tu do czynienia z rozkładem prawdopodobieństwa skupionym w punktach , przy czym:
Rozkład ciągły
Drugą bardzo ważną klasą rozkładów są rozkłady ciągłe (nazywane przez niektórych rozkładami absolutnie ciągłymi, co z formalnego punktu widzenia jest bardziej poprawne, niemniej mało używane).
Definicja 6.7 [Rozkład ciągły]
(6.2)
gdzie oznacza całkę wielokrotną po zbiorze z funkcji [AM2]. Funkcję nazywamy wówczas gęstością rozkładu .
Przykład rozkładu ciągłego pokazano na rysunku 61.eps. Prawdopodobieństwo dowolnego zbioru jest, jako całka, równe polu figury pod wykresem funkcji i nad zbiorem . Na wspomnianym rysunku, zakreślony obszar odpowiada prawdopodobieństwu przedziału .
Zauważmy, że gęstość jest funkcją przyjmującą jedynie wartości nieujemne oraz taką, że całka z tej funkcji po całej przestrzeni (pole pod wykresem) jest równa . Na odwrót, można udowodnić, że każda funkcja spełniająca te dwa warunki jest gęstością pewnego rozkładu prawdopodobieństwa.
Na wykładzie 8 omówimy kilka interesujących rozkładów ciągłych - tym miejscu ograniczymy się jedynie do najprostszego przypadku.
Przykład 6.8 [Rozkład jednostajny]
Niech będzie zbiorem borelowskim o dodatniej mierze Lebesgue'a, to znaczy . Określmy funkcję:
Jest oczywiste, że spełnia warunki wymagane od gęstości, jest więc gęstością pewnego rozkładu prawdopodobieństwa. Rozkład ten nazywamy rozkładem jednostajnym (porównaj ten przykład z definicją 4.1, gdzie określiliśmy prawdopodobieństwo geometryczne).
Jeżeli , to mówimy o rozkładzie jednostajnym na odcinku . Tak, na przykład, wygląda gęstość rozkładu jednostajnego na odcinku :
Jak już zauważyliśmy poprzednio, w przypadku rozkładów jednowymiarowych, znając wykres gęstości rozkładu ciągłego, można łatwo "zobaczyć", ile wynosi prawdopodobieństwo danego zdarzenia - jest to mianowicie miara zbioru:
Interpretacja ta wskazuje, że prawdopodobieństwo zbiorów jednopunktowych (a więc również skończonych i przeliczalnych) w rozkładzie ciągłym wynosi 0. Wynika to formalnie w sposób oczywisty z warunku (6.2), gdyż całka liczona po zbiorze miary zero równa się 0.
Dystrybuanta
Podstawową pozycję wśród rozkładów zajmują rozkłady jednowymiarowe, czyli miary probabilistyczne określone na . Mówiąc: rozkład, będziemy mieć zwykle na myśli rozkład jednowymiarowy.
Okazuje się, że zamiast rozkładów można rozpatrywać pewnego typu funkcje zmiennej rzeczywistej o wartościach rzeczywistych, co w wielu przypadkach upraszcza sytuację. Funkcje te są nazywane dystrybuantami.
Definicja 6.9 [dystrybuanta]
Dystrybuantą nazywamy funkcję , spełniającą następujące cztery warunki:
- jest funkcją niemalejącą, to znaczy:
- jest prawostronnie ciągła, to znaczy:
dla każdego ,
- ,
- .
Związek dystrybuant z rozkładami wyjaśnia następujące:
Twierdzenie 6.10
(6.3)
jest dystrybuantą. Mówimy wtedy, że rozkład ma dystrybuantę , co często zaznaczamy pisząc zamiast .
Należy podkreślić, że wielu autorów definiuje dystrybuantę zastępując w definicji 6.9 warunek 2 założeniem, że jest lewostronnie ciągła w każdym punkcie. Wtedy w powyższym twierdzeniu wzór (6.3) ma postać:
Oczywiście oba podejścia są jednakowo dobre.
Zachodzi także twierdzenie odwrotne do twierdzenia 6.10.
Twierdzenie 6.11
Jest oczywiście ciekawe, w jakich przypadkach dystrybuanta jest ciągła i co to oznacza, że jest ona ciągła w danym punkcie. Okazuje się, że nieciągłość ma miejsce dokładnie w punktach, w których rozkład jest "skupiony", a wielkość "skoku" dystrybuanty w danym punkcie zależy od prawdopodobieństwa skupionego w tym punkcie.
Twierdzenie 6.12
Niech będzie rozkładem prawdopodobieństwa, zaś - jego dystrybuantą. Wówczas dla dowolnego :
Bardziej ogólnie:
Dowód
Weźmy ciąg (to znaczy, że jest ciągiem rosnącym, zbieżnym do ). Wtedy , a więc (patrz twierdzenie 3.2, warunek 8):
Stąd:
W przypadku gdy rozkład jest dyskretny lub ciągły, dystrybuanta tego rozkładu posiada dość prostą postać.
(6.4)
W tym przypadku dystrybuanta jest ciągła we wszystkich punktach. Zauważmy natomiast, że jeżeli pewna funkcja mierzalna spełnia wzór (6.4), to jest ona gęstością rozkładu, którego dystrybuantą jest . Jeżeli więc wiemy, że dystrybuanta jest funkcją różniczkowalną, ewentualnie poza skończoną liczbą punktów, to jej pochodna jest gęstością rozważanego rozkładu. Wiadomo ponadto [AM], że w każdym punkcie , który jest punktem ciągłości , funkcja górnej granicy całkowania, a więc dystrybuanta, jest różniczkowalna oraz zachodzi wzór:
Przykład 6.15
Niech będzie dystrybuantą rozkładu jednostajnego na odcinku . Jak łatwo się przekonać, korzystając ze wzoru (6.4), otrzymujemy:
Można się pytać, czy to, że dystrybuanta rozkładu jest ciągła w każdym punkcie oznacza, że rozkład jest ciągły. Odpowiedź jest jednak negatywna, co można stwierdzić, analizując tak zwaną funkcję Cantora.
Dystrybuantę można także definiować dla rozkładów -wymiarowych, gdzie . Otrzymuje się wówczas podobne związki między dystrybuantami i rozkładami, jak dla przypadku jednowymiarowego. Podobne są także wzory na obliczanie dystrybuant rozkładów dyskretnych i ciągłych. Jednak definicja dystrybuanty w wyższym wymiarze nie może być bezpośrednim przeniesieniem definicji 6.9, gdyż w definicji tej wykorzystywana jest w sposób istotny struktura porządkowa zbioru liczb rzeczywistych.
Zmienne i wektory losowe
Podamy najpierw definicję zmiennej losowej, a następnie znacznie ogólniejszą definicję wektora losowego. Niech będzie przestrzenią probabilistyczną.