Rachunek prawdopodobieństwa i statystyka/Wykład 6: Rozkłady prawdopodobieństwa i zmienne losowe

Zajmiemy się tak zwanymi zmiennymi losowymi. Ponieważ każda taka zmienna generuje przestrzeń probabilistyczną na zbiorze liczb rzeczywistych, najpierw przyjrzymy się miarom probabilistycznym na $ℝ$ , czyli tak zwanym rozkładom. Zajmiemy się dwiema klasami rozkładów: rozkładami dyskretnymi i rozkładami ciągłymi. Zdefiniujemy pojęcie niezależności zmiennych losowych.

Rozkład prawdopodobieństwa

Prawie wszystkie wielkości, z którymi mamy do czynienia, mają (mniej lub bardziej) losowy charakter. Wzrost pierwszej osoby spotkanej po wyjściu z domu, ocena otrzymana na najbliższym egzaminie, cena kostki masła w najbliższym sklepie oraz wiele innych wielkości stanowi przykład tak zwanych zmiennych losowych. Każda taka zmienna ma swój specyficzny charakter. Wzrost mężczyzny może przybierać wszystkie wartości z przedziału $(150, 230)$ , a nawet spoza tego przedziału, przy czym, przykładowo, przedział $(174, 176)$ jest bardziej prawdopodobny niż następujące przedziały o tej samej długości: $(154, 156)$ czy $(210, 212)$ . Podobnie ocena z najbliższego egzaminu może przyjmować skończenie wiele wartości, na przykład 2, 3, 4 lub 5, przy czym dla danego studenta (i egzaminatora) nie są one na ogół jednakowo prawdopodobne - dla stypendysty MEN oceny 5 i 4 są dużo bardziej prawdopodobne niż 3, zaś ocena 2 jest niemal nieprawdopodobna. Tak więc każda zmienna losowa ma swój rozkład, który najłatwiej jest przedstawić graficznie. Przykładowo, hipotetyczny rozkład zmiennej losowej będącej wzrostem mężczyzny mógłby odpowiadać polu pod wykresem funkcji z następującego rysunku:

61.eps (wykres prawdopodobieństwa

przy czym pole całkowite figury ograniczonej osią $0 X$ i wykresem funkcji wynosi $1$ , zaś prawdopodobieństwo (na przykład) tego, że wzrost ten zawiera się w przedziale $(180, 185)$ , jest równe polu zakreskowanej figury. Natomiast rozkład spodziewanej oceny dla dobrego studenta może wyglądać tak:

62.eps (oceny)

zaś dla studenta słabego - nieco inaczej:

63.eps (oceny)

Tutaj prawdopodobieństwo uzyskania danej oceny odpowiada długości danego odcinka.

Każdy rozkład zmiennej losowej można scharakteryzować pewnymi standardowymi parametrami, co z kolei umożliwia porównywanie rozkładów między sobą. Ważnym zagadnieniem jest także badanie i mierzenie współzależności zmiennych losowych - wiadomo, że wzrost i waga studenta są ze sobą silniej związane niż wzrost studenta i jego ocena na najbliższym egzaminie.

Miary probabilistyczne w $ℝ^{n}$

Prosta rzeczywista, płaszczyzna i ogólniej przestrzeń $ℝ^{n}$ , są często traktowane jako zbiór zdarzeń elementarnych $Ω$ pewnej przestrzeni probabilistycznej. Przyjmuje się najczęściej, że $σ$ -sigma algebrę $Σ$ stanowią zbiory borelowskie $ℬ (ℝ^{n})$ (patrz przykład 3.4), natomiast miary $P$ określone na tej $σ$ -algebrze mogą być bardzo różne. Mówi o tym następująca:

Definicja 6.1 [rozkład prawdopodobieństwa]

Rozkładem prawdopodobieństwa (

n

-wymiarowym) nazywamy miarę

P

taką, że trójka

(ℝ^{n}, ℬ (ℝ^{n}), P)

jest przestrzenią probabilistyczną.

Omówimy teraz dwa podstawowe rodzaje rozkładów $n$ -wymiarowych: rozkłady dyskretne oraz rozkłady ciągłe. Chociaż najczęściej mamy do czynienia z takimi właśnie rozkładami, należy wyraźnie podkreślić, że nie wyczerpują one wszystkich możliwych rozkładów.

Rozkład dyskretny

Zaczniemy od rozkładu dyskretnego, poznanego już w szkole.

Definicja 6.2 [Rozkład dyskretny]

Rozkład $n$ -wymiarowy $P$ nazywamy rozkładem dyskretnym, jeżeli istnieje zbiór borelowski $K \subset ℝ^{n}$ taki, że:

P (K) = 1 oraz x \in K \Rightarrow P (x) > 0 .

{uwaga|6.3|uw 6.3| Występujący w powyższej definicji zbiór $K$ jest skończony lub przeliczalny. Żeby to stwierdzić, zauważmy, że $K$ można przedstawić jako przeliczalną sumę zbiorów skończonych. Dokładniej:

K = ⋃_{i = 1}^{\infty} K_{i},

gdzie

K_{i} = {x \in ℝ^{n} : P (x) \geq \frac{1}{i}} .

Widzimy, że $1 \geq P (K_{i}) \geq # K_{i} \cdot \frac{1}{i}$ , a więc $# K_{i} \leq i .$ }}

Z powyższej uwagi wynika, iż możemy zbiór $K$ ustawić w ciąg, powiedzmy $K = {x_{i} : i = 1, \dots, m}$ , gdzie $m$ jest liczbą naturalną lub $m = \infty$ , i oznaczyć $p_{i} = P (x_{i})$ . Mamy wtedy:

\sum_{i = 1}^{m} p_{i} = 1 oraz p_{i} > 0 dla wszystkich i .

Zdefiniowane w ten sposób ciągi ${x_{i}}$ i ${p_{i}}$ wyznaczają jednoznacznie rozkład $P$ . Mianowicie, dla każdego zbioru borelowskiego A mamy $P (A) = P (A \cap K)$ (dlaczego?) i dalej:

$P (A) = \sum_{i : x_{i} \in A} p_{i} .$ (6.1)

W związku z powyższym, często używa się sformułowania: rozkład dyskretny zadany przez ciągi ${x_{i}}$ i ${p_{i}}$ .

Przykładami rozkładów dyskretnych są wspomniane już rozkłady przewidywanej oceny, jaką otrzyma student na zbliżającym się egzaminie. Są one skupione w punktach $2$ , $3$ , $4$ i $5$ , jak (przykładowo) pokazano na ostatnich dwóch rysunkach.

Podamy teraz dwa inne, na pozór trochę banalne przykłady rozkładów dyskretnych.

{przyklad|6.4 [Rozkład jednopunktowy]|przy 6.4| Rozkład $P$ jest jednopunktowy, jeżeli istnieje punkt $c \in ℝ^{n}$ taki, że $P (c) = 1$ .}}

Przykład 6.5 [Rozkład dwupunktowy]

Rozkład $P$ jest rozkładem dwupunktowym, jeżeli istnieją punkty $a, b \in ℝ^{n}$ oraz liczby $p, q \in (0, 1)$ takie, że $p + q = 1$ oraz:

P (a) = q i P (b) = p .

Najczęściej mówiąc o rozkładzie dwupunktowym, mamy na myśli rozkład jednowymiarowy skupiony w punktach

a = 0

i

b = 1

- będziemy go oznaczać jako

(0, 1, p)

.

Przykład 6.6 [Rozkład dwumianowy]

Wiemy już, że zajście $k$ sukcesów w schemacie Bernoulliego z $n$ doświadczeniami wyraża się wzorem (5.2). Mamy tu do czynienia z rozkładem prawdopodobieństwa skupionym w punktach $0, 1, \dots, n$ , przy czym:

Parser nie mógł rozpoznać (nieznana funkcja „\begin{array}”): {\displaystyle P(k) = \left(\begin{array} {@{}c@{}}n\\k\end{array} \right) p^k(1 -p)^{n-k}\;\;\textrm{dla}\;\;k= 0,1,\dots, n.}

Rozkład ciągły

Drugą bardzo ważną klasą rozkładów są rozkłady ciągłe (nazywane przez niektórych rozkładami absolutnie ciągłymi, co z formalnego punktu widzenia jest bardziej poprawne, niemniej mało używane).

Definicja 6.7 [Rozkład ciągły]

Rozkład

n

-wymiarowy

P

nazywamy rozkładem ciągłym, jeżeli istnieje funkcja całkowalna

f : ℝ^{n} ⟶ ℝ

taka, że dla każdego zbioru borelowskiego

A \subset ℝ^{n}

:

$P (A) = \int_{A} f (x) d x,$ (6.2)

gdzie $\int_{A} f (x) d x$ oznacza całkę wielokrotną po zbiorze $A$ z funkcji $f$ [AM2]. Funkcję $f$ nazywamy wówczas gęstością rozkładu $P$ .

Przykład rozkładu ciągłego pokazano na rysunku 61.eps. Prawdopodobieństwo dowolnego zbioru $A$ jest, jako całka, równe polu figury pod wykresem funkcji $f$ i nad zbiorem $A$ . Na wspomnianym rysunku, zakreślony obszar odpowiada prawdopodobieństwu przedziału $(180, 185)$ .

Zauważmy, że gęstość jest funkcją przyjmującą jedynie wartości nieujemne oraz taką, że całka z tej funkcji po całej przestrzeni (pole pod wykresem) jest równa $1$ . Na odwrót, można udowodnić, że każda funkcja spełniająca te dwa warunki jest gęstością pewnego rozkładu prawdopodobieństwa.

Na wykładzie 8 omówimy kilka interesujących rozkładów ciągłych - tym miejscu ograniczymy się jedynie do najprostszego przypadku.

Przykład 6.8 [Rozkład jednostajny]

Niech $G$ będzie zbiorem borelowskim o dodatniej mierze Lebesgue'a, to znaczy $μ (G) > 0$ . Określmy funkcję:

f (x) = {\begin{aligned} 0, & gdy & x \notin G \\ [0, 3 c m] \frac{1}{μ (G)}, & gdy & x \in A . \end{aligned}

Jest oczywiste, że $f$ spełnia warunki wymagane od gęstości, jest więc gęstością pewnego rozkładu prawdopodobieństwa. Rozkład ten nazywamy rozkładem jednostajnym (porównaj ten przykład z definicją 4.1, gdzie określiliśmy prawdopodobieństwo geometryczne).

Jeżeli $G = (a, b)$ , to mówimy o rozkładzie jednostajnym na odcinku $(a, b)$ . Tak, na przykład, wygląda gęstość rozkładu jednostajnego na odcinku $(2, 4)$ :

64.eps

Jak już zauważyliśmy poprzednio, w przypadku rozkładów jednowymiarowych, znając wykres gęstości rozkładu ciągłego, można łatwo "zobaczyć", ile wynosi prawdopodobieństwo danego zdarzenia $A$ - jest to mianowicie miara zbioru:

{(x, y) \in ℝ^{n + 1} : x \in A, 0 \leq y \leq f (x)} .

Interpretacja ta wskazuje, że prawdopodobieństwo zbiorów jednopunktowych (a więc również skończonych i przeliczalnych) w rozkładzie ciągłym wynosi 0. Wynika to formalnie w sposób oczywisty z warunku (6.2), gdyż całka liczona po zbiorze miary zero równa się 0.

Dystrybuanta

Podstawową pozycję wśród rozkładów zajmują rozkłady jednowymiarowe, czyli miary probabilistyczne określone na $ℬ (ℝ)$ . Mówiąc: rozkład, będziemy mieć zwykle na myśli rozkład jednowymiarowy.

Okazuje się, że zamiast rozkładów można rozpatrywać pewnego typu funkcje zmiennej rzeczywistej o wartościach rzeczywistych, co w wielu przypadkach upraszcza sytuację. Funkcje te są nazywane dystrybuantami.

Definicja 6.9 [dystrybuanta]

Dystrybuantą nazywamy funkcję $F : ℝ ⟶ ℝ$ , spełniającą następujące cztery warunki:

$F$ jest funkcją niemalejącą, to znaczy:

x < y \Rightarrow F (x) \leq F (y),

$F$ jest prawostronnie ciągła, to znaczy:

\lim_{x \to a^{+}} F (x) = F (a)

dla każdego $a \in ℝ$ ,

$\lim_{x \to \infty} F (x) = 1$ ,

$\lim_{x \to - \infty} F (x) = 0$ .

Związek dystrybuant z rozkładami wyjaśnia następujące:

Twierdzenie 6.10

Jeżeli

P

jest rozkładem prawdopodobieństwa, to funkcja

F

zdefiniowana wzorem:

$F (x) = P (- \infty, x] = P ((- \infty, x]),$ (6.3)

jest dystrybuantą. Mówimy wtedy, że rozkład $P$ ma dystrybuantę $F$ , co często zaznaczamy pisząc $F_{P}$ zamiast $F$ .

Należy podkreślić, że wielu autorów definiuje dystrybuantę zastępując w definicji 6.9 warunek 2 założeniem, że $F$ jest lewostronnie ciągła w każdym punkcie. Wtedy w powyższym twierdzeniu wzór (6.3) ma postać:

F (x) = P (- \infty, x) = P ((- \infty, x)) .

Oczywiście oba podejścia są jednakowo dobre.

Zachodzi także twierdzenie odwrotne do twierdzenia 6.10.

Twierdzenie 6.11

Jeżeli

F

jest dystrybuantą, to istnieje dokładnie jeden rozkład

P

, dla którego zachodzi wzór (6.3).

Jest oczywiście ciekawe, w jakich przypadkach dystrybuanta jest ciągła i co to oznacza, że jest ona ciągła w danym punkcie. Okazuje się, że nieciągłość ma miejsce dokładnie w punktach, w których rozkład jest "skupiony", a wielkość "skoku" dystrybuanty w danym punkcie zależy od prawdopodobieństwa skupionego w tym punkcie.

Twierdzenie 6.12

Niech $P$ będzie rozkładem prawdopodobieństwa, zaś $F$ - jego dystrybuantą. Wówczas dla dowolnego $a \in ℝ$ :

Parser nie mógł rozpoznać (błąd składni): {\displaystyle F \; \textrm{jest ciągła w punkcie}\; a\: \Longleftrightarrow \: P(a) = 0.}

Bardziej ogólnie:

P (a) = F (a) - F (a)^{-},

gdzie

F (a)^{-}

oznacza lewostronną granicę funkcji

F

w punkcie

a

(ponieważ

F

jest niemalejąca, więc granica ta istnieje).

Dowód

Weźmy ciąg $x_{n} ↗ a$ (to znaczy, że ${x_{n}}$ jest ciągiem rosnącym, zbieżnym do $a$ ). Wtedy $(- \infty, a) = ⋃ (- \infty, x_{n}]$ , a więc (patrz twierdzenie 3.2, warunek 8):

F (a)^{-} = \lim_{n \to \infty} F (x_{n}) = \lim_{n \to \infty} P (- \infty, x_{n}] = P (- \infty, a) .

Stąd:

P (a) = P ((- \infty, a] ∖ (- \infty, a)) = P (- \infty, a] - P (- \infty, a) = F (a) - F (a)^{-} .

W przypadku gdy rozkład jest dyskretny lub ciągły, dystrybuanta tego rozkładu posiada dość prostą postać.

Uwaga 6.13

Niech rozkład dyskretny $P$ będzie zadany przez ciągi ${x_{n}}$ oraz ${p_{n}}$ . Wtedy, ze wzoru (6.1|), otrzymujemy:

F_{P} (x) = \sum_{i : x_{i} \leq x} p_{i} .

Uwaga 6.14

Niech rozkład ciągły

P

ma gęstość

f

. Wtedy wprost z definicji 6.7 otrzymujemy:

$F (x) = \int_{- \infty}^{x} f (t) d t .$ (6.4)

W tym przypadku dystrybuanta jest ciągła we wszystkich punktach. Zauważmy natomiast, że jeżeli pewna funkcja mierzalna spełnia wzór (6.4), to jest ona gęstością rozkładu, którego dystrybuantą jest $F$ . Jeżeli więc wiemy, że dystrybuanta jest funkcją różniczkowalną, ewentualnie poza skończoną liczbą punktów, to jej pochodna jest gęstością rozważanego rozkładu. Wiadomo ponadto [AM], że w każdym punkcie $x$ , który jest punktem ciągłości $f$ , funkcja górnej granicy całkowania, a więc dystrybuanta, jest różniczkowalna oraz zachodzi wzór:

F^{'} (x) = f (x) .

Przykład 6.15

Niech $F$ będzie dystrybuantą rozkładu jednostajnego na odcinku $(a, b)$ . Jak łatwo się przekonać, korzystając ze wzoru (6.4), otrzymujemy:

F (x) = {\begin{aligned} 0, & x < a \\ \frac{x - a}{b - a}, & a \leq x < b \\ 1, & b \leq x . \end{aligned}

Można się pytać, czy to, że dystrybuanta rozkładu jest ciągła w każdym punkcie oznacza, że rozkład jest ciągły. Odpowiedź jest jednak negatywna, co można stwierdzić, analizując tak zwaną funkcję Cantora.

Dystrybuantę można także definiować dla rozkładów $n$ -wymiarowych, gdzie $n > 1$ . Otrzymuje się wówczas podobne związki między dystrybuantami i rozkładami, jak dla przypadku jednowymiarowego. Podobne są także wzory na obliczanie dystrybuant rozkładów dyskretnych i ciągłych. Jednak definicja dystrybuanty w wyższym wymiarze nie może być bezpośrednim przeniesieniem definicji 6.9, gdyż w definicji tej wykorzystywana jest w sposób istotny struktura porządkowa zbioru liczb rzeczywistych.

Zmienne i wektory losowe

Podamy najpierw definicję zmiennej losowej, a następnie znacznie ogólniejszą definicję wektora losowego. Niech $(Ω, Σ, P)$ będzie przestrzenią probabilistyczną.

Rachunek prawdopodobieństwa i statystyka/Wykład 6: Rozkłady prawdopodobieństwa i zmienne losowe

Spis treści

Rozkład prawdopodobieństwa

Miary probabilistyczne w $ℝ^{n}$

Rozkład dyskretny

Rozkład ciągły

Dystrybuanta

Zmienne i wektory losowe

Menu nawigacyjne

Działania na stronie

Opcje strony

Narzędzia osobiste

Nawigacja

Szukaj

Narzędzia

Rachunek prawdopodobieństwa i statystyka/Wykład 6: Rozkłady prawdopodobieństwa i zmienne losowe

Rozkład prawdopodobieństwa

Miary probabilistyczne w ℝn

Rozkład dyskretny

Rozkład ciągły

Dystrybuanta

Zmienne i wektory losowe

Menu nawigacyjne

Szukaj

Miary probabilistyczne w $ℝ^{n}$