Rachunek Prawdopodobieństwa i Statystyka (UW) Wykład 7: Różnice pomiędzy wersjami
m Zastępowanie tekstu – „.</math>” na „</math>.” |
m Zastępowanie tekstu – „<math> ” na „<math>” |
||
(Nie pokazano 1 pośredniej wersji utworzonej przez tego samego użytkownika) | |||
Linia 10: | Linia 10: | ||
Okazuje się, że w obu sytuacjach opisanych powyżej, a także w wielu innych, można opisać <math>P(X \in A)</math> w sposób tylko trochę bardziej skomplikowany. | Okazuje się, że w obu sytuacjach opisanych powyżej, a także w wielu innych, można opisać <math>P(X \in A)</math> w sposób tylko trochę bardziej skomplikowany. | ||
''' Definicja (Rozkład ciągły) ''' | ''' Definicja (Rozkład ciągły) ''' | ||
Zmienna <math>X</math> ma rozkład ciągły, jeśli istnieje funkcja <math>f_X:\mathbb{R} \rightarrow \mathbb{R}_{\ge 0}</math> taka, że dla każdego przedziału <math>[a,b]</math> zachodzi <math>P(X \in [a,b]) = \int_a^b f_X(x) dx</math> (lub równoważnie: dla każdego zbioru mierzalnego <math>A \subseteq \mathbb{R}</math> zachodzi <math>P(X \in A) = \int_A f_X(x) dx </math>). | Zmienna <math>X</math> ma rozkład ciągły, jeśli istnieje funkcja <math>f_X:\mathbb{R} \rightarrow \mathbb{R}_{\ge 0}</math> taka, że dla każdego przedziału <math>[a,b]</math> zachodzi <math>P(X \in [a,b]) = \int_a^b f_X(x) dx</math> (lub równoważnie: dla każdego zbioru mierzalnego <math>A \subseteq \mathbb{R}</math> zachodzi <math>P(X \in A) = \int_A f_X(x) dx</math>). | ||
Funkcję <math>f_X</math> nazywamy gęstością zmiennej <math>X</math>. | Funkcję <math>f_X</math> nazywamy gęstością zmiennej <math>X</math>. | ||
Linia 20: | Linia 20: | ||
Jaki jest sens funkcji gęstości? Załóżmy, że <math>I</math> jest odcinkiem na tyle małym, że <math>f_X</math> jest na nim niemal stała (znalezienie takiego przedziału może czasem być niemożliwe, ale nie będziemy się tym przejmować, szukamy tylko intuicji). Wtedy | Jaki jest sens funkcji gęstości? Załóżmy, że <math>I</math> jest odcinkiem na tyle małym, że <math>f_X</math> jest na nim niemal stała (znalezienie takiego przedziału może czasem być niemożliwe, ale nie będziemy się tym przejmować, szukamy tylko intuicji). Wtedy | ||
<math>P(X \in I) = \int_I f_X(x) dx \approx |I| f_X(x) </math>, | <math>P(X \in I) = \int_I f_X(x) dx \approx |I| f_X(x)</math>, | ||
dla dowolnego <math>x \in I</math>, czyli | dla dowolnego <math>x \in I</math>, czyli | ||
<math>f_X(x) \approx \frac{P(X \in I)}{|I|}</math>. | <math>f_X(x) \approx \frac{P(X \in I)}{|I|}</math>. | ||
Linia 69: | Linia 69: | ||
# <math>F_X'(t) = f_X(t)</math> (prawie wszędzie).</li> | # <math>F_X'(t) = f_X(t)</math> (prawie wszędzie).</li> | ||
Z drugiej strony, jeśli <math>F</math> jest dystrybuantą różniczkowalną prawie wszędzie, a <math>f = F'</math> (tam gdzie <math>F</math> nie jest różniczkowalna, <math>f</math> przyjmuje dowolną wartość, np. <math>0</math>), to <math>f</math> jest gęstością ciągłej zmiennej losowej, o ile tylko <math> \int_{-\infty}^{\infty} f(x) dx = 1</math>. | Z drugiej strony, jeśli <math>F</math> jest dystrybuantą różniczkowalną prawie wszędzie, a <math>f = F'</math> (tam gdzie <math>F</math> nie jest różniczkowalna, <math>f</math> przyjmuje dowolną wartość, np. <math>0</math>), to <math>f</math> jest gęstością ciągłej zmiennej losowej, o ile tylko <math>\int_{-\infty}^{\infty} f(x) dx = 1</math>. | ||
To, że ten ostatni warunek jest konieczny pokazuje poniższy przykład. Przy okazji odpowiadamy na pytanie postawione w przykładzie 7.3. | To, że ten ostatni warunek jest konieczny pokazuje poniższy przykład. Przy okazji odpowiadamy na pytanie postawione w przykładzie 7.3. | ||
Linia 77: | Linia 77: | ||
# <math>P(X=x) = 0</math> dla każdego <math>x \in \mathbb{R}</math> (czyli <math>X</math> nie ma części dyskretnej), ale też </li> | # <math>P(X=x) = 0</math> dla każdego <math>x \in \mathbb{R}</math> (czyli <math>X</math> nie ma części dyskretnej), ale też </li> | ||
# na żadnym przedziale <math>[a,b]</math> dla którego <math>P(X \in [a,b]) > 0</math>, nie da się zdefiniować funkcji <math>f:[a,b] \rightarrow \mathbb{R}</math> takiej, że <math>P(X \in I) = \int_I f(t) dt </math> dla każdego przedziału <math>I \subseteq [a,b]</math> (a więc <math>X</math> nie ma gęstości na żadnym przedziale o niezerowym prawdopodobieństwie, czyli nie ma części ciągłej) </li> | # na żadnym przedziale <math>[a,b]</math> dla którego <math>P(X \in [a,b]) > 0</math>, nie da się zdefiniować funkcji <math>f:[a,b] \rightarrow \mathbb{R}</math> takiej, że <math>P(X \in I) = \int_I f(t) dt</math> dla każdego przedziału <math>I \subseteq [a,b]</math> (a więc <math>X</math> nie ma gęstości na żadnym przedziale o niezerowym prawdopodobieństwie, czyli nie ma części ciągłej) </li> | ||
Linia 92: | Linia 92: | ||
=== Rozkład jednostajny === | === Rozkład jednostajny === | ||
''' Definicja (rozkład jednostajny) ''' | ''' Definicja (rozkład jednostajny) ''' | ||
Zmienna <math>X</math> o rozkładzie jednostajnym na przedziale <math>[a,b]</math> dla <math>a < b</math>, ozn. <math>X \sim Unif(a,b) </math> ma gęstość <math>f_X</math>, gdzie <math>f_X(x) = \frac{1}{b-a}</math> dla <math>x \in [a,b]</math> i <math>f_X(x) = 0</math> dla pozostałych <math>x</math>. | Zmienna <math>X</math> o rozkładzie jednostajnym na przedziale <math>[a,b]</math> dla <math>a < b</math>, ozn. <math>X \sim Unif(a,b)</math> ma gęstość <math>f_X</math>, gdzie <math>f_X(x) = \frac{1}{b-a}</math> dla <math>x \in [a,b]</math> i <math>f_X(x) = 0</math> dla pozostałych <math>x</math>. | ||
Rozkład <math>Unif(a,b)</math> pojawia się, gdy losujemy liczbę z przedziału <math>[a,b]</math> tak, aby prawdopodobieństwo uzyskania wyniku w dowolnym przedziale <math>I</math> było proporcjonalne do długości tego przedziału. Intuicyjnie chcemy, żeby wszystkie liczby były "równie prawdopodobne", choć oczywiście w przypadku losowania z przedziału sformułowanie "równie prawdopodobne" nie ma zbyt wiele sensu (wszystkie wyniki oczywiście są równie prawdopodobne, bo wszystkie mają prawdopodobieństwo <math>0</math>, ale przecież nie o to nam chodzi). | Rozkład <math>Unif(a,b)</math> pojawia się, gdy losujemy liczbę z przedziału <math>[a,b]</math> tak, aby prawdopodobieństwo uzyskania wyniku w dowolnym przedziale <math>I</math> było proporcjonalne do długości tego przedziału. Intuicyjnie chcemy, żeby wszystkie liczby były "równie prawdopodobne", choć oczywiście w przypadku losowania z przedziału sformułowanie "równie prawdopodobne" nie ma zbyt wiele sensu (wszystkie wyniki oczywiście są równie prawdopodobne, bo wszystkie mają prawdopodobieństwo <math>0</math>, ale przecież nie o to nam chodzi). | ||
Linia 98: | Linia 98: | ||
=== Rozkład wykładniczy === | === Rozkład wykładniczy === | ||
''' Definicja (rozkład wykładniczy) ''' | ''' Definicja (rozkład wykładniczy) ''' | ||
Zmienna <math>X</math> o rozkładzie wykładniczym z parametrem <math>\theta > 0</math>, ozn. <math>X \sim Exp(\theta) </math> ma gęstość <math>f_X</math>, gdzie <math>f_X(x) = \theta e^{-\theta x}</math> dla <math>x \ge 0</math> i <math>f_X(x) = 0</math> dla <math>x < 0</math>. | Zmienna <math>X</math> o rozkładzie wykładniczym z parametrem <math>\theta > 0</math>, ozn. <math>X \sim Exp(\theta)</math> ma gęstość <math>f_X</math>, gdzie <math>f_X(x) = \theta e^{-\theta x}</math> dla <math>x \ge 0</math> i <math>f_X(x) = 0</math> dla <math>x < 0</math>. | ||
Ten rozkład dobrze modeluje czas oczekiwania na zdarzenie, które ma cały czas "taką samą szansę zajścia", na przykład czas do następnego telefonu w centrum telefonicznym, czas do zajścia rozpadu radioaktywnego, itp. Można go też używać do modelowania czasu życia organizmów lub wszelkiego rodzaju sprzętu, aczkolwiek rozkład wykładniczy nie modeluje tych czasów bardzo dobrze. W obu przypadkach śmierć/awaria jest nieco bardziej prawdopodobna na początku, jest też bardziej prawdopodobna po upływie wystarczająco długiego czasu. | Ten rozkład dobrze modeluje czas oczekiwania na zdarzenie, które ma cały czas "taką samą szansę zajścia", na przykład czas do następnego telefonu w centrum telefonicznym, czas do zajścia rozpadu radioaktywnego, itp. Można go też używać do modelowania czasu życia organizmów lub wszelkiego rodzaju sprzętu, aczkolwiek rozkład wykładniczy nie modeluje tych czasów bardzo dobrze. W obu przypadkach śmierć/awaria jest nieco bardziej prawdopodobna na początku, jest też bardziej prawdopodobna po upływie wystarczająco długiego czasu. | ||
Sprawdzimy teraz, że funkcja <math>f_X</math> z definicji rozkładu wykładniczego rzeczywiście jest gęstością (t.j. ma całkę równą 1), a przy okazji znajdziemy dystrybuantę rozkładu wykładniczego. Dla dowolnego <math>a \ge 0</math> mamy: | Sprawdzimy teraz, że funkcja <math>f_X</math> z definicji rozkładu wykładniczego rzeczywiście jest gęstością (t.j. ma całkę równą 1), a przy okazji znajdziemy dystrybuantę rozkładu wykładniczego. Dla dowolnego <math>a \ge 0</math> mamy: | ||
<math> \int_{a}^{\infty} f_X(t) dt = \int_a^\infty \theta e^{-\theta t}dt = \int_a^\infty - (e^{-\theta t})' dt = (-e^{-\theta t})|_a^\infty = 0 - (-e^{-\theta a}) = e^{-\theta a}</math>. | <math>\int_{a}^{\infty} f_X(t) dt = \int_a^\infty \theta e^{-\theta t}dt = \int_a^\infty - (e^{-\theta t})' dt = (-e^{-\theta t})|_a^\infty = 0 - (-e^{-\theta a}) = e^{-\theta a}</math>. | ||
Stąd | Stąd | ||
<math> \int_{-\infty}^\infty f_X(t) dt = \int_0^\infty f_X(t) dt = e^0 = 1</math>, | <math>\int_{-\infty}^\infty f_X(t) dt = \int_0^\infty f_X(t) dt = e^0 = 1</math>, | ||
czyli <math>f_X</math> jest gęstością. | czyli <math>f_X</math> jest gęstością. | ||
Ponadto | Ponadto | ||
<math> F_X(a) = P(X < a) = 1-P(X \ge a) = 1-\int_a^\infty f_X(t) dt = 1-e^{-\theta a}</math>. | <math>F_X(a) = P(X < a) = 1-P(X \ge a) = 1-\int_a^\infty f_X(t) dt = 1-e^{-\theta a}</math>. | ||
O rozkładzie wykładniczym można myśleć jako o "ciągłej wersji" rozkładu geometrycznego. W szczególności każdej wartości <math>\theta > 0</math> odpowiada pewna wartość <math>p</math> taka, że dystrybuanty rozkładów <math>Exp(\theta</math>) i <math>Geom(p)</math> przyjmują te same wartości dla wszystkich argumentów naturalnych (ćwiczenia). | O rozkładzie wykładniczym można myśleć jako o "ciągłej wersji" rozkładu geometrycznego. W szczególności każdej wartości <math>\theta > 0</math> odpowiada pewna wartość <math>p</math> taka, że dystrybuanty rozkładów <math>Exp(\theta</math>) i <math>Geom(p)</math> przyjmują te same wartości dla wszystkich argumentów naturalnych (ćwiczenia). | ||
Linia 117: | Linia 117: | ||
''' Definicja (rozkład normalny lub Gaussa) ''' | ''' Definicja (rozkład normalny lub Gaussa) ''' | ||
Zmienna <math>X</math> o rozkładzie normalnym o wartości oczekiwanej <math>\mu</math> i wariancji <math>\sigma^2</math>, ozn. <math>N(\mu,\sigma^2)</math> ma gęstość | Zmienna <math>X</math> o rozkładzie normalnym o wartości oczekiwanej <math>\mu</math> i wariancji <math>\sigma^2</math>, ozn. <math>N(\mu,\sigma^2)</math> ma gęstość | ||
<math>f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} </math>. | <math>f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math>. | ||
Definicja rozkładu normalnego jest dość skomplikowana, jest on jednak niezwykle ważny. Jest ku temu kilka powodów, najważniejszym jest tzw. Centralne Twierdzenie Graniczne (które pojawi się pod koniec tego wykładu), które mówi, że suma dużej liczby niezależnych zmiennych, z których żadna nie dominuje pozostałych (t.j. nie przyjmuje dużo większych wartości, lub inaczej, nie ma decydującego wpływu na wynik) ma w przybliżeniu rozkład normalny. Wiele wielkości ma taki właśnie charakter - jest sumą wielu małych i niezależnych elementów - i co za tym idzie ma rozkład bliski normalnemu. | Definicja rozkładu normalnego jest dość skomplikowana, jest on jednak niezwykle ważny. Jest ku temu kilka powodów, najważniejszym jest tzw. Centralne Twierdzenie Graniczne (które pojawi się pod koniec tego wykładu), które mówi, że suma dużej liczby niezależnych zmiennych, z których żadna nie dominuje pozostałych (t.j. nie przyjmuje dużo większych wartości, lub inaczej, nie ma decydującego wpływu na wynik) ma w przybliżeniu rozkład normalny. Wiele wielkości ma taki właśnie charakter - jest sumą wielu małych i niezależnych elementów - i co za tym idzie ma rozkład bliski normalnemu. | ||
Linia 127: | Linia 127: | ||
Chcemy obliczyć całkę <math>I = \int_{-\infty}^{\infty} f_X(x) dx</math>. Zamiast tego obliczymy jej kwadrat | Chcemy obliczyć całkę <math>I = \int_{-\infty}^{\infty} f_X(x) dx</math>. Zamiast tego obliczymy jej kwadrat | ||
<math> I^2 = (\int_{-\infty}^{\infty} f_X(x) dx)(\int_{-\infty}^{\infty} f_X(y) dy) = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} f_X(x) f_X(y) dydx</math>. | <math>I^2 = (\int_{-\infty}^{\infty} f_X(x) dx)(\int_{-\infty}^{\infty} f_X(y) dy) = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} f_X(x) f_X(y) dydx</math>. | ||
Mamy z definicji <math>f_X</math> | Mamy z definicji <math>f_X</math> | ||
<math>I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} dydx</math>. | <math>I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} dydx</math>. | ||
Korzystamy z tzw. podstawienia biegunowego t.j. <math>x = r\sin\theta</math>, <math>y = r\cos\theta</math> i otrzymujemy | Korzystamy z tzw. podstawienia biegunowego t.j. <math>x = r\sin\theta</math>, <math>y = r\cos\theta</math> i otrzymujemy | ||
<math>I^2 = \int_0^{2\pi} \int_0^\infty \frac{1}{2\pi} e^{-\frac{r^2}{2}} r dr d\theta </math>. | <math>I^2 = \int_0^{2\pi} \int_0^\infty \frac{1}{2\pi} e^{-\frac{r^2}{2}} r dr d\theta</math>. | ||
Dodatkowe <math>r</math> w tej całce jest modułem wyznacznika macierzy pochodnych cząstkowych <math>x</math> i <math>y</math> po <math>r</math> i <math>\theta</math> zgodnie z wielowymiarowym wzorem na całkowanie przez podstawienie. Łatwo zauważyć, że zewnętrzna całka jest równoważna mnożeniu przez <math>2\pi</math>, a zatem dostajemy | Dodatkowe <math>r</math> w tej całce jest modułem wyznacznika macierzy pochodnych cząstkowych <math>x</math> i <math>y</math> po <math>r</math> i <math>\theta</math> zgodnie z wielowymiarowym wzorem na całkowanie przez podstawienie. Łatwo zauważyć, że zewnętrzna całka jest równoważna mnożeniu przez <math>2\pi</math>, a zatem dostajemy | ||
<math>I^2 = \int_0^\infty e^{-\frac{r^2}{2}} r dr </math>. | <math>I^2 = \int_0^\infty e^{-\frac{r^2}{2}} r dr</math>. | ||
Funkcja pod całką szczęśliwie (ale zgodnie z planem) jest pochodną funkcji <math>-e^{-\frac{r^2}{2}}</math>, a zatem | Funkcja pod całką szczęśliwie (ale zgodnie z planem) jest pochodną funkcji <math>-e^{-\frac{r^2}{2}}</math>, a zatem | ||
Linia 141: | Linia 141: | ||
Aby uzyskać analogiczny wynik w ogólnym przypadku, t.j. obliczyć całkę | Aby uzyskać analogiczny wynik w ogólnym przypadku, t.j. obliczyć całkę | ||
<math>J = \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx </math> | <math>J = \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx</math> | ||
wystarczy dokonać podstawienia <math>y=\frac{x-\mu}{\sigma}</math> i okazuje się, że <math>J=I=1</math>. | wystarczy dokonać podstawienia <math>y=\frac{x-\mu}{\sigma}</math> i okazuje się, że <math>J=I=1</math>. | ||
Linia 164: | Linia 164: | ||
''' Definicja (wariancja zmiennej ciągłej)''' | ''' Definicja (wariancja zmiennej ciągłej)''' | ||
Niech <math>X</math> będzie zmienną losową o rozkładzie ciągłym. Wtedy wariancją <math>X</math> nazywamy | Niech <math>X</math> będzie zmienną losową o rozkładzie ciągłym. Wtedy wariancją <math>X</math> nazywamy | ||
<math>Var(X) = E(X-EX)^2 </math>, | <math>Var(X) = E(X-EX)^2</math>, | ||
o ile ta wartość oczekiwana istnieje. | o ile ta wartość oczekiwana istnieje. | ||
Linia 171: | Linia 171: | ||
'''Twierdzenie 7.14''' | '''Twierdzenie 7.14''' | ||
Niech <math>X</math> będzie zmienną o rozkładzie ciągłym i niech <math>g:\mathbb{R}\rightarrow\mathbb{R}</math> będzie funkcją mierzalną. Wtedy | Niech <math>X</math> będzie zmienną o rozkładzie ciągłym i niech <math>g:\mathbb{R}\rightarrow\mathbb{R}</math> będzie funkcją mierzalną. Wtedy | ||
<math>Eg(X) = \int_{-\infty}^\infty g(x) f_X(x) dx </math> | <math>Eg(X) = \int_{-\infty}^\infty g(x) f_X(x) dx</math> | ||
o ile <math>Eg(X)</math> istnieje. Ponadto <math>Eg(X)</math> istnieje wtedy i tylko wtedy, gdy funkcja <math>g(x)f_X(x)</math> jest całkowalna z modułem na <math>\mathbb{R}</math>. | o ile <math>Eg(X)</math> istnieje. Ponadto <math>Eg(X)</math> istnieje wtedy i tylko wtedy, gdy funkcja <math>g(x)f_X(x)</math> jest całkowalna z modułem na <math>\mathbb{R}</math>. | ||
Linia 185: | Linia 185: | ||
''' Dowód ''' | ''' Dowód ''' | ||
Tezę twierdzenia uzyskujemy przez prostą zamianę zmiennych: | Tezę twierdzenia uzyskujemy przez prostą zamianę zmiennych: | ||
<math>\int_0^\infty P(X \ge t) dt = \int_{t=0}^\infty \int_{s=t}^\infty f_X(s) ds dt = \int_{s=0}^\infty \int_{t=0}^s f_X(s) dt ds = \int_{s=0}^\infty s f_X(s) ds = EX </math>. | <math>\int_0^\infty P(X \ge t) dt = \int_{t=0}^\infty \int_{s=t}^\infty f_X(s) ds dt = \int_{s=0}^\infty \int_{t=0}^s f_X(s) dt ds = \int_{s=0}^\infty s f_X(s) ds = EX</math>. | ||
''' Uwaga 7.16''' | ''' Uwaga 7.16''' | ||
Linia 197: | Linia 197: | ||
''' Przykład 7.18 (wartość oczekiwana rozkładu wykładniczego) ''' | ''' Przykład 7.18 (wartość oczekiwana rozkładu wykładniczego) ''' | ||
Niech <math>X \sim Exp(\theta)</math>. Wtedy, korzystając z twierdzenia 7.15 i wcześniejszego obliczenia <math>F_X</math> mamy | Niech <math>X \sim Exp(\theta)</math>. Wtedy, korzystając z twierdzenia 7.15 i wcześniejszego obliczenia <math>F_X</math> mamy | ||
<math> EX = \int_0^\infty P(X \ge t) dt = \int_0^\infty e^{-\theta t} dt = \int_0^\infty (-\frac{e^{-\theta t}}{\theta})' dt = (-\frac{e^{-\theta t}}{\theta})|_0^\infty = 0 - (-\frac{1}{\theta}) = \frac{1}{\theta}</math>. | <math>EX = \int_0^\infty P(X \ge t) dt = \int_0^\infty e^{-\theta t} dt = \int_0^\infty (-\frac{e^{-\theta t}}{\theta})' dt = (-\frac{e^{-\theta t}}{\theta})|_0^\infty = 0 - (-\frac{1}{\theta}) = \frac{1}{\theta}</math>. | ||
Można też oczywiście obliczyć wartość oczekiwaną wprost z definicji. | Można też oczywiście obliczyć wartość oczekiwaną wprost z definicji. | ||
Linia 211: | Linia 211: | ||
Nie ma potrzeby definiować na nowo niezależności zmiennych ciągłych. Definicja, której używaliśmy w przypadku zmiennych dyskretnych jest nadal dobra. Przypomnijmy: | Nie ma potrzeby definiować na nowo niezależności zmiennych ciągłych. Definicja, której używaliśmy w przypadku zmiennych dyskretnych jest nadal dobra. Przypomnijmy: | ||
''' Definicja (Niezależność zmiennych losowych) ''' | ''' Definicja (Niezależność zmiennych losowych) ''' | ||
Zmienne losowe <math>X,Y</math> są niezależne, jeśli dla każdych zbiorów borelowskich <math>A,B \subseteq \mathbb{R}</math> (lub równoważnie dla każdych przedziałów <math>A,B \subseteq \mathbb{R}</math> zachodzi <math> P(X \in A \wedge Y \in B) = P(X \in A) P(Y \in B)</math>. | Zmienne losowe <math>X,Y</math> są niezależne, jeśli dla każdych zbiorów borelowskich <math>A,B \subseteq \mathbb{R}</math> (lub równoważnie dla każdych przedziałów <math>A,B \subseteq \mathbb{R}</math> zachodzi <math>P(X \in A \wedge Y \in B) = P(X \in A) P(Y \in B)</math>. | ||
W przypadku zmiennych dyskretnych mieliśmy do dyspozycji także prostsze, równoważne sformułowanie niezależności: | W przypadku zmiennych dyskretnych mieliśmy do dyspozycji także prostsze, równoważne sformułowanie niezależności: | ||
Linia 220: | Linia 220: | ||
''' Definicja (łączny rozkład ciągły)''' | ''' Definicja (łączny rozkład ciągły)''' | ||
Zmienne losowe <math>X,Y</math> mają łączny rozkład ciągły, jeśli istnieje funkcja <math>f_{X,Y}:\mathbb{R}^2 \rightarrow \mathbb{R}_{\ge 0}</math>, zwana łączną gęstością <math>X</math> i <math>Y</math> taka, że dla dowolnego mierzalnego zbioru <math>A \subseteq \mathbb{R}^2</math> zachodzi | Zmienne losowe <math>X,Y</math> mają łączny rozkład ciągły, jeśli istnieje funkcja <math>f_{X,Y}:\mathbb{R}^2 \rightarrow \mathbb{R}_{\ge 0}</math>, zwana łączną gęstością <math>X</math> i <math>Y</math> taka, że dla dowolnego mierzalnego zbioru <math>A \subseteq \mathbb{R}^2</math> zachodzi | ||
<math> P( (X,Y) \in A) = \int_A f_{X,Y}(x,y) dxdy </math>. | <math>P( (X,Y) \in A) = \int_A f_{X,Y}(x,y) dxdy</math>. | ||
''' Fakt 7.20''' | ''' Fakt 7.20''' | ||
Linia 227: | Linia 227: | ||
''' Dowód ''' | ''' Dowód ''' | ||
Aby pokazać, że zmienna <math>X</math> jest ciągła, wystarczy pokazać, że <math>f_X</math> jak w tezie faktu jest jej gęstością. Niech <math>B \subseteq \mathbb{R}</math> będzie zbiorem mierzalnym. Wtedy | Aby pokazać, że zmienna <math>X</math> jest ciągła, wystarczy pokazać, że <math>f_X</math> jak w tezie faktu jest jej gęstością. Niech <math>B \subseteq \mathbb{R}</math> będzie zbiorem mierzalnym. Wtedy | ||
<math> \int_B f_X(x) dx = \int_B \int_{-\infty}^\infty f_{X,Y}(x,y) dy dx = P( (X,Y) \in B\times(-\infty,\infty)) = P(X \in B)</math>. | <math>\int_B f_X(x) dx = \int_B \int_{-\infty}^\infty f_{X,Y}(x,y) dy dx = P( (X,Y) \in B\times(-\infty,\infty)) = P(X \in B)</math>. | ||
Dowód dla zmiennej <math>Y</math> jest analogiczny. | Dowód dla zmiennej <math>Y</math> jest analogiczny. | ||
Linia 249: | Linia 249: | ||
''' Dowód ''' | ''' Dowód ''' | ||
Jeśli <math>X</math> i <math>Y</math> są niezależne, to dla dowolnych przedziałów <math>A,B \subseteq \mathbb{R}</math> zachodzi: | Jeśli <math>X</math> i <math>Y</math> są niezależne, to dla dowolnych przedziałów <math>A,B \subseteq \mathbb{R}</math> zachodzi: | ||
<math>P(X \in A \wedge Y \in B) = P(X \in A) P (Y \in B) = \int_A f_X(x) dx \int_B f_Y(y)dy = \int_{A \times B} f_X(x)f_Y(y) dxdy </math>, | <math>P(X \in A \wedge Y \in B) = P(X \in A) P (Y \in B) = \int_A f_X(x) dx \int_B f_Y(y)dy = \int_{A \times B} f_X(x)f_Y(y) dxdy</math>, | ||
a zatem <math>f_{X,Y}(x,y) = f_X(x)f_Y(y)</math> jest łączną gęstością <math>X</math> i <math>Y</math>. | a zatem <math>f_{X,Y}(x,y) = f_X(x)f_Y(y)</math> jest łączną gęstością <math>X</math> i <math>Y</math>. | ||
Linia 261: | Linia 261: | ||
''' Dowód ''' | ''' Dowód ''' | ||
Wiemy, że <math>X,Y</math> są niezależne, więc są też łącznie ciągłe z gęstością <math>f_{X,Y}(x,y) = f_X(x) f_Y(y)</math>. A zatem | Wiemy, że <math>X,Y</math> są niezależne, więc są też łącznie ciągłe z gęstością <math>f_{X,Y}(x,y) = f_X(x) f_Y(y)</math>. A zatem | ||
<math> P(Z \le a) = P(X+Y \le a) = \int_{x+y \le a} f_X(x) f_Y(y) dxdy</math>. | <math>P(Z \le a) = P(X+Y \le a) = \int_{x+y \le a} f_X(x) f_Y(y) dxdy</math>. | ||
Zmieńmy zmienne na <math>z=x+y</math> i <math>x</math>. Mamy wtedy | Zmieńmy zmienne na <math>z=x+y</math> i <math>x</math>. Mamy wtedy | ||
<math> P(Z \le a) = \int_{-\infty}^a \int_{-\infty}^\infty f_X(x) f_Y(s-x) dx ds = \int_{-\infty}^a (\int_{-\infty}^\infty f_X(x) f_Y(s-x) dx) ds</math>. | <math>P(Z \le a) = \int_{-\infty}^a \int_{-\infty}^\infty f_X(x) f_Y(s-x) dx ds = \int_{-\infty}^a (\int_{-\infty}^\infty f_X(x) f_Y(s-x) dx) ds</math>. | ||
A zatem wewnętrzna całka jest gęstością <math>Z</math>, co kończy dowód. | A zatem wewnętrzna całka jest gęstością <math>Z</math>, co kończy dowód. | ||
Linia 269: | Linia 269: | ||
Jako przykładowe zastosowanie pokażemy, że suma dwóch niezależnych zmiennych o rozkładzie normalnym ma też rozkład normalny. Ogólny przypadek | Jako przykładowe zastosowanie pokażemy, że suma dwóch niezależnych zmiennych o rozkładzie normalnym ma też rozkład normalny. Ogólny przypadek | ||
tego faktu jest dość uciążliwy w dowodzie, dlatego ograniczymy sie do przypadku <math>X \sim Y \sim N(0,1)</math>. Niech <math>Z = X+Y</math>, wtedy na mocy twierdzenia 7.24 mamy (wszystkie całki są po całej osi rzeczywistej): | tego faktu jest dość uciążliwy w dowodzie, dlatego ograniczymy sie do przypadku <math>X \sim Y \sim N(0,1)</math>. Niech <math>Z = X+Y</math>, wtedy na mocy twierdzenia 7.24 mamy (wszystkie całki są po całej osi rzeczywistej): | ||
<math> f_Z(z) = \int \frac{1}{2\pi} e^{-\frac{x^2+(z-x)^2}{2}}dx = \frac{1}{2\pi} \int e^{-\frac{ (\sqrt{2}x - \frac{z}{\sqrt{2}})^2 + \frac{z^2}{2}}{2}} dx </math>. | <math>f_Z(z) = \int \frac{1}{2\pi} e^{-\frac{x^2+(z-x)^2}{2}}dx = \frac{1}{2\pi} \int e^{-\frac{ (\sqrt{2}x - \frac{z}{\sqrt{2}})^2 + \frac{z^2}{2}}{2}} dx</math>. | ||
Wstawiamy <math>y = \sqrt{2}x + \frac{z}{\sqrt{2}}</math> (czyli <math>dx = \frac{dy}{\sqrt{2}}</math> i otrzymujemy: | Wstawiamy <math>y = \sqrt{2}x + \frac{z}{\sqrt{2}}</math> (czyli <math>dx = \frac{dy}{\sqrt{2}}</math> i otrzymujemy: | ||
<math> f_Z(z) = \frac{1}{2\pi} \int \frac{1}{\sqrt{2}} e^{-\frac{ y^2 + \frac{z^2}{2}}{2}} dy = \frac{1}{2\sqrt{\pi}} e^{-\frac{z^2}{4}} \int \frac{1}{\sqrt{2\pi}} e^{-\frac{ y^2}{2}} dy = \frac{1}{2\sqrt{\pi}}e^{-\frac{z^2}{4}}</math>. | <math>f_Z(z) = \frac{1}{2\pi} \int \frac{1}{\sqrt{2}} e^{-\frac{ y^2 + \frac{z^2}{2}}{2}} dy = \frac{1}{2\sqrt{\pi}} e^{-\frac{z^2}{4}} \int \frac{1}{\sqrt{2\pi}} e^{-\frac{ y^2}{2}} dy = \frac{1}{2\sqrt{\pi}}e^{-\frac{z^2}{4}}</math>. | ||
W ostatnim przejściu całka jest równa <math>1</math> bo jest gęstością standardowego rozkładu normalnego. Łatwo zauważyć, że otrzymany wyrażenie opisuje gęstość rozkładu <math>N(0,2)</math>. | W ostatnim przejściu całka jest równa <math>1</math> bo jest gęstością standardowego rozkładu normalnego. Łatwo zauważyć, że otrzymany wyrażenie opisuje gęstość rozkładu <math>N(0,2)</math>. | ||
Linia 291: | Linia 291: | ||
wzór na obliczanie wariancji. | wzór na obliczanie wariancji. | ||
''' Fakt 7.29 (wzór na wariancję) ''' | ''' Fakt 7.29 (wzór na wariancję) ''' | ||
Jeśli zmienna ciągła <math>X</math> ma wariancję, to <math>VarX = E(X^2) - (EX)^2 </math>. | Jeśli zmienna ciągła <math>X</math> ma wariancję, to <math>VarX = E(X^2) - (EX)^2</math>. | ||
''' Przykład 7.30 (wariancja zmiennej o rozkładzie jednostajnym)''' | ''' Przykład 7.30 (wariancja zmiennej o rozkładzie jednostajnym)''' | ||
Linia 303: | Linia 303: | ||
''' Przykład 7.31 (wariancja zmiennej o rozkładzie wykładniczym)''' | ''' Przykład 7.31 (wariancja zmiennej o rozkładzie wykładniczym)''' | ||
Niech <math>X \sim Exp(\theta)</math>. Obliczymy <math>Var(X)</math> korzystając, jak poprzednio, ze wzoru <math>VarX = E(X^2) - (EX)^2</math>. Mamy | Niech <math>X \sim Exp(\theta)</math>. Obliczymy <math>Var(X)</math> korzystając, jak poprzednio, ze wzoru <math>VarX = E(X^2) - (EX)^2</math>. Mamy | ||
<math>E(X^2) = \int_{0}^\infty x^2 \theta e^{-\theta x} dx = \int_{0}^\infty x^2 (-e^{-\theta x})' dx </math>. | <math>E(X^2) = \int_{0}^\infty x^2 \theta e^{-\theta x} dx = \int_{0}^\infty x^2 (-e^{-\theta x})' dx</math>. | ||
Ze wzoru na całkowanie przez części dostajemy | Ze wzoru na całkowanie przez części dostajemy | ||
<math>E(X^2) = (-x^2 e^{-\theta x})|_0^\infty + 2\int_{0}^\infty x e^{-\theta x} dx = 0-(-0) + 2 \frac{1}{\theta}EX = \frac{2}{\theta^2}</math>. | <math>E(X^2) = (-x^2 e^{-\theta x})|_0^\infty + 2\int_{0}^\infty x e^{-\theta x} dx = 0-(-0) + 2 \frac{1}{\theta}EX = \frac{2}{\theta^2}</math>. | ||
Linia 330: | Linia 330: | ||
''' Definicja (gęstość warunkowa) ''' | ''' Definicja (gęstość warunkowa) ''' | ||
Niech <math>X</math> i <math>Y</math> będą zmiennymi o łącznym rozkładzie ciągłym z gęstością <math>f_{X,Y}</math> i niech <math>f_Y</math> będzie gęstością <math>Y</math>. Jeśli <math>y \in \mathbb{R}</math> jest taki, że <math>f_Y(y) \neq 0</math>, to gęstością warunkową <math>X</math> pod warunkiem <math>Y=y</math> nazywamy funkcję | Niech <math>X</math> i <math>Y</math> będą zmiennymi o łącznym rozkładzie ciągłym z gęstością <math>f_{X,Y}</math> i niech <math>f_Y</math> będzie gęstością <math>Y</math>. Jeśli <math>y \in \mathbb{R}</math> jest taki, że <math>f_Y(y) \neq 0</math>, to gęstością warunkową <math>X</math> pod warunkiem <math>Y=y</math> nazywamy funkcję | ||
<math> f_{X|Y=y}(x) = \frac{f_{X,Y}(x,y)}{f_Y(y)} </math>. | <math>f_{X|Y=y}(x) = \frac{f_{X,Y}(x,y)}{f_Y(y)}</math>. | ||
''' Definicja (prawdopodobieństwo warunkowe) ''' | ''' Definicja (prawdopodobieństwo warunkowe) ''' | ||
Przy założeniach jak wyżej i dla dowolnego mierzalnego <math>A \subseteq \mathbb{R}</math>, prawdopodobieństwem warunkowym <math>X \in A</math> pod warunkiem <math>Y=y</math> nazywamy | Przy założeniach jak wyżej i dla dowolnego mierzalnego <math>A \subseteq \mathbb{R}</math>, prawdopodobieństwem warunkowym <math>X \in A</math> pod warunkiem <math>Y=y</math> nazywamy | ||
<math>P(X \in A | Y=y) = \int_A f_{X|Y=y}(x) dx </math>. | <math>P(X \in A | Y=y) = \int_A f_{X|Y=y}(x) dx</math>. | ||
Zauważmy przede wszystkim, że <math>f_{X|Y=y}</math> jest funkcją gęstości, t.j. całka z <math>f_{X|Y=y}</math> po całej osi rzeczywistej wynosi <math>1</math>. Wynika to natychmiast z faktu 7.20. | Zauważmy przede wszystkim, że <math>f_{X|Y=y}</math> jest funkcją gęstości, t.j. całka z <math>f_{X|Y=y}</math> po całej osi rzeczywistej wynosi <math>1</math>. Wynika to natychmiast z faktu 7.20. | ||
Linia 341: | Linia 341: | ||
Drugie intuicyjne wyprowadzenie mogłoby wyglądać tak: skoro nie wiemy jak obliczyć <math>P(X \in A | Y=y)</math>, to obliczmy <math>P(X \in A | Y \in I_y)</math> dla małego przedziału <math>I_y</math> zawierającego <math>y</math>. Jeśli ten przedział jest na tyle mały, żeby zarówno <math>f_Y</math> jak i <math>f_{X,Y}(x,y)</math> dla każdego ustalone <math>x</math> była na nim prawie stała (pomijamy to czy taki przedział musi istnieć, w końcu szukamy tylko intuicji), to dostajemy: | Drugie intuicyjne wyprowadzenie mogłoby wyglądać tak: skoro nie wiemy jak obliczyć <math>P(X \in A | Y=y)</math>, to obliczmy <math>P(X \in A | Y \in I_y)</math> dla małego przedziału <math>I_y</math> zawierającego <math>y</math>. Jeśli ten przedział jest na tyle mały, żeby zarówno <math>f_Y</math> jak i <math>f_{X,Y}(x,y)</math> dla każdego ustalone <math>x</math> była na nim prawie stała (pomijamy to czy taki przedział musi istnieć, w końcu szukamy tylko intuicji), to dostajemy: | ||
<math>P(X \in A | Y \in I_y) = \frac{\int_{s \in A} \int_{t \in I_y} f_{X,Y}(s,t) dt ds}{ \int_{t \in I_y} f_Y(t) dt} \approx \frac{\int_{s \in A} |I_y| f_{X,Y}(s,y)ds}{|I_y| f_Y(y)} = \int_{s \in A} \frac{f_{X,Y}(s,y)}{f_Y(y)} ds </math>, | <math>P(X \in A | Y \in I_y) = \frac{\int_{s \in A} \int_{t \in I_y} f_{X,Y}(s,t) dt ds}{ \int_{t \in I_y} f_Y(t) dt} \approx \frac{\int_{s \in A} |I_y| f_{X,Y}(s,y)ds}{|I_y| f_Y(y)} = \int_{s \in A} \frac{f_{X,Y}(s,y)}{f_Y(y)} ds</math>, | ||
czyli dokładnie to czego się spodziewaliśmy. | czyli dokładnie to czego się spodziewaliśmy. | ||
Linia 347: | Linia 347: | ||
''' Twierdzenie 7.35 (Wzór na prawdopodobieństwo całkowite) ''' | ''' Twierdzenie 7.35 (Wzór na prawdopodobieństwo całkowite) ''' | ||
Jeśli <math>X,Y</math> są ciągłe i łącznie ciągłe, a <math>A \subseteq \mathbb{R}</math> jest mierzalny, to zachodzi | Jeśli <math>X,Y</math> są ciągłe i łącznie ciągłe, a <math>A \subseteq \mathbb{R}</math> jest mierzalny, to zachodzi | ||
<math> P(X \in A) = \int_{-\infty}^{\infty} P(X\in A | Y=y) f_Y(y) dy</math>. | <math>P(X \in A) = \int_{-\infty}^{\infty} P(X\in A | Y=y) f_Y(y) dy</math>. | ||
Dowód wynika natychmiast z definicji gęstości warunkowej. | Dowód wynika natychmiast z definicji gęstości warunkowej. | ||
Linia 361: | Linia 361: | ||
''' Twierdzenie 7.36 (Centralne Twierdzenie Graniczne (CTG)) ''' | ''' Twierdzenie 7.36 (Centralne Twierdzenie Graniczne (CTG)) ''' | ||
Niech <math>X_1,X_2,\ldots</math> będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, wartości oczekiwanej <math>\mu</math> i wariancji <math>\sigma^2>0</math>. Niech ponadto <math>Z_n = \frac{\sum_{i=1}^n (X_i - \mu)}{\sqrt{n}\sigma}</math>. Wtedy rozkład <math>Z_n</math> zbiega do rozkładu <math>N(0,1)</math> w następującym sensie: | Niech <math>X_1,X_2,\ldots</math> będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, wartości oczekiwanej <math>\mu</math> i wariancji <math>\sigma^2>0</math>. Niech ponadto <math>Z_n = \frac{\sum_{i=1}^n (X_i - \mu)}{\sqrt{n}\sigma}</math>. Wtedy rozkład <math>Z_n</math> zbiega do rozkładu <math>N(0,1)</math> w następującym sensie: | ||
<math> \forall_{z \in \mathbb{R}} \lim_{n \rightarrow \infty} P(Z_n \le z) = \Phi(z)</math>, | <math>\forall_{z \in \mathbb{R}} \lim_{n \rightarrow \infty} P(Z_n \le z) = \Phi(z)</math>, | ||
gdzie <math>\Phi</math> jest dystrybuantą rozkładu <math>N(0,1)</math>. | gdzie <math>\Phi</math> jest dystrybuantą rozkładu <math>N(0,1)</math>. |
Aktualna wersja na dzień 22:15, 11 wrz 2023
Motywacja i definicja
Dotychczas koncentrowaliśmy uwagę na zmiennych dyskretnych, t.j. takich, że zachodzi . Innymi słowy, istnieje pewien przeliczalny zbiór wartości o niezerowym prawdopodobieństwie, i z prawdopodobieństwem zmienna przyjmuje jedną z tych wartości.
Łatwo sobie jednak wyobrazić sytuacje, w których pojawiają się zmienne losowe nie mające tej własności. Jeśli na przykład losujemy punkt z odcinka i jest wylosowanym punktem, to musi zachodzić dla każdego . Gdyby bowiem było dla pewnego , to musiałoby też być dla każdego (dlaczego miałby być bardziej prawdopodobny?), co prowadzi do sprzeczności z .
Podobnie, jeśli mierzymy (dokładnie, wynikiem może być dowolna liczba rzeczywista) prędkość samochodu na autostradzie, czy wzrost losowo wybranej osoby, to sensownie jest założyć, że prawdopodobieństwo każdego konkretnego wyniku jest równe .
Jest to dość niepokojąca sytuacja - cała teoria jaką dotychczas omówiliśmy opierała się dość mocno na założeniu dyskretności. W szczególności, własnością zmiennych dyskretnych, która była kluczowa w wielu definicjach i dowodach było to, że dla dowolnego zbioru i zmiennej dyskretnej zachodzi .
Okazuje się, że w obu sytuacjach opisanych powyżej, a także w wielu innych, można opisać w sposób tylko trochę bardziej skomplikowany. Definicja (Rozkład ciągły) Zmienna ma rozkład ciągły, jeśli istnieje funkcja taka, że dla każdego przedziału zachodzi (lub równoważnie: dla każdego zbioru mierzalnego zachodzi ). Funkcję nazywamy gęstością zmiennej .
Uwaga 7.1 Łatwo zauważyć, że jeśli jest gęstością pewnej zmiennej, to . Z drugiej strony, jeśli pewna funkcja spełnia ten warunek, to jest gęstością pewnej zmiennej. Dlatego w dalszej części wykładu, definiując rozkład za pomocą funkcji gęstości, będziemy zmuszeni zawsze sprawdzić, czy opisywana przez nas funkcja faktycznie może być gęstością, t.j. czy zachodzi .
Uwaga 7.2 Zmienną losową o rozkładzie ciągłym można opisać za pomocą więcej niż jednej funkcji gęstości. Jeśli bowiem dowolną funkcję gęstości zmodyfikujemy na zbiorze miary , to otrzymana funkcja też będzie dobrą funkcją gęstości. Z powodu tej niejednoznaczności w sformułowaniach niektórych twierdzeń tego wykładu pojawiają się słowa "prawie wszędzie".
Jaki jest sens funkcji gęstości? Załóżmy, że jest odcinkiem na tyle małym, że jest na nim niemal stała (znalezienie takiego przedziału może czasem być niemożliwe, ale nie będziemy się tym przejmować, szukamy tylko intuicji). Wtedy , dla dowolnego , czyli . Innymi słowy, mówi nam jak dużo prawdopodobieństwa przypada na przedział długości w okolicy punktu , czyli jest taką "lokalną gęstością prawdopodobieństwa" w okolicy punktu , co tłumaczy nazwę.
Przykład 7.3 Mogłoby się wydawać, że każda zmienna losowa musi być albo dyskretna albo ciągła, ale łatwo zauważyć, że tak być nie musi. Wyobraźmy sobie, że chcemy wymodelować czas oczekiwania w kolejce u fryzjera (ew. w sklepie itp.) za pomocą zmiennej losowej . Z niezerowym prawdopodobieństwem nie będziemy w ogóle czekać, a więc . Jeśli jednak to wydaje się, że mamy do czynienia z rozkładem ciągłym, w szczególności żadna wartość większa niż nie będzie mieć niezerowego prawdopodobieństwa. Ta zmienna nie jest ani ciągła, ani dyskretna, jest jednak pewnego rodzaju kombinacją zmiennej ciągłej i dyskretnej. Część prawdopodobieństwa jest skoncentrowana w punkcie , resztę można opisać funkcją gęstości. Czy każda zmienna losowa ma taką postać? Na to pytanie odpowiemy w dalszej części tego wykładu.
Dystrybuanta zmiennej losowej
Naturalnym pojęciem związanym z pojęciem zmiennej losowej jest dystrybuanta. Definicja (dystrybuanta) Dystrybuantą zmiennej losowej jest funkcja określona .
Zacznijmy od sformułowania kilku prostych własności dystrybuanty: Fakt 7.4 (własności dystrybuanty) Niech będzie zmienną losową, a jej dystrybuantą. Wtedy
- jest niemalejąca,
- jest prawostronnie ciągła,
- oraz .
Dowody wszystkich własności są oczywiste. Można też pokazać (dowód jest dość techniczny), że własności te charakteryzują funkcje, które są dystrybuantami: Twierdzenie 7.5 Jeśli spełnia warunki z faktu 7.4, to istnieje zmienna losowa , dla której jest dystrybuantą.
Następne twierdzenie i wniosek z niego pokazują, że patrząc na dystrybuantę można odróżnić zmienne dyskretne od ciągłych (oczywiste dowody pomijamy).
Twierdzenie 7.6 Jeśli jest zmienną losową, a jej dystrybuantą, to dla każdego zachodzi , gdzie jest lewostronną granicą w .
Wniosek 7.7 Jeśli jest zmienną ciągłą, to jest funkcją ciągłą. Jeśli natomiast jest dyskretna to .
Uwaga 7.8 Chciałoby się powiedzieć, że gdy jest dyskretna, to jest schodkowa, i z reguły tak właśnie jest - w szczególności jest to prawdą dla zmiennych o rozkładach, które poznaliśmy w dotychczasowych wykładach. Istnieją jednak zmienne dyskretne, których dystrybuanty nie są stałe na żadnym przedziale. Wystarczy w tym celu przypisać niezerowe prawdopodobieństwa elementom przeliczalnego zbioru gęstego w , np. wszystkim liczbom wymiernym.
Następne twierdzenie podaje ważną charakteryzację zmiennych ciągłych za pomocą ich dystrybuant (dowód pomijamy) Twierdzenie 7.9 Jeśli jest zmienną ciągłą, to:
- jest różniczkowalna prawie wszędzie,
- (prawie wszędzie).
Z drugiej strony, jeśli jest dystrybuantą różniczkowalną prawie wszędzie, a (tam gdzie nie jest różniczkowalna, przyjmuje dowolną wartość, np. ), to jest gęstością ciągłej zmiennej losowej, o ile tylko .
To, że ten ostatni warunek jest konieczny pokazuje poniższy przykład. Przy okazji odpowiadamy na pytanie postawione w przykładzie 7.3.
Przykład 7.10 (Funkcja Cantora, czyli diabelskie schody) Pokażemy zmienną taką, że:
- dla każdego (czyli nie ma części dyskretnej), ale też
- na żadnym przedziale dla którego , nie da się zdefiniować funkcji takiej, że dla każdego przedziału (a więc nie ma gęstości na żadnym przedziale o niezerowym prawdopodobieństwie, czyli nie ma części ciągłej)
Zmienną X zdefiniujemy za pomocą jej dystrybuanty. Rozważmy następujący ciąg funkcji :
- dla i dla , oraz dla .
- powstaje z w następujący sposób: Niech będzie dowolnym maksymalnym przedziałem na którym jest ściśle rosnąca. Dzielimy na 3 równej długości podprzedziały , , . Definiujemy dla , natomiast na przedziale funkcja rośnie liniowo od do i odpowiednio na od do . W ten sposób postępujemy dla wszystkich maksymalnych przedziałow , na których jest ściśle rosnąca.
Łatwo sprawdzić, że ciąg funkcji jest zbieżny punktowo do pewnej funkcji. Niech będzie granicą i niech będzie zmienną losową o dystrybuancie . Łatwo pokazać, że jest ciągła, a zatem dla każdego zachodzi na mocy twierdzenia 7.6. Można też pokazać (co jest nieco trudniejsze), że ma zerową pochodną wszędzie poza zbiorem miary zero (jest to tzw. zbiór Cantora), a zatem nie ma gęstości na żadnym przedziale dla którego .
Przykłady rozkładów ciągłych
Rozkład jednostajny
Definicja (rozkład jednostajny) Zmienna o rozkładzie jednostajnym na przedziale dla , ozn. ma gęstość , gdzie dla i dla pozostałych .
Rozkład pojawia się, gdy losujemy liczbę z przedziału tak, aby prawdopodobieństwo uzyskania wyniku w dowolnym przedziale było proporcjonalne do długości tego przedziału. Intuicyjnie chcemy, żeby wszystkie liczby były "równie prawdopodobne", choć oczywiście w przypadku losowania z przedziału sformułowanie "równie prawdopodobne" nie ma zbyt wiele sensu (wszystkie wyniki oczywiście są równie prawdopodobne, bo wszystkie mają prawdopodobieństwo , ale przecież nie o to nam chodzi).
Rozkład wykładniczy
Definicja (rozkład wykładniczy) Zmienna o rozkładzie wykładniczym z parametrem , ozn. ma gęstość , gdzie dla i dla .
Ten rozkład dobrze modeluje czas oczekiwania na zdarzenie, które ma cały czas "taką samą szansę zajścia", na przykład czas do następnego telefonu w centrum telefonicznym, czas do zajścia rozpadu radioaktywnego, itp. Można go też używać do modelowania czasu życia organizmów lub wszelkiego rodzaju sprzętu, aczkolwiek rozkład wykładniczy nie modeluje tych czasów bardzo dobrze. W obu przypadkach śmierć/awaria jest nieco bardziej prawdopodobna na początku, jest też bardziej prawdopodobna po upływie wystarczająco długiego czasu.
Sprawdzimy teraz, że funkcja z definicji rozkładu wykładniczego rzeczywiście jest gęstością (t.j. ma całkę równą 1), a przy okazji znajdziemy dystrybuantę rozkładu wykładniczego. Dla dowolnego mamy: .
Stąd , czyli jest gęstością.
Ponadto .
O rozkładzie wykładniczym można myśleć jako o "ciągłej wersji" rozkładu geometrycznego. W szczególności każdej wartości odpowiada pewna wartość taka, że dystrybuanty rozkładów ) i przyjmują te same wartości dla wszystkich argumentów naturalnych (ćwiczenia).
Rozkład normalny
Definicja (rozkład normalny lub Gaussa) Zmienna o rozkładzie normalnym o wartości oczekiwanej i wariancji , ozn. ma gęstość .
Definicja rozkładu normalnego jest dość skomplikowana, jest on jednak niezwykle ważny. Jest ku temu kilka powodów, najważniejszym jest tzw. Centralne Twierdzenie Graniczne (które pojawi się pod koniec tego wykładu), które mówi, że suma dużej liczby niezależnych zmiennych, z których żadna nie dominuje pozostałych (t.j. nie przyjmuje dużo większych wartości, lub inaczej, nie ma decydującego wpływu na wynik) ma w przybliżeniu rozkład normalny. Wiele wielkości ma taki właśnie charakter - jest sumą wielu małych i niezależnych elementów - i co za tym idzie ma rozkład bliski normalnemu. Każdy na pewno nie raz widział charakterystyczny kształt dzwonu na histogramach ilustrujących różnego rodzaju statystyki.
Często zakłada się na przykład, że wzrost/masa człowieka, ew. wymiary/masa innych organizmów mają rozkład normalny. Należy tu oczywiście być ostrożnym: kobiety są generalnie niższe niż mężczyźni, można też zaobserwować różnice we wzroście pomiędzy poszczególnymi rasami. W związku z tym odpowiedni rozkład nie będzie miał kształtu dzwonu z jednym maksimum, ale raczej sumy kliku dzwonów. Łatwo zrozumieć dlaczego rozumowanie oparte na Centralnym Twierdzeniu Granicznym nie działa w tym przypadku: zarówno płeć jak i rasa są czynnikami, których wpływ na wzrost dominuje pozostałe czynniki. Jeśli jednak odpowiednio ograniczymy rozpatrywaną populację, np. do kobiet rasy białej, to rozkład wzrostu będzie bliski normalnemu.
Spróbujemy teraz sprawdzić, że funkcja z definicji rozkładu normalnego rzeczywiście jest gęstością. Zacznijmy od przypadku, w którym i , t.j. od rozkładu .
Chcemy obliczyć całkę . Zamiast tego obliczymy jej kwadrat . Mamy z definicji .
Korzystamy z tzw. podstawienia biegunowego t.j. , i otrzymujemy . Dodatkowe w tej całce jest modułem wyznacznika macierzy pochodnych cząstkowych i po i zgodnie z wielowymiarowym wzorem na całkowanie przez podstawienie. Łatwo zauważyć, że zewnętrzna całka jest równoważna mnożeniu przez , a zatem dostajemy .
Funkcja pod całką szczęśliwie (ale zgodnie z planem) jest pochodną funkcji , a zatem , czyli , co kończy obliczenia dla rozkładu .
Aby uzyskać analogiczny wynik w ogólnym przypadku, t.j. obliczyć całkę wystarczy dokonać podstawienia i okazuje się, że .
Uwaga 7.11 Rozkład , od którego rozpoczęliśmy nasze rozważania ma swoją nazwę - jest to tzw. standardowy rozkład normalny. Rozkład ten jak zobaczyliśmy, ma wyjątkowo prostą postać. Często pojawia się on w definicjach innych rozkładów, a także w rozumowaniach - jako najprostszy przypadek rozkładu normalnego. Rozkład ten ma też duże znaczenie historyczne z powodów, które w dzisiejszych czasach mogą nie być zupełnie oczywiste. Występuje on mianowicie w wielu rozumowaniach i procedurach wnioskowania statystycznego. Jednym z kroków takich procedur jest często odczytanie wartości dystrybuanty odpowiedniego rozkładu normalnego, ew. jej odwrotności, w pewnych punktach. W dzisiejszych czasach można te wartości w prosty sposób uzyskać za pomocą dowolnego pakietu statystycznego, kiedyś używano tablic matematycznych. Stablicowanie dystrybuant wszystkich rozkładów normalnych nie jest oczywiście możliwe, dlatego używano tylko tablic dla rozkładu standardowego, a metody wnioskowania formułowano tak, aby takie tablice wystarczały.
Wartość oczekiwana i wariancja zmiennych o rozkładzie ciągłym
Wartość oczekiwaną dla zmiennych ciągłych definiujemy podobnie jak dla zmiennych dyskretnych Definicja (wartość oczekiwana zmiennej ciągłej) Niech będzie ciągłą zmienną losową o gęstości . Wartością oczekiwaną nazywamy , o ile funkcja jest całkowalna z modułem.
Uwaga 7.12 Założenie całkowalności z modułem przyjmujemy z przyczyn podobnych jak w przypadku zmiennych dyskretnych. Tak jak poprzednio może ono prowadzić do dość mało intuicyjnych sytuacji. Można na przykład sprawdzić, że zmienna o tzw. standardowym rozkładzie Cauchy'ego, t.j. o gęstości zadanej wzorem nie ma wartości oczekiwanej pomimo tego, że jej gęstość jest symetryczna względem zera.
Uwaga 7.13 Powyższa definicja mocno przypomina definicję wartości oczekiwanej dla zmiennych dyskretnych. Nie jest to przypadek odosobniony. Jak wkrótce zobaczymy, większość definicji i twierdzeń dotyczących zmiennych dyskretnych ma swoje odpowiedniki ciągłe. Odpowiedniki te powstają z reguły przez zastąpienie sum całkami, a wyrażeń postaci wyrażeniami . Nie jest to specjalnie zaskakujące - o rozkładach ciągłych możemy myśleć jako o granicach rozkładów dyskretnych.
Definicja wariancji dla zmiennych ciągłych jest taka sama jak dla dyskretnych Definicja (wariancja zmiennej ciągłej) Niech będzie zmienną losową o rozkładzie ciągłym. Wtedy wariancją nazywamy , o ile ta wartość oczekiwana istnieje.
Podstawowe własności wartości oczekiwanej i wariancji przenoszą się z przypadku dyskretnego na ciągły. Poniżej omawiamy dwie takie sytuacje.
Twierdzenie 7.14 Niech będzie zmienną o rozkładzie ciągłym i niech będzie funkcją mierzalną. Wtedy o ile istnieje. Ponadto istnieje wtedy i tylko wtedy, gdy funkcja jest całkowalna z modułem na .
Nie będziemy dowodzić powyższego twierdzenia - dowód jest dość techniczny. Zwróćmy jednak uwagę na pewną subtelność: nawet jeśli jest ciągła, to ciągła być nie musi! We wszystkich interesujących nas sytuacjach będzie ciągła, ale może być też dyskretna, a nawet, co łatwo sprawdzić, możemy zdefiniować tak, aby było "dziwną" zmienną z przykładu 7.10. Wiążą się z tym oczywiście pewne problemy. O ile zdefiniowaliśmy wartość oczekiwaną zarówno dla zmiennych ciągłych jak i dyskretnych, i moglibyśmy podać osobne dowody dla obu sytuacji, o tyle nie mamy pojęcia czym jest wartość oczekiwana zmiennej z przykładu 7.10. Podobnej natury problemy występują także przy innych twierdzeniach omawianych w ramach tego wykładu. Dlatego w większości przypadków zrezygnujemy z podawania pracochłonnych dowodów. Warto jednak zwrócić uwagę, że ogólna ich idea jest z reguły podobna jak w przypadku dyskretnych, szczegóły są jednak dużo bardziej skomplikowane.
Można podać ogólną definicję wartości oczekiwanej, uogólniającą nasze definicje dla zmiennych dyskretnych i ciągłych. Przy tej ogólnej definicji twierdzenie 7.14 pozostaje prawdziwe, tak jak wiele innych twierdzeń tego wykładu. Niestety nie możemy sobie pozwolić na pełniejsze omówienie tego uogólnienia w ramach naszego wykładu, wymagałoby to od nas dużo dokładniejszego zagłębienia się w teorię miary i całki.
Poniższe twierdzenie jest uogólnieniem wzoru zachodzącego dla zmiennych o wartościach naturalnych na zmienne ciągłe. Twierdzenie 7.15 Jeśli będzie zmienną ciągłą o wartościach nieujemnych i . Wtedy .
Tym razem, wyjątkowo, podamy dowód. Dowód Tezę twierdzenia uzyskujemy przez prostą zamianę zmiennych: .
Uwaga 7.16 Powyższe twierdzenie jest również prawdziwe dla zmiennych dyskretnych (niekoniecznie o wartościach naturalnych). Łatwy dowód pozostawiamy czytelnikowi.
Przykład 7.17 (wartość oczekiwana rozkładu jednostajnego) Spróbujmy policzyć wartość oczekiwaną zmiennej o rozkładzie jednostajnym , czyli bez niespodzianek.
Przykład 7.18 (wartość oczekiwana rozkładu wykładniczego) Niech . Wtedy, korzystając z twierdzenia 7.15 i wcześniejszego obliczenia mamy . Można też oczywiście obliczyć wartość oczekiwaną wprost z definicji.
W przypadku rozkładu normalnego mamy (ćwiczenia): Fakt 7.19 Zmienna ma wartość oczekiwaną .
Więcej niż jedna zmienna o rozkładzie ciągłym
W tej części wykładu omówimy sytuacje, w których mamy do czynienia z więcej niż jedną zmienną o rozkładzie ciągłym. W szczególności zdefiniujemy pojęcie niezależności ciągłych zmiennych losowych, przyjrzymy się wartości oczekiwanej i wariancji sumy zmiennych, wreszcie uogólnimy pojęcie prawdopodobieństwa warunkowego na nowe sytuacje, które pojawiają się, gdy mamy do czynienia z ciągłymi zmiennymi losowymi.
Łączny rozkład, łączna dystrybuanta i niezależność ciągłych zmiennych losowych
Nie ma potrzeby definiować na nowo niezależności zmiennych ciągłych. Definicja, której używaliśmy w przypadku zmiennych dyskretnych jest nadal dobra. Przypomnijmy: Definicja (Niezależność zmiennych losowych) Zmienne losowe są niezależne, jeśli dla każdych zbiorów borelowskich (lub równoważnie dla każdych przedziałów zachodzi .
W przypadku zmiennych dyskretnych mieliśmy do dyspozycji także prostsze, równoważne sformułowanie niezależności: dla każdych .
W przypadku zmiennych ciągłych powyższe sformułowanie nie jest dobrą charakteryzacją niezależności - obie strony są zawsze równe . Intuicyjnie, powinniśmy zastąpić i przez i , ale czym zastąpić ?
Definicja (łączny rozkład ciągły) Zmienne losowe mają łączny rozkład ciągły, jeśli istnieje funkcja , zwana łączną gęstością i taka, że dla dowolnego mierzalnego zbioru zachodzi .
Fakt 7.20 Jeśli zmienne mają łączny rozkład ciągły, to i są ciągłe. Ponadto oraz .
Dowód Aby pokazać, że zmienna jest ciągła, wystarczy pokazać, że jak w tezie faktu jest jej gęstością. Niech będzie zbiorem mierzalnym. Wtedy . Dowód dla zmiennej jest analogiczny.
Przykład 7.21 Nie jest prawdą, że jeśli zmienne losowe są ciągłe, to są też łącznie ciągłe. Wystarczy wziąć dowolny o rozkładzie ciągłym, na przykład oraz . Wtedy dla zbioru mamy , ale oczywiście całka z dowolnej funkcji po zbiorze musi być równa zero, bo zbiór ten ma miarę zero. Przykład ten pokazuje, że łączna ciągłość jest dość mocnym założeniem i często może nie zachodzić. Jak się jednak za chwilę przekonamy, jeśli zmienne są ciągłe i niezależne, to są też łącznie ciągłe.
Definicja (łączna dystrybuanta) Łączną dystrybuantą zmiennych losowych nazywamy funkcję .
Twierdzenie 7.22 Jeśli zmienne mają łączny rozkład ciągły, to jest różniczkowalna (prawie wszędzie) i zachodzi (także prawie wszędzie):
.
Dowód pomijamy.
Jeśli są niezależne i łącznie ciągłe, to różniczkując tożsamość dwukrotnie (po i po ) dostajemy . Oczywiście nie dowodzi to tego, że niezależne zmienne ciągłe są łącznie ciągłe, ale sugeruje w jaki sposób można opisać niezależność za pomocą gęstości.
Twierdzenie 7.23 Niech - zmienne o rozkładzie ciągłym. Wtedy są niezależne wtedy i tylko wtedy, gdy są łącznie ciągłe z gęstością taką, że (prawie wszędzie).
Dowód Jeśli i są niezależne, to dla dowolnych przedziałów zachodzi: , a zatem jest łączną gęstością i .
Z drugiej strony jeśli są łącznie ciągłe i prawie wszędzie, to dla dowolnych przedziałów całkując obie strony po dostajemy .
Sprawdźmy teraz jak wygląda gęstość sumy niezależnych zmiennych ciągłych: Twierdzenie 7.24 Jeśli są niezależnymi zmiennymi ciągłymi i , to jest ciągła i .
Dowód Wiemy, że są niezależne, więc są też łącznie ciągłe z gęstością . A zatem . Zmieńmy zmienne na i . Mamy wtedy . A zatem wewnętrzna całka jest gęstością , co kończy dowód.
Przykład 7.25 Jako przykładowe zastosowanie pokażemy, że suma dwóch niezależnych zmiennych o rozkładzie normalnym ma też rozkład normalny. Ogólny przypadek tego faktu jest dość uciążliwy w dowodzie, dlatego ograniczymy sie do przypadku . Niech , wtedy na mocy twierdzenia 7.24 mamy (wszystkie całki są po całej osi rzeczywistej): . Wstawiamy (czyli i otrzymujemy: . W ostatnim przejściu całka jest równa bo jest gęstością standardowego rozkładu normalnego. Łatwo zauważyć, że otrzymany wyrażenie opisuje gęstość rozkładu .
Zachodzi też ogólniejszy Fakt 7.26 Jeśli i , to ma rozkład .
Dowód jest analogiczny, ale rachunki trochę bardziej skomplikowane. Wystarczy ograniczyć się do przypadku i ze względu na następujący bardzo prosty fakt (ćwiczenia) Fakt 7.27 Jeśli , to .
Wartość oczekiwana i wariancja sumy zmiennych o rozkładzie ciągłym
Tak jak w przypadku zmiennych dyskretnych zachodzi następujące twierdzenie (dowód pominiemy) Twierdzenie 7.28 (liniowość wartości oczekiwanej) Jeśli są zmiennymi ciągłymi i istnieje i , to istnieje też i zachodzi .
Z powyższego twierdzenia, podobnie jak w przypadku zmiennych dyskretnych natychmiast otrzymujemy znany nam przydatny wzór na obliczanie wariancji. Fakt 7.29 (wzór na wariancję) Jeśli zmienna ciągła ma wariancję, to .
Przykład 7.30 (wariancja zmiennej o rozkładzie jednostajnym) Niech . Spróbujmy obliczyć korzystając ze wzoru . Mamy . Ponadto wiemy już, że . A zatem .
Przykład 7.31 (wariancja zmiennej o rozkładzie wykładniczym) Niech . Obliczymy korzystając, jak poprzednio, ze wzoru . Mamy . Ze wzoru na całkowanie przez części dostajemy . Stąd .
Można też pokazać (ćwiczenia), że Twierdzenie 7.32 Jeśli , to .
Tak jak w przypadku zmiennych dyskretnych, wartość oczekiwana ogólnie nie jest multiplikatywna, a wariancja addytywna, ale: Twierdzenie 7.33 Jeśli są niezależnymi zmiennymi ciągłymi i istnieje i , to istnieje też i zachodzi . Twierdzenie 7.34 Jeśli są niezależnymi zmiennymi ciągłymi i istnieje i , to istnieje też i .
Dowód pierwszego z tych twierdzeń pominiemy, drugie wynika z pierwszego w sposób analogiczny jak dla zmiennych dyskretnych.
Prawdopodobieństwo warunkowe
W prawdopodobieństwach warunkowych zdarzeń definiowanych przez zmienne ciągłe nie ma w większości przypadków niczego niezwykłego i możemy je obliczać standardowymi sposobami, korzystając ze znanych nam definicji. Dotyczy to na przykład prawdopodobieństw postaci czy , o ile . Możemy też korzystając z definicji z wykładu o zmiennych dyskretnych zdefiniować warunkowy rozkład ciągłej zmiennej losowej
Nie jest jednak jasne co zrobić z prawdopodobieństwem warunkowym postaci . Z jednej strony możemy często chcieć obliczać wartość tego wyrażenia. Możemy na przykład chcieć zapytać o to jakie jest prawdopodobieństwo tego, że losowa osoba waży co najmniej 80kg, jeśli wiemy, że ma 180cm wzrostu, itp. Z drugiej strony, jeśli spróbujemy obliczyć wartość tego wyrażenia za pomocą znanej nam definicji, to otrzymamy iloraz , w którym zarówno licznik i jak i mianownik są równe 0.
Definicja (gęstość warunkowa) Niech i będą zmiennymi o łącznym rozkładzie ciągłym z gęstością i niech będzie gęstością . Jeśli jest taki, że , to gęstością warunkową pod warunkiem nazywamy funkcję .
Definicja (prawdopodobieństwo warunkowe) Przy założeniach jak wyżej i dla dowolnego mierzalnego , prawdopodobieństwem warunkowym pod warunkiem nazywamy .
Zauważmy przede wszystkim, że jest funkcją gęstości, t.j. całka z po całej osi rzeczywistej wynosi . Wynika to natychmiast z faktu 7.20.
Dlaczego tak właśnie zostało zdefiniowane prawdopodobieństwo ? Istnieją co najmniej 2 intuicyjne sposoby "wyprowadzenia" tej definicji. Po pierwsze: jeśli wiemy, że , to patrzymy na gęstość ograniczoną do , czyli po prostu . Chcielibyśmy użyć tej funkcji jako gęstości, ale nie całkuje się ona na do 1. Łatwo to jednak naprawić skalując ją czynnikiem .
Drugie intuicyjne wyprowadzenie mogłoby wyglądać tak: skoro nie wiemy jak obliczyć , to obliczmy dla małego przedziału zawierającego . Jeśli ten przedział jest na tyle mały, żeby zarówno jak i dla każdego ustalone była na nim prawie stała (pomijamy to czy taki przedział musi istnieć, w końcu szukamy tylko intuicji), to dostajemy: , czyli dokładnie to czego się spodziewaliśmy.
Zdefiniowane przez nas prawdopodobieństwo warunkowe ma własności analogiczne do zwykłego prawdopodobieństwa warunkowego, np. Twierdzenie 7.35 (Wzór na prawdopodobieństwo całkowite) Jeśli są ciągłe i łącznie ciągłe, a jest mierzalny, to zachodzi .
Dowód wynika natychmiast z definicji gęstości warunkowej.
Centralne Twierdzenie Graniczne
Ostatnią część tego wykładu poświęcimy zapowiadanemu wcześniej Centralnemu Twierdzeniu Granicznemu. Twierdzenie to mówi, że rozkład sumy wielu niezależnych zmiennych o tym samym rozkładzie jest bliski normalnemu (tak naprawdę rozkłady mogą być różne, ważne jest aby mały zbiór zmiennych nie dominował sumy, skoncentrujemy się jednak na najprostszej wersji twierdzenia).
Zastanówmy się jak mogłoby wyglądać to twierdzenie. Niech będzie ciągiem niezależnych zmiennych o tym samym rozkładzie. Chciałoby się powiedzieć, że rozkład zbiega do rozkładu normalnego wraz z rosnącym , ale takie twierdzenie oczywiście nie może być prawdziwe, bo jeśli na przykład istnieje i jest większe od zera, to kolejne będą miały coraz większe wartości oczekiwane i nie mogą do niczego zbiegać.
Może w takim razie załóżmy istnienie i popatrzmy na graniczne zachowanie . Tutaj mamy dla każdego , ale niestety jeśli istnieje to są coraz większe i tak jak poprzednio ciąg nie może do niczego zbiegać. Musimy znormalizować tak, aby wszystkie miały tę samą wariancję, najprościej dzieląc przez . Dlatego Centralne Twierdzenie Graniczne formułujemy tak:
Twierdzenie 7.36 (Centralne Twierdzenie Graniczne (CTG)) Niech będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, wartości oczekiwanej i wariancji . Niech ponadto . Wtedy rozkład zbiega do rozkładu w następującym sensie: , gdzie jest dystrybuantą rozkładu .