Rachunek Prawdopodobieństwa i Statystyka (UW) Wykład 7

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Motywacja i definicja

Dotychczas koncentrowaliśmy uwagę na zmiennych dyskretnych, t.j. takich, że zachodzi xP(X=x)=1. Innymi słowy, istnieje pewien przeliczalny zbiór wartości o niezerowym prawdopodobieństwie, i z prawdopodobieństwem 1 zmienna przyjmuje jedną z tych wartości.

Łatwo sobie jednak wyobrazić sytuacje, w których pojawiają się zmienne losowe nie mające tej własności. Jeśli na przykład losujemy punkt z odcinka [0,1] i X jest wylosowanym punktem, to musi zachodzić P(X=x)=0 dla każdego x[0,1]. Gdyby bowiem było P(X=x0)=p>0 dla pewnego x0, to musiałoby też być P(X=x)=p dla każdego x (dlaczego x0 miałby być bardziej prawdopodobny?), co prowadzi do sprzeczności z P(X[0,1])=1.

Podobnie, jeśli mierzymy (dokładnie, wynikiem może być dowolna liczba rzeczywista) prędkość samochodu na autostradzie, czy wzrost losowo wybranej osoby, to sensownie jest założyć, że prawdopodobieństwo każdego konkretnego wyniku jest równe 0.

Jest to dość niepokojąca sytuacja - cała teoria jaką dotychczas omówiliśmy opierała się dość mocno na założeniu dyskretności. W szczególności, własnością zmiennych dyskretnych, która była kluczowa w wielu definicjach i dowodach było to, że dla dowolnego zbioru A i zmiennej dyskretnej X zachodzi P(XA)=xAP(X=x).

Okazuje się, że w obu sytuacjach opisanych powyżej, a także w wielu innych, można opisać P(XA) w sposób tylko trochę bardziej skomplikowany. Definicja (Rozkład ciągły) Zmienna X ma rozkład ciągły, jeśli istnieje funkcja fX:0 taka, że dla każdego przedziału [a,b] zachodzi P(X[a,b])=abfX(x)dx (lub równoważnie: dla każdego zbioru mierzalnego A zachodzi P(XA)=AfX(x)dx). Funkcję fX nazywamy gęstością zmiennej X.

Uwaga 7.1 Łatwo zauważyć, że jeśli f jest gęstością pewnej zmiennej, to f(x)dx=1. Z drugiej strony, jeśli pewna funkcja f:0 spełnia ten warunek, to jest gęstością pewnej zmiennej. Dlatego w dalszej części wykładu, definiując rozkład za pomocą funkcji gęstości, będziemy zmuszeni zawsze sprawdzić, czy opisywana przez nas funkcja faktycznie może być gęstością, t.j. czy zachodzi f(x)dx=1.

Uwaga 7.2 Zmienną losową o rozkładzie ciągłym można opisać za pomocą więcej niż jednej funkcji gęstości. Jeśli bowiem dowolną funkcję gęstości zmodyfikujemy na zbiorze miary 0, to otrzymana funkcja też będzie dobrą funkcją gęstości. Z powodu tej niejednoznaczności w sformułowaniach niektórych twierdzeń tego wykładu pojawiają się słowa "prawie wszędzie".

Jaki jest sens funkcji gęstości? Załóżmy, że I jest odcinkiem na tyle małym, że fX jest na nim niemal stała (znalezienie takiego przedziału może czasem być niemożliwe, ale nie będziemy się tym przejmować, szukamy tylko intuicji). Wtedy P(XI)=IfX(x)dx|I|fX(x), dla dowolnego xI, czyli fX(x)P(XI)|I|. Innymi słowy, fX(x) mówi nam jak dużo prawdopodobieństwa przypada na przedział długości 1 w okolicy punktu x, czyli jest taką "lokalną gęstością prawdopodobieństwa" w okolicy punktu x, co tłumaczy nazwę.

Przykład 7.3 Mogłoby się wydawać, że każda zmienna losowa musi być albo dyskretna albo ciągła, ale łatwo zauważyć, że tak być nie musi. Wyobraźmy sobie, że chcemy wymodelować czas oczekiwania w kolejce u fryzjera (ew. w sklepie itp.) za pomocą zmiennej losowej X. Z niezerowym prawdopodobieństwem nie będziemy w ogóle czekać, a więc P(X=0)>0. Jeśli jednak X>0 to wydaje się, że mamy do czynienia z rozkładem ciągłym, w szczególności żadna wartość X większa niż 0 nie będzie mieć niezerowego prawdopodobieństwa. Ta zmienna nie jest ani ciągła, ani dyskretna, jest jednak pewnego rodzaju kombinacją zmiennej ciągłej i dyskretnej. Część prawdopodobieństwa jest skoncentrowana w punkcie 0, resztę można opisać funkcją gęstości. Czy każda zmienna losowa ma taką postać? Na to pytanie odpowiemy w dalszej części tego wykładu.

Dystrybuanta zmiennej losowej

Naturalnym pojęciem związanym z pojęciem zmiennej losowej jest dystrybuanta. Definicja (dystrybuanta) Dystrybuantą zmiennej losowej X jest funkcja FX: określona FX(x)=P(Xx).

Zacznijmy od sformułowania kilku prostych własności dystrybuanty: Fakt 7.4 (własności dystrybuanty) Niech X będzie zmienną losową, a FX jej dystrybuantą. Wtedy

  1. FX jest niemalejąca,
  2. FX jest prawostronnie ciągła,
  3. limxFX(x)=0 oraz limxFX(x)=1.

Dowody wszystkich własności są oczywiste. Można też pokazać (dowód jest dość techniczny), że własności te charakteryzują funkcje, które są dystrybuantami: Twierdzenie 7.5 Jeśli FX: spełnia warunki z faktu 7.4, to istnieje zmienna losowa X, dla której FX jest dystrybuantą.

Następne twierdzenie i wniosek z niego pokazują, że patrząc na dystrybuantę można odróżnić zmienne dyskretne od ciągłych (oczywiste dowody pomijamy).

Twierdzenie 7.6 Jeśli X jest zmienną losową, a FX jej dystrybuantą, to dla każdego x zachodzi P(X=x)=FX(x)FX(x), gdzie FX(x)=limyx,y<xFX(y) jest lewostronną granicą FX w x.

Wniosek 7.7 Jeśli X jest zmienną ciągłą, to FX jest funkcją ciągłą. Jeśli natomiast X jest dyskretna to x(FX(x)FX(x))=1.

Uwaga 7.8 Chciałoby się powiedzieć, że gdy X jest dyskretna, to FX jest schodkowa, i z reguły tak właśnie jest - w szczególności jest to prawdą dla zmiennych o rozkładach, które poznaliśmy w dotychczasowych wykładach. Istnieją jednak zmienne dyskretne, których dystrybuanty nie są stałe na żadnym przedziale. Wystarczy w tym celu przypisać niezerowe prawdopodobieństwa elementom przeliczalnego zbioru gęstego w , np. wszystkim liczbom wymiernym.

Następne twierdzenie podaje ważną charakteryzację zmiennych ciągłych za pomocą ich dystrybuant (dowód pomijamy) Twierdzenie 7.9 Jeśli X jest zmienną ciągłą, to:

  1. FX jest różniczkowalna prawie wszędzie,
  2. FX(t)=fX(t) (prawie wszędzie).

Z drugiej strony, jeśli F jest dystrybuantą różniczkowalną prawie wszędzie, a f=F (tam gdzie F nie jest różniczkowalna, f przyjmuje dowolną wartość, np. 0), to f jest gęstością ciągłej zmiennej losowej, o ile tylko f(x)dx=1.

To, że ten ostatni warunek jest konieczny pokazuje poniższy przykład. Przy okazji odpowiadamy na pytanie postawione w przykładzie 7.3.

Przykład 7.10 (Funkcja Cantora, czyli diabelskie schody) Pokażemy zmienną X taką, że:

  1. P(X=x)=0 dla każdego x (czyli X nie ma części dyskretnej), ale też
  2. na żadnym przedziale [a,b] dla którego P(X[a,b])>0, nie da się zdefiniować funkcji f:[a,b] takiej, że P(XI)=If(t)dt dla każdego przedziału I[a,b] (a więc X nie ma gęstości na żadnym przedziale o niezerowym prawdopodobieństwie, czyli nie ma części ciągłej)


Zmienną X zdefiniujemy za pomocą jej dystrybuanty. Rozważmy następujący ciąg funkcji Fi:

  1. F0(x)=0 dla x<0 i F0(x)=1 dla x>1, oraz F0(x)=x dla x[0,1].
  2. Fn+1 powstaje z Fn w następujący sposób: Niech I=[a,b] będzie dowolnym maksymalnym przedziałem na którym Fn jest ściśle rosnąca. Dzielimy I na 3 równej długości podprzedziały I1=[a,a+ba3], I2=[a+ba3,a+2ba3], I3=[a+2ba3,b]. Definiujemy Fn+1(x)=Fn(a)+Fn(b)2 dla xI2, natomiast na przedziale I1 funkcja Fn+1 rośnie liniowo od Fn(a) do Fn(a)+Fn(b)2 i odpowiednio na I3 od Fn(a)+Fn(b)2 do Fn(b). W ten sposób postępujemy dla wszystkich maksymalnych przedziałow I, na których Fn jest ściśle rosnąca.


Łatwo sprawdzić, że ciąg funkcji Fn jest zbieżny punktowo do pewnej funkcji. Niech FX=F będzie granicą Fn i niech X będzie zmienną losową o dystrybuancie F. Łatwo pokazać, że F jest ciągła, a zatem dla każdego x zachodzi P(X=x)=0 na mocy twierdzenia 7.6. Można też pokazać (co jest nieco trudniejsze), że FX ma zerową pochodną wszędzie poza zbiorem miary zero (jest to tzw. zbiór Cantora), a zatem nie ma gęstości na żadnym przedziale [a,b] dla którego P([a,b])>0.

Przykłady rozkładów ciągłych

Rozkład jednostajny

Definicja (rozkład jednostajny) Zmienna X o rozkładzie jednostajnym na przedziale [a,b] dla a<b, ozn. XUnif(a,b) ma gęstość fX, gdzie fX(x)=1ba dla x[a,b] i fX(x)=0 dla pozostałych x.

Rozkład Unif(a,b) pojawia się, gdy losujemy liczbę z przedziału [a,b] tak, aby prawdopodobieństwo uzyskania wyniku w dowolnym przedziale I było proporcjonalne do długości tego przedziału. Intuicyjnie chcemy, żeby wszystkie liczby były "równie prawdopodobne", choć oczywiście w przypadku losowania z przedziału sformułowanie "równie prawdopodobne" nie ma zbyt wiele sensu (wszystkie wyniki oczywiście są równie prawdopodobne, bo wszystkie mają prawdopodobieństwo 0, ale przecież nie o to nam chodzi).

Rozkład wykładniczy

Definicja (rozkład wykładniczy) Zmienna X o rozkładzie wykładniczym z parametrem θ>0, ozn. XExp(θ) ma gęstość fX, gdzie fX(x)=θeθx dla x0 i fX(x)=0 dla x<0.

Ten rozkład dobrze modeluje czas oczekiwania na zdarzenie, które ma cały czas "taką samą szansę zajścia", na przykład czas do następnego telefonu w centrum telefonicznym, czas do zajścia rozpadu radioaktywnego, itp. Można go też używać do modelowania czasu życia organizmów lub wszelkiego rodzaju sprzętu, aczkolwiek rozkład wykładniczy nie modeluje tych czasów bardzo dobrze. W obu przypadkach śmierć/awaria jest nieco bardziej prawdopodobna na początku, jest też bardziej prawdopodobna po upływie wystarczająco długiego czasu.

Sprawdzimy teraz, że funkcja fX z definicji rozkładu wykładniczego rzeczywiście jest gęstością (t.j. ma całkę równą 1), a przy okazji znajdziemy dystrybuantę rozkładu wykładniczego. Dla dowolnego a0 mamy: afX(t)dt=aθeθtdt=a(eθt)dt=(eθt)|a=0(eθa)=eθa.

Stąd fX(t)dt=0fX(t)dt=e0=1, czyli fX jest gęstością.

Ponadto FX(a)=P(X<a)=1P(Xa)=1afX(t)dt=1eθa.

O rozkładzie wykładniczym można myśleć jako o "ciągłej wersji" rozkładu geometrycznego. W szczególności każdej wartości θ>0 odpowiada pewna wartość p taka, że dystrybuanty rozkładów Exp(θ) i Geom(p) przyjmują te same wartości dla wszystkich argumentów naturalnych (ćwiczenia).

Rozkład normalny

Definicja (rozkład normalny lub Gaussa) Zmienna X o rozkładzie normalnym o wartości oczekiwanej μ i wariancji σ2, ozn. N(μ,σ2) ma gęstość fX(x)=12πσe(xμ)22σ2.

Definicja rozkładu normalnego jest dość skomplikowana, jest on jednak niezwykle ważny. Jest ku temu kilka powodów, najważniejszym jest tzw. Centralne Twierdzenie Graniczne (które pojawi się pod koniec tego wykładu), które mówi, że suma dużej liczby niezależnych zmiennych, z których żadna nie dominuje pozostałych (t.j. nie przyjmuje dużo większych wartości, lub inaczej, nie ma decydującego wpływu na wynik) ma w przybliżeniu rozkład normalny. Wiele wielkości ma taki właśnie charakter - jest sumą wielu małych i niezależnych elementów - i co za tym idzie ma rozkład bliski normalnemu. Każdy na pewno nie raz widział charakterystyczny kształt dzwonu na histogramach ilustrujących różnego rodzaju statystyki.

Często zakłada się na przykład, że wzrost/masa człowieka, ew. wymiary/masa innych organizmów mają rozkład normalny. Należy tu oczywiście być ostrożnym: kobiety są generalnie niższe niż mężczyźni, można też zaobserwować różnice we wzroście pomiędzy poszczególnymi rasami. W związku z tym odpowiedni rozkład nie będzie miał kształtu dzwonu z jednym maksimum, ale raczej sumy kliku dzwonów. Łatwo zrozumieć dlaczego rozumowanie oparte na Centralnym Twierdzeniu Granicznym nie działa w tym przypadku: zarówno płeć jak i rasa są czynnikami, których wpływ na wzrost dominuje pozostałe czynniki. Jeśli jednak odpowiednio ograniczymy rozpatrywaną populację, np. do kobiet rasy białej, to rozkład wzrostu będzie bliski normalnemu.

Spróbujemy teraz sprawdzić, że funkcja fX z definicji rozkładu normalnego rzeczywiście jest gęstością. Zacznijmy od przypadku, w którym μ=0 i σ2=1, t.j. od rozkładu N(0,1).

Chcemy obliczyć całkę I=fX(x)dx. Zamiast tego obliczymy jej kwadrat I2=(fX(x)dx)(fX(y)dy)=fX(x)fX(y)dydx. Mamy z definicji fX I2=12πex2+y22dydx.

Korzystamy z tzw. podstawienia biegunowego t.j. x=rsinθ, y=rcosθ i otrzymujemy I2=02π012πer22rdrdθ. Dodatkowe r w tej całce jest modułem wyznacznika macierzy pochodnych cząstkowych x i y po r i θ zgodnie z wielowymiarowym wzorem na całkowanie przez podstawienie. Łatwo zauważyć, że zewnętrzna całka jest równoważna mnożeniu przez 2π, a zatem dostajemy I2=0er22rdr.

Funkcja pod całką szczęśliwie (ale zgodnie z planem) jest pochodną funkcji er22, a zatem I2=(er22)|0=0(1)=1, czyli I=1, co kończy obliczenia dla rozkładu N(0,1).

Aby uzyskać analogiczny wynik w ogólnym przypadku, t.j. obliczyć całkę J=12πσe(xμ)22σ2dx wystarczy dokonać podstawienia y=xμσ i okazuje się, że J=I=1.

Uwaga 7.11 Rozkład N(0,1), od którego rozpoczęliśmy nasze rozważania ma swoją nazwę - jest to tzw. standardowy rozkład normalny. Rozkład ten jak zobaczyliśmy, ma wyjątkowo prostą postać. Często pojawia się on w definicjach innych rozkładów, a także w rozumowaniach - jako najprostszy przypadek rozkładu normalnego. Rozkład ten ma też duże znaczenie historyczne z powodów, które w dzisiejszych czasach mogą nie być zupełnie oczywiste. Występuje on mianowicie w wielu rozumowaniach i procedurach wnioskowania statystycznego. Jednym z kroków takich procedur jest często odczytanie wartości dystrybuanty odpowiedniego rozkładu normalnego, ew. jej odwrotności, w pewnych punktach. W dzisiejszych czasach można te wartości w prosty sposób uzyskać za pomocą dowolnego pakietu statystycznego, kiedyś używano tablic matematycznych. Stablicowanie dystrybuant wszystkich rozkładów normalnych nie jest oczywiście możliwe, dlatego używano tylko tablic dla rozkładu standardowego, a metody wnioskowania formułowano tak, aby takie tablice wystarczały.


Wartość oczekiwana i wariancja zmiennych o rozkładzie ciągłym

Wartość oczekiwaną dla zmiennych ciągłych definiujemy podobnie jak dla zmiennych dyskretnych Definicja (wartość oczekiwana zmiennej ciągłej) Niech X będzie ciągłą zmienną losową o gęstości fX. Wartością oczekiwaną X nazywamy EX=xfX(x)dx, o ile funkcja xfX(x) jest całkowalna z modułem.

Uwaga 7.12 Założenie całkowalności z modułem przyjmujemy z przyczyn podobnych jak w przypadku zmiennych dyskretnych. Tak jak poprzednio może ono prowadzić do dość mało intuicyjnych sytuacji. Można na przykład sprawdzić, że zmienna X o tzw. standardowym rozkładzie Cauchy'ego, t.j. o gęstości zadanej wzorem fX(x)=1π(1+x2) nie ma wartości oczekiwanej pomimo tego, że jej gęstość jest symetryczna względem zera.

Uwaga 7.13 Powyższa definicja mocno przypomina definicję wartości oczekiwanej dla zmiennych dyskretnych. Nie jest to przypadek odosobniony. Jak wkrótce zobaczymy, większość definicji i twierdzeń dotyczących zmiennych dyskretnych ma swoje odpowiedniki ciągłe. Odpowiedniki te powstają z reguły przez zastąpienie sum całkami, a wyrażeń postaci P(X=x) wyrażeniami fX(x). Nie jest to specjalnie zaskakujące - o rozkładach ciągłych możemy myśleć jako o granicach rozkładów dyskretnych.

Definicja wariancji dla zmiennych ciągłych jest taka sama jak dla dyskretnych Definicja (wariancja zmiennej ciągłej) Niech X będzie zmienną losową o rozkładzie ciągłym. Wtedy wariancją X nazywamy Var(X)=E(XEX)2, o ile ta wartość oczekiwana istnieje.

Podstawowe własności wartości oczekiwanej i wariancji przenoszą się z przypadku dyskretnego na ciągły. Poniżej omawiamy dwie takie sytuacje.

Twierdzenie 7.14 Niech X będzie zmienną o rozkładzie ciągłym i niech g: będzie funkcją mierzalną. Wtedy Eg(X)=g(x)fX(x)dx o ile Eg(X) istnieje. Ponadto Eg(X) istnieje wtedy i tylko wtedy, gdy funkcja g(x)fX(x) jest całkowalna z modułem na .

Nie będziemy dowodzić powyższego twierdzenia - dowód jest dość techniczny. Zwróćmy jednak uwagę na pewną subtelność: nawet jeśli X jest ciągła, to g(X) ciągła być nie musi! We wszystkich interesujących nas sytuacjach g(X) będzie ciągła, ale może być też dyskretna, a nawet, co łatwo sprawdzić, możemy g zdefiniować tak, aby g(X) było "dziwną" zmienną z przykładu 7.10. Wiążą się z tym oczywiście pewne problemy. O ile zdefiniowaliśmy wartość oczekiwaną zarówno dla zmiennych ciągłych jak i dyskretnych, i moglibyśmy podać osobne dowody dla obu sytuacji, o tyle nie mamy pojęcia czym jest wartość oczekiwana zmiennej z przykładu 7.10. Podobnej natury problemy występują także przy innych twierdzeniach omawianych w ramach tego wykładu. Dlatego w większości przypadków zrezygnujemy z podawania pracochłonnych dowodów. Warto jednak zwrócić uwagę, że ogólna ich idea jest z reguły podobna jak w przypadku dyskretnych, szczegóły są jednak dużo bardziej skomplikowane.

Można podać ogólną definicję wartości oczekiwanej, uogólniającą nasze definicje dla zmiennych dyskretnych i ciągłych. Przy tej ogólnej definicji twierdzenie 7.14 pozostaje prawdziwe, tak jak wiele innych twierdzeń tego wykładu. Niestety nie możemy sobie pozwolić na pełniejsze omówienie tego uogólnienia w ramach naszego wykładu, wymagałoby to od nas dużo dokładniejszego zagłębienia się w teorię miary i całki.

Poniższe twierdzenie jest uogólnieniem wzoru EX=i=1P(Xi) zachodzącego dla zmiennych o wartościach naturalnych na zmienne ciągłe. Twierdzenie 7.15 Jeśli X będzie zmienną ciągłą o wartościach nieujemnych i EX<. Wtedy EX=0(1FX(t))dt=0P(Xt)dt.

Tym razem, wyjątkowo, podamy dowód. Dowód Tezę twierdzenia uzyskujemy przez prostą zamianę zmiennych: 0P(Xt)dt=t=0s=tfX(s)dsdt=s=0t=0sfX(s)dtds=s=0sfX(s)ds=EX.

Uwaga 7.16 Powyższe twierdzenie jest również prawdziwe dla zmiennych dyskretnych (niekoniecznie o wartościach naturalnych). Łatwy dowód pozostawiamy czytelnikowi.

Przykład 7.17 (wartość oczekiwana rozkładu jednostajnego) Spróbujmy policzyć wartość oczekiwaną zmiennej X o rozkładzie jednostajnym Unif(a,b) EX=abt1badt=(t22(ba))|ab=b2a22(ba)=a+b2, czyli bez niespodzianek.

Przykład 7.18 (wartość oczekiwana rozkładu wykładniczego) Niech XExp(θ). Wtedy, korzystając z twierdzenia 7.15 i wcześniejszego obliczenia FX mamy EX=0P(Xt)dt=0eθtdt=0(eθtθ)dt=(eθtθ)|0=0(1θ)=1θ. Można też oczywiście obliczyć wartość oczekiwaną wprost z definicji.

W przypadku rozkładu normalnego mamy (ćwiczenia): Fakt 7.19 Zmienna XN(μ,σ2) ma wartość oczekiwaną EX=μ.


Więcej niż jedna zmienna o rozkładzie ciągłym

W tej części wykładu omówimy sytuacje, w których mamy do czynienia z więcej niż jedną zmienną o rozkładzie ciągłym. W szczególności zdefiniujemy pojęcie niezależności ciągłych zmiennych losowych, przyjrzymy się wartości oczekiwanej i wariancji sumy zmiennych, wreszcie uogólnimy pojęcie prawdopodobieństwa warunkowego na nowe sytuacje, które pojawiają się, gdy mamy do czynienia z ciągłymi zmiennymi losowymi.

Łączny rozkład, łączna dystrybuanta i niezależność ciągłych zmiennych losowych

Nie ma potrzeby definiować na nowo niezależności zmiennych ciągłych. Definicja, której używaliśmy w przypadku zmiennych dyskretnych jest nadal dobra. Przypomnijmy: Definicja (Niezależność zmiennych losowych) Zmienne losowe X,Y są niezależne, jeśli dla każdych zbiorów borelowskich A,B (lub równoważnie dla każdych przedziałów A,B zachodzi P(XAYB)=P(XA)P(YB).

W przypadku zmiennych dyskretnych mieliśmy do dyspozycji także prostsze, równoważne sformułowanie niezależności: P(X=aY=b)=P(X=a)P(Y=b) dla każdych a,b.

W przypadku zmiennych ciągłych powyższe sformułowanie nie jest dobrą charakteryzacją niezależności - obie strony są zawsze równe 0. Intuicyjnie, powinniśmy zastąpić P(X=a) i P(Y=b) przez fX(a) i fX(b), ale czym zastąpić P(X=aY=b) ?

Definicja (łączny rozkład ciągły) Zmienne losowe X,Y mają łączny rozkład ciągły, jeśli istnieje funkcja fX,Y:20, zwana łączną gęstością X i Y taka, że dla dowolnego mierzalnego zbioru A2 zachodzi P((X,Y)A)=AfX,Y(x,y)dxdy.

Fakt 7.20 Jeśli zmienne X,Y mają łączny rozkład ciągły, to X i Y są ciągłe. Ponadto fX(x)=fX,Y(x,y)dy oraz fY(y)=fX,Y(x,y)dx.

Dowód Aby pokazać, że zmienna X jest ciągła, wystarczy pokazać, że fX jak w tezie faktu jest jej gęstością. Niech B będzie zbiorem mierzalnym. Wtedy BfX(x)dx=BfX,Y(x,y)dydx=P((X,Y)B×(,))=P(XB). Dowód dla zmiennej Y jest analogiczny.

Przykład 7.21 Nie jest prawdą, że jeśli zmienne losowe X,Y są ciągłe, to są też łącznie ciągłe. Wystarczy wziąć dowolny X o rozkładzie ciągłym, na przykład XN(0,1) oraz Y=X. Wtedy dla zbioru A={(x,x):x} mamy P((X,Y)A)=1, ale oczywiście całka z dowolnej funkcji po zbiorze A musi być równa zero, bo zbiór ten ma miarę zero. Przykład ten pokazuje, że łączna ciągłość jest dość mocnym założeniem i często może nie zachodzić. Jak się jednak za chwilę przekonamy, jeśli zmienne X,Y są ciągłe i niezależne, to są też łącznie ciągłe.

Definicja (łączna dystrybuanta) Łączną dystrybuantą zmiennych losowych X,Y nazywamy funkcję FX,Y(x,y)=P(XxYy).

Twierdzenie 7.22 Jeśli zmienne X,Y mają łączny rozkład ciągły, to FX,Y jest różniczkowalna (prawie wszędzie) i zachodzi (także prawie wszędzie):

fX,Y(x,y)=FX,Y(x,y)xy.

Dowód pomijamy.

Jeśli X,Y są niezależne i łącznie ciągłe, to różniczkując tożsamość FX,Y(x,y)=FX(x)FY(y) dwukrotnie (po x i po y) dostajemy fX,Y(x,y)=fX(x)fY(y). Oczywiście nie dowodzi to tego, że niezależne zmienne ciągłe są łącznie ciągłe, ale sugeruje w jaki sposób można opisać niezależność za pomocą gęstości.

Twierdzenie 7.23 Niech X,Y - zmienne o rozkładzie ciągłym. Wtedy X,Y są niezależne wtedy i tylko wtedy, gdy są łącznie ciągłe z gęstością fX,Y(x,y) taką, że fX,Y(x,y)=fX(x)fY(y) (prawie wszędzie).

Dowód Jeśli X i Y są niezależne, to dla dowolnych przedziałów A,B zachodzi: P(XAYB)=P(XA)P(YB)=AfX(x)dxBfY(y)dy=A×BfX(x)fY(y)dxdy, a zatem fX,Y(x,y)=fX(x)fY(y) jest łączną gęstością X i Y.

Z drugiej strony jeśli X,Y są łącznie ciągłe i fX,Y(x,y)=fX(x)fY(y) prawie wszędzie, to dla dowolnych przedziałów A,B całkując obie strony po A×B dostajemy P(XAYB)=P(XA)P(YB).

Sprawdźmy teraz jak wygląda gęstość sumy niezależnych zmiennych ciągłych: Twierdzenie 7.24 Jeśli X,Y są niezależnymi zmiennymi ciągłymi i Z=X+Y, to Z jest ciągła i fZ(z)=fX(x)fY(zx)dx.

Dowód Wiemy, że X,Y są niezależne, więc są też łącznie ciągłe z gęstością fX,Y(x,y)=fX(x)fY(y). A zatem P(Za)=P(X+Ya)=x+yafX(x)fY(y)dxdy. Zmieńmy zmienne na z=x+y i x. Mamy wtedy P(Za)=afX(x)fY(sx)dxds=a(fX(x)fY(sx)dx)ds. A zatem wewnętrzna całka jest gęstością Z, co kończy dowód.

Przykład 7.25 Jako przykładowe zastosowanie pokażemy, że suma dwóch niezależnych zmiennych o rozkładzie normalnym ma też rozkład normalny. Ogólny przypadek tego faktu jest dość uciążliwy w dowodzie, dlatego ograniczymy sie do przypadku XYN(0,1). Niech Z=X+Y, wtedy na mocy twierdzenia 7.24 mamy (wszystkie całki są po całej osi rzeczywistej): fZ(z)=12πex2+(zx)22dx=12πe(2xz2)2+z222dx. Wstawiamy y=2x+z2 (czyli dx=dy2 i otrzymujemy: fZ(z)=12π12ey2+z222dy=12πez2412πey22dy=12πez24. W ostatnim przejściu całka jest równa 1 bo jest gęstością standardowego rozkładu normalnego. Łatwo zauważyć, że otrzymany wyrażenie opisuje gęstość rozkładu N(0,2).

Zachodzi też ogólniejszy Fakt 7.26 Jeśli XN(μ1,σ12) i YN(μ2,σ22), to Z=X+Y ma rozkład N(μ1+μ2,σ12+σ22).

Dowód jest analogiczny, ale rachunki trochę bardziej skomplikowane. Wystarczy ograniczyć się do przypadku XN(0,1) i YN(0,σ2) ze względu na następujący bardzo prosty fakt (ćwiczenia) Fakt 7.27 Jeśli XN(μ,σ2), to cX+aN(cμ+a,c2σ2).

Wartość oczekiwana i wariancja sumy zmiennych o rozkładzie ciągłym

Tak jak w przypadku zmiennych dyskretnych zachodzi następujące twierdzenie (dowód pominiemy) Twierdzenie 7.28 (liniowość wartości oczekiwanej) Jeśli X,Y są zmiennymi ciągłymi i istnieje EX i EY, to istnieje też E(X+Y) i zachodzi E(X+Y)=EX+EY.

Z powyższego twierdzenia, podobnie jak w przypadku zmiennych dyskretnych natychmiast otrzymujemy znany nam przydatny wzór na obliczanie wariancji. Fakt 7.29 (wzór na wariancję) Jeśli zmienna ciągła X ma wariancję, to VarX=E(X2)(EX)2.

Przykład 7.30 (wariancja zmiennej o rozkładzie jednostajnym) Niech XUnif(a,b). Spróbujmy obliczyć Var(X) korzystając ze wzoru VarX=E(X2)(EX)2. Mamy E(X2)=abx21badx=(x33(ba))|ab=b3a33(ba)=a2+ab+b23. Ponadto wiemy już, że (EX)2=(a+b)24=a2+2ab+b24. A zatem VarX=4a2+4ab+4b2123a2+6ab+3b212=a22ab+b212=(ab)212.

Przykład 7.31 (wariancja zmiennej o rozkładzie wykładniczym) Niech XExp(θ). Obliczymy Var(X) korzystając, jak poprzednio, ze wzoru VarX=E(X2)(EX)2. Mamy E(X2)=0x2θeθxdx=0x2(eθx)dx. Ze wzoru na całkowanie przez części dostajemy E(X2)=(x2eθx)|0+20xeθxdx=0(0)+21θEX=2θ2. Stąd Var(X)=2θ21θ2=1θ2.

Można też pokazać (ćwiczenia), że Twierdzenie 7.32 Jeśli XN(μ,σ2), to VarX=σ2.

Tak jak w przypadku zmiennych dyskretnych, wartość oczekiwana ogólnie nie jest multiplikatywna, a wariancja addytywna, ale: Twierdzenie 7.33 Jeśli X,Y są niezależnymi zmiennymi ciągłymi i istnieje EX i EY, to istnieje też E(XY) i zachodzi E(XY)=EXEY. Twierdzenie 7.34 Jeśli X,Y są niezależnymi zmiennymi ciągłymi i istnieje VarX i VarY, to istnieje też Var(X+Y) i Var(X+Y)=VarX+VarY.

Dowód pierwszego z tych twierdzeń pominiemy, drugie wynika z pierwszego w sposób analogiczny jak dla zmiennych dyskretnych.

Prawdopodobieństwo warunkowe

W prawdopodobieństwach warunkowych zdarzeń definiowanych przez zmienne ciągłe nie ma w większości przypadków niczego niezwykłego i możemy je obliczać standardowymi sposobami, korzystając ze znanych nam definicji. Dotyczy to na przykład prawdopodobieństw postaci P(XA|B) czy P(XA|YB), o ile P(YB)>0. Możemy też korzystając z definicji z wykładu o zmiennych dyskretnych zdefiniować warunkowy rozkład ciągłej zmiennej losowej

Nie jest jednak jasne co zrobić z prawdopodobieństwem warunkowym postaci P(XA|Y=y). Z jednej strony możemy często chcieć obliczać wartość tego wyrażenia. Możemy na przykład chcieć zapytać o to jakie jest prawdopodobieństwo tego, że losowa osoba waży co najmniej 80kg, jeśli wiemy, że ma 180cm wzrostu, itp. Z drugiej strony, jeśli spróbujemy obliczyć wartość tego wyrażenia za pomocą znanej nam definicji, to otrzymamy iloraz P(XA|Y=y)=P(XAY=y)P(Y=y), w którym zarówno licznik i jak i mianownik są równe 0.

Definicja (gęstość warunkowa) Niech X i Y będą zmiennymi o łącznym rozkładzie ciągłym z gęstością fX,Y i niech fY będzie gęstością Y. Jeśli y jest taki, że fY(y)0, to gęstością warunkową X pod warunkiem Y=y nazywamy funkcję fX|Y=y(x)=fX,Y(x,y)fY(y).

Definicja (prawdopodobieństwo warunkowe) Przy założeniach jak wyżej i dla dowolnego mierzalnego A, prawdopodobieństwem warunkowym XA pod warunkiem Y=y nazywamy P(XA|Y=y)=AfX|Y=y(x)dx.

Zauważmy przede wszystkim, że fX|Y=y jest funkcją gęstości, t.j. całka z fX|Y=y po całej osi rzeczywistej wynosi 1. Wynika to natychmiast z faktu 7.20.

Dlaczego tak właśnie zostało zdefiniowane prawdopodobieństwo P(XA|Y=y)? Istnieją co najmniej 2 intuicyjne sposoby "wyprowadzenia" tej definicji. Po pierwsze: jeśli wiemy, że Y=y0, to patrzymy na gęstość fX,Y(x,y) ograniczoną do y=y0, czyli po prostu fX,Y(x,y0). Chcielibyśmy użyć tej funkcji jako gęstości, ale nie całkuje się ona na do 1. Łatwo to jednak naprawić skalując ją czynnikiem fY(y).

Drugie intuicyjne wyprowadzenie mogłoby wyglądać tak: skoro nie wiemy jak obliczyć P(XA|Y=y), to obliczmy P(XA|YIy) dla małego przedziału Iy zawierającego y. Jeśli ten przedział jest na tyle mały, żeby zarówno fY jak i fX,Y(x,y) dla każdego ustalone x była na nim prawie stała (pomijamy to czy taki przedział musi istnieć, w końcu szukamy tylko intuicji), to dostajemy: P(XA|YIy)=sAtIyfX,Y(s,t)dtdstIyfY(t)dtsA|Iy|fX,Y(s,y)ds|Iy|fY(y)=sAfX,Y(s,y)fY(y)ds, czyli dokładnie to czego się spodziewaliśmy.

Zdefiniowane przez nas prawdopodobieństwo warunkowe ma własności analogiczne do zwykłego prawdopodobieństwa warunkowego, np. Twierdzenie 7.35 (Wzór na prawdopodobieństwo całkowite) Jeśli X,Y są ciągłe i łącznie ciągłe, a A jest mierzalny, to zachodzi P(XA)=P(XA|Y=y)fY(y)dy.

Dowód wynika natychmiast z definicji gęstości warunkowej.


Centralne Twierdzenie Graniczne

Ostatnią część tego wykładu poświęcimy zapowiadanemu wcześniej Centralnemu Twierdzeniu Granicznemu. Twierdzenie to mówi, że rozkład sumy wielu niezależnych zmiennych o tym samym rozkładzie jest bliski normalnemu (tak naprawdę rozkłady mogą być różne, ważne jest aby mały zbiór zmiennych nie dominował sumy, skoncentrujemy się jednak na najprostszej wersji twierdzenia).

Zastanówmy się jak mogłoby wyglądać to twierdzenie. Niech X1,X2, będzie ciągiem niezależnych zmiennych o tym samym rozkładzie. Chciałoby się powiedzieć, że rozkład Zn=i=1nXi zbiega do rozkładu normalnego wraz z rosnącym n, ale takie twierdzenie oczywiście nie może być prawdziwe, bo jeśli na przykład μ=EX1=EX2= istnieje i jest większe od zera, to kolejne Zn będą miały coraz większe wartości oczekiwane i nie mogą do niczego zbiegać.

Może w takim razie załóżmy istnienie μ=EX1=EX2= i popatrzmy na graniczne zachowanie Zn=i=1n(Xiμ). Tutaj mamy EZn=0 dla każdego n, ale niestety jeśli σ2=Var(X1)=Var(X2)= istnieje to Var(Zn) są coraz większe i tak jak poprzednio ciąg Zn nie może do niczego zbiegać. Musimy znormalizować Zn tak, aby wszystkie Zn miały tę samą wariancję, najprościej dzieląc przez nσ. Dlatego Centralne Twierdzenie Graniczne formułujemy tak:

Twierdzenie 7.36 (Centralne Twierdzenie Graniczne (CTG)) Niech X1,X2, będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie, wartości oczekiwanej μ i wariancji σ2>0. Niech ponadto Zn=i=1n(Xiμ)nσ. Wtedy rozkład Zn zbiega do rozkładu N(0,1) w następującym sensie: zlimnP(Znz)=Φ(z), gdzie Φ jest dystrybuantą rozkładu N(0,1).