Rachunek Prawdopodobieństwa i Statystyka (UW) Wykład 5

Z Studia Informatyczne
Wersja z dnia 10:47, 5 wrz 2023 autorstwa Luki (dyskusja | edycje) (Zastępowanie tekstu – „ </math>” na „</math>”)
Przejdź do nawigacjiPrzejdź do wyszukiwania

Intuicja

W poprzednim wykładzie zdefiniowaliśmy zmienną X, która opisywała sumę oczek na dwóch kostkach. Jaka jest średnia wartość tej zmiennej? Zanim odpowiemy na to pytanie, zastanówmy się co ono właściwie powinno znaczyć.

Intuicyjnie, jeśli będziemy rzucać parą kostek bardzo dużo razy, to średnia z wyników będzie zbiegać do pewnej wartości i tę wartość można nazwać średnią sumą oczek. Jeśli powtórzylibyśmy rzut dwiema kostkami n razy, to spodziewamy się, że wynik k uzyskamy mniej więcej P(X=k)n razy. A zatem średnia suma z n powtórzeń będzie miała wartość bliską k=212P(X=k)nkn=k=212P(X=k)k. Ta wartość wydaje się być rozsądną definicją średniej wartości X.

Uwaga 5.1 W powyższym rozumowaniu uznaliśmy, że jeśli n jest duże, to w n powtórzeniach rzutu dwiema kostkami wynik k uzyskamy mniej więcej P(X=k)n razy. Ogólniej, w n powtórzeniach pewnego doświadczenia zdarzenie A powinno wystąpić mniej więcej P(A)n razy. Warto zwrócić uwagę, że korzystamy tu z intuicji częstościowej prawdopodobieństwa, o której mówiliśmy już w pierwszym wykładzie. W szczególności nasze uzasadnienie definicji wartości oczekiwanej ma raczej charakter nieformalny. Co ciekawe, wkrótce okaże się, że intuicji częstościowej odpowiada twierdzenie w naszej teorii (szczególny przypadek tzw. Prawa Wielkich Liczb).


Definicja

Definicja (Wartość oczekiwana) Niech X będzie zmienną losową o rozkładzie dyskretnym. Wartością oczekiwaną (ew. średnią) X nazywamy wartość sumy EX=xxP(X=x), o ile jest ona absolutnie zbieżna.

Przykład 5.2 Założenie absolutnej zbieżności jest niejako konieczne - nie chcemy, żeby wartość EX zależała od kolejności sumowania. Z drugiej strony prowadzi ono czasem do zaskakujących wyników. Rozważmy zmienną X zdefiniowaną następująco: X przyjmuje tylko wartości postaci 2k i 2k dla k2, przy czym P(X=2k)=P(X=2k)=12k. Zmienna ta ma rozkład symetryczny względem 0, intuicyjnie więc jej wartością oczekiwaną powinno być 0. Ponieważ jednak szereg definiujący EX nie jest absolutnie zbieżny (składa się on z nieskończenie wielu wartości 1 i nieskończenie wielu 1), to EX jest nieokreślone.

Przykład 5.3 Spróbujmy obliczyć wprost z definicji wartość oczekiwaną zmiennej o rozkładzie Bernoulliego i zmiennej o rozkładzie dwumianowym.

Dla X o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy EX=0P(X=0)+1P(X=1)=P(X=1)=p. Dla Y o rozkładzie dwumianowym Binom(n,p) mamy EY=k=0nkP(X=k)=k=0nk(nk)pk(1p)nk=nk=1nkn(nk)pk(1p)nk. Korzystając z pochłaniania dostajemy nk=1n(n1k1)pk(1p)nk=npk=0n1(n1k)pk(1p)n1k=np. (bo ostatnia suma jest po prostu rozwinięciem dwumianu (p+(1p))n1).

Jest to bardzo interesujący wynik. Zmienna Y jest sumą n zmiennych Y1,,Yn, gdzie każda ze zmiennych Yi ma rozkład Bernoulliego z prawdopodobieństwem sukcesu p. Okazuje się, że EY=i=1nEYi. Czyżby wartość oczekiwana była addytywna, a nasze rozwlekłe obliczenia EY zupełnie niepotrzebne? Już wkrótce poznamy odpowiedź na to pytanie.


Własności wartości oczekiwanej

Bardzo przydatną i fundamentalną własność wartości oczekiwanej opisuje poniższe twierdzenie Twierdzenie 5.4 Niech X:Ω będzie dyskretną zmienną losową o skończonej wartości oczekiwanej. Niech ponadto Ω będzie przeliczalna, lub ogólniej, niech ωΩP(ω)=1. Wtedy: EX=ωΩP(ω)X(ω).

Innymi słowy: zamiast sumować po możliwych wartościach zmiennej X możemy sumować po zdarzeniach elementarnych.

Dowód EX=xxP(X=x)=xxωΩP(ω)[X(ω)=x]=ωΩP(ω)xx[X(ω)=x]=ωΩP(ω)X(ω).

Z twierdzenia 5.4 w prosty sposób wynika następujący:

Wniosek 5.5 Jeśli X jest zmienną losową o rozkładzie dyskretnym, a f: dowolną funkcją, to zachodzi Ef(X)=xP(X=x)f(x), o ile Ef(X) istnieje. Dowód Wystarczy popatrzeć na f jako na zmienną losową określoną na ,PX, ew. powtórzyć dowód twierdzenia 5.4.

Wniosek ten okaże się bardzo przydatny przy obliczaniu wariancji - pojęcia, które wkrótce zdefiniujemy.

Twierdzenie 5.4 ma zaskakująco wiele zastosowań i warto o nim pamiętać, nawet jeśli wydaje się zupełnie oczywiste (a może właśnie szczególnie wtedy). Zobaczmy przykład:

Przykład 5.6 Spróbujmy obliczyć wartość oczekiwaną sumy oczek w rzucie dwiema kostkami. Niech X będzie zmienną opisującą sumę oczek. Wtedy z definicji EX mamy EX=k=212kP(X=k). Należałoby teraz obliczyć wszystkie wartości P(X=k). Nie jest to bardzo trudne, ale jest nieco uciążliwe i łatwo się przy tych obliczeniach pomylić.

Spróbujmy inaczej. Przyjmijmy, że Ω={(i,j):1i,j6} i oczywiście P((i,j))=136 dla każdych 1i,j6. Wtedy X((i,j))=i+j i z twierdzenia 5.4 mamy EX=1i,j6136(i+j). Oczywiście 1i,j6i=1i,j6j z symetrii, więc EX=1362 1i,j6i=11861i6i=1321=7. Wyprowadzenie wymagające więcej spostrzegawczości niż rachunków, zdecydowanie mniej uciążliwe niż nasz pierwszy pomysł.

Twierdzenie 5.4 pozwala też w prosty sposób pokazać zapowiadaną wcześniej addytywność wartości oczekiwanej (choć nie w pełnej ogólności): Twierdzenie 5.7(Liniowość wartości oczekiwanej) Niech X,Y dyskretne zmienne losowe o skończonej wartości oczekiwanej. Wtedy:

  1. E(cX)=cEX,
  2. E(X+Y)=EX+EY.

Dowód Jeśli ωΩP(ω)=1 (np. Ω jest przeliczalna), to pierwszy punkt tezy natychmiast wynika z twierdzenia 5.4: E(cX)=ωΩP(ω)cX(ω)=cωΩP(ω)X(ω)=cEX. Drugi punkt nie jest dużo trudniejszy: E(X+Y)=ωΩP(ω)(X+Y)(ω)=ωΩP(ω)X(ω)+ωΩP(ω)Y(ω)=EX+EY. Ogólny przypadek nie jest dużo trudniejszy. Zbiory postaci X=xY=y={ωΩ:X=x,Y=y} stanowią podział Ω i zachodzi x,yP(X=xY=y)=1 bo X i Y dyskretne. Można zatem myśleć o tych zbiorach jako o elementach pewnej nowej przestrzeni probabilistycznej, na której są określone X i Y i która spełnia założenia twierdzenia 5.4. Bardziej formalnie możemy nasz dowód uogólnić następująco: E(X+Y)=zP(X+Y=z)z=zx,y|x+y=zP(X=xY=y)(x+y)=x,yP(X=xY=y)(x+y)= =x,yP(X=xY=y)x+x,yP(X=xY=y)y=EX+EY. Podobnie uogólniamy pierwszą część dowodu.


Trudno jest przecenić znaczenie tego twierdzenia - jeśli musielibyśmy wskazać w całym kursie rachunku prawdopodobieństwa jedno twierdzenie o największym znaczeniu w informatyce teoretycznej, to prawdopodobnie byłaby nim właśnie liniowość wartości oczekiwanej. Siła tego twierdzenia bierze się przede wszystkim stąd, że nie wymaga ono żadnych założeń, w szczególności zmienne X i Y nie muszą być niezależne.

Przykład 5.8 Spróbujmy raz jeszcze obliczyć oczekiwaną sumę oczek z dwóch kostek. Tym razem przedstawimy sumę oczek X jako X=X1+X2, gdzie X1,X2 są wynikami z poszczególnych kostek. Wtedy EX=EX1+EX2=2i=1616i=7.

Przykład 5.9 Wrzucamy losowo n kul do n urn. Jaka jest wartość oczekiwana frakcji pustych urn?

Niech Xi będzie zmienną, która przyjmuje wartość 1 jeśli i-ta urna jest pusta, a wartość 0 gdy nie jest pusta. Wtedy X=X1++Xn jest liczbą pustych urn. Mamy EXi=P(Xi=1)=(11n)n. A zatem z liniowości dostajemy EX=EX1++EXn=n(11n)n. A zatem oczekiwana frakcja pustych urn jest równa (11n)n. Co ciekawe dla n wartość ta zbiega do 1e.

Ten przykład pokazuje siłę twierdzenia o liniowości wartości oczekiwanej. Zachęcamy czytelnika do próby rozwiązania powyższego zadania wprost z definicji.

Skoro E(X+Y)=EX+EY, to naturalne wydaje się pytanie, czy zachodzi E(XY)=EXEY, czyli czy wartość oczekiwana jest multiplikatywna. Łatwo zauważyć, że nie może to być prawdą - wystarczy wziąć X o rozkładzie Bernoulliego i Y=X.

Okazuje się jednak, że czasem wartość oczekiwana jest multiplikatywna: Twierdzenie 5.10 Jeśli X,Y niezależne zmienne dyskretne o skończonych wartościach oczekiwanych, to E(XY)=EXEY. Dowód E(XY)=zP(XY=z)z=zx{0}zP(X=xY=zx)=zx{0}xP(X=x)zxP(Y=zx). Zmieniając kolejność sumowania i podstawiając y=zx dostajemy E(XY)=x{0}xP(X=x)yyP(Y=y)=EXEY.

Na koniec odnotujmy bardzo przydatny wzór na wartość oczekiwaną zmiennej o wartościach naturalnych: Twierdzenie 5.11 Niech X będzie zmienną losową o wartościach naturalnych. Wtedy EX=i=1P(Xi). Dowód EX=i=1iP(X=i)=i=1j=1iP(X=i)=j=1i=jP(X=i)=j=1P(Xj). Przykład Obliczmy wartość oczekiwaną zmiennej o rozkładzie geometrycznym. Niech XGeom(p). Wtedy P(Xi)=(1p)i1 i z powyższego twierdzenia dostajemy EX=i1P(Xi)=i1(1p)i1=11(1p)=1p. Obliczanie EX wprost jest istotnie bardziej skomplikowane - sprowadza się, de facto, do powtórzenia dowodu twierdzenia 5.11.


Warunkowa wartość oczekiwana

W poprzednim wykładzie zdefiniowaliśmy, dla dowolnej dyskretnej zmiennej losowej X i zdarzenia A o niezerowym prawdopodobieństwie, nową zmienną X|A. Można oczywiście obliczyć wartość oczekiwaną tak zdefiniowanej zmiennej: E(X|A)=xxP((X|A)=x)=xxP(X=x|A).

Związek między tak określonymi warunkowymi wartościami oczekiwanymi, a zwykłą wartością oczekiwaną, jest taki sam jak między prawdopodobieństwami warunkowymi, a zwykłym prawdopodobieństwem: Twierdzenie 5.12 (Wzór na całkowitą wartość oczekiwaną) Niech X:Ω będzie dyskretną zmienną losową i niech A1,A2, będzie podziałem Ω. Wtedy: EX=k=1P(Ak)E(X|Ak). Dowód Na mocy twierdzenia o prawdopodobieństwie całkowitym P(X=x)=k=1P(Ak)P(X=x|Ak) dla każdego k i x. Mnożąc tę tożsamość stronami przez x i sumując po wszystkich x dostajemy tezę: EX=xk=1xP(Ak)P(X=x|Ak)=k=1xxP(Ak)P(X=x|Ak)=k=1P(Ak)E(X|Ak).

Uwaga Podobnie jak w przypadku wzoru na prawdopodobieństwo całkowite, prawdziwa jest także wersja powyższego twierdzenia dla skończonych podziałów Ω, dowód analogiczny. Ponadto tak jak w przypadku wzoru na prawdopodobieństwo całkowite, można powyższe twierdzenie traktować jako przepis na obliczanie wartości oczekiwanej przez przypadki.

Przykład 5.13 Korzystając ze wzoru na całkowitą wartość oczekiwaną obliczymy ponownie wartość oczekiwaną zmiennej XGeom(p). EX=P(X=1)E(X|X=1)+P(X>1)E(X|X>1)=p1+(1p)E(X|X>1). Zauważmy, że X|(X>1) ma taki sam rozkład jak 1+X. Intuicyjnie jest to dość oczywiste, (prosty) formalny dowód dużo ogólniejszego faktu pojawi się na ćwiczeniach. A zatem EX=p+(1p)E(1+X)=1+(1p)EX. Stąd pEX=1 i ostatecznie EX=1p.


Wariancja - motywacja i definicja

Wartość oczekiwana niesie bardzo istotną informację na temat zmiennej losowej. Tym niemniej, ograniczanie się w analizie do samej wartości oczekiwanej może być zwodnicze, a czasem wręcz niebezpieczne.

Jest duża różnica między inwestycją, w której z prawdopodobieństwem 12 zyskujemy 1,000,000 zł i z prawdopodobieństwem 12 tracimy 800,000 zł, a inwestycją w której z prawdopodobieństwem 12 zyskujemy 101,000 i z prawdopodobieństwem 12 zyskujemy 99,000. W obu przypadkach wartość oczekiwana zysku wynosi 100,000 zł, a pomimo to większość osób bez wahania wybrałaby drugą opcję.

Podobnie, jest duża różnica między algorytmem, którego oczekiwany czas działania jest równy cnlogn, ale który często działa w czasie bliskim zeru i często działa wielokrotnie wolniej niż średnio, a algorytmem o tym samym średnim czasie działania, który prawie zawsze działa w czasie bliskim średniej. Znów jasne jest, że opcja druga jest z reguły bardziej pożądana.

Aby móc porównywać inwestycje w pierwszym przykładzie i algorytmy w drugim, wprowadzimy miarę tego jak bardzo zmienna losowa odchyla się od swojej wartości średniej. Naturalnym pomysłem byłoby rozważenie wielkości E|XEX|. Pomysł ten jest dobry, a tak zdefiniowaną wielkość nazywa się z reguły średnim odchyleniem X . Posługiwanie się odchyleniem średnim jest jednak z wielu różnych względów dość problematyczne. W dużym uproszczeniu "pojęcie to nie ma dobrych własności", choćby dlatego, że użyta w definicji wartość bezwględna skutecznie utrudnia korzystanie z narzędzi analitycznych takich jak różniczkowanie.

Zamiast średniego odchylenia będziemy używać pojęć wariancji i odchylenia standardowego: Definicja (Wariancja i odchylenie standardowe) Wariancją dyskretnej zmiennej losowej X nazywamy wartość VarX=E(XEX)2, o ile ona istnieje. Odchyleniem standardowym X nazywamy σ(X)=VarX.

W tym miejscu należy się wyjaśnienie kwestii: po co nam aż dwie wielkości?

Wariancja, w przeciwieństwie do średniego odchylenia, ma bardzo dobre własności i pojawia się w wielu sytuacjach w naturalny sposób. Wbrew pozorom nie jest ona jednak dobrym substytutem średniego odchylenia z tego prostego powodu, że średniego odchylenia nie mierzy. Łatwo to zauważyć, jeśli zastanowimy się co się dzieje z wariancją, jeśli pomnożymy zmienną losową przez stałą: Var(cX)=E(cXE(cX))2=E(c(XEX))2=c2E(XEX)=c2VarX. To nie wygląda dobrze - sensowna miara średniego odchylenia powinna w takiej sytuacji wzrastać |c|-krotnie. Rozwiązaniem tego problemu jest odchylenie standardowe, dla którego jak łatwo zauważyć mamy σ(cX)=|c|σ(X).

Okazuje się, że odchylenie standardowe jest bardzo dobrą miarą "typowych odchyleń" od średniej, w szczególności ma z reguły wartość bardzo bliską odchyleniu średniemu.


Własności wariancji

Wariancję rzadko oblicza się wprost z definicji. Jedną z przydatniejszych metod jest poniższy wzór: Twierdzenie 5.14 VarX=E(X2)(EX)2. Dowód VarX=E(XEX)2=E(X22XEX+(EX)2)=E(X2)2(EX)2+(EX)2=E(X2)(EX)2.

Przykład 5.15 Spróbujmy za pomocą tego wzoru obliczyć wariancję rozkładu Bernoulliego i rozkładu dwumianowego.

Dla zmiennej X o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy: VarX=E(X2)(EX)2=EX(EX)2=pp2=pq.

Dla zmiennej YBinom(n,p) mamy: VarY=E(Y2)(EY)2=k=0nk2(nk)pk(1p)nk(np)2=nk=1nkkn(nk)pk(1p)nk(np)2. Korzystając z pochłaniania dostajemy: nk=1nk(n1k1)pk(1p)nk(np)2=npk=0n1(k+1)(n1k)pk(1p)n1k(np)2=np(k=0n1k(n1k)pk(1p)nk+k=0n1(n1k)pk(1p)nk)(np)2. Jedno z wyrażeń w nawiasie jest dwumianem (p+q)n, a drugie wartością oczekiwaną zmiennej o rozkładzie Binom(n1,p). Dostajemy więc: np((n1)p+1)(np)2=np(np+q)(np)2=(np)2+npq(np)2=npq.

Okazało się, że VarY=nVarX, co sugeruje, że być może wariancja jest addytywna, tak jak wartość oczekiwana (liniowa być nie może, bo Var(cX)=c2VarX ). Sprawdźmy: Var(X+Y)=E((X+Y)E(X+Y))2=E((XEX)+(YEY))2=E((XEX)2+2(XEX)(YEY)+(YEY)2)=VarX+VarY+2E(XEX)(YEY).

Prawie się udało, niestety pojawił się dodatkowy człon E(XEX)(YEY), sprawdźmy czy jest on równy 0: E(XEX)(YEY)=E(XYXEYYEX+EXEY)=E(XY)EXEYEXEY+EXEY=E(XY)EXEY.

I wszystko jasne: wariancja jest addytywna wtw, gdy wartość oczekiwana jest multiplikatywna. Ważny szczególny przypadek takiej sytuacji opisuje poniższe twierdzenie: Twierdzenie 5.16 Jeśli dyskretne zmienne losowe X i Y są niezależne i mają skończoną wariancję, to Var(X+Y)=VarX+VarY. Dowód Wynika z wcześniejszych rozważań i multiplikatywności wartości oczekiwanej dla zmiennych niezależnych.

Uwaga 5.17 Człon E(XEX)(YEY) nazywa się kowariancją X i Y. Kowariancja jest duża/dodatnia dla zmiennych, które razem przyjmują małe wartości i razem duże, czyli są "w tej samej fazie". Małe/ujemne wartości kowariancji oznaczają zmienne "w przeciwnym fazach".

Czasem jesteśmy zmuszeni obliczyć wariancję sumy zmiennych, które nie są niezależne. Poniższy przykład pokazuję bardzo typową sytuację tego rodzaju i standardowy sposób radzenia sobie z zależnością zmiennych 0/1-kowych. Przykład 5.9 (c.d.) Obliczmy wariancję liczby pustych urn. Korzystając z twierdzenia 5.14 mamy VarX=E(X2)(EX)2. Wartość drugiego członu już znamy, aby obliczyć pierwszy rozbijemy X2 na poszczególne składniki i skorzystamy z liniowości wartości oczekiwanej E(X2)=E(i=1nXi)2=E(i=1nj=1nXiXj)=i=1nj=1nE(XiXj). W tej sumie występują dwa rodzaje wyrazów:

  1. wyrazy postaci E(Xi2)=E(Xi)=(11n)n, oraz
  2. wyrazy postaci E(XiXj)=P(Xi=1Xj=1)=(12n)n.

Tych pierwszych jest n, drugich - n2n. A zatem VarX=n(11n)n+(n2n)(12n)nn2(11n)2n.


Wyższe momenty

Wartość oczekiwana i wariancja są szczególnymi przypadkami następujących dwóch pojęć: Definicja (Moment) Jeśli X jest zmienną losową, to k-tym momentem zmiennej losowej X nazywamy wartość wyrażenia E(Xk), o ile ona istnieje. Definicja (Moment centralny) Jeśli X jest zmienną losową i EX<, to k-tym momentem centralnym zmiennej losowej X nazywamy wartość wyrażenia E(XEX)k, o ile ona istnieje. A zatem wartość oczekiwana jest pierwszym momentem zmiennej, a wariancja drugim momentem centralnym.

Z wyższych momentów korzysta się istotnie rzadziej, niż z EX i VarX, mają one jednak swoje miejsce w zastosowaniach. Czytelnikowi polecamy zastanowienie się, co mierzą trzeci, a co czwarty moment centralny?


Funkcje tworzące prawdopodobieństwa

Obliczanie wartości oczekiwanej i wariancji wprost z definicji lub za pomocą jednego z wyprowadzonych przez nas wzorów bywa często uciążliwe i pracochłonne. Poznamy teraz metodę, która pozwala często znacznie uprościć te rachunki.

Definicja (Funkcja tworząca prawdopodobieństwa) Niech X będzie zmienną losową o wartościach naturalnych. Funkcją tworzącą prawdopodobieństwa zmiennej X zmiennej X nazywamy: gX(t)=k=0P(X=k)tk.

Tak jak to z reguły bywa z funkcjami tworzącymi, często wygodnie jest je traktować jako szeregi formalne i nie przejmować się zbieżnością. Tym niemniej, z twierdzenia o zbieżności zmajoryzowanej wynika łatwo natychmiast następujący: Fakt 5.18 Szereg definiujący gX(t) jest zawsze absolutnie zbieżny co najmniej na przedziale [1,1].

Czasem wygodniej jest korzystać z następującej tożsamości: Fakt 5.19 Dla tych t dla których szereg definiujący gX(t) jest absolutnie zbieżny zachodzi: gX(t)=E(tX). Dowód Oczywisty.

Jak obliczać wartość oczekiwaną i wariancję za pomocą funkcji tworzących prawdopodobieństwa? Wystarczy je zróżniczkować.

(Prawie prawdziwe) twierdzenie Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną, to: EX=gX(1).

(Prawie poprawny) dowód gX(t)=k=0kP(X=k)tk1. Podstawiając t=1 dostajemy tezę.

Powyższe rozumowanie wygląda przekonująco, formalnie jednak nie jest całkiem poprawne. Z tego, że szereg gX(t) jest zbieżny w przedziale [1,1] wynika, że możemy go zróżniczkować wewnątrz tego przedziału, ale niekoniecznie w t=1. Dlatego należy sformułować twierdzenie tak: Twierdzenie 5.20 Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną, to: EX=limt1gX(t). Dowód Z twierdzenia Abela suma szeregu potęgowego jest funkcją ciągłą (ew. jednostronnie ciągłą) wszedzie tam gdzie jest zbieżna. A zatem: EX=k=0kP(X=k)1k1=limt1(k=0kP(X=k)tk1)=limt1gX(t).

W praktyce tego rodzaju niuansy nie mają znaczenia. Funkcje tworzące prawdopodobieństwa, z którymi będziemy mieli do czynienia będą zbieżne na całej prostej rzeczywistej i problemy opisane powyżej nie będą występować. W szczególności prawdziwy będzie wzór EX=gX(1).

Łatwo zgadnąć jak za pomocą funkcji tworzących prawdopodobieństwa oblicza się wariancję. Różniczkując dwukrotnie! Spróbujmy: gX(t)=k=0k(k1)P(X=k)tk2. A zatem gX(1)=E(X(X1)) oraz gX(1)+gX(1)=E(X2), o ile oczywiście te pochodne istnieją. Z tego właśnie wzoru będziemy korzystać w praktyce, w ogólnym przypadku zachodzi Twierdzenie 5.21 Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną i wariancję, to E(X2)=limt1(gX(t)+gX(t)) oraz VarX=limt1(gX(t)+gX(t)(gX(t))2). Dowód Analogiczny jak dla twierdzenia 5.20.

Przykład 5.22 Znajdźmy funkcję tworzącą prawdopodobieństwa rozkładu dwumianowego (w tym przypadku mamy do czynienia z wielomianem tworzącym i większość rozważań powyżej mocno się upraszcza). Niech XBinom(n,p). Wtedy gX(t)=k=0n(nk)pkqnktk=(q+pt)n. Obliczmy pierwszą i drugą pochodną gX(t): gX(t)=np(q+pt)n1, gX(t)=n(n1)p2(q+pt)n2. A zatem EX=gX(1)=np(q+p)n1=np, oraz VarX=gX(1)+gX(1)(gX(1))2=n(n1)p2+np(np)2=npnp2=npq.

Udowodnimy teraz kilka własności funkcji tworzących prawdopodobieństwa, które znacząco ułatwiają posługiwanie się nimi.

Twierdzenie 5.23 Niech X,Y będą niezależnymi zmiennymi o wartościach naturalnych. Wtedy gX+Y(t)=gX(t)gY(t). Dowód Dla t[1,1] zachodzi gX+Y(t)=E(tX+Y)=E(tXtY)=E(tX)E(tY)=gX(t)gY(t), więc musi też zachodzić teza.

Twierdzenie to w naturalny sposób uogólnia się na dowolną skończoną liczbę niezależnych zmiennych losowych.

Przykład 5.24 Korzystając z powyższego twierdzenia możemy policzyć gX(t) dla XBinom(n,p) w alternatywny sposób. Zauważmy mianowicie, że dla zmiennej Y o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy gY(t)=q+pt, a ponieważ X jest sumą n niezależnych zmiennych o takim właśnie rozkładzie, to gX(t)=(gY(t))n=(q+pt)n.

Twierdzenie 5.25 Jeśli X jest zmienną losową o wartościach naturalnych, a c, to gcX(t)=gX(tc). Dowód gcX(t)=k=0P(cX=k)tk=i=0P(cX=ci)tci=i=0P(X=i)(tc)i=gX(tc).

Twierdzenie 5.26 Niech N,X1,X2,,XN będą niezależnymi zmiennymi losowymi o wartościach naturalnych. Ponadto, niech wszystkie Xi mają ten sam rozkład XiX. Wtedy dla S=X1++XN zachodzi gS(t)=gN(gX(t)) oraz ES=ENEX. Dowód Dla t[1,1] mamy z twierdzenia o całkowitej wartości oczekiwanej gS(t)=E(tS)=k=0P(N=k)E(tS|N=k)=k=0P(N=k)E(tX1++Xk). Z niezalezności Xi dostajemy gS(t)=k=0P(N=k)E(tX1)E(tXk)=k=0P(N=k)(gX(t))k=gN(gX(t)). Druga część twierdzenia wynika z pierwszej, ciągłości funkcji tworzących w t=1 oraz tego, że gX(1)=1. ES=limt1gS(t)=limt1gN(gX(t))gX(t)=limt1gN(t)gX(t)=ENEX.

Przykład 5.27 Rzucamy kostką, niech N będzie wynikiem rzutu. Następnie rzucamy N razy monetą. Jaki rozkład ma łączna liczba orłów? W szczególności jak wygląda funkcja tworząca prawdopodobieństwa tego rozkładu?

Niech X1,X2,, będą wynikami rzutów monetą. Wtedy łączna liczba orłów jest równa S=X1++XN i mamy do czynienia z sytuacją z udowodnionego właśnie twierdzenia.

Ponieważ gN(t)=16i=16ti oraz gXi(t)=1+t2, to gS(t)=16i=16(1+t2)i.