Rachunek prawdopodobieństwa i statystyka/Wykład 1: Wstęp

From Studia Informatyczne

Oprócz ogólnego wstępu zostaną podane informacje dotyczące wspomagającej literatury i oprogramowania komputerowego. Powiemy co rozumiemy przez dane statystyczne i w jakiej formie one wystepują. Zwrócimy uwagę na możliwe interpretacje graficzne danych.

Spis treści

Wstęp

Wydaje się, a można to będzie osądzić dopiero za kilkadziesiąt lat, że przełom wieków stanowi także przełom w rozwiązywaniu wielu problemów związanych z zastosowaniami matematyki. Coraz szybsze komputery, dysponujące coraz większą pamięcią, dały szansę rozwoju metod, o których jeszcze dziesięć lat temu nikt poważnie nie myślał. Odnosi się to także, a może nawet przede wszystkim, do rachunku prawdopodobieństwa oraz jego zastosowań, wśród których prym wiedzie statystyka.

Z drugiej strony, ostatnie lata XX wieku charakteryzowały się, między innymi, zwiększonym zapotrzebowaniem na usługi statystyczne w różnorodnych dziedzinach działalności, zarówno praktyczne, jak i bardziej teoretyczne, związane na przykład z zastosowaniem metod probabilistycznych do wyceny instrumentów finansowych, prognozowania i optymalizacji.



Zdecydowana większość procesów fizycznych, technicznych, społecznych, ekonomicznych i innych, przebiega w sposób bardziej lub mniej losowy. Zjawiskami, których przebieg jesteśmy skłonni uważać za dość przypadkowy są na przykład:

  • rzut kostką do gry - nie wiemy, ile oczek wypadnie,
  • opady deszczu w Krakowie w roku 2008 - nie wiemy, kiedy i ile będzie padać,
  • gra na giełdzie - nie wiemy, ile będą warte akcje "naszych" spółek za dwa tygodnie, a tym bardziej za rok.

Z drugiej strony, obserwujemy zjawiska, które jesteśmy skłonni uważać za zdeterminowane. Są nimi na przykład:

  • ruch wskazówek zegarka - potrafimy określić ich położenie po upływie, powiedzmy, 47 minut,
  • nabór dzieci do klas pierwszych w szkole podstawowej w ciągu najbliższych sześciu lat - liczba pierwszoklasistów w roku 2008 powinna być równa, znanej już, liczbie dzieci urodzonych w roku 2001,
  • oszczędzanie na stały procent - 100 zł przy oprocentowaniu rocznym 10 da po dwóch latach 121 zł.

Zwróćmy jednak przy tym uwagę na kilka oczywistych faktów:

  • obserwowana losowość zjawisk może wynikać raczej z naszej niewiedzy, czy też z niedoskonałości środków technicznych, którymi dysponujemy, niż z samej natury zjawisk - ruch kostki, na przykład, podlega przecież określonym prawom fizycznym i gdybyśmy znali kierunek i wartość siły, z jaką rzucono idealnie symetryczną kostkę, to moglibyśmy (teoretycznie) wypisać równania ruchu i rozwiązując je, określić liczbę oczek, która ukaże się na górnej ściance,
  • nie istnieją (w zasadzie) procesy w pełni zdeterminowane - wiemy, że 100 zł złożone na 2 lata na 10 da nam 121 zł, jednak w przypadku bankructwa banku możemy nie dostać ani grosza.

Rachunek prawdopodobieństwa i statystyka są tymi działami matematyki, które badają i opisują zjawiska, uwzględniając ich losowy charakter. Potrafimy na przykład uzasadnić, że rzucając 100 razy kostką, prawie na pewno uzyskamy w sumie więcej niż 330, lecz mniej niż 370 oczek, przy czym zwrot "prawie na pewno" można będzie odpowiednio sprecyzować. Możemy też określić oczekiwaną wielkość naboru do klasy pierwszej w kolejnych nadchodzących latach. Liczba ta nie jest, jak sugerowano wyżej, równa liczbie dzieci urodzonych siedem lat wcześniej - trzeba bowiem uwzględnić pewne dodatkowe czynniki: migracje, umieralność lub przewlekłe choroby, a których wielkość może być określona na podstawie wieloletnich obserwacji przy użyciu metod statystycznych. Metody statystyczne mogą też pozwolić na określenie przewidywanej wielkości opadów w roku 2008 w Krakowie oraz ich intensywność w poszczególnych miesiącach.

Program kursu

Program niniejszego kursu jest stosunkowo szeroki. Po jego zakończeniu student powinien, przede wszystkim, zdobyć podstawowe intuicje probabilistyczne i statystyczne. Trzeba przyznać, że jest to zadanie dość trudne. Można je właściwie zrealizować jedynie przez samodzielne rozwiązanie pewnej liczby problemów. Olbrzymią pomoc mogą stanowić także samodzielnie przeprowadzane doświadczenia. Jest to obecnie możliwe i stosunkowo łatwo dostępne dla studentów informatyki, mających już pewne doświadczenie w korzystaniu z użytkowych programów komputerowych oraz w samodzielnym programowaniu. Nie należy jednak przy tym zapominać, iż rachunek prawdopodobieństwa i statystyka matematyczna są przedmiotami ścisłymi i dlatego ich studiowanie wymaga odpowiedniego podejścia.

Prezentowany kurs został przygotowany w taki sposób, aby jego uczestnicy mogli osiągnąć dwa zasadnicze cele: zdobycie intuicji probabilistyczno-statystycznej oraz przyswojenie niewielkiej ilości materiału teoretycznego, niezbędnego do (w miarę swobodnego) korzystania z podstawowych metod rachunku prawdopodobieństwa i statystyki. Dlatego też, podobnie jak w niektórych podręcznikach anglojęzycznych, w kursie można wyodrębnić trzy wyraźne części: statystykę opisową, podstawowy kurs rachunku prawdopodobieństwa oraz elementy wnioskowania statystycznego. Z kolei większość modułów naszego kursu składa się z czterech następujących jednostek składowych, z których każda spełnia określoną (ważną!) rolę w procesie nauki: wykładu podstawowego, rozwiązanych ćwiczeń, zadań do samodzielnego rozwiązania (bez odpowiedzi) oraz zestawu testów (z odpowiedziami). Warto także zwrócić uwagę na to, iż w ostatnim wykładzie 14 zostają zasygnalizowane trzy sytuacje, w których statystyka istotnie korzysta z narzędzi informatycznych.

Podręczniki

Zachęcamy studentów do korzystania z bogatego wyboru podręczników, a zwłaszcza zbiorów zadań. W poniższej liście sugerujemy jedynie niektóre z ciekawszych pozycji:

1. Lesław Gajek, Marek Kałuszka, Wnioskowanie statystyczne dla studentów, Wydawnictwo Naukowo-Techniczne, Warszawa, 1998. Objętościowo niewielki, ale zawierający dużo ciekawego materiału podręcznik, obejmujący niezbędne podstawy z rachunku prawdopodobieństwa. Korzystając z niego można sobie szybko "przyswoić" znaczną ilość materiału.

2. Jacek Jakubowski, Rafał Sztencel, Rachunek prawdopodobieństwa dla prawie każdego, Script, Warszawa, 2006. Wyczerpujący kurs rachunku prawdopodobieństwa, zawierający mnóstwo ciekawych przykładów.

3. Janina Jóźwiak, Jarosław Podgórski, Statystyka od podstaw, Polskie Wydawnictwo Ekonomiczne, Warszawa, 2006. Przeznaczony głównie dla ekonomistów podręcznik, obejmujący statystykę opisową i kurs rachunku prawdopodobieństwa.

4. Jacek Koronacki, Jan Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne, Warszawa, 2001. Integruje od samego początku statystykę opisową, klasyczny rachunek prawdopodobieństwa i wnioskowanie statystyczne.

5. Włodzimierz Krysicki i współautorzy, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz. I, II, Wydawnictwo Naukowe PWN, Warszawa, 2004. Obszerny zbiór standardowych zadań z rachunku prawdopodobieństwa i statystyki, poprzedzanych krótkim wstępem teoretycznym oraz serią rozwiązanych zadań.

6. Jerzy Ombach, Rachunek prawdopodobieństwa wspomagany komputerowo - Maple, Wydawnictwo UJ, Kraków, 2000. Nie zawiera statystyki.

Wspomaganie komputerowe

Ponieważ z kursu korzystają przed wszystkim informatycy, zdecydowalismy się zatem omawiać, bardziej szczegółowo niż w podobnych kursach ogólnego typu, zagadnienia związane z możliwością stosowania metod komputerowych w statystyce. W szczególności, na wykładzie 14 wspominamy o generowaniu liczb pseudolosowych, metodzie bootstrap oraz o jądrowej estymacji gęstości. Także w trakcie pozostałych wykładów i ćwiczeń zakładamy, że student będzie miał dostęp do specjalistycznego oprogramowania statystycznego lub matematycznego. Popularnymi programami z tej pierwszej grupy, dostępnymi w wielu polskich uczelniach, są, m. in., SAS, SPSS i Statistica. Warto także zwrócić uwagę na niekomercyjny program R, zawierający wiele przydatnych procedur statystycznych. Z dostępnego oprogramowania matematycznego należy wyróżnić programy Maple, Mathematica oraz Matlab. Każdy z nich zawiera pakiet podstawowych procedur statystycznych, a dwa pierwsze posiadają rozbudowane możliwości obliczeń algebraicznych. Nie należy także zapominać o popularnym arkuszu kalkulacyjnym Microsoft Excel, zawierającym Dodatek Analiza danych, który w większości przypadków będzie dla naszego studenta wystarczający.

W trakcie opracowywania tego kursu używaliśmy głównie różnych wersji programu Maple, z najnowszą - Maple 10 - włącznie.

Dane statystyczne



Podstawowymi pojęciami statystyki opisowej są populacja oraz cecha. Populacją będziemy nazywać zbiór skończony, natomiast cechą - funkcję (patrz wykład z Logiki i teorii mnogości) określoną na tym zbiorze i przyjmującą wartości w innym, ustalonym zbiorze. Oczywiście, w praktyce interesują nas tylko niektóre populacje i niektóre cechy. Na przykład, może nas interesować populacja studentów informatyki na Uniwersytecie Jagiellońskim, a cechą może być wiek studenta. Inną interesującą populację mogą stanowić wszystkie samochody zarejestrowane w Polsce - cechą może być wówczas numer rejestracyjny samochodu lub rok produkcji silnika.

Celem statystyki opisowej jest podawanie pewnych informacji o wybranych cechach populacji, które mogą mieć formę liczbową, graficzną lub mieszaną. Przykładowo, dla populacji studentów informatyki UJ w przypadku gdy cechą jest wiek, interesować nas może średni wiek studenta lub jakaś inna charakterystyka (wiek najstarszego studenta, wiek najmłodszego studenta i tym podobne), zaś gdy cechą jest rok na którym student studiuje, możemy być zainteresowani tak zwaną wartością modalną cechy, czyli "numerem" roku na którym studiuje najwięcej studentów (przypuszczalnie jest to rok I). Istnieje pewna liczba znanych i ustalonych metod prezentacji takich informacji. Znajomość tych metod pozwala na używanie specjalnych narzędzi do ich realizacji (na przykład statystycznych programów komputerowych), a także na porównywanie otrzymanych wyników dla takich samych cech w różnych populacjach. W tym i następnym wykładzie omówimy niektóre metody prezentacji informacji o cechach populacji.

Choć w literaturze statystycznej rozróżnia się wiele rodzajów cech, w naszym kursie zastosujemy prosty i intuicyjny podział na cechy w skali nominalnej oraz cechy w skali porządkowej. Pierwsze z nich to cechy mogące przyjmować niewiele (ściśle określonych) wartości, natomiast te drugie to cechy, które przyjmują wartości liczbowe, co umożliwia ich porównywanie. Zwróćmy jednak uwagę na to, iż rejestracja samochodu nie należy do żadnej z tych dwóch skal, a takie cechy jak: liczba rodzeństwa, ocena uzyskana z egzaminu lub miejsce w finale olimpijskim biegu na 100 m, można zaliczyć do obu z nich. Tym niemniej, ponieważ zdecydowana większość cech może być zaliczona do jednej (i tylko jednej) z wymienionych grup, okazuje się, że nawet tak nieprecyzyjna definicja wystarcza dla naszych celów. Przykładami cech w skali nominalnej są kolor oczu, przynależność państwowa, płeć lub stan cywilny, zaś w skali porządkowej - wiek, waga lub temperatura.

Jak już wspomnieliśmy wcześniej, w literaturze statystycznej można także spotkać inne klasyfikacje cech, niejednokrotnie uwzględniające więcej skal niż skala nominalna i porządkowa. Są one ważne ze względu na to, iż niektóre metody statystyczne można stosować jedynie do opisu cechy w ściśle określonej skali. Świadomość więc tego, w jakiej skali znajduje się interesująca nas cecha, pozwala wybrać odpowiednią metodę badawczą.

Skala nominalna



Przypuśćmy, że rozważamy populację, w której skład wchodzi dokładnie n-elementów (populacja n-elementowa). Oznaczmy przez X badaną cechę, zaś przez w_{1},w_{2}, \ldots , w_{k} - wszystkie możliwe wartości cechy X. Natomiast przez x_{i} będziemy oznaczać wartość cechy X dla i - tego elementu populacji. Tak więc znajomość ciągu


x_{1},x_{2}, \dots,x_{n},


jest pełnym i z pozoru najprostszym sposobem prezentacji cechy X. Ciąg ten nazywa się często danymi surowymi. Jednak dość rzadko się zdarza, że znamy dane surowe, czyli wartości cechy dla poszczególnych elementów (zauważmy, że może to być bardzo długi ciąg). Jeżeli, na przykład, interesuje nas stan cywilny mieszkańców milionowego miasta, to nasz ciąg posiada dokładnie 1 000 000 elementów, co sprawia, że trudno jest go analizować lub prezentować. Zamiast tego możemy być zatem zainteresowani wartościami

n_{1},n_{2}, \dots,n_{k},

gdzie n_{i} jest liczbą elementów populacji mających wartość w_{i}, zwanymi licznościami cechy. Zauważmy, iż w przypadku stanu cywilnego mieszkańców miasta wystarczy podać tylko dwie liczby - liczbę osób stanu wolnego (n_1) oraz liczbę osób zamężnych/żonatych (n_2), na przykład: n_1 = 215 678 oraz n_2 = 784 322. Oprócz wartości n_i interesują nas tak zwane częstości f_i, które definiujemy jako:


f_i = \frac{n_i}{n}.



Przykład 1.1

Oceny sprawdzianu w pewnej grupie studenckiej to:


5,2,5,4,5,4,4,3,5,5,4,5.


Zinterpretować wprowadzone powyżej pojęcia.

Populacją jest tutaj 12 osobowa grupa. Cecha X to ocena studenta. Zbiór wartości cechy to zbiór \{2,3,4,5\}. Dane surowe to ciąg: 5,2,5,4,5,4,4,3,5,5,4,5. Liczności cechy to: 1,1,4,6, a częstości to: \frac{1}{12},\frac{1}{12},\frac{1}{3},\frac{1}{2}.

Warto zauważyć, że zachodzą równości:


n_{1} + n_{2}+ n_{3}+ \ \ldots \ + n_{k}=n


oraz


f_{1} + f_{2}+ f_{3}+ \ \ldots \ + f_{k}=1.


Stosowana jest też procentowa reprezentacja częstości - jest to ciąg:


\alpha_{1}, \alpha_{2},\alpha_{3}, \ldots \ , \alpha_{k},


gdzie


\alpha_{i}=f_{i} \cdot 100\%.

Skala porządkowa



Mówimy, że cecha X posiada skalę ciągłą, jeżeli wartości tej cechy można w sposób naturalny traktować jako liczby rzeczywiste. Tak jak poprzednio, wartości tej cechy dla kolejnych elementów populacji oznaczamy jako x_1,\ldots, x_n, gdzie n jest wielkością populacji, zaś gdy dysponujemy tymi wszystkimi wielkościami, mówimy o danych surowych. W przypadku skali porządkowej istnieje więcej możliwości opisu danej cechy niż w przypadku skali nominalnej. Podobnie jak przedtem, dane surowe zawierają pełną informację o cesze X, jednak posługiwanie się nimi, zwłaszcza w przypadku dużej populacji, jest niewygodne. Przykładowo, znając wyniki matury z języka polskiego na poziomie podstawowym 2320 kandydatów na studentów psychologii, powiedzmy:


\underbrace{71, 51, 59, 50, 49, 45, 40, 60, \dots, 79, 49, 40}_{2320},


oraz 3549 kandydatów na studentów pedagogiki, powiedzmy:


\underbrace{62, 61, 48, 37, 39, 65, 32, 60, \dots, 63, 82, 44}_{3549},


możemy mieć trudność w odpowiedzi na proste pytania, takie jak: którzy kandydaci są lepiej przygotowani, gdzie jest większa rozpiętość ocen i tym podobne. Dlatego też, jak poprzednio, zamiast danych surowych warto rozważać inne możliwości prezentacji cechy, które pozwalają na porównywanie ich w różnych populacjach.

Kumulacja danych

Przypuśćmy, że chcemy przeanalizować wiek ludności miasta, powiedzmy Nowego Sącza, liczącego ok. 90 tysięcy mieszkańców. Załóżmy, iż udało nam się zdobyć listę z wiekiem mieszkańców. Cechę, jaką jest wiek, można traktować jako cechę w skali porządkowej. Na początku chcielibyśmy mieć jakąś wstępną informację o naszych danych, na przykład ich interpretację graficzną. Najczęściej stosowaną wtedy metodą jest kumulacja danych, która polega na podzieleniu zbioru wartości cechy na określone przedziały (klasy) oraz obliczeniu liczności każdego z nich, to jest liczby elementów populacji, dla których wartość cechy mieści się w danym przedziale. Skumulowane dane można wówczas zaprezentować w postaci tak zwanego szeregu rozdzielczego lub histogramu.

Spróbujmy teraz sprecyzować nasze powyższe rozważania. Ustalmy dowolne


a_{0}<\min(x_{1}, x_{2}, \ldots \ , x_{n})\;\;\textrm{oraz}\;\;a_{k}>\max(x_{1}, x_{2}, \ldots \ , x_{n}).


Niech i-tą klasą będzie (prawostronnie domknięty) przedział (a_{i-1}, a_{i}]. Wówczas liczność i-tej klasy wyraża się wzorem:


n_{i}=\# \{x_{j}: \ x_{j} \in (a_{i-1},a_{i} \},


gdzie \#A oznacza liczność zbioru A, (patrz wykład z Logiki i teorii mnogości) Możemy także, analogicznie jak dla skali nominalnej, zdefiniować częstość i-tej klasy w następujący sposób:


f_{i}= \frac{\#\{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \} }{n},


lub, alternatywnie, jej procentowy odpowiednik:


w_{i}=f_{i}\cdot 100\%.


Klasy wyznaczone przez punkty a_i muszą być rozłączne, dlatego są one prawostronnie domknięte. Oczywiście można używać klas [a_{i-1}, a_i), lewostronnie domkniętych i zawsze warto się upewnić, jaka konwencja jest stosowana w używanym podręczniku lub programie komputerowym.

Powróćmy teraz do rozważanego wcześniej przykładu.

Przykład 1.2

Załóżmy, że poniższa tabela zawiera dane dotyczące wieku mieszkańców Nowego Sącza (pamiętajmy jednak, iż są to dane fikcyjne):


\aligned \text{Wiek} \quad & \text{Liczba mieszkańców}\\ 0-10 \quad & \qquad 7852\\ 10-20 \quad & \qquad 10632\\  20-40 \quad & \qquad 30821\\  40-60 \quad & \qquad 27602\\  60-80 \quad & \qquad 8971\\  80-... \quad & \qquad 2123\\  \endaligned


Zauważmy, że ostatnia klasa nie ma określonego prawego końca. Można, oczywiście, w miejsce kropek napisać np. 200, lecz byłoby to sprzeczne ze zdrowym rozsądkiem.

Konstrukcja szeregu rozdzielczego na podstawie danych surowych wymaga podjęcia decyzji o liczbie i długości klas. Zwykle przyjmuje się, że należy wprowadzić 5-20 przedziałów, w zależności od ilości oraz rozmieszczenia danych. Chociaż w powyższym przykładzie klasy nie były równej długości, jednak na ogół wygodniej jest dzielić dane na przedziały o równych długościach, co zdecydowanie ułatwia późniejsze obliczenia. Wówczas długość każdego z nich wyraża się wzorem:


h = \frac{a_k - a_0}{k}  \ge \frac{\max x_{i} - \min x_{i}}{k},


gdzie k jest liczbą klas, zaś n - liczbą elementów populacji.

Graficzną reprezentację szeregu rozdzielczego możemy uzyskać tworząc tak zwany histogram. Oględnie mówiąc, jest to funkcja stała na przedziałach odpowiadających poszczególnym klasom, której wartościami mogą być zarówno liczności n_i, częstości f_i lub częstości procentowe w_i, jak i inne wielkości, uzyskane przy zastosowaniu odpowiedniej miary liczności, np. \frac{f_i}{h}. W tym ostatnim przypadku otrzymujemy następującą definicję:


hist(x)= \frac{\#\{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \} }{hn}\;\;\textrm{dla}\;\;x\in (a_{i-1},a_{i}].


Zauważmy, że dzięki podzieleniu przez h, pole ograniczone wykresem funkcji (patrz wykład z Logiki i teorii mnogości) hist i osią 0X jest równe 1, co w niektórych przypadkach okaże się bardzo wygodne dla naszych rozważań.