RPS/Wykład 1: Wstęp: Różnice pomiędzy wersjami

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania
Pitab (dyskusja | edycje)
Pitab (dyskusja | edycje)
Nie podano opisu zmian
 
Linia 1: Linia 1:
==Wstęp==


<math>\centerline{Streszczenie}</math>
Oprócz ogólnego wstępu zostaną podane informacje
dotyczące wspomagającej literatury i oprogramowania komputerowego. Powiemy co rozumiemy przez dane statystyczne i w jakiej formie one występują. Zwrócimy uwagę na możliwe interpretacje graficzne danych. 
'''Słowa kluczowe: ''' program kursu, podręczniki, programy komputerowe, dane statystyczne,  populacja, cecha, skala cechy, dane surowe, kumulacja danych, szereg rozdzielczy, histogram
===Wstęp===
Wydaje się, a można to będzie osądzić dopiero za kilkadziesiąt
lat, że przełom wieków stanowi także przełom w rozwiązywaniu wielu
problemów związanych z zastosowaniami matematyki. Coraz szybsze
komputery, dysponujące coraz większą pamięcią, dały szansę rozwoju
metod, o których jeszcze dziesięć lat temu nikt poważnie nie
myślał. Odnosi się to także, a może nawet przede wszystkim, do
rachunku prawdopodobieństwa oraz jego zastosowań, wśród których prym wiedzie statystyka.
Z drugiej strony, ostatnie lata XX wieku
charakteryzowały się, między innymi, zwiększonym
zapotrzebowaniem  na usługi statystyczne  w
różnorodnych dziedzinach działalności, zarówno praktyczne, jak i bardziej teoretyczne, związane na przykład z
zastosowaniem metod probabilistycznych do wyceny
instrumentów finansowych, prognozowania i
optymalizacji.
Zdecydowana  większość  procesów  fizycznych,
technicznych, społecznych, ekonomicznych i innych,
przebiega w sposób  bardziej  lub  mniej  losowy.
Zjawiskami,  których przebieg jesteśmy skłonni uważać
za dość przypadkowy są na przykład:
* rzut kostką do gry - nie wiemy, ile oczek wypadnie,
* opady deszczu  w Krakowie  w  roku 2008 - nie wiemy, kiedy i ile będzie padać,
[[Ilustracja? Np. człowiek uciekający przed deszczem]]
* gra  na  giełdzie - nie  wiemy, ile będzie warta  jednostka "naszego" funduszu powierniczego za dwa tygodnie, a tym bardziej za rok.
Z  drugiej strony,
obserwujemy  zjawiska, które jesteśmy  skłonni  uważać
za zdeterminowane. Są nimi na przykład:
* ruch wskazówek zegarka - potrafimy określić ich położenie po upływie, powiedzmy, 47 minut,
* nabór dzieci do klas pierwszych w szkole podstawowej w ciągu najbliższych sześciu lat - liczba pierwszoklasistów w roku 2008 powinna być równa, znanej już, liczbie dzieci urodzonych w roku 2001,
* oszczędzanie na stały procent - 100 zł przy oprocentowaniu rocznym 10 da po dwóch latach 121 zł.
Zwróćmy jednak przy tym uwagę na kilka oczywistych faktów:
* obserwowana losowość zjawisk może wynikać raczej z naszej niewiedzy, czy też z niedoskonałości środków technicznych, którymi dysponujemy, niż z samej natury zjawisk - ruch kostki, na przykład, podlega przecież określonym prawom fizycznym i gdybyśmy znali kierunek i wartość siły, z jaką rzucono idealnie symetryczną kostkę, to moglibyśmy (teoretycznie) wypisać równania ruchu i rozwiązując je, określić liczbę oczek, która ukaże się na górnej ściance,
* nie istnieją (w zasadzie) procesy w pełni zdeterminowane - wiemy, że 100 zł złożone na 2 lata na 10 da nam 121 zł, jednak w przypadku bankructwa banku  możemy nie dostać ani grosza.
Rachunek prawdopodobieństwa i statystyka są tymi
działami matematyki, które badają i opisują zjawiska, uwzględniając ich losowy charakter. Potrafimy na przykład uzasadnić, że rzucając 100
razy kostką, prawie na pewno uzyskamy w sumie więcej niż 330,
lecz mniej niż 370 oczek, przy czym zwrot "prawie na
pewno" można będzie odpowiednio sprecyzować. Możemy też określić oczekiwaną wielkość naboru do klasy pierwszej w kolejnych nadchodzących latach. Liczba ta nie jest, jak sugerowano wyżej, równa liczbie dzieci urodzonych siedem lat  wcześniej - trzeba bowiem uwzględnić pewne dodatkowe czynniki: migracje, umieralność lub przewlekłe choroby, a których wielkość może być określona na podstawie wieloletnich obserwacji przy użyciu metod statystycznych. Metody statystyczne mogą też pozwolić na określenie przewidywanej wielkości opadów w roku 2008 w Krakowie oraz ich intensywność w poszczególnych miesiącach.
===Program kursu===
Program niniejszego kursu jest stosunkowo szeroki. Po jego zakończeniu student powinien, przede wszystkim, zdobyć podstawowe intuicje probabilistyczne i statystyczne. Trzeba przyznać, że jest to zadanie dość trudne. Można je właściwie zrealizować jedynie przez samodzielne rozwiązanie pewnej liczby problemów. Olbrzymią pomoc mogą stanowić także samodzielnie przeprowadzane doświadczenia. Jest to obecnie możliwe i stosunkowo łatwo dostępne dla studentów informatyki, mających już pewne doświadczenie w korzystaniu z użytkowych programów komputerowych oraz w samodzielnym programowaniu. Nie należy jednak przy tym zapominać, iż rachunek prawdopodobieństwa i statystyka matematyczna  są przedmiotami ścisłymi i dlatego ich studiowanie wymaga odpowiedniego podejścia.
Prezentowany kurs został przygotowany w taki sposób, aby jego uczestnicy mogli osiągnąć dwa zasadnicze cele: zdobycie intuicji probabilistyczno-statystycznej oraz przyswojenie niewielkiej ilości materiału teoretycznego, niezbędnego do (w miarę swobodnego) korzystania z podstawowych metod rachunku prawdopodobieństwa i statystyki. Dlatego też, podobnie jak w niektórych podręcznikach anglojęzycznych, w kursie można wyodrębnić trzy wyraźne części: statystykę opisową, podstawowy kurs rachunku prawdopodobieństwa oraz elementy wnioskowania statystycznego. Z kolei większość modułów naszego kursu składa się z czterech następujących jednostek składowych, z których każda spełnia określoną (ważną!) rolę w procesie nauki: wykładu podstawowego, rozwiązanych ćwiczeń, zadań do samodzielnego rozwiązania (bez odpowiedzi) oraz zestawu testów
(z odpowiedziami). Warto także zwrócić uwagę na to, iż w ostatnim wykładzie (wykład [[##RPS/Wykład 14: Komputerowe metody statystyki|14]]) zostają zasygnalizowane trzy sytuacje, w których statystyka istotnie korzysta z narzędzi informatycznych.
===Podręczniki===
Zachęcamy studentów do korzystania z bogatego wyboru podręczników, a zwłaszcza zbiorów zadań. W poniższej liście sugerujemy
jedynie niektóre z ciekawszych pozycji:
# Lesław Gajek, Marek Kałuszka, ''Wnioskowanie statystyczne dla studentów'', Wydawnictwo Naukowo-Techniczne, Warszawa, 1998.
      Objętościowo niewielki, ale zawierający dużo ciekawego materiału podręcznik, obejmujący niezbędne podstawy z rachunku prawdopodobieństwa. Korzystając z niego można sobie szybko "przyswoić" znaczną ilość materiału.
# Jacek Jakubowski, Rafał Sztencel, ''Rachunek prawdopodobieństwa dla prawie każdego'', Script, Warszawa, 2006.
      Wyczerpujący kurs rachunku prawdopodobieństwa, zawierający mnóstwo ciekawych przykładów.
# Janina Jóźwiak, Jarosław Podgórski, ''Statystyka od podstaw'', Polskie Wydawnictwo Ekonomiczne,  Warszawa, 2006.
      Przeznaczony głównie dla ekonomistów podręcznik, obejmujący statystykę opisową i kurs rachunku prawdopodobieństwa.
# Jacek Koronacki, Jan Mielniczuk, ''Statystyka dla studentów kierunków technicznych i przyrodniczych'', Wydawnictwo Naukowo-Techniczne, Warszawa, 2001.
      Integruje od samego początku statystykę opisową, klasyczny rachunek prawdopodobieństwa i wnioskowanie statystyczne.
# Włodzimierz Krysicki  i współautorzy, ''Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach'', cz. I, II, Wydawnictwo Naukowe PWN, Warszawa, 2004.
      Obszerny zbiór standardowych zadań z rachunku prawdopodobieństwa i statystyki, poprzedzanych krótkim wstępem teoretycznym oraz serią rozwiązanych zadań.
# Jerzy Ombach, ''Rachunek prawdopodobieństwa wspomagany komputerowo -- Maple'', Wydawnictwo UJ, Kraków, 2000.
      Nie zawiera statystyki.
===Wspomaganie komputerowe===
Ponieważ z kursu korzystają przed wszystkim informatycy, zdecydowalismy się zatem omawiać, bardziej szczegółowo niż w podobnych kursach
ogólnego typu, zagadnienia związane z możliwością stosowania metod komputerowych w statystyce. W szczególności,
na wykładzie [[##RPS/Wykład 14: Komputerowe metody statystyki|Komputerowe metody statystyki]] wspominamy o generowaniu liczb pseudolosowych, metodzie bootstrap  oraz o jądrowej estymacji gęstości.
Także w trakcie pozostałych wykładów i ćwiczeń zakładamy, że student będzie miał dostęp do
specjalistycznego oprogramowania statystycznego lub matematycznego. Popularnymi programami
z tej pierwszej grupy, dostępnymi w wielu
polskich uczelniach, są, m.&nbsp;in., SAS, SPSS i Statistica. Warto także zwrócić uwagę na niekomercyjny program R,
zawierający wiele przydatnych procedur statystycznych. Z dostępnego oprogramowania matematycznego należy wyróżnić
programy Maple, Mathematica oraz Matlab. Każdy z nich zawiera pakiet podstawowych procedur statystycznych,
a dwa pierwsze posiadają rozbudowane możliwości obliczeń algebraicznych.
Nie należy także zapominać o popularnym arkuszu kalkulacyjnym Microsoft Excel, zawierającym
Dodatek Analiza danych, który w większości przypadków będzie dla naszego studenta wystarczający.
W trakcie opracowywania tego kursu używaliśmy głównie różnych wersji programu Maple, z najnowszą - Maple 10 - włącznie.
==Dane statystyczne==
Podstawowymi pojęciami statystyki opisowej są
populacja oraz cecha. Populacją będziemy nazywać zbiór
skończony, natomiast cechą - funkcję [LM]
określoną na tym zbiorze i przyjmującą wartości w innym,
ustalonym zbiorze. Oczywiście, w praktyce interesują nas
tylko niektóre populacje i niektóre cechy. Na przykład,
może nas interesować populacja studentów informatyki na Uniwersytecie Jagiellońskim,  a cechą może być wiek studenta. Inną interesującą
populację mogą stanowić wszystkie samochody zarejestrowane
w Polsce - cechą może być wówczas numer rejestracyjny samochodu lub rok produkcji silnika.
Celem statystyki opisowej jest podawanie pewnych informacji
o wybranych cechach populacji, które mogą mieć formę liczbową, graficzną lub
mieszaną. Przykładowo, dla
populacji studentów informatyki UJ w przypadku gdy cechą jest wiek, interesować nas może średni wiek
studenta lub jakaś inna charakterystyka (wiek najstarszego studenta, wiek najmłodszego studenta i tym podobne), zaś gdy
cechą jest rok na którym student studiuje, możemy być
zainteresowani tak zwaną wartością modalną cechy, czyli
"numerem" roku na którym studiuje najwięcej studentów (przypuszczalnie jest to rok I).
Istnieje pewna liczba znanych i ustalonych metod
prezentacji takich informacji. Znajomość tych metod pozwala
na używanie specjalnych narzędzi do ich realizacji (na przykład
statystycznych programów komputerowych), a także na
porównywanie otrzymanych wyników dla takich samych cech w
różnych populacjach. W tym i następnym wykładzie  omówimy niektóre
metody prezentacji informacji o cechach populacji.
Choć w literaturze statystycznej rozróżnia się wiele rodzajów cech,
w naszym kursie zastosujemy prosty i intuicyjny podział na cechy
w skali nominalnej oraz cechy w skali porządkowej.
Pierwsze z nich to cechy mogące przyjmować niewiele
(ściśle określonych) wartości, natomiast te drugie to cechy, które przyjmują wartości
liczbowe, co umożliwia ich porównywanie. Zwróćmy jednak uwagę na to,
iż rejestracja samochodu nie należy do żadnej z tych dwóch
skal, a takie cechy jak:
liczba rodzeństwa, ocena uzyskana z
egzaminu lub miejsce w finale olimpijskim biegu na 100&nbsp;m, można zaliczyć do obu z nich.
Tym niemniej, ponieważ zdecydowana większość cech może być
zaliczona do jednej (i tylko jednej) z wymienionych grup, okazuje się, że nawet tak nieprecyzyjna
definicja wystarcza dla naszych celów. Przykładami cech w
skali nominalnej są kolor oczu, przynależność państwowa,
płeć lub stan cywilny, zaś w skali porządkowej -
wiek, waga lub temperatura.
Jak już wspomnieliśmy wcześniej, w literaturze statystycznej można
także spotkać inne klasyfikacje cech, niejednokrotnie
uwzględniające więcej skal niż skala nominalna i porządkowa.
Są one ważne ze względu na to, iż niektóre metody
statystyczne można stosować jedynie do opisu cechy w ściśle
określonej skali. Świadomość więc tego, w jakiej skali
znajduje się interesująca nas cecha, pozwala wybrać odpowiednią
metodę badawczą.
===Skala nominalna===
Przypuśćmy, że rozważamy populację, w której skład wchodzi dokładnie <math>n</math>-elementów (populacja <math>n</math>-elementowa).
Oznaczmy przez <math>X</math> badaną cechę, zaś przez
<math>w_{1},w_{2}, \ldots , w_{k}</math> - wszystkie możliwe wartości
cechy  <math>X</math>. Natomiast przez <math>x_{i}</math> będziemy oznaczać wartość cechy <math>X</math> dla <math>i</math>-tego elementu populacji.  Tak więc znajomość ciągu
<center><math> x_{1},x_{2}, \dots,x_{n} </math></center>
jest pełnym i z pozoru najprostszym sposobem
prezentacji cechy <math>X</math>. Ciąg ten
nazywa się często danymi surowymi. Jednak dość rzadko się
zdarza, że znamy dane surowe, czyli wartości cechy dla
poszczególnych elementów (zauważmy, że może to być bardzo
długi ciąg). Jeżeli, na przykład, interesuje nas stan cywilny mieszkańców
milionowego miasta, to nasz ciąg posiada dokładnie 1&nbsp;000&nbsp;000 elementów, co sprawia, że
trudno jest go analizować lub prezentować. Zamiast tego możemy
być zatem zainteresowani wartościami
<center><math> n_{1},n_{2}, \dots,n_{k},</math></center>
gdzie <math>n_{i}</math> jest liczbą elementów populacji
mających wartość <math>w_{i}</math>, zwanymi licznościami cechy. Zauważmy, iż w przypadku stanu cywilnego
mieszkańców miasta wystarczy podać tylko dwie liczby - liczbę osób
stanu wolnego (<math>n_1</math>) oraz liczbę osób zamężnych/żonatych (<math>n_2</math>), na
przykład: <math>n_1 = 215 678</math> oraz <math>n_2 = 784 322</math>. Oprócz
wartości <math>n_i</math> interesują nas tak zwane częstości <math>f_i</math>, które
definiujemy jako:
<center><math>f_i = \frac{n_i}{n}.</math></center>
{{przyklad|1.1|Przykład 1.1|
Oceny sprawdzianu w pewnej grupie studenckiej to:
<center><math>5,2,5,4,5,4,4,3,5,5,4,5.</math></center>
Zinterpretować wprowadzone powyżej pojęcia.
Populacją jest tutaj 12 osobowa grupa. Cecha <math>X</math> to ocena
studenta. Zbiór wartości cechy to zbiór <math>\{2,3,4,5\}</math>. Dane
surowe to ciąg: <math>5,2,5,4,5,4,4,3,5,5,4,5</math>. Liczności
cechy to: <math>1,1,4,6</math>, a częstości to: <math>
\frac{1}{12},\frac{1}{12},\frac{1}{3},\frac{1}{2}</math>.
Warto zauważyć, że zachodzą równości:
<center><math> n_{1} + n_{2}+ n_{3}+ \ \ldots \ + n_{k}=n</math></center>
oraz
<center><math> f_{1} + f_{2}+ f_{3}+ \ \ldots \ + f_{k}=1.</math></center>
Stosowana jest też procentowa
reprezentacja częstości - jest to ciąg:
<center><math>\alpha_{1},
\alpha_{2},\alpha_{3}, \ldots \ , \alpha_{k},</math></center>
gdzie
<center><math>\alpha_{i}=f_{i} \cdot 100\%.</math></center>
}}
===Skala porządkowa===
Mówimy, że cecha <math>X</math> posiada skalę ciągłą, jeżeli wartości
tej cechy można w sposób naturalny traktować jako liczby
rzeczywiste. Tak jak poprzednio, wartości tej cechy
dla kolejnych elementów populacji oznaczamy jako
<math>x_1,\ldots, x_n</math>, gdzie <math>n</math> jest wielkością populacji, zaś gdy dysponujemy tymi wszystkimi wielkościami, mówimy o danych surowych. W
przypadku skali porządkowej istnieje więcej możliwości opisu danej cechy niż w przypadku skali nominalnej. Podobnie jak przedtem, dane surowe zawierają pełną informację o cesze <math>X</math>, jednak posługiwanie się nimi, zwłaszcza w przypadku dużej populacji, jest niewygodne. Przykładowo, znając wyniki matury z języka polskiego na poziomie podstawowym 2320 kandydatów na studentów psychologii, powiedzmy:
<center><math>\underbrace{71, 51, 59, 50, 49, 45, 40, 60, \dots, 79, 49, 40}_{2320},</math></center>
oraz 3549 kandydatów na studentów pedagogiki, powiedzmy:
<center><math>\underbrace{62, 61, 48, 37, 39, 65, 32, 60, \dots, 63, 82, 44}_{3549},</math></center>
możemy mieć trudność w odpowiedzi na proste pytania, takie jak: którzy kandydaci są lepiej przygotowani, gdzie jest większa rozpiętość ocen i tym podobne. Dlatego też, jak poprzednio, zamiast danych surowych warto rozważać inne możliwości prezentacji cechy, które pozwalają na porównywanie ich w różnych populacjach.
===Kumulacja danych===
Przypuśćmy, że chcemy przeanalizować wiek ludności miasta,
powiedzmy Nowego Sącza, liczącego ok. 90 tysięcy mieszkańców.
Załóżmy, iż udało nam się zdobyć listę z wiekiem mieszkańców.
Cechę, jaką jest wiek, można traktować jako cechę w skali
porządkowej. Na początku chcielibyśmy mieć jakąś wstępną
informację o naszych danych, na przykład ich interpretację
graficzną. Najczęściej stosowaną wtedy metodą jest kumulacja
danych, która polega na podzieleniu zbioru wartości cechy na
określone przedziały (klasy) oraz obliczeniu liczności każdego z
nich, to jest liczby elementów populacji, dla których wartość cechy
mieści się w danym przedziale. Skumulowane dane można wówczas
zaprezentować w postaci tak zwanego szeregu rozdzielczego lub histogramu.
Spróbujmy teraz sprecyzować nasze powyższe rozważania. Ustalmy dowolne
<center><math>a_{0}<\min(x_{1}, x_{2}, \ldots \ , x_{n})\;\;\textrm{oraz}\;\;a_{k}>\max(x_{1}, x_{2}, \ldots \ , x_{n}).</math></center>
Niech <math>i</math>-tą klasą będzie (prawostronnie domknięty) przedział <math>(a_{i-1}, a_{i}]</math>. Wówczas liczność <math>i </math>-tej klasy wyraża się wzorem:
<center><math> n_{i}=\# \{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \},</math></center>
gdzie <math>\#A</math> oznacza liczność zbioru <math>A</math>, [LM]
Możemy także, analogicznie jak dla skali nominalnej, zdefiniować częstość <math>i</math>-tej klasy w następujący sposób:
<center><math> f_{i}= \frac{\#\{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \} }{n}, </math></center>
lub, alternatywnie, jej procentowy odpowiednik:
<center><math>w_{i}=f_{i}\cdot 100\%.</math></center>
Klasy wyznaczone przez punkty <math>a_i</math> muszą być rozłączne. dlatego są one prawostronnie domknięte. Oczywiście można używać klas <math>[a_{i-1}, a_i)</math>, lewostronnie domkniętych i zawsze warto się upewnić, jaka konwencja jest stosowana w używanym  podręczniku lub programie komputerowym.
Powróćmy teraz do rozważanego wcześniej przykładu.
{{przyklad|||
Załóżmy, że poniższa tabela zawiera dane dotyczące wieku mieszkańców Nowego Sącza (pamiętajmy jednak, iż są to dane fikcyjne):
<center><math>\aligned
\text{Wiek} \quad & \text{Liczba mieszkańców}\\
0-10 \quad & \qquad 7852\\
10-20 \quad & \qquad 10632\\
20-40 \quad & \qquad 30821\\
40-60 \quad & \qquad 27602\\
60-80 \quad & \qquad 8971\\
80-... \quad & \qquad 2123\\
\endaligned
</math></center>
Zauważmy, że ostatnia klasa nie ma określonego prawego końca. Można, oczywiście, w miejsce kropek napisać np. 200,
lecz byłoby to sprzeczne ze zdrowym rozsądkiem.
}}
Konstrukcja szeregu rozdzielczego na podstawie danych
surowych wymaga podjęcia decyzji o liczbie i długości klas.
Zwykle przyjmuje się, że należy wprowadzić 5-20
przedziałów, w zależności od ilości oraz rozmieszczenia danych.
Chociaż w powyższym przykładzie klasy nie były równej długości, jednak
na ogół wygodniej jest dzielić dane na przedziały o równych
długościach, co zdecydowanie ułatwia późniejsze obliczenia.
Wówczas długość każdego z nich wyraża się wzorem:
<center><math>h = \frac{a_k - a_0}{k}  \ge \frac{\max x_{i} - \min
x_{i}}{k},</math></center>
gdzie <math>k</math> jest liczbą klas, zaś <math>n</math> - liczbą elementów populacji.
Graficzną reprezentację szeregu rozdzielczego możemy uzyskać tworząc tak zwany histogram. Oględnie mówiąc, jest to funkcja stała na przedziałach odpowiadających poszczególnym klasom, której wartościami mogą być zarówno liczności <math>n_i</math>, częstości <math>f_i</math> lub częstości procentowe <math>w_i</math>, jak i inne wielkości, uzyskane przy zastosowaniu odpowiedniej miary liczności, np. <math>\frac{f_i}{h}</math>.
W tym ostatnim przypadku otrzymujemy następującą definicję:
<center><math>hist(x)= \frac{\#\{x_{j}: \ x_{j} \in (a_{i-1},a_{i}] \} }{hn}\;\;\textrm{dla}\;\;x\in (a_{i-1},a_{i}].</math></center>
Zauważmy, że dzięki podzieleniu przez <math>h</math>, pole ograniczone wykresem
funkcji[LM] <math>hist</math> i osią <math>0X</math> jest równe 1, co w niektórych przypadkach okaże się bardzo wygodne dla naszych rozważań.

Aktualna wersja na dzień 17:40, 5 sie 2006