Rachunek prawdopodobieństwa i statystyka/Wykład 2: Statystyka opisowa

From Studia Informatyczne

Zdefiniujemy podstawowe parametry cechy statystycznej. Charakteryzują one tendencje centralną cechy, jak i tak zwaną miarę rozrzutu. Dużo uwagi poświęcimy interpretacji graficznej. Zwrócimy uwagę na istnienie różnych sposobów określania tych samych parametrów.

Spis treści

Miary tendencji centralnej

W przypadku cechy o skali nominalnej, rozważa się zasadniczo jeden parametr charakteryzujący tendencję centralną.

Niech zatem X będzie cechą w skali nominalnej.

Definicja 2.1

Moda (wartość modalna) jest to najczęściej występująca wartość zmiennej X. W przypadku, gdy kilka wartości jest osiąganych taką samą liczbę razy, wówczas każda z nich jest modą.



Przykład 2.2

Załóżmy, że rozważaną populacją jest zbiór samochodów znajdujących się w określonym czasie na pewnym parkingu, zaś cechą - nazwa producenta samochodu. Jej wartości mogą wyglądać, na przykład, tak:

Fiat, BMW, Ford, Ford, Fiat, Skoda, Fiat, Polonez, Toyota, Toyota, Toyota, Renault, Opel, Fiat, Opel, Opel, Toyota.

Nasza cecha ma dwie mody: Fiat i Toyota.

W przypadku cechy o skali porządkowej, mówiąc o tendencji centralnej, mamy na myśli jej "środek", czyli położenie centralnych wartości tej cechy. Można to rozumieć zarówno jako przeciętną wartość, czyli średnią (ale którą?), lub jako wartość, która dzieli posortowany ciąg wartości na równe części. Zajmiemy się najpierw sytuacją, gdy dysponujemy danymi surowymi.

Rozumując pierwszym sposobem zdefiniujmy podstawowy, zapewne doskonale przez nas znany parametr, zwany średnią arytmetyczną.

Niech X będzie cechą w skali porządkowej.

Definicja 2.3

Jeżeli cecha X przyjmuje wartości x_{1},x_{2}, \ldots ,x_{n}, wówczas jej średnią arytmetyczną, lub krótko średnią, nazywamy:


\bar{x}= \frac{x_{1} + x_{2} + \ \ldots \ + x_{n}}{n} = \frac{1}{n} \sum_{i=1}^{n} x_{i}.


Definiuje się też inne wartości średnie, np. średnią harmoniczną lub średnią geometryczną, lecz nie mają one takiego znaczenia jak zdefiniowana powyżej średnia arytmetyczna.

Inną miarą tendencji centralnej jest tak zwana mediana. Dla danego ciągu liczb x_1, \dots, x_n, określamy ciąg x_{(1)}, \dots, x_{(n)}, który powstaje przez jego niemalejące uporządkowanie, czyli:


x_{(1)} \le x_{(2)} \le  \dots \le x_{(n)}.


Definicja 2.4

Medianą cechy X, przyjmującej wartości x_1, \dots, x_n, nazywamy środkowy wyraz ciągu x_{(1)}, \dots, x_{(n)}, gdy n jest liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy n jest liczbą parzystą. Zatem:


me =  \left\{\begin{array} {lll} x_{(k+1)} &  \hbox{ dla } & n=2k+1 \\[1mm] \frac{x_{(k)}+x_{(k+1)}}{2} & \hbox{ dla } & n=2k. \end{array} \right.


Tendencję centralną cechy w skali porządkowej charakteryzuje również moda, o której mówiliśmy w przypadku cechy nominalnej - w tym przypadku ma ona jednak niewielkie znaczenie.

Zobaczmy teraz na przykładzie, w jaki sposób oblicza się zdefiniowane powyżej parametry, a następnie jak można z nich "odczytać" pewne globalne informacje na temat interesującej nas cechy.

Przykład 2.5

Wskazać miary tendencji centralnej wynagrodzeń pracowniczych, na podstawie poniższej listy płac pewnego zakładu liczącego dziesięciu pracowników:


\aligned 1 \quad & \qquad 850 \; \textrm{zł}\\ 2 \quad & \qquad 870 \; \textrm{zł}\\  3 \quad & \qquad 950 \; \textrm{zł}\\  4 \quad & \qquad 1000 \; \textrm{zł}\\  5 \quad & \qquad 1050 \; \textrm{zł}\\  6 \quad & \qquad 1080 \; \textrm{zł}\\  7 \quad & \qquad 1090 \; \textrm{zł}\\ 8 \quad & \qquad 2700 \; \textrm{zł}\\ 9 \quad & \qquad 2900 \; \textrm{zł}\\ 10 \quad & \qquad 7200 \; \textrm{zł}\\ \endaligned


Średnia: \bar{x}=\frac{850+870+950+1000+1050+1080+1090+2700+2900+7200}{10}=1969 (zł).

Mediana: me=\frac{1050+1080}{2}=1065 (zł).

Moda: każdą z powyższych wartości można uznać za modę, ponieważ występuje tylko jeden raz.

Jak widać, w naszym przykładzie wartość średnia różni się znacznie od mediany. Wyobraźmy sobie sytuację, że osoby o niskich pensjach w przedstawionej firmie będą dążyć do uzyskania podwyżki. Poinformują na pewno, że średni zarobek w firmie to tylko 1065 złotych. Osoby lepiej zarabiające będą opierały się na innych obliczeniach i stwierdzą, że zarobki są wysokie i wynoszą średnio 1969 złotych. I kto mówi prawdę? Jedni i drudzy.

Oczywiście nie zawsze będzie tak jak w tym przypadku, to znaczy, że parametry będą tak znacznie różnić się od siebie. Warto jednak wspomnieć, że różnica między tymi parametrami bywa często wykorzystywana w różnych sytuacjach i jest źródłem wielu mylących informacji.

Niekiedy, na przykład przy ocenie stylu skoków narciarskich, mierzy się tendencję centralną, stosując metodę kompromisową, polegającą na odrzuceniu pewnej liczby wyrazów skrajnych i obliczeniu średniej arytmetycznej z wyrazów pozostałych.

Miara rozrzutu

Skoro już udało nam się określić, za pomocą zdefiniowanych w poprzednim punkcie (Miary tendencji centralnej) parametrów, położenie "środkowych" wartości cechy X o skali porządkowej, zajmijmy się teraz problemem tak zwanego rozrzutu wartości tej cechy. Określenie parametrów rozrzutu jest niezwykle istotne, zwłaszcza w przypadku, gdy chcemy uzyskać informację, w jakiej odległości od centralnych znajdują się pozostałe wartości cechy X.

Definicja 2.6

Jeśli cecha X przyjmuje wartości x_{1},x_{2}, \ldots ,x_{n}, wówczas jej średni błąd definiujemy następująco:


b=\frac{1}{n} \sum_{i=1}^{n} | x_{i}-\bar{x} |.


gdzie \bar{x} jest wartością średnią.

Wartość bezwzględna występująca w powyższej definicji gwarantuje, że wynik obliczeń będzie dodatni (z wyjątkiem przypadku, gdy cecha X przyjmuje dokładnie jedną wartość - wówczas otrzymamy 0).

Zdefiniowane powyżej pojęcie interpretujemy następująco: im średni błąd jest bliższy 0, tym cecha X ma mniejszy rozrzut.

Definicja 2.7

Jeśli cecha X przyjmuje wartości x_{1},x_{2}, \ldots ,x_{n}, wówczas jej wariancją nazywamy liczbę:


s_{n}^{2} = \frac{1}{n} \sum_{i=1}^{n} ( x_{i}-\bar{x})^{2},


zaś odchyleniem standardowym - pierwiastek kwadratowy z s_n^2, czyli:


s_n = \sqrt{\frac{1}{n} \sum_{i=1}^{n} ( x_{i}-\bar{x})^{2}}.


Podobnie jak poprzednio, zarówno wariancja, jak i odchylenie standardowe, są zawsze liczbami nieujemnymi (dodatnimi, gdy cecha X przyjmuje przynajmniej 2 różne wartości), interpretowanymi następująco: mała (duża) wartość wariancji/odchylenia standardowego oznacza mały (duży) rozrzut wokół średniej.

Przykład 2.8

Obliczyć miary rozrzutu dla cechy z przykładu 2.5.

Średni błąd: b=\frac{|850-1969|+|870-1969|+ \ldots +|7200-1969|}{10}=1387.60 (zł).

Wariancja: s_{n}^{2}=\frac{(850-1969)^{2}+(870-1969)^{2}+ \ldots  +(7200-1969)^{2}}{10}=3560929 (zł).

Odchylenie standardowe: s_{n}=\sqrt{s_n^{2}} \approx 1887.04 (zł).

Dla porównania, wykonajmy podobne obliczenia nie uwzględniając dziesiątej, najlepiej zarabiającej, osoby.

Średni błąd: b=\frac{|850-1969|+|870-1969|+ \ldots +|2900-1969|}{9} \approx 950.56 (zł).

Wariancja: s_{n}^{2}=\frac{(850-1969)^{2}+(870-1969)^{2}+ \ldots  +(7200-1969)^{2}}{9} \approx 916214.33 (zł).

Odchylenie standardowe: s_{n}=\sqrt{s_n^2} \approx 957.19 (zł).

Widać wyraźnie, że średni błąd zmalał o około 30\%, wariancja - o około 75\%, zaś odchylenie standardowe - o około 50\%.

Patrząc na powyższe rozważania wydaje się, iż najlepszy parametr do analizy rozrzutu to odchylenie standardowe, ponieważ jest ono, bardziej niż średni błąd, czułe na zmiany oraz osiąga znaczenie mniejsze wartości niż wariancja, co jest nieco wygodniejsze do interpretacji.

Tendencja centralna oraz rozrzut mogą być także opisane za pomocą tak zwanych kwantyli. Przypominamy, że przez x_{(1)}, \dots, x_{(n)} oznaczyliśmy niemalejąco uporządkowany ciąg x_1, \dots, x_n. Ustalmy liczbę p\in (0,1).

Definicja 2.9

Należy w tym miejscu podkreślić, iż w literaturze, a także w oprogramowaniu statystycznym, używa się również nieco innych definicji kwantyli. Przykładowo, do wyznaczenia q_p bierze się liczbę np, zaokrągla się ją do najbliższej liczby całkowitej (połówki zaokrąglamy w górę), ustala się liczbę k równą maksimum z tak otrzymanej liczby i liczby 1, aby w końcu za q_p przyjąć się liczbę x_{(k)}. Te dwie (i nie tylko te) definicje dają w dużej liczbie przypadków, choć oczywiście nie zawsze, ten sam wynik.

Mówiąc ogólnie, ale niezbyt nieprecyzyjnie, kwantyl rzędu p to liczba, która dzieli (niemalejąco uporządkowany) ciąg wartości danej cechy na dwie części w proporcjach 100\% \cdot p i 100\%\cdot (1-p). Tak więc, zdefiniowana poprzednio mediana jest, po prostu, kwantylem rzędu \frac{1}{2} (choć w przypadku, gdy n jest liczbą parzystą, wartości te mogą się niewiele różnić). Wśród kwantyli wyróżniamy także kwartyle, czyli kwantyle q_{\frac{1}{4}} (pierwszy kwartyl, Q_1), q_{\frac{1}{2}} (drugi kwartyl, Q_2, czyli mediana) i q_{\frac{3}{4}} (trzeci kwartyl, Q_3).



Przykład 2.10

Załóżmy, że interesująca nas cecha X przyjmuje następujące wartości:


7, 24, 30, 15, 7, 23, 28, 23, 2, 18.


Wyznaczyć kilka wybranych kwantyli cechy X.

Najpierw porządkujemy (niemalejąco) nasze dane:


2, 7, 7, 15, 18, 23, 23, 24, 28, 30,


a następnie wyznaczamy przykładowe kwantyle:


q_{0.04}=2,\; q_{0.12}=7,\; q_{\frac{1}{2}} = 18 \; (\textrm{ale } me = \frac{18+23}{2} = 20.5),


q_{0.99} = 30, \; Q_{2} = q_{\frac{1}{2}} = 18, \; Q_{3} = 24.

Dystrybuanta empiryczna

Podamy teraz określenie dystrybuanty empirycznej cechy X w skali porządkowej, zwanej czasem skumulowaną funkcją gęstości.

Definicja 2.11

Niech cecha X przyjmuje wartości x_{1},x_{2}, \ldots ,x_{n}. Funkcję określoną wzorem:


F(x)=\frac{ \# \{x_{i}: \ x_{i} \leq x \} }{n} \;\; \textrm{dla}\;\; x\in {\Bbb R},


nazywamy dystrybuantą empiryczną cechy X.

Zauważmy, że wykorzystując pojęcie dystrybuanty empirycznej, można zapisać prosty wzór określający kwantyl rzędu p:


q_p = \min \{ x : F(x) \ge p \}.      (2.1)


Tak sformułowany warunek jest, oczywiście, równoważny definicji 2.9.

Parametry cechy w przypadku szeregu rozdzielczego.

Zajmiemy się teraz sytuacją, w której nie dysponujemy pełną informacją na temat wartości cechy dla poszczególnych elementów populacji, a jedynie danymi zapisanymi w postaci szeregu rozdzielczego. Także i w tym przypadku można mówić o tendencji centralnej, rozrzucie oraz dystrybuancie empirycznej.

Rozważmy zatem cechę X w skali porządkowej, dla której mamy dany szereg rozdzielczy, którego klasy wyznaczają punkty a_0 < a_1 < \dots < a_k. Niech n_1, \dots, n_k będą licznościami tych klas oraz niech:


y_{i}= \frac{a_{i-1}+a_{i}}{2} \;\;\textrm{dla}\;\;  i=1,\ldots,k.


Definicja 2.12

Wartość średnią dla szeregu rozdzielczego cechy X określamy wzorem:


\bar{x} = \frac{1}{n} \sum_{i=1}^{k} n_{i}y_{i}.


Jak widać, określona w powyższej definicji wielkość jest sumą składników odpowiadających poszczególnym klasom, przy czym wielkość każdego składnika zależy od położenia danej klasy oraz jej liczności. Zauważmy, że w skrajnym przypadku, to znaczy gdy każdy przedział zawiera dokładnie jedną wartość cechy, będącą jego środkiem, definicja powyższa pokrywa się z definicją średniej z danych surowych. Oczywiście, w ogólnym przypadku średnia obliczona z danych surowych będzie się różnić (na ogół niewiele) od średniej wyznaczonej dla szeregu rozdzielczego.

Analogicznie, na podstawie szeregu rozdzielczego można wyznaczyć średni błąd, wariancję oraz odchylenie standardowe cechy.

Definicja 2.13

Średnim błędem dla szeregu rozdzielczego cechy X nazywamy liczbę:


b=\frac{1}{n} \sum_{i=1}^{k} n_i| y_{i}-\bar{x}|,


wariancją - liczbę:


s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{k} n_i( y_{i}-\bar{x})^{2},


zaś odchyleniem standardowym - liczbę:


s_{n}=\sqrt{s_n^2}.


Z kolei, do określenia dystrybuanty empirycznej z szeregu rozdzielczego wygodnie jest wykorzystać, zdefiniowaną na wykładzie 1, funkcję hist.

Definicja 2.14

Funkcję określoną wzorem:


F(x) =  \int_{-\infty}^{x} hist(s)\, ds = \int_{a_{0}}^{x} hist(s)\, ds,


nazywamy dystrybuantą empiryczną (lub skumulowaną funkcją gęstości) dla szeregu rozdzielczego cechy X.

Geometryczna interpretacja powyższej definicji jest oczywista: wartość F(c) to pole figury, ograniczonej wykresem funkcji hist, osią 0X oraz prostą x = c.

Dystrybuanta empiryczna z szeregu rozdzielczego posiada następujące własności:

1. \displaystyle x \leq y \ \Rightarrow F(x) \leq F(y) (F jest funkcją niemalejącą),

2. \displaystyle \lim_{x \rightarrow a } F(x)=F(a) (F jest funkcją ciągłą),

3. \displaystyle \lim_{x \longrightarrow - \infty} F(x)=F(a_0)=0,

4. \displaystyle \lim_{x \longrightarrow \infty} F(x)=F(a_k)=1.


Wprowadzimy teraz pojęcie kwantyli dla danych skumulowanych. Ustalmy liczbę p\in (0,1).

Definicja 2.15

Kwantyl rzędu p dla szeregu rozdzielczego cechy X o dystrybuancie F definiujemy jako:


q_p= \min \{ x : F(x) \ge p \}.


Zauważmy, że powyższy wzór wygląda dokładnie tak samo, jak wzór (2.1). Jednak w przypadku danych skumulowanych, sytuacja się bardzo często upraszcza - jest tak wtedy, gdy każda klasa szeregu rozdzielczego zawiera co najmniej jedną wartość cechy. Wówczas F jest funkcją silnie rosnącą na przedziale [a_0, a_k], a więc jest na tym przedziale odwracalna, co powoduje, że kwantyl rzędu p można określić następująco:


q_{p}=F^{-1}(p),


gdzie F^{-1} oznacza funkcję odwrotną (patrz wykład z Analizy matematycznej) do F na przedziale [a_0, a_k].