Rachunek prawdopodobieństwa i statystyka/Wykład 2: Statystyka opisowa

Z Studia Informatyczne
Przejdź do nawigacjiPrzejdź do wyszukiwania

Zdefiniujemy podstawowe parametry cechy statystycznej. Charakteryzują one tendencje centralną cechy, jak i tak zwaną miarę rozrzutu. Dużo uwagi poświęcimy interpretacji graficznej. Zwrócimy uwagę na istnienie różnych sposobów określania tych samych parametrów.

Miary tendencji centralnej

W przypadku cechy o skali nominalnej, rozważa się zasadniczo jeden parametr charakteryzujący tendencję centralną.

Niech zatem będzie cechą w skali nominalnej.

Definicja 2.1

Moda (wartość modalna) jest to najczęściej występująca wartość zmiennej . W przypadku, gdy kilka wartości jest osiąganych taką samą liczbę razy, wówczas każda z nich jest modą.

Przykład 2.2

Załóżmy, że rozważaną populacją jest zbiór samochodów znajdujących się w określonym czasie na pewnym parkingu, zaś cechą - nazwa producenta samochodu. Jej wartości mogą wyglądać, na przykład, tak:

Fiat, BMW, Ford, Ford, Fiat, Skoda, Fiat, Polonez, Toyota, Toyota, Toyota, Renault, Opel, Fiat, Opel, Opel, Toyota.

Nasza cecha ma dwie mody: Fiat i Toyota.

W przypadku cechy o skali porządkowej, mówiąc o tendencji centralnej, mamy na myśli jej "środek", czyli położenie centralnych wartości tej cechy. Można to rozumieć zarówno jako przeciętną wartość, czyli średnią (ale którą?), lub jako wartość, która dzieli posortowany ciąg wartości na równe części. Zajmiemy się najpierw sytuacją, gdy dysponujemy danymi surowymi.

Rozumując pierwszym sposobem zdefiniujmy podstawowy, zapewne doskonale przez nas znany parametr, zwany średnią arytmetyczną.

Niech będzie cechą w skali porządkowej.

Definicja 2.3

Jeżeli cecha przyjmuje wartości , wówczas jej średnią arytmetyczną, lub krótko średnią, nazywamy:



Definiuje się też inne wartości średnie, np. średnią harmoniczną lub średnią geometryczną, lecz nie mają one takiego znaczenia jak zdefiniowana powyżej średnia arytmetyczna.

Inną miarą tendencji centralnej jest tak zwana mediana. Dla danego ciągu liczb , określamy ciąg , który powstaje przez jego niemalejące uporządkowanie, czyli:



Definicja 2.4

Medianą cechy , przyjmującej wartości , nazywamy środkowy wyraz ciągu , gdy jest liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy jest liczbą parzystą. Zatem:



Tendencję centralną cechy w skali porządkowej charakteryzuje również moda, o której mówiliśmy w przypadku cechy nominalnej - w tym przypadku ma ona jednak niewielkie znaczenie.

Zobaczmy teraz na przykładzie, w jaki sposób oblicza się zdefiniowane powyżej parametry, a następnie jak można z nich "odczytać" pewne globalne informacje na temat interesującej nas cechy.

Przykład 2.5

Wskazać miary tendencji centralnej wynagrodzeń pracowniczych, na podstawie poniższej listy płac pewnego zakładu liczącego dziesięciu pracowników:



Średnia: (zł).

Mediana: (zł).

Moda: każdą z powyższych wartości można uznać za modę, ponieważ występuje tylko jeden raz.

Jak widać, w naszym przykładzie wartość średnia różni się znacznie od mediany. Wyobraźmy sobie sytuację, że osoby o niskich pensjach w przedstawionej firmie będą dążyć do uzyskania podwyżki. Poinformują na pewno, że średni zarobek w firmie to tylko złotych. Osoby lepiej zarabiające będą opierały się na innych obliczeniach i stwierdzą, że zarobki są wysokie i wynoszą średnio złotych. I kto mówi prawdę? Jedni i drudzy.

Oczywiście nie zawsze będzie tak jak w tym przypadku, to znaczy, że parametry będą tak znacznie różnić się od siebie. Warto jednak wspomnieć, że różnica między tymi parametrami bywa często wykorzystywana w różnych sytuacjach i jest źródłem wielu mylących informacji.

Niekiedy, na przykład przy ocenie stylu skoków narciarskich, mierzy się tendencję centralną, stosując metodę kompromisową, polegającą na odrzuceniu pewnej liczby wyrazów skrajnych i obliczeniu średniej arytmetycznej z wyrazów pozostałych.

Miara rozrzutu

Skoro już udało nam się określić, za pomocą zdefiniowanych w poprzednim punkcie (Miary tendencji centralnej) parametrów, położenie "środkowych" wartości cechy o skali porządkowej, zajmijmy się teraz problemem tak zwanego rozrzutu wartości tej cechy. Określenie parametrów rozrzutu jest niezwykle istotne, zwłaszcza w przypadku, gdy chcemy uzyskać informację, w jakiej odległości od centralnych znajdują się pozostałe wartości cechy .

Definicja 2.6

Jeśli cecha przyjmuje wartości , wówczas jej średni błąd definiujemy następująco:



gdzie jest wartością średnią.

Wartość bezwzględna występująca w powyższej definicji gwarantuje, że wynik obliczeń będzie dodatni (z wyjątkiem przypadku, gdy cecha przyjmuje dokładnie jedną wartość - wówczas otrzymamy ).

Zdefiniowane powyżej pojęcie interpretujemy następująco: im średni błąd jest bliższy , tym cecha ma mniejszy rozrzut.

Definicja 2.7

Jeśli cecha przyjmuje wartości , wówczas jej wariancją nazywamy liczbę:



zaś odchyleniem standardowym - pierwiastek kwadratowy z , czyli:



Podobnie jak poprzednio, zarówno wariancja, jak i odchylenie standardowe, są zawsze liczbami nieujemnymi (dodatnimi, gdy cecha przyjmuje przynajmniej różne wartości), interpretowanymi następująco: mała (duża) wartość wariancji/odchylenia standardowego oznacza mały (duży) rozrzut wokół średniej.

Przykład 2.8

Obliczyć miary rozrzutu dla cechy z przykładu 2.5.

Średni błąd: (zł).

Wariancja: (zł).

Odchylenie standardowe: (zł).

Dla porównania, wykonajmy podobne obliczenia nie uwzględniając dziesiątej, najlepiej zarabiającej, osoby.

Średni błąd: (zł).

Wariancja: (zł).

Odchylenie standardowe: (zł).

Widać wyraźnie, że średni błąd zmalał o około , wariancja - o około , zaś odchylenie standardowe - o około .

Patrząc na powyższe rozważania wydaje się, iż najlepszy parametr do analizy rozrzutu to odchylenie standardowe, ponieważ jest ono, bardziej niż średni błąd, czułe na zmiany oraz osiąga znaczenie mniejsze wartości niż wariancja, co jest nieco wygodniejsze do interpretacji.

Tendencja centralna oraz rozrzut mogą być także opisane za pomocą tak zwanych kwantyli. Przypominamy, że przez oznaczyliśmy niemalejąco uporządkowany ciąg . Ustalmy liczbę .

Definicja 2.9

Należy w tym miejscu podkreślić, iż w literaturze, a także w oprogramowaniu statystycznym, używa się również nieco innych definicji kwantyli. Przykładowo, do wyznaczenia bierze się liczbę , zaokrągla się ją do najbliższej liczby całkowitej (połówki zaokrąglamy w górę), ustala się liczbę równą maksimum z tak otrzymanej liczby i liczby , aby w końcu za przyjąć się liczbę . Te dwie (i nie tylko te) definicje dają w dużej liczbie przypadków, choć oczywiście nie zawsze, ten sam wynik.

Mówiąc ogólnie, ale niezbyt nieprecyzyjnie, kwantyl rzędu p to liczba, która dzieli (niemalejąco uporządkowany) ciąg wartości danej cechy na dwie części w proporcjach i . Tak więc, zdefiniowana poprzednio mediana jest, po prostu, kwantylem rzędu (choć w przypadku, gdy jest liczbą parzystą, wartości te mogą się niewiele różnić). Wśród kwantyli wyróżniamy także kwartyle, czyli kwantyle (pierwszy kwartyl, ), (drugi kwartyl, , czyli mediana) i (trzeci kwartyl, ).

Przykład 2.10

Załóżmy, że interesująca nas cecha przyjmuje następujące wartości:



Wyznaczyć kilka wybranych kwantyli cechy .

Najpierw porządkujemy (niemalejąco) nasze dane:



a następnie wyznaczamy przykładowe kwantyle:



Dystrybuanta empiryczna

Podamy teraz określenie dystrybuanty empirycznej cechy w skali porządkowej, zwanej czasem skumulowaną funkcją gęstości.

Definicja 2.11

Niech cecha przyjmuje wartości . Funkcję określoną wzorem:



nazywamy dystrybuantą empiryczną cechy .

Zauważmy, że wykorzystując pojęcie dystrybuanty empirycznej, można zapisać prosty wzór określający kwantyl rzędu :


     (2.1)


Tak sformułowany warunek jest, oczywiście, równoważny definicji 2.9.

Parametry cechy w przypadku szeregu rozdzielczego.

Zajmiemy się teraz sytuacją, w której nie dysponujemy pełną informacją na temat wartości cechy dla poszczególnych elementów populacji, a jedynie danymi zapisanymi w postaci szeregu rozdzielczego. Także i w tym przypadku można mówić o tendencji centralnej, rozrzucie oraz dystrybuancie empirycznej.

Rozważmy zatem cechę w skali porządkowej, dla której mamy dany szereg rozdzielczy, którego klasy wyznaczają punkty . Niech będą licznościami tych klas oraz niech:



Definicja 2.12

Wartość średnią dla szeregu rozdzielczego cechy określamy wzorem:



Jak widać, określona w powyższej definicji wielkość jest sumą składników odpowiadających poszczególnym klasom, przy czym wielkość każdego składnika zależy od położenia danej klasy oraz jej liczności. Zauważmy, że w skrajnym przypadku, to znaczy gdy każdy przedział zawiera dokładnie jedną wartość cechy, będącą jego środkiem, definicja powyższa pokrywa się z definicją średniej z danych surowych. Oczywiście, w ogólnym przypadku średnia obliczona z danych surowych będzie się różnić (na ogół niewiele) od średniej wyznaczonej dla szeregu rozdzielczego.

Analogicznie, na podstawie szeregu rozdzielczego można wyznaczyć średni błąd, wariancję oraz odchylenie standardowe cechy.

Definicja 2.13

Średnim błędem dla szeregu rozdzielczego cechy nazywamy liczbę:



wariancją - liczbę:



zaś odchyleniem standardowym - liczbę:



Z kolei, do określenia dystrybuanty empirycznej z szeregu rozdzielczego wygodnie jest wykorzystać, zdefiniowaną na wykładzie 1, funkcję .

Definicja 2.14

Funkcję określoną wzorem:



nazywamy dystrybuantą empiryczną (lub skumulowaną funkcją gęstości) dla szeregu rozdzielczego cechy .

Geometryczna interpretacja powyższej definicji jest oczywista: wartość to pole figury, ograniczonej wykresem funkcji , osią oraz prostą .

Dystrybuanta empiryczna z szeregu rozdzielczego posiada następujące własności:

1. ( jest funkcją niemalejącą),

2. ( jest funkcją ciągłą),

3. ,

4. .


Wprowadzimy teraz pojęcie kwantyli dla danych skumulowanych. Ustalmy liczbę .

Definicja 2.15

Kwantyl rzędu dla szeregu rozdzielczego cechy o dystrybuancie definiujemy jako:



Zauważmy, że powyższy wzór wygląda dokładnie tak samo, jak wzór (2.1). Jednak w przypadku danych skumulowanych, sytuacja się bardzo często upraszcza - jest tak wtedy, gdy każda klasa szeregu rozdzielczego zawiera co najmniej jedną wartość cechy. Wówczas jest funkcją silnie rosnącą na przedziale , a więc jest na tym przedziale odwracalna, co powoduje, że kwantyl rzędu można określić następująco:



gdzie oznacza funkcję odwrotną (patrz wykład z Analizy matematycznej) do na przedziale .