Populacja statystyczna, badanie statystyczne — Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych za pomocą metod rachunku prawdopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych zjawiskach losowych i opisywanie ich za pomocą liczb. — Badane zbiory nazywamy populacjami statystycznymi. — Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną, albo tylko ich część, zwaną próbką statystyczną (próbką). — W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku prawdopodobieństwa. — W drugim przypadku badanie jest częściowe. Próbka losowa — Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnościach elementów pewnego skończonego podzbioru Z1 tej populacji (Z1 ⊂ Z), zwanego próbką. — Próbka Z1 powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki Z1 zazwyczaj losuje się spośród elementów populacji Z. — Otrzymana próbka nosi nazwę próbki losowej. — Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania. Cechy statystyczne — Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej. — Nazywamy je cechami statystycznymi. — Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi. — W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy kolory) i wtedy cecha niemierzalna staje się cechą mierzalną. Zadanie statystyki opisowej — Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany. Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej. — Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa. Empiryczny rozkład cechy — Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej zbiorowości, rozkładu zaobserwowanej cechy. — Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania. — Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parametrami teoretycznymi. — Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego. Szereg rozdzielczy — Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy. — Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie. — Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy w próbie. — Gdy liczba obserwacji jest duża (n > 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie zaobserwowanych wartości w tzw. klasach. 1 — Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy. Ustalanie liczby klas — Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki: √ k 6 5 ln n lub k = 1 + 3, 322 ln n lub k = n. — Można również korzystać z poniższych orientacyjnych danych: liczba pomiarów n 30 − 60 60 − 100 100 − 200 200 − 500 500 − 1500 liczba klas k 6−8 7 − 10 9 − 12 11 − 17 16 − 25 — Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30. Rozstęp, długość klasy — Niech x1 , x2 , . . . , xn będzie n-elementową próbką prostą o zadanych wartościach. — Rozstępem badanej cechy X w tej próbce nazywamy liczbę R = xmax − xmin , gdzie xmax , xmin oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x1 , x2 , . . . , xn . — Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki. — Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się b≈ R , tak jednak, by bk > R. k Dokładność przy ustalaniu granic klas 1 — Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do α, gdzie α oznacza dokładność, 2 z jaką wyznaczono wartości w próbce. — Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności 1 największej liczby a, to należy przyjąć jako granice klas liczby postaci la + α, gdzie l są liczbami całkowitymi. 2 1 — Dolną granicę pierwszej klasy otrzymujemy wg wzoru xmin − α. 2 — Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy k X symbolem ni . Oczywiście ni = n. i — Jeżeli liczność n próbki x1 , x2 , . . . , xn kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje się szereg rozdzielczy przedziałowy, który stanowią pary liczb: środki kolejnych klas ẋi oraz ich liczności ni , gdzie i ∈ {1, 2, . . . , k}. — Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas, ni albo też granice poszczególnych klas, a na osi pionowej liczności klas ni albo częstości klas wi = . n Miary średnie — Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom. 2 — Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie pozostałe wartości zmiennej. — Miary średnie dzielą się na: — średnie klasyczne (średnia arytmetyczna, średnia geometryczna, średnia harmoniczna); — średnie pozycyjne (mediana, moda). Średnia arytmetyczna n — Średnią arytmetyczną x liczb x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem x = — Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz k X 1X xi . n i=1 ni = n, to średnią arytmetyczną i=1 k ważoną nazywamy liczbę x = 1X xi ni . n i=1 k — Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to x = 1X ẋi ni . n i=1 Średnia geometryczna — Średnią geometryczną g liczb dodatnich x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem v u n uY n g= t xi . i=1 — Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz k X ni = n, to średnią geometryczną i=1 ważoną nazywamy liczbę g= q n xn1 1 · · · xnk k . Średnia harmoniczna — Średnią harmoniczną h różnych od zera liczb x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem n h= 1X 1 n i=1 xi !−1 , o ile n X 1 6= 0. x i=1 i — Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz k X ni = n, to średnią harmoniczną i=1 ważoną nazywamy liczbę k h= 1 X ni n i=1 xi !−1 . Mediana — Medianą (wartością środkową) M e próbki x1 , x2 , . . . , xn nazywamy środkową liczbę w uporządkowanej niemalejąco próbce x(1) 6 x(2) 6 · · · 6 x(n) , gdy n jest liczbą nieparzystą, albo średnią arytmetyczną dwóch środkowych liczb, gdy n jest liczbą parzystą, tzn. x( n+1 ) , gdy n jest nieparzyste, 2 Me = x( n2 ) +x( n2 +1) , gdy n jest parzyste. 2 3 Mediana — Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to ! m−1 b n X M e = xl + − ni , nm 2 i=1 gdzie xl - lewy koniec klasy zawierającej medianę, m - numer klasy zawierającej medianę, n - liczność próbki, ni - liczność i-tej klasy, b - długość klasy. Moda — Modą (dominantą, wartością najczęstszą) M o próbki x1 , . . . , xn o powtarzających się wartościach nazywamy najczęściej powtarzającą się wartość, o ile istnieje i nie jest to xmin ani xmax . — Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to M o = xl + nl − nl−1 b, (nl − nl−1 ) + (nl − nl+1 ) gdzie xl - dolna granica klasy modalnej (klasy, w której znajduje się moda), nl - liczność klasy modalnej, nl−1 , nl+1 - liczności sąsiednich klas, b - długość klasy. — Moda zależy od sposobu podziału na klasy. Miary rozproszenia — Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji. — Podstawowe miary rozproszenia to: — rozstęp, — wariancja, — odchylenie standardowe. Rozstęp — Rozstępem w próbce o wartościach x1 , . . . , xn nazywamy liczbę R = xmax − xmin . Wariancja — Wariancją s2 próbki x1 , . . . , xn nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości xi od średniej arytmetycznej xi próbki, tzn. n 1X s2 = (xi − x)2 . n i=1 — Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz k X i=1 k s2 = 1X (xi − x)2 ni . n i=1 4 ni = n, to k 1X — Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to s = (ẋi − x)2 ni . n i=1 2 Odchylenie standardowe √ — Odchyleniem standardowym nazywamy liczbę s = s2 . — Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się średnio od wartości średniej arytmetycznej badanej zmiennej. Inne charakterystyki — współczynnik zmienności — typowy obszar zmienności Współczynnik zmienności Współczynnikiem zmienności nazywamy liczbę v= s · 100%. x Typowy obszar zmienności — Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około populacji. Typowy obszar zmienności określa wzór 2 3 wszystkich jednostek badanej x − s < xtyp < x + s. — Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące stosunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko). 5