Podstawy statystyki, cz. II Kurs specjalistyczny dla pielęgniarek, mgr Adam Dudek, PWSZ Nysa 2007 Szereg statystyczny … Szereg statystyczny - jest to zbiór wyników obserwacji uporządkowanych według określonych cech (kryteriów), których miernikiem są zmienne. Szereg szczegółowy - jest to uporządkowany ciąg wartości badanej cechy statystycznej, stosowany, gdy przedmiotem badania jest niewielka liczba jednostek, np. zmienna X przyjmuje wartości: x1, x2, ..., xn, wartości cechy porządkujemy rosnąco: x1 ≤ x2 ≤ ... ≤ xn lub malejąco x1 ≥ x2 ≥ ... ≥ xn. Szereg rozdzielczy - stanowi zbiorowość statystyczną, podzieloną na części (klasy) według określonej cechy jakościowej lub ilościowej z podaniem liczebności lub częstości każdej z wyodrębnionych klas. Szereg rozdzielczy punktowy … Szereg rozdzielczy punktowy - jest stosowany do klasyfikacji danych statystycznych w przypadku gdy mamy do czynienia z niewielką liczbą wariantów cechy (powyżej 12) i dużą próbą n >30. Konstrukcja szeregu punktowego polega na wyznaczeniu liczebności poszczególnych wariantów cechy statystycznej i przedstawieniu ich w postaci tabeli. W opisie struktury za pomocą szeregu rozdzielczego punktowego bardzo często wykorzystuje się parametr zwanym wskaźnikiem struktury. Wskaźnikiem struktury wi lub częstością (liczebność względna, frakcja) występowania danego wariantu cechy nazywa się stosunek liczby jednostek o danej wartości cechy do liczebności próby. Wskaźnik struktury przyjmuje wartości od 0 do 1 włącznie. Suma wszystkich wartości wskaźników struktury odpowiadających poszczególnym wariantom cechy jest równa 1 Szereg rozdzielczy punktowy … Szereg rozdzielczy skumulowany - uzyskuje się poprzez przyporządkowanie kolejnym wariantom cechy odpowiadających im liczebności (częstości) skumulowanych, informuje, dla ilu jednostek badanej zbiorowości cecha przyjmuje wartości nie większe od górnej granicy poszczególnego przedziału klasowego. Przykład: W wybranej klasie liceum przeprowadzono sprawdzian z matematyki. Uczniowie otrzymali następujące oceny: 2, 5, 3, 4, 3, 4, 2, 4, 3, 2, 5, 4, 3, 4, 1, 2, 3, 2, 3, 1, 6, 4, 5, 3, 4, 3, 3, 4, 4, 3. Opracowanie materiału statystycznego Zbiorowość (populacja) generalna: uczniowie Zbiorowość próbna (próba): wybrana klasa Cecha statystyczna: ocena ze sprawdzianu z matematyki Uczniowie badani są pod względem ocen otrzymanych ze sprawdzianu z matematyki, "ocena z matematyki" jest cechą mierzalną skokową. Liczebność próby n: 30 Liczba wariantów cechy k: 6 Warianty cechy xi: 1, 2, 3, 4, 5, 6 Szereg szczegółowy: 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6 Szereg rozdzielczy punktowy … numer wariantu i wariant cechy liczebność wskaźnik wariantu struktury xi 1 1 2 2 3 3 4 4 5 5 6 6 liczebność próby n ni 2 5 10 9 3 1 30 liczebność skumulowana skumulowany wskaźnik struktury n isk 2 7 17 26 29 30 wi 0,067 0,167 0,333 0,3 0,1 0,033 wisk 0,067 0,233 0,567 0,867 0,967 1 1,2 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 Szereg rozdzielczy przedziałowy … Szereg rozdzielczy przedziałowy - jest stosowany do klasyfikacji danych statystycznych w przypadku gdy mamy do czynienia z dużą próbą (n > 30) oraz dużą liczbą wariantów cechy (k > 12). W tym przypadku klasyfikację danych przeprowadza się zarówno dla cechy ciągłej jak i skokowej. W procesie klasyfikacji danych za pomocą szeregu rozdzielczego przedziałowego można wyróżnić trzy zasadnicze etapy: ustalenie liczby klas ustalenie rozpiętości przedziałów klasowych ustalenie granic poszczególnych klas Szereg rozdzielczy przedziałowy … Ustalenie liczby przedziałów klasowych Liczba przedziałów klasowych istotnie zależy od obszaru zmienności badanej cechy, liczebności zbiorowości oraz celu badania. Zmienność można określić jako różnicę pomiędzy wartością maksymalną i minimalną cechy. Im większy jest obszar zmienności oraz liczebność próby tym więcej przedziałów należy utworzyć. Zbyt mała liczba przedziałów klasowych powoduje zacieranie istotnych prawidłowości rozkładu cechy, materiał jest za bardzo skondensowany. Bardzo często przyjmuje się założenie: gdzie k - liczba przedziałów, n - liczebność próby. k n Szereg rozdzielczy przedziałowy … Rozpiętość przedziału hi (długość, interwał, rozstęp przedziałowy) - jest to różnica pomiędzy górną xi0 i dolną granicą xi1 i-tej klasy. Zależy od liczby klas i obszaru zmienności cechy. Z reguły przyjmuje się, że rozpiętość przedziałów klasowych jest taka sama. W tym przypadku przybliżoną rozpiętość przedziału można wyznaczyć z zależności: R h k R – rozstęp R = xmax - xmin Szereg rozdzielczy przedziałowy … Przykład: Przeprowadzić klasyfikację i z badać strukturę województw (stary podział administracyjny) pod względem liczby gmin. Liczba gmin w 49 województwach - szereg szczegółowy: 17, 30, 32, 37, 37, 39, 40, 40, 40, 40, 41, 41, 42, 42, 43, 43, 43, 44, 45, 46, 46, 47, 47, 47, 48, 48, 49, 51, 54, 54, 55, 55, 55, 56, 57, 57, 58, 58, 58, 59, 59, 62, 63, 63, 65, 69, 74, 78, 91. Liczba gmin jest cechą skokową, liczba wariantów jest duża oraz liczebność populacji, stąd do klasyfikacji danych należy zastosować szereg rozdzielczy przedziałowy. Dane podstawowe: wartość minimalna xmin: 17 wartość maksymalna xmax: 91 rozstęp R = xmax - xmin = 91 - 17 = 74 k 49 7 Ustalenie liczby przedziałów: Rozpiętość przedziałów klasowych: h=74/7 = 11 Początek pierwszego przedziału klasowego X01 = Xmin = 17 Przyjmujemy, że rozpiętość przedziałów klasowych jest taka sama dla wszystkich klas. Szereg rozdzielczy przedziałowy … Numer klasy i 1 2 3 4 5 6 7 Liczba gmin Liczba województw Wskaźnik struktury Liczebność skumulowana Skumulowany wskaźnik struktury xi 17 - 27 28 - 38 39 - 49 50 - 60 61 - 71 72 - 82 83 - 93 n = ni 1 4 22 14 5 2 1 49 ωi 0,02 0,08 0,45 0,29 0,1 0,04 0,02 n isk 1 5 27 41 46 48 49 ωisk 0,02 0,1 0,55 0,84 0,94 0,98 1 1,2 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 Tablice danych statystycznych Tablice statystyczne - są wykorzystywane do prezentacji danych statystycznych według określonego kryterium. Podział tablic statystycznych: proste - charakteryzują strukturę lub dynamikę jednej zbiorowości pod względem jednej cechy (ilościowej lub jakościowej), złożone - opisują badaną zbiorowość według kilku cech lub kilka zbiorowości według jednej cechy Powierzch nia (w tys. km2) 1,5-3,1 3,1-4,7 4,7-6,3 6,3-7,9 7,9-9,5 9,5-11,1 11,1-12,7 Razem Liczba gmin 17-27 1 28-38 39-49 50-60 3 8 8 2 3 1 2 4 3 1 3 1 14 1 1 4 22 61-71 72-82 3 2 2 5 2 83-93 1 1 Razem 1 13 12 10 8 4 1 49 Współczynnik korelacji … Zależność korelacyjna charakteryzuje się tym, że określonym wartościom jednej zmiennej przyporządkowane są ściśle określone średnie wartości drugiej zmiennej. Stopień zależności liniowej pomiędzy badanymi cechami mierzalnymi określany jest za pomocą współczynnika korelacji rxy Korelacyjny wykres rozrzutu … Korelacja … Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada spadek wartości drugiej cechy Współczynnik korelacji Pearsona, który przyjmuje wartości z przedziału [-1,1] jest miarą związku liniowego między cechami n ( x x )( y y ) i rxy i i 1 n n i 1 i 1 2 2 ( x i x ) ( y i y ) Przy interpretacji współczynnika korelacji należy zawsze zdawać sobie sprawę z tego, że wartość współczynnika bliska zeru nie oznacza braku zależności, a jedynie brak zależności liniowej Współczynnik korelacji - przykład Dane miesięczne o wielkości zużycia pewnego surowca S potrzebnego do produkcji wyrobu A oraz o wielkości produkcji tego wyrobu w pewnym zakładzie przedstawiono w tabeli obok. Na podstawie tych danych można podjąć próbę określenia siły i kierunku zależności między zużyciem surowca a produkcją wyrobu. Miesiąc 1 2 3 4 5 6 7 8 9 10 11 12 Produkcja wyrobu 90 85 110 125 120 150 140 160 200 190 220 210 Zużycie surowca 40 35 50 45 40 63 45 61 70 61 85 65 Współczynnik korelacji - przykład cd. yi xi ( yi y ) ( xi x) 90 85 110 125 120 150 140 160 200 190 220 210 1800 40 35 50 45 40 63 45 61 70 61 85 65 660 -60 -65 -40 -25 -30 0 -10 10 50 40 70 60 -15 -20 -5 -10 -15 8 -10 6 15 6 30 10 rxy ( y i y ) ( xi x) 900 1300 200 250 450 0 100 60 750 240 2100 600 6950 0,9137226 ( y i y) 2 3600 4225 1600 625 900 0 100 100 2500 1600 4900 3600 23750 ( xi x ) 2 225 400 25 100 225 64 100 36 225 36 900 100 2436