Szereg rozdzielczy przedziałowy

advertisement
Podstawy statystyki, cz. II
Kurs specjalistyczny dla pielęgniarek, mgr Adam Dudek,
PWSZ Nysa 2007
Szereg statystyczny …
Szereg statystyczny - jest to zbiór wyników obserwacji
uporządkowanych według określonych cech (kryteriów),
których miernikiem są zmienne.
Szereg szczegółowy - jest to uporządkowany ciąg wartości badanej
cechy statystycznej, stosowany, gdy przedmiotem badania jest
niewielka liczba jednostek, np. zmienna X przyjmuje wartości: x1, x2,
..., xn, wartości cechy porządkujemy rosnąco: x1 ≤ x2 ≤ ... ≤ xn lub
malejąco x1 ≥ x2 ≥ ... ≥ xn.
Szereg rozdzielczy - stanowi zbiorowość statystyczną, podzieloną
na części (klasy) według określonej cechy jakościowej lub ilościowej z
podaniem liczebności lub częstości każdej z wyodrębnionych klas.
Szereg rozdzielczy punktowy …



Szereg rozdzielczy punktowy - jest stosowany do klasyfikacji
danych statystycznych w przypadku gdy mamy do czynienia z
niewielką liczbą wariantów cechy (powyżej 12) i dużą próbą n >30.
Konstrukcja szeregu punktowego polega na wyznaczeniu
liczebności poszczególnych wariantów cechy statystycznej i
przedstawieniu ich w postaci tabeli. W opisie struktury za pomocą
szeregu rozdzielczego punktowego bardzo często wykorzystuje się
parametr zwanym wskaźnikiem struktury.
Wskaźnikiem struktury wi lub częstością (liczebność względna,
frakcja) występowania danego wariantu cechy nazywa się stosunek
liczby jednostek o danej wartości cechy do liczebności próby.
Wskaźnik struktury przyjmuje wartości od 0 do 1 włącznie. Suma
wszystkich wartości wskaźników struktury odpowiadających
poszczególnym wariantom cechy jest równa 1
Szereg rozdzielczy punktowy …

Szereg rozdzielczy skumulowany - uzyskuje się poprzez
przyporządkowanie kolejnym wariantom cechy odpowiadających im
liczebności (częstości) skumulowanych, informuje, dla ilu jednostek badanej
zbiorowości cecha przyjmuje wartości nie większe od górnej granicy
poszczególnego przedziału klasowego.
Przykład:
W wybranej klasie liceum przeprowadzono sprawdzian z matematyki.
Uczniowie otrzymali następujące oceny:
2, 5, 3, 4, 3, 4, 2, 4, 3, 2, 5, 4, 3, 4, 1, 2, 3, 2, 3, 1, 6, 4, 5, 3, 4, 3, 3, 4, 4, 3.
Opracowanie materiału statystycznego
Zbiorowość (populacja) generalna: uczniowie
Zbiorowość próbna (próba): wybrana klasa
Cecha statystyczna: ocena ze sprawdzianu z matematyki
Uczniowie badani są pod względem ocen otrzymanych ze sprawdzianu z
matematyki, "ocena z matematyki" jest cechą mierzalną skokową.
Liczebność próby n: 30
Liczba wariantów cechy k: 6
Warianty cechy xi: 1, 2, 3, 4, 5, 6
Szereg szczegółowy:
1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6
Szereg rozdzielczy punktowy …
numer
wariantu
i
wariant
cechy
liczebność wskaźnik
wariantu struktury
xi
1
1
2
2
3
3
4
4
5
5
6
6
liczebność próby n
ni
2
5
10
9
3
1
30
liczebność
skumulowana
skumulowany
wskaźnik struktury
n isk
2
7
17
26
29
30
wi
0,067
0,167
0,333
0,3
0,1
0,033
wisk
0,067
0,233
0,567
0,867
0,967
1
1,2
1
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
Szereg rozdzielczy przedziałowy …
Szereg rozdzielczy przedziałowy - jest stosowany do klasyfikacji
danych statystycznych w przypadku gdy mamy do czynienia z
dużą próbą (n > 30) oraz dużą liczbą wariantów cechy (k > 12). W
tym przypadku klasyfikację danych przeprowadza się zarówno dla
cechy ciągłej jak i skokowej.
W procesie klasyfikacji danych za pomocą szeregu rozdzielczego
przedziałowego można wyróżnić trzy zasadnicze etapy:



ustalenie liczby klas
ustalenie rozpiętości przedziałów klasowych
ustalenie granic poszczególnych klas
Szereg rozdzielczy przedziałowy …

Ustalenie liczby przedziałów klasowych
Liczba przedziałów klasowych istotnie zależy od obszaru zmienności
badanej cechy, liczebności zbiorowości oraz celu badania.
Zmienność można określić jako różnicę pomiędzy wartością
maksymalną i minimalną cechy. Im większy jest obszar zmienności
oraz liczebność próby tym więcej przedziałów należy utworzyć. Zbyt
mała liczba przedziałów klasowych powoduje zacieranie istotnych
prawidłowości rozkładu cechy, materiał jest za bardzo
skondensowany.
Bardzo często przyjmuje się założenie:
gdzie k - liczba przedziałów, n - liczebność próby.
k n
Szereg rozdzielczy przedziałowy …
Rozpiętość przedziału hi (długość, interwał, rozstęp
przedziałowy) - jest to różnica pomiędzy górną xi0 i
dolną granicą xi1 i-tej klasy. Zależy od liczby klas i
obszaru zmienności cechy.
Z reguły przyjmuje się, że rozpiętość przedziałów
klasowych jest taka sama. W tym przypadku
przybliżoną rozpiętość przedziału można wyznaczyć z
zależności:

R
h
k
R – rozstęp
R = xmax - xmin
Szereg rozdzielczy przedziałowy …
Przykład:
Przeprowadzić klasyfikację i z badać strukturę województw (stary podział administracyjny)
pod względem liczby gmin.
Liczba gmin w 49 województwach - szereg szczegółowy:
17, 30, 32, 37, 37, 39, 40, 40, 40, 40, 41, 41, 42, 42, 43, 43, 43, 44, 45, 46, 46, 47, 47, 47,
48, 48, 49, 51, 54, 54, 55, 55, 55, 56, 57, 57, 58, 58, 58, 59, 59, 62, 63, 63, 65, 69, 74,
78, 91.
Liczba gmin jest cechą skokową, liczba wariantów jest duża oraz liczebność populacji, stąd
do klasyfikacji danych należy zastosować szereg rozdzielczy przedziałowy.
Dane podstawowe:
wartość minimalna xmin: 17
wartość maksymalna xmax: 91
rozstęp R = xmax - xmin = 91 - 17 = 74
k  49  7
Ustalenie liczby przedziałów:
Rozpiętość przedziałów klasowych: h=74/7 = 11
Początek pierwszego przedziału klasowego X01 = Xmin = 17
Przyjmujemy, że rozpiętość przedziałów klasowych jest taka sama dla wszystkich klas.
Szereg rozdzielczy przedziałowy …
Numer
klasy
i
1
2
3
4
5
6
7
Liczba
gmin
Liczba
województw
Wskaźnik
struktury
Liczebność
skumulowana
Skumulowany
wskaźnik struktury
xi
17 - 27
28 - 38
39 - 49
50 - 60
61 - 71
72 - 82
83 - 93
n =
ni
1
4
22
14
5
2
1
49
ωi
0,02
0,08
0,45
0,29
0,1
0,04
0,02
n isk
1
5
27
41
46
48
49
ωisk
0,02
0,1
0,55
0,84
0,94
0,98
1
1,2
1
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
7
Tablice danych statystycznych
Tablice statystyczne - są wykorzystywane do prezentacji danych
statystycznych według określonego kryterium.
Podział tablic statystycznych:
 proste - charakteryzują strukturę lub dynamikę jednej zbiorowości
pod względem jednej cechy (ilościowej lub jakościowej),
 złożone - opisują badaną zbiorowość według kilku cech lub kilka
zbiorowości według jednej cechy
Powierzch
nia
(w tys.
km2)
1,5-3,1
3,1-4,7
4,7-6,3
6,3-7,9
7,9-9,5
9,5-11,1
11,1-12,7
Razem
Liczba gmin
17-27
1
28-38
39-49
50-60
3
8
8
2
3
1
2
4
3
1
3
1
14
1
1
4
22
61-71
72-82
3
2
2
5
2
83-93
1
1
Razem
1
13
12
10
8
4
1
49
Współczynnik korelacji …
Zależność korelacyjna charakteryzuje się
tym, że określonym wartościom jednej
zmiennej przyporządkowane są ściśle
określone średnie wartości drugiej
zmiennej.
 Stopień zależności liniowej pomiędzy
badanymi cechami mierzalnymi określany
jest za pomocą współczynnika korelacji rxy

Korelacyjny wykres rozrzutu …
Korelacja …



Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości
jednej cechy odpowiada wzrost średnich wartości drugiej cechy
Korelacja ujemna występuje wtedy, gdy wzrostowi wartości
jednej cechy odpowiada spadek wartości drugiej cechy
Współczynnik korelacji Pearsona, który przyjmuje wartości z
przedziału [-1,1] jest miarą związku liniowego między cechami
n
 ( x  x )( y  y )
i
rxy 
i
i 1
n
n
i 1
i 1
2
2
(
x
i

x
)
(
y
i

y
)



Przy interpretacji współczynnika korelacji należy zawsze zdawać
sobie sprawę z tego, że wartość współczynnika bliska zeru nie
oznacza braku zależności, a jedynie brak zależności liniowej
Współczynnik korelacji - przykład
Dane miesięczne o wielkości
zużycia pewnego surowca S
potrzebnego do produkcji
wyrobu A oraz o wielkości
produkcji tego wyrobu w
pewnym zakładzie
przedstawiono w tabeli obok.
Na podstawie tych danych
można podjąć próbę
określenia siły i kierunku
zależności między zużyciem
surowca a produkcją wyrobu.
Miesiąc
1
2
3
4
5
6
7
8
9
10
11
12
Produkcja
wyrobu
90
85
110
125
120
150
140
160
200
190
220
210
Zużycie
surowca
40
35
50
45
40
63
45
61
70
61
85
65
Współczynnik korelacji - przykład cd.
yi
xi
( yi  y )
( xi  x)
90
85
110
125
120
150
140
160
200
190
220
210
1800
40
35
50
45
40
63
45
61
70
61
85
65
660
-60
-65
-40
-25
-30
0
-10
10
50
40
70
60
-15
-20
-5
-10
-15
8
-10
6
15
6
30
10
rxy 
( y i  y ) ( xi  x)
900
1300
200
250
450
0
100
60
750
240
2100
600
6950
0,9137226
( y i  y) 2
3600
4225
1600
625
900
0
100
100
2500
1600
4900
3600
23750
( xi  x ) 2
225
400
25
100
225
64
100
36
225
36
900
100
2436
Download