Populacja statystyczna, badanie statystyczne

advertisement
Populacja statystyczna, badanie statystyczne
— Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych za pomocą metod rachunku prawdopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych
zjawiskach losowych i opisywanie ich za pomocą liczb.
— Badane zbiory nazywamy populacjami statystycznymi.
— Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną,
albo tylko ich część, zwaną próbką statystyczną (próbką).
— W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku prawdopodobieństwa.
— W drugim przypadku badanie jest częściowe.
Próbka losowa
— Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnościach elementów pewnego skończonego podzbioru Z1 tej populacji (Z1 ⊂ Z), zwanego próbką.
— Próbka Z1 powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych
cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki
Z1 zazwyczaj losuje się spośród elementów populacji Z.
— Otrzymana próbka nosi nazwę próbki losowej.
— Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy
n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania.
Cechy statystyczne
— Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej.
— Nazywamy je cechami statystycznymi.
— Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne
posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi.
— W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy
kolory) i wtedy cecha niemierzalna staje się cechą mierzalną.
Zadanie statystyki opisowej
— Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany.
Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej.
— Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa.
Empiryczny rozkład cechy
— Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej
zbiorowości, rozkładu zaobserwowanej cechy.
— Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu
kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania.
— Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parametrami teoretycznymi.
— Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego.
Szereg rozdzielczy
— Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy.
— Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie.
— Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy
w próbie.
— Gdy liczba obserwacji jest duża (n > 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie
zaobserwowanych wartości w tzw. klasach.
1
— Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że
wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy.
Ustalanie liczby klas
— Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki:
√
k 6 5 ln n lub k = 1 + 3, 322 ln n lub k = n.
— Można również korzystać z poniższych orientacyjnych danych:
liczba pomiarów n
30 − 60
60 − 100
100 − 200
200 − 500
500 − 1500
liczba klas k
6−8
7 − 10
9 − 12
11 − 17
16 − 25
— Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30.
Rozstęp, długość klasy
— Niech x1 , x2 , . . . , xn będzie n-elementową próbką prostą o zadanych wartościach.
— Rozstępem badanej cechy X w tej próbce nazywamy liczbę
R = xmax − xmin ,
gdzie xmax , xmin oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x1 , x2 , . . . , xn .
— Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki.
— Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się
b≈
R
, tak jednak, by bk > R.
k
Dokładność przy ustalaniu granic klas
1
— Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do α, gdzie α oznacza dokładność,
2
z jaką wyznaczono wartości w próbce.
— Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności
1
największej liczby a, to należy przyjąć jako granice klas liczby postaci la + α, gdzie l są liczbami całkowitymi.
2
1
— Dolną granicę pierwszej klasy otrzymujemy wg wzoru xmin − α.
2
— Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy
k
X
symbolem ni . Oczywiście
ni = n.
i
— Jeżeli liczność n próbki x1 , x2 , . . . , xn kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje
się szereg rozdzielczy przedziałowy, który stanowią pary liczb: środki kolejnych klas ẋi oraz ich liczności ni , gdzie
i ∈ {1, 2, . . . , k}.
— Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas,
ni
albo też granice poszczególnych klas, a na osi pionowej liczności klas ni albo częstości klas wi = .
n
Miary średnie
— Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom.
2
— Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie
pozostałe wartości zmiennej.
— Miary średnie dzielą się na:
— średnie klasyczne (średnia arytmetyczna, średnia geometryczna, średnia harmoniczna);
— średnie pozycyjne (mediana, moda).
Średnia arytmetyczna
n
— Średnią arytmetyczną x liczb x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem x =
— Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
1X
xi .
n i=1
ni = n, to średnią arytmetyczną
i=1
k
ważoną nazywamy liczbę x =
1X
xi ni .
n i=1
k
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to x =
1X
ẋi ni .
n i=1
Średnia geometryczna
— Średnią geometryczną g liczb dodatnich x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem
v
u n
uY
n
g= t
xi .
i=1
— Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
ni = n, to średnią geometryczną
i=1
ważoną nazywamy liczbę
g=
q
n
xn1 1 · · · xnk k .
Średnia harmoniczna
— Średnią harmoniczną h różnych od zera liczb x1 , x2 , . . . , xn nazywamy liczbę określoną wzorem
n
h=
1X 1
n i=1 xi
!−1
, o ile
n
X
1
6= 0.
x
i=1 i
— Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
ni = n, to średnią harmoniczną
i=1
ważoną nazywamy liczbę
k
h=
1 X ni
n i=1 xi
!−1
.
Mediana
— Medianą (wartością środkową) M e próbki x1 , x2 , . . . , xn nazywamy środkową liczbę w uporządkowanej niemalejąco próbce x(1) 6 x(2) 6 · · · 6 x(n) , gdy n jest liczbą nieparzystą, albo średnią arytmetyczną dwóch środkowych
liczb, gdy n jest liczbą parzystą, tzn.

x( n+1 ) ,
gdy n jest nieparzyste,


2
Me =

 x( n2 ) +x( n2 +1)
,
gdy n jest parzyste.
2
3
Mediana
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
!
m−1
b
n X
M e = xl +
−
ni ,
nm 2
i=1
gdzie
xl - lewy koniec klasy zawierającej medianę,
m - numer klasy zawierającej medianę,
n - liczność próbki,
ni - liczność i-tej klasy,
b - długość klasy.
Moda
— Modą (dominantą, wartością najczęstszą) M o próbki x1 , . . . , xn o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość, o ile istnieje i nie jest to xmin ani xmax .
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
M o = xl +
nl − nl−1
b,
(nl − nl−1 ) + (nl − nl+1 )
gdzie
xl - dolna granica klasy modalnej (klasy, w której znajduje się moda),
nl - liczność klasy modalnej,
nl−1 , nl+1 - liczności sąsiednich klas,
b - długość klasy.
— Moda zależy od sposobu podziału na klasy.
Miary rozproszenia
— Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji.
— Podstawowe miary rozproszenia to:
— rozstęp,
— wariancja,
— odchylenie standardowe.
Rozstęp
— Rozstępem w próbce o wartościach x1 , . . . , xn nazywamy liczbę
R = xmax − xmin .
Wariancja
— Wariancją s2 próbki x1 , . . . , xn nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości xi
od średniej arytmetycznej xi próbki, tzn.
n
1X
s2 =
(xi − x)2 .
n i=1
— Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
i=1
k
s2 =
1X
(xi − x)2 ni .
n i=1
4
ni = n, to
k
1X
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to s =
(ẋi − x)2 ni .
n i=1
2
Odchylenie standardowe
√
— Odchyleniem standardowym nazywamy liczbę s = s2 .
— Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się
średnio od wartości średniej arytmetycznej badanej zmiennej.
Inne charakterystyki
— współczynnik zmienności
— typowy obszar zmienności
Współczynnik zmienności
Współczynnikiem zmienności nazywamy liczbę
v=
s
· 100%.
x
Typowy obszar zmienności
— Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około
populacji. Typowy obszar zmienności określa wzór
2
3
wszystkich jednostek badanej
x − s < xtyp < x + s.
— Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące stosunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).
5
Download