Comparing two populations

advertisement
Wydział Matematyki
Testy zgodności
Wykład 03
Testy zgodności
W testach zgodności badamy postać rozkładu
teoretycznego zmiennej losowej skokowej lub
ciągłej. Weryfikują one stawiane przez badaczy
hipotezy dotyczące rozkładu zmiennej losowej.
Celem tych testów jest porównanie rozkładów
dwóch cech w jednej populacji lub jednej cechy
w dwóch populacjach. Testy zgodności
nazywamy także testami nieparametrycznymi.
Rodzaje testów zgodności
Dowolny rozkład
Test chi-kwadrat
Uniwersalny test dla
dowolnych rozkładów,
stosowany do dużych
prób losowych. Test ten
polega na porównaniu
liczebności empirycznej z
liczebnościami
oczekiwanymi
wyznaczonymi przez
rozkład teoretyczny
Rozkład normalny
Test
Kołomogorowa
-Smirnowa (KS)
Test dla rozkładów, ciągłych.
Test ten polega na
porównaniu dystrybuanty
empirycznej z dystrybuantą
rozkładu normalnego. Dla
małych prób stosuje się test
z poprawką Lillierforsa
Test W
Shapiro-Wilka
Test dla małych prób.
Posiada dużą moc. W
teście wyznacza się
wartość statystyki W. Im
większa jest ta wartość,
tym rozkład empiryczny
jest bardziej zgodny z
rozkładem normalnym.
Testowanie hipotez statystycznych – schemat
H0 – hipoteza zerowa
H1 – hipoteza alternatywna
1. Losujemy próbkę {x1,…,xn} z populacji generalnej i obliczamy wartość wybranej
statystyki S(x) dla x=(x1,…,xn).
2. Ustalamy poziom istotności α (np. 0,05)
3. Wyznaczamy obszar krytyczny testu
4. Podejmujemy decyzję, jeśli obliczona wartość statystyki S(x) zawiera się w zbiorze
krytycznym, wtedy odrzucamy hipotezę zerową, w przeciwnym wypadku nie ma
podstaw do odrzucenia hipotezy zerowej, co oznacza, że hipoteza zerowa może
(ale nie musi) być prawdziwa.
W testowaniu hipotez wylicza się tzw. wartość p. Jest to prawdopodobieństwo
zdarzenia wylosowania próbki, dla której uzyskamy konkretną wartość statystyki S(x)
Typy błędów w testowaniu hipotez statystycznych
Interpretacja wartości p
Test zgodności Chi-kwadrat
- liczba obserwacji
- prawdopodobieństwo, że cecha X przyjmie wartość należącą do i-tego
przedziału klasowego
- Liczba jednostek, które powinny znaleźć się w i-tym przedziale przy
założeniu, że cecha ma rozkład zgodny z hipotezą zerową.
Statystyka
ma rozkład chi-kwadrat o k = r-s-1 stopniach swobody,
gdzie s – jest liczbą parametrów rozkładu wyliczoną z próby, a r jest liczbą
przedziałów klasowych
Rozkład chi-kwadrat
Rozkład chi-kwadrat
Przykład 1
We wrocławskim ośrodku WORD przeprowadzono
test 100 losowo wybranych kierowców, w którym
badano refleks i uwagę. Każdy kierowca miał do
wykonania zadania na czterech stanowiskach.
Otrzymane wyniki podane są w poniższej tabeli
Okazuje się, że w warszawskim ośrodku WORD prawdopodobieństwa liczby
wykonania takich zadań przez kandydatów wynoszą
Na poziomie istotności α = 0,01 zweryfikować hipotezę,
że we wrocławskim ośrodku WORD rozkład wyników
osiąganych przez kandydatów jest takim sam jak
w Warszawie.
Przykład 1
Sformułowanie hipotez:
H0 – wrocławscy kandydaci na kierowców
uzyskują podobne wyniki, jak warszawscy
kandydaci
H1 – wyniki uzyskiwane we Wrocławiu
różnią się od wyników uzyskiwanych przez
warszawskich kandydatów
Przykład 1
Liczba stopni swobody k = 5 – 1 = 4
Przykład 1
Decyzja: nie ma podstaw do odrzucenia hipotezy, że wrocławscy kandydaci, są
tak samo zdolni, jak ich warszawscy odpowiednicy
Przykład 1
stopień swobody
=ROZKŁAD.CHI.ODWR(0,01;4)
= 13,277
stopień swobody
Przykład 2
Na podstawie danych z karty zdarzeń drogowych, które
wystąpiły na placu Dominikańskim we Wrocławiu w
ciągu kilku lat (300 tygodni) nastąpiła znaczna liczba
wypadków. Dane są przedstawione w poniższej tabeli:
Na poziomie istotności α = 0,05 zweryfikować hipotezę, że rozkład zdarzeń
jest rozkładem Poissona
Przykład 2
Sformułowanie hipotez:
H0 – Rozkład zdarzeń jest rozkładem
Poissona
H1 – Rozkład zdarzeń nie jest rozkładem
Poissona
Przykład 2
Zwiększamy wartość, tak aby
prawdopodobieństwa
sumowały się do 1
Przykład 2
Obliczamy wartość krytyczną statystyki
dla k = 6 - 1 - 1 = 4 stopni
swobody. Odejmujemy od liczby klas dodatkową jedynkę, bo parametr
λ w rozkładzie teoretycznym Poissona obliczyliśmy z próby.
=ROZKŁAD.CHI.ODWR(0,05;4)
= 9,488
Przykład 2
1
2
Przykład 2
1
2
3
Przykład 2
1
2
Przykład 2
1
2
Przykład 2
Wartość p
Wartość statystyki chi-kwadrat
Przykład 3
W poniższej tabeli zamieszczone są punkty uzyskane przez 100 studentów z
egzaminu ze statystyki. Stosując test chi-kwadrat na poziomie istotności
α = 0,05 zweryfikować hipotezę, że rozkład tych punktów jest normalny.
…………………………………….
Przykład 3
Sformułowanie hipotez:
H0 – Rozkład uzyskanych punktów z
egzaminu ze statystyki jest rozkładem
normalnym
H1 – Rozkład uzyskanych punktów z
egzaminu ze statystyki nie jest rozkładem
normalnym
Przykład 3
Budujemy szereg rozdzielczy
Liczymy parametry rozkładu
Przykład 3
Obliczamy prawdopodobieństwa teoretyczne, że obserwacja wpadnie
do danego przedziału
Przykład 3
Liczba stopni swobody k = 5 – 2 - 1 = 2
Dwa parametry wyliczyliśmy z próby
Przykład 3
4,98 < 5,99
Decyzja: nie ma podstaw do odrzucenia hipotezy, że rozkład punktów jest
normalny
Przykład 3
stopień swobody
=ROZKŁAD.CHI.ODWR(0,01;2)
= 5,99
stopień swobody
Przykład 3
1
2
3
Przykład 3
2
1
Przykład 3
1
2
Przy wyborze własnych przedziałów testy normalności są zablokowane
Przykład 3
1
2
testy
normalności są
odblokowane
Przykład 3
Przykład 3
1
2
Przykład 3
1
2
Przykład 3
Przykład 4
W poniższej tabeli zamieszczone są
dane na temat miesięcznych
wynagrodzeń netto 150
pracowników pewnej korporacji.
Na poziomie istotności α = 0,05
zweryfikować hipotezę, że rozkład
tych punktów jest normalny.
………………………………………………………………
Przykład 4
1
2
3
Przykład 4
3
Przykład 4
Prawy przycisk myszy
Wybieramy rozkład normalny
Przykład 4
Porównanie
Dane z Przykładu 4
Dane z Przykładu 3
Download