Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy dotyczące rozkładu zmiennej losowej. Celem tych testów jest porównanie rozkładów dwóch cech w jednej populacji lub jednej cechy w dwóch populacjach. Testy zgodności nazywamy także testami nieparametrycznymi. Rodzaje testów zgodności Dowolny rozkład Test chi-kwadrat Uniwersalny test dla dowolnych rozkładów, stosowany do dużych prób losowych. Test ten polega na porównaniu liczebności empirycznej z liczebnościami oczekiwanymi wyznaczonymi przez rozkład teoretyczny Rozkład normalny Test Kołomogorowa -Smirnowa (KS) Test dla rozkładów, ciągłych. Test ten polega na porównaniu dystrybuanty empirycznej z dystrybuantą rozkładu normalnego. Dla małych prób stosuje się test z poprawką Lillierforsa Test W Shapiro-Wilka Test dla małych prób. Posiada dużą moc. W teście wyznacza się wartość statystyki W. Im większa jest ta wartość, tym rozkład empiryczny jest bardziej zgodny z rozkładem normalnym. Testowanie hipotez statystycznych – schemat H0 – hipoteza zerowa H1 – hipoteza alternatywna 1. Losujemy próbkę {x1,…,xn} z populacji generalnej i obliczamy wartość wybranej statystyki S(x) dla x=(x1,…,xn). 2. Ustalamy poziom istotności α (np. 0,05) 3. Wyznaczamy obszar krytyczny testu 4. Podejmujemy decyzję, jeśli obliczona wartość statystyki S(x) zawiera się w zbiorze krytycznym, wtedy odrzucamy hipotezę zerową, w przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy zerowej, co oznacza, że hipoteza zerowa może (ale nie musi) być prawdziwa. W testowaniu hipotez wylicza się tzw. wartość p. Jest to prawdopodobieństwo zdarzenia wylosowania próbki, dla której uzyskamy konkretną wartość statystyki S(x) Typy błędów w testowaniu hipotez statystycznych Interpretacja wartości p Test zgodności Chi-kwadrat - liczba obserwacji - prawdopodobieństwo, że cecha X przyjmie wartość należącą do i-tego przedziału klasowego - Liczba jednostek, które powinny znaleźć się w i-tym przedziale przy założeniu, że cecha ma rozkład zgodny z hipotezą zerową. Statystyka ma rozkład chi-kwadrat o k = r-s-1 stopniach swobody, gdzie s – jest liczbą parametrów rozkładu wyliczoną z próby, a r jest liczbą przedziałów klasowych Rozkład chi-kwadrat Rozkład chi-kwadrat Przykład 1 We wrocławskim ośrodku WORD przeprowadzono test 100 losowo wybranych kierowców, w którym badano refleks i uwagę. Każdy kierowca miał do wykonania zadania na czterech stanowiskach. Otrzymane wyniki podane są w poniższej tabeli Okazuje się, że w warszawskim ośrodku WORD prawdopodobieństwa liczby wykonania takich zadań przez kandydatów wynoszą Na poziomie istotności α = 0,01 zweryfikować hipotezę, że we wrocławskim ośrodku WORD rozkład wyników osiąganych przez kandydatów jest takim sam jak w Warszawie. Przykład 1 Sformułowanie hipotez: H0 – wrocławscy kandydaci na kierowców uzyskują podobne wyniki, jak warszawscy kandydaci H1 – wyniki uzyskiwane we Wrocławiu różnią się od wyników uzyskiwanych przez warszawskich kandydatów Przykład 1 Liczba stopni swobody k = 5 – 1 = 4 Przykład 1 Decyzja: nie ma podstaw do odrzucenia hipotezy, że wrocławscy kandydaci, są tak samo zdolni, jak ich warszawscy odpowiednicy Przykład 1 stopień swobody =ROZKŁAD.CHI.ODWR(0,01;4) = 13,277 stopień swobody Przykład 2 Na podstawie danych z karty zdarzeń drogowych, które wystąpiły na placu Dominikańskim we Wrocławiu w ciągu kilku lat (300 tygodni) nastąpiła znaczna liczba wypadków. Dane są przedstawione w poniższej tabeli: Na poziomie istotności α = 0,05 zweryfikować hipotezę, że rozkład zdarzeń jest rozkładem Poissona Przykład 2 Sformułowanie hipotez: H0 – Rozkład zdarzeń jest rozkładem Poissona H1 – Rozkład zdarzeń nie jest rozkładem Poissona Przykład 2 Zwiększamy wartość, tak aby prawdopodobieństwa sumowały się do 1 Przykład 2 Obliczamy wartość krytyczną statystyki dla k = 6 - 1 - 1 = 4 stopni swobody. Odejmujemy od liczby klas dodatkową jedynkę, bo parametr λ w rozkładzie teoretycznym Poissona obliczyliśmy z próby. =ROZKŁAD.CHI.ODWR(0,05;4) = 9,488 Przykład 2 1 2 Przykład 2 1 2 3 Przykład 2 1 2 Przykład 2 1 2 Przykład 2 Wartość p Wartość statystyki chi-kwadrat Przykład 3 W poniższej tabeli zamieszczone są punkty uzyskane przez 100 studentów z egzaminu ze statystyki. Stosując test chi-kwadrat na poziomie istotności α = 0,05 zweryfikować hipotezę, że rozkład tych punktów jest normalny. ……………………………………. Przykład 3 Sformułowanie hipotez: H0 – Rozkład uzyskanych punktów z egzaminu ze statystyki jest rozkładem normalnym H1 – Rozkład uzyskanych punktów z egzaminu ze statystyki nie jest rozkładem normalnym Przykład 3 Budujemy szereg rozdzielczy Liczymy parametry rozkładu Przykład 3 Obliczamy prawdopodobieństwa teoretyczne, że obserwacja wpadnie do danego przedziału Przykład 3 Liczba stopni swobody k = 5 – 2 - 1 = 2 Dwa parametry wyliczyliśmy z próby Przykład 3 4,98 < 5,99 Decyzja: nie ma podstaw do odrzucenia hipotezy, że rozkład punktów jest normalny Przykład 3 stopień swobody =ROZKŁAD.CHI.ODWR(0,01;2) = 5,99 stopień swobody Przykład 3 1 2 3 Przykład 3 2 1 Przykład 3 1 2 Przy wyborze własnych przedziałów testy normalności są zablokowane Przykład 3 1 2 testy normalności są odblokowane Przykład 3 Przykład 3 1 2 Przykład 3 1 2 Przykład 3 Przykład 4 W poniższej tabeli zamieszczone są dane na temat miesięcznych wynagrodzeń netto 150 pracowników pewnej korporacji. Na poziomie istotności α = 0,05 zweryfikować hipotezę, że rozkład tych punktów jest normalny. ……………………………………………………………… Przykład 4 1 2 3 Przykład 4 3 Przykład 4 Prawy przycisk myszy Wybieramy rozkład normalny Przykład 4 Porównanie Dane z Przykładu 4 Dane z Przykładu 3