Test zgodności chi

advertisement
Wrocław 24.01.2010
Filip Fornalik
172087
MBM
Chi-kwadrat. Test zgodności
Test zgodności chi-kwadrat (inaczej zwany testem Pearsona) służy do porównania ze sobą
zaobserowanego rozkładu naszej zmiennej z jakimś teoretycznym rozkładem. Jednakże przy
testowaniu zgodności rozkładu naszej zmiennej z dobrze znanymi rozkładami teoretycznymi w
statystyce : np. normalnym, Poissona zazwyczaj stosuje się inne testy np. test K-S, test ShapiroWilka.
Test zgodności chi-kwadrat w praktyce można wykorzystać na różne sposoby:
1) sprawdzenie równoliczności grup
2) porównanie występowania obserwacji z ich teoretycznym występowaniem
1) Równoliczność grup
Przykład:
Badacz chciał sprawdzić, czy w swoim badaniu była równa liczba kobiet i mężczyzn (statystycznie
równa, nieistotne statystycznie różnice). W badaniu przebadał 480 mężczyzn oraz 520 kobiet.
Wynik okazał się nieistotny statystycznie (dla p < 0,05). Oznacza to, że badacz może przyjąć, że
przebadał podobną liczbę kobiet i mężczyzn (mówiąc językiem statystyki).
Test ten stosuje się również w przypadku sprawdzania, czy któraś z udzielanych odpowiedzi była
najczęściej udzielana
2) Występowanie obserwacji a ich teoretyczne występowanie Przykład:
Załóżmy, że żyjemy w kraju, w którym 70% społeczeństwa stanowią kobiety. Badacz w swoim
badaniu przebadał 60 mężczyzn i 40 kobiet. Następnie chciał sprawdzić, czy rozkład płci w jego
badaniu pokrywa się z rozkładem w populacji danego kraju.
Teoretycznie, badając 100 osób, powinien zbadać 70 kobiet i 30 mężczyzn, aby odzwierciedlić
proporcję w populacji. Przy użyciu testu zgodności chi-kwadrat stwierdził, że różnica w proporcji
kobiet i mężczyzn jest na tyle duża, aby móc powiedzieć, że jego rozkład płci w jego badaniu nie
odzwierciedla rozkładu w populacji.
Są dwa najważniejsze założenia testu zgodności chi-kwadrat: minimalna liczebność próby = 5 i
niezależność grup
Sprawdzianem hipotezy zerowej jest statystyka wyrażona w następujący sposób:
( f i  npi ) 2
 
npi
i 1
r
2
f - oznacza liczbę zaobserwowanych wartości z danego przedziału,
Statystyka testu ma rozkład 2 o  = k – r – 1 stopniach swobody, gdzie r to liczba szacowanych
parametrów, od których zależy rozkład cechy w populacji, natomiast k to liczba przedziałów
klasowych lub wariantów cechy X;
pi oznacza prawdopodobieństwo tego, że cecha X przyjmuje wartość należącą do
i-tego
przedziału klasowego, npi oznacza liczbę jednostek, które powinny znaleźć się w i-tym przedziale
(przy założeniu, że cecha ma rozkład zgodny z hipotetycznym).
Jeżeli     , to nie ma podstaw do odrzucenia hipotezy zerowej, w przeciwnym
przypadku istnieją podstawy do odrzucenia hipotezy zerowej.
2
2
Aby sprawdzić, czy wartość statystyki chi-kwadrat wskazuje na istotną statystycznie zależność,
musimy sprawdzić, posługując się tablicą rozkładu chi-kwadrat, czy dana wartość wskazuje na
istotne statystycznie różnice.
Aby tego dokonać, musimy znać:
 wartość statystyki chi-kwadrat (wynik testu chi-kwadrat)
 liczbę przebadanych osób
 poziom istotności (poziom prawdopodobieństwa), dla którego dany wynik będzie wskazywał na
istotną zależność
Dla przykładu, jeżeli przyjmiemy, że interesuje nas czy dany wynik jest istotny statystycznie, przy
założeniu 5% szans popełnienia błędu przy wnioskowaniu (p = 0,05) i do tego wiemy, że
zbadaliśmy 100 osób - to na skrzyżowaniu tych dwóch wartości odczytujemy wartość statystyki chikwadrat i porównujemy ją z uzyskaną w naszych obliczeniach statystyką.
Jeżeli wartość naszego testu będzie większa niż wartość z tablicy uznamy, że wynik jest istotny
statystycznie (przy założeniu p = 0,05)
Jeżeli natomiast wartość naszego testu będzie mniejsza niż wartość z tablicy uznamy wtedy, że
wynik nie jest istotny statystycznie.
Przykład:
Na podstawie danych zawartych w poniższej tablicy należy odpowiedzieć na pytanie czy na
poziomie istotności 0,05 można sądzić, że rozkład dziennej liczby dostaw dla pewnego
przedsiębiorstwa Z w ciągu 90 dni jest rozkładem Poissona?
Tab. Dzienna liczba dostaw dla przedsiębiorstwa Z
Przez X oznaczamy dzienną liczbę dostaw do przedsiębiorstwa Z.
Hipotezę zerową i alternatywną zapisujemy w następującej postaci:
H0: X ma rozkład Poissona,
H1: X nie ma rozkładu Poissona.
W rozkładzie Poissona wartości prawdopodobieństw są funkcją parametru m. Wartość parametru m
jest nieznana, w związku z czym najpierw należy parametr ten oszacować na podstawie próby.
Ponieważ w rozkładzie Poissona parametr m = E(X), można zatem do oszacowania tego parametru
przyjąć estymator wartości przeciętnej. Otrzymujemy wartość średnią równą 1,656 stąd
zaokrąglając przyjmujemy m = 1,7. Prawdopodobieństwa pi znajdujemy w tablicach rozkładu
Poissona dla m = 1,7 tak, że pi = P(X = xi). Ostatnia wartość pi wynosi 0,092, jako różnica między
jednością a sumą pi poprzednich.
Dzienna
liczba dostaw
(xi)
0
1
2
3
4
Suma
Liczba
dni (fi)
xifi
19
29
17
14
11
90
0
29
34
42
44
149
wartość
średnia
1.656
W celu wyznaczenia statystyki testu 2 należy dokonać pewnych obliczeń, które zawiera
poniższa tablica:
Tab. Obliczenia pomocnicze
( f i  npi ) 2
 
 3,26
np
i 1
i
r
2
Wartość statystyki testu 0,052 odczytana z tablic dla  = 5 – 1 – 1 = 3 stopniach swobody
wynosi 7,815.
Ponieważ 2 < 2, to nie ma podstaw do odrzucenia hipotezy zerowej, że rozkład liczby dostaw jest
rozkładem Poissona.
Rozkład chi kwadrat (zapisywany także jako χ²) to rozkład zmiennej losowej, która jest sumą k
kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym. Liczbę
naturalną k nazywa się liczbą stopni swobody rozkładu zmiennej losowej.
Jeżeli ciąg niezależnych zmiennych losowych
oraz:
to:
czyli słownie: Zmienna losowa Y ma rozkład chi kwadrat o k stopniach swobody.
Rys.1 Gęstość prawdopodobieństwa, dla różnych stopni swobody rozkładu zmienej losowej.
Download