wyklad11

advertisement
Wykład 11
Analiza wariancji (ANOVA)
• Sposób analizy danych gdy mamy więcej niż dwa
zabiegi lub populacje.
• Omówimy ANOV-ę w najprostszej postaci.
• Te same podstawowe założenia/ograniczenia co przy
teście Studenta
 W każdej populacji badana cecha ma rozkład
normalny
 Obserwacje są niezależne i losowe
 Będziemy testowali hipotezy o średnich w populacjach
i
 Założenie – standardowe odchylenia badanej cechy w
każdej populacji są sobie równe (podobne) więc
możemy użyć uśrednionego SE
• Uwaga: ANOVA może być stosowana także gdy
próby nie są niezależne
• Np. W układzie zrandomizowanym blokowym
• (zasada podobna do testu Studenta dla
powiązanych par)
• Nie będziemy tego omawiać. Omówimy tylko
układy zupełne zrandomizowane.
• Cel:
• Testujemy hipotezy postaci:
• H 0:  1 =  2 =  3 = … =  k
• HA: nie wszystkie średnie są równe
Dlaczego nie stosujemy wielu
testów Studenta?
• Wielokrotne porównania
– P-stwo błędu pierwszego rodzaju (p - stwo
odrzucenia prawdziwej hipotezy) jest trudne
do kontrolowania)
Korekta Bonferoniego
– Prosta ale na ogół konserwatywna (p-stwo
błędu pierwszego rodzaju mniejsze niż
założone – strata mocy).
• Estymacja błędu standardowego
– ANOVA wykorzystuje informację zawartą we
wszystkich obserwacjach: zwykle daje
większą precyzję
Notacja: k = 3 zabiegi (próby,
grupy)
Zabieg 1
Zabieg 2
Zabieg 3
1
48
40
39
2
39
48
30
3
42
44
32
4
43
średnia
43
44
34
SS
42
32
46
35
• Trzy rodzaje rachunków:
• Wewnątrz grup, pomiędzy grupami,
całkowite.
• Liczymy trzy wartości: SS, df, MS
SS
Between
Within
Total
df
MS
Notacja:
k = # grup (prób, zabiegów)
k=
n1, n2, n3, …, nk = rozmiary grup n1 = , n2 = , n3 =
(# obserwacji)
y1 , y2, … yk = średnie w
grupach
y
= całkowita średnia
y1= ,y2 =
y3=
,
440
y
 40
11
n* = całkowita liczba obserwacji n* =
• Dwa podstawowe typy rachunków:
(gdzie konieczne, będziemy używali i do
indeksowania grup a j do indeksowania
obserwacji w każdej grupie : yij )
• Wewnątrz każdej grupy
  oznacza sumę ``wewnątrz grupy’’

y1
y


1j
n1
y1 
 48  39  42  43
4
• Uwzględniające wszystkie grupy


np.
k
oznacza sumę we wszystkich grupach
i1

n   ni

n* =

i

y
 y
ij
n
y

172  132  136 
11
 40
• UWAGA: Gdy rozmiary prób nie są równe
nie jest średnią z k średnich!!!
Ale można ją obliczyć jako
y
•
y
= (n1y1 + n2y2 + …+n3y3) / n*
Wewnątrz grup (wypełniamy
drugi rząd w tabeli)
Suma kwadratów wewnątrz grup (SSW)
• Liczymy SS wewnątrz każdej grupy
SS1    y1 j  y1  (itd. - SS2, SS3 , …)
2
SS1 =
SS2 = … = 32, SS3 = … = 46
• SSW = SS1+SS2+…+SSk=


 SS    y
i
ij
 yi 
2
• SSW =
• Stopnie swobody wewnątrz grup:
dfw = n* - k
dfw =
• Średnia suma kwadratów wewnątrz grup
MSW = SSW / dfw
MSW =
To samo co uśredniona wariancja
SS1  SS2
Dla przypomnienia s 
dla dwóch
n1  n2  2
prób
2
c
• Uśrednione standardowe odchylenie
sc =
MSW
• Pomiędzy grupami (wypełniamy pierwszy
rząd tabeli)
Porównujemy średnie grupowe do średniej
całkowitej
Ważone przez rozmiar grupy
• Suma kwadratów pomiędzy grupami (SSB)
• SSB =  n y  y 2

SSB =
i

i

• Stopnie swobody pomiędzy grupami (dfb)
dfb = k – 1
dfb =
• Średnia suma kwadratów pomiędzy grupami
(MSB)
MSB = SSB/dfb
MSB =
• Całkowite
• Całkowita suma kwadratów (SST)
  y

y

2
• SST=
SST=82+12+22+…+82+52=348
ij
• Uwaga: SST = SSW+SSB 348 = 120 + 228
Zwykle nie trzeba liczyć SST z definicji
Całkowita liczba stopni swobody (dft)
dft = n* – 1
dft =
Uwaga: dft = dfb+dfw
10 = 2 + 8
Tablica ANOV-y
SS
Between
Within
Total
df
MS
Ta tabela będzie dostępna na
kolokwium i egzaminie:
Pomiędzy
SS
df
MS
SSB=
dfb = k – 1
SSB/dfb
dfw = n* – k
SSW/dfw
n  y

i
Wewnątrz
i
y

2
SSW=


 SS    y
i
Całkowite
ij
 yi 
dft = n* – 1
SST=
  y

ij
y

2
2
Test F
• Dane dla k  2 populacji lub zabiegów są
niezależne
• Dane w każdej populacji mają rozkład
normalny ze średnią i dla populacji i, i
tym samym odchyleniem standardowym 
•
•
•
•
•


Testujemy H0: 1 = 2 = 3 = … = k
(wszystkie średnie są sobie równe)
vs.
HA: nie wszystkie średnie są sobie równe
(HA jest niekierunkowa ale obszar odrzuceń
będzie jednostronny)
Kroki:
Obliczenie tabeli ANOV-y
Testowanie
Jak opisać F test
Zdefinować wszystkie 
H0 podać za pomocą wzoru i słownie
HA tylko słownie
Statystyka testowa Fs = MSB/MSW
przy H0, Fs ma rozkład Snedecora z dfb, dfw
stopniami swobody
• Na kolejnych slajdach podane są wartości krytyczne
z książki D.S. Moore i G. P. McCabe ``Introduction to
the Practice of Statistics’’
• "numerator df" = dfb i
"denominator df" = dfw.
•
•
•
•
•
• Odrzucamy H0 gdy zaobserwowane Fs >
Fkrytyczne
• Przykładowy wniosek - Na poziomie
istotności α (nie) mamy przesłanki aby
twierdzić, że grupy różnią się poziomem
badanej cechy.
• Przykład: Losową próbę 15 zdrowych
mężczyzn podzielono losowo na 3 grupy
składające się z 5 mężczyzn. Przez tydzień
otrzymywali oni lekarstwo Paxil w dawkach 0,
20 i 40 mg dziennie. Po tym czasie zmierzono
im poziom serotoniny.
• Czy Paxil wpływa na poziom serotoniny u
zdrowych, młodych mężczyzn ?
Niech 1 będzie średnim poziomem serotoniny
u mężczyzn przyjmujących 0 mg Paxilu.
Niech 2 będzie średnim poziomem serotoniny
u mężczyzn przyjmujących 20 mg Paxilu.
Niech 3 będzie średnim poziomem serotoniny
u mężczyzn przyjmujących 40 mg Paxilu.
• H0: 1 = 2 = 3 ; średni poziom
serotoniny nie zależy od dawki Paxilu
• HA: średni poziom serotoniny nie jest
ten sam we wszystkich grupach (albo
średni poziom serotoniny zależy od
dawki Paxilu).
• Zastosujemy F-Test
Dawka
0mg
20mg
40mg
48,62
58,60
68,59
49,85
72,52
78,28
64,22
62,81
66,72
80,12
82,77
76,53
62,51
68,44
72,33 suma
5
5
5
15
srednia
SS(w)
57,60
235,87
69,28
249,31
75,70
119,29
67,53
604,47
SS(b)
492,64
15,36
334,03
842,02
n
Tablica ANOV-y
Between
Within
Total
SS
df
MS
• Fs = MSB / MSW przy H0 ma rozkład
• Testujemy na poziomie istotności  =
0.05. Wartość krytyczna F.05 =
.
• Obserwujemy Fs =
• Wniosek:
Na jakiej zasadzie to działa ?
• Dla przypomnienia:
• Test Studenta patrzy na różnicę między
średnimi (y1-y2)
• Dzieli ją przez miarę rozrzutu tej różnicy
(SEy1-y2 )
• Jeżeli (y1-y2) jest duże w porównaniu do
błędu standardowego to statystyka testu
Studenta jest duża i odrzucamy H0.
• Dla testu F,
Liczymy ``uśredniony kwadrat różnicy
między średnimi’’ (MSB)
Dzielimy go przez oszacowanie
zróżnicowania w próbie (MSW)
Jeżeli MSB jest duże w porównaniu do
MSW wówczas statystyka testu F jest
duża i odrzucamy H0.
Test F jest analogiczny do testu Studenta
ale umożliwia jednoczesne porównanie
kilku średnich.
• Test F można stosować również gdy mamy
tylko dwie próby
Statystyka testu F dla dwóch prób jest równa
kwadratowi statystyki testu Studenta
Decyzje i p-wartości są dokładnie takie same
dla obu testów.
Download