Ogólny model liniowy

advertisement
Plan na dziś
• Ogólny model liniowy (GLM)
• Model mieszany (MIXED)
Ogólny model liniowy
gr. słoniny = stado + masa półtuszy + reszta
zm. klasyfikująca
zm. ciągła
• OML łączy zalety ANOVA i analizy regresji
Parametry modelu
β0 = efekt wspólny
β1 = efekt stada A
β2 = efekt stada B
efekt stada C = 0
Jeden poziom
efektu stałego
jest zawsze
wyzerowany!
β3 = regr. na masę półtuszy
23 mm
stado A
42 kg
24 mm
stado B
40 kg
22 mm
stado C
41 kg
23 = 1β0 + 1β1 + 0β2 + 42β3 + e1
24 = 1β0 + 0β1 + 1β2 + 40β3 + e2
22 = 1β0 + 0β1 + 0β2 + 41β3 + e3
Zapis macierzowy
23
24 =
22
β
e1
1 1 0 42
1 0 1 40  0 + e2
β1
e3
1 0 0 41
β
2
y = X + e
β
3
General
Linear
data swinie ;
Model infile “C:\...\mojplik.txt” ;
input slonina stado $ waga ;
proc GLM data=swinie;
class stado ;
model slonina = stado waga ;
run ;
Sumy kwadratów
• Typu I-ego: zależą od pozycji efektu
w modelu! Oszacowany efekt masy
półtuszy uzględnia wpływ stada, ale nie
odwrotnie.
• Typu III-ego: nie zależne od pozycji
efektu w modelu! Każdy efekt jest
poprawiony względem pozostałych.
Rozwiązania
proc GLM data=swinie;
class stado ;
model slonina = stado waga / solutions;
run ;
Jeden poziom
wyzerowany!
Testowanie efektów:
H0  1 = 0
H1 1  0 (test dwustronny)
poziom istotności w kolumnie Pr > |t|
Średnie najmniejszych
kwadratów to średnie
jakich byśmy oczekiwali dla
zbalansowanych danych.
Średnie NK
Układ niezbalanowany
A
B
C
2005
5
5
5
2006
5
5
1
średnie
1
2
3
stado
średnie
brzegowe
4
rok
5
Tu brakuje
obserwacji
Średnie NK
proc GLM data=swinie;
class stado ;
model slonina = stado waga ;
lsmeans stado / stderr ;
run ;
Oblicza średnie
least-squares
Oblicza błąd
standardowy i testuje
hipotezę średnia=0
Interakcja
Y = A B A*B
Interakcja
A1 A2 B1 B2 A1B1 A1B2 A2B1 A2B2
Efekty zagnieżdżone
A1
B1
A2
B2
B1
B2
Y = A B(A)
A1 A2 B1 B2 A1B1 A1B2 A2B1 A2B2
B nie występuje jako efekt główny.
Porównania wielokrotne
proc GLM data=swinie;
class stado ;
model slonina = stado waga ;
means stado / opcja;
run ;
Means oblicza nie
poprawione średnie,
TUKEY
DUNCAN
LSD –
najmniejsza
istotna różnica
SNK Student-Newman-Keuls
Porównania średnich NK
lsmeans stado / pdiff=all adjust=tukey;
Testuje hipotezę
H0: LSM(i)=LSM(j)
23 mm
23 mm
22 mm
stado A
42 kg
Pomiary powtarzane
22 mm
21 mm
22 mm
stado C
41 kg
Pomiary wykonywane na
tych samych obiektach
(świniach) mogą być
skorelowane!
19 mm
18 mm
17 mm
stado B
40 kg
Pomiary powtarzane – c.d
y1
•
19
22
y2 y3 stado waga
23 22
A
42
18 17
B
40
21 22
C
41
proc GLM;
class stado ;
model y1-y3 = stado waga ;
repeated czas ;
run ;
Dowolna nazwa dla
czynnika wewnątrzobiektowego
Model mieszany
y = X + Zu + e
Zawiera zarówno efekty
stałe
 jak i losowe u
Kiedy efekt losowy?
Efekt jest losowy, jeżeli po powtórzeniu
próbkowania możemy wylosować inne jego
poziomy.
Np. losowanie 30 koni
I próbkowanie:
umaszczenie gniade 20 koni.
umaszczenie pstrokate 10 koni
II próbkowanie
umaszczenie gniade 15
umaszczenie myszate 15
Kiedy efekt losowy?
Gdy chcemy wnioskować o czynniku, ale
nie mamy wszystkich jego poziomów.
Np. Analizujemy wpływ pór roku, ale
mamy dane tylko z lata i jesieni.
Kiedy efekt losowy?
Gdy chcemy uwględnić fakt, że obserwacje są
skorelowane
...lub gdy efekty skorelowane są naszym
przedmiotem zainteresowania.
Np. Wartość hodowlana świni A jest
skorelowana z w.h. świni B, bo A i B są
spokrewnione.
Zależności między efektami
y = X + Zu + e
Zależności między efektami
zdefiniowane w macierzy
G
Zależności między
resztami
zdefiniowane w
macierzy
R
Przykład
buhaj 1
buhaj 2
buhaj 3
krowa 1 krowa 2
krowa 3 krowa 4
krowa 5 krowa 6
stado A
y=9
stado B
y=12
stado A
y=11
y = X + e
9
12
11
Y=
6
7
14
10
01
10
X=
10
10
01
=
stado B
y=6
stado A
y=7
stado B
y=14
100000
010000
V = R = 00 00 10 01 00 00 6
000010
stado A
000001
stado B
Zakładamy, że obserwacje
nie są skorelowane, ale to
nieprawda!
Przykład
buhaj 1
buhaj 2
buhaj 3
krowa 1 krowa 2
krowa 3 krowa 4
krowa 5 krowa 6
stado A
y=9
stado B
y=12
stado A
y=11
stado B
y=6
stado A
y=7
y = X + Zu + e
100
100
010
Z=
010
001
001
buhaj 1
u = buhaj 2
buhaj 3
100
G = 0 1 02
001
V = ZGZ`+ R
stado B
y=14
820000
280000
008200
=0 0 2 8 0 0
000082
000028
Teraz obserwacje są
skorelowane, ale błędy nie!
Poziomy efektów losowych mogą
być także skorelowane
np. zależności między
efektami proporcjonalne
ojciec matka córka
do spokrewnień (Animal
Model)
ojciec 1
0
1/2
ojciec
matka
córka
matka
córka
0
1/2
1
1/2
1/2
1
G=A 2A
Model mieszany w SASie
proc MIXED ;
class A B ;
model Y = A B ;
random C ;
run ;
BLUP AM
Y = stado + animal + reszta
Krowa 1
stado A
y=3,1
Buhaj 2
Założenia:
•wariancja add. 2A = 1,0
•wariancja reszt 2E = 1,5
...czyli
Córka 3
stado B
y=3,5
Córka 4
stado B
y=3,3
G = A×1,0
R = I×1,5
BLUP AM
krowa 1 1 0
buhaj 2 0
1
córka 3 0,5 0,5
córka 4 0 0,5
data G ;
input Row Col1-Col4 ;
cards ;
1
2
3
4
;
1
0
0
1
0.5 0.5
0
0.5
0.5
0
0.5
0.5
1
0.25
0.25 1
0,5
0,5
1
0,25
0
0,5
0,25
1
data G ;
input Row Col Value ;
cards ;
1
1
2
2
itd.
1
3
2
3
0
0.5
1
0.5
BLUP AM
data mleko ;
input stado $ animal $ Y ;
cards ;
A 1 3.1
A 2 .
B 3 3.5
B 4 3.3
;
proc mixed data=mleko ;
class stado animal ;
model Y = stado ;
random animal / type=un gdata=G s ;
parms 1.5 / hold=1 ;
run ;
Zadanie 1
Zbadaj wpływ leku (1-4) i choroby (1-3) oraz interakcji
między nimi na wskaźnik wydajnościowy organizmu. Czy
układ jest zbalansowany? Który efekt jest istotny?
Porównaj średnie najmniejszych kwadratów w parach.
Dane:
11
12
13
21
22
23
31
32
33
41
42
43
42 44 36 13 19 22
33 . 26 . 33 21
31 -3 . 25 25 24
28 . 23 34 42 13
. 34 33 31 . 36
3 26 28 32 4 16
. . 1 29 . 19
. 11 9 7 1 -6
21 1 . 9 3 .
24 . 9 22 -2 15
27 12 12 -5 16 15
22 7 25 5 12 .
Procedura wczytania danych:
data a;
input lek choroba @;
do i=1 to 6;
input y @;
output;
end;
cards ;
Zadanie 2
Zbadaj skuteczność antybiotyku (a-f) na stopień
zakażenia pacjentów (po) uwzględniając stopień
zakażenia przed leczeniem (przed) jako drugi efekt w
modelu. Wytłumacz różnicę między wynikiem dla
antybiotyku obliczonym wg sum kw. typu I i III.
data AB;
input anty $ przed po @@;
cards;
a 11 6
a 6 4
d 6 0
d 8 4
f 16 13
f 16 12
a
a
d
d
f
f
8 0
10 13
6 2
19 14
13 10
12 5
a 5 2
a 6 1
d 7 3
d 8 9
f 11 18
f 12 16
a 14
a 11
d 8
d 5
f 9
f 7
8
8
1
1
5
1
a
a
d
d
f
f
19
3
18
15
21
12
11
0
18
9
23
20
Zadanie 3
Analizowano wpływ mutacji w genie leptyny (CC,
CG, GG) na ekspresję tego genu (poziom mRNA).
Zbadano 14 świń i dla każdej wykonano 3 pomiary
ekspresji genu. Zbadaj wpływ genu.
http://jay.au.poznan.pl/~mcszyd/dyda/pakiety/index.html
dane22.txt
kol 1: genotyp Leptyny
kol 2: pomiar 1
kol 3: pomiar 2
kol 4: pomiar 3
Zadanie 4
Analizowano wpływ genotypu w genie leptyny (CC,
CG) na średnią grubość słoniny. Wykonaj
obliczenia (a) ignorując wpływ ojca i (b) traktując
wpływ ojca jako efekt losowy. Uwzględnij wiek
uboju i masę półtuszy.
http://jay.au.poznan.pl/~mcszyd/dyda/pakiety/index.html
dane23.txt
kol 1: kod rasy
kol 2: numer próby
kol 3: numer ojca
kol 4: genotyp RYR
kol 5: genotyp Leptyny
kol 6: średnia gr. słoniny (cm)
kol 7: wiek uboju (dni)
kol 8: masa półtuszy (kg)
Zadanie dla chętnych
Oceń wartość hodowlaną buhajów i krów wzg.
zawartości tłuszczu w mleku przyjmując, że
wariancja genetyczna addytywna = 0,75, a
wariancja reszt = 1,3.
1
2
3
6
4
7
9
5
8
10
zwierzęta ponumerowane
rosnąco od najstarszych
do najmłodszych
krowa stado %tłuszczu
2
A
3,3
3
A
3,1
5
B
3,0
6
B
2,9
8
B
3,4
9
A
3,5
10
B
3,2
Download