Wzorzec-przegl d lekarski-XX-2001

advertisement
PRACE POGL¥DOWE
Jerzy A. MOCZKO
Metody analizy danych o strukturze
hierarchicznej
Analysis Methods for Hierarchical Data
Katedra i Zak³ad Informatyki i Statystyki,
Uniwersytet Medyczny
im. Karola Marcinkowskiego, Poznañ
Kierownik: Prof. dr hab. Jerzy A. Moczko
Dodatkowe s³owa kluczowe:
modelowanie danych wielopoziomowych
wnioskowanie statystyczne
uogólnione równanie estymacyjne
modele efektów losowych
Additional key words:
multilevel data modelling
statistical inference
general equation estimation
random effects models
W badaniach biomedycznych czêsto mamy do czynienia z danymi o specyficznej strukturze wielopoziomowej.
Ich cech¹ charakterystyczn¹ jest wystêpuj¹ce zazwyczaj skorelowanie
pomiêdzy pomiarami na rozmaitych
poziomach hierarchii. Skorelowanie to
uniemo¿liwia tradycyjne podejœcie do
estymacji wariancji metod¹ najmniejszych kwadratów i wymaga u¿ycia bardziej zaawansowanych metod. W pracy przedstawiono przegl¹d najczêœciej
stosowanych technik i omówiono na
konkretnym przyk³adzie medycznym
ich zalet i wady.
Klasteryzacja danych a problem
za³o¿enia ich niezale¿noœci
(Clustering of data and the problem
of independence assumptions)
Adres do korespondencji:
Prof. dr hab. Jerzy A. Moczko
Katedra i Zak³ad Informatyki i Statystyki
Uniwersytet Medyczny
60-529 Poznañ, ul. D¹browskiego 79
Tel./faks: 61 841 11 16
e-mail: [email protected]
Przegl¹d Lekarski 2011 / 68 / 10
Wnioskowanie statystyczne opiera siê
na wyci¹ganiu konkluzji lub dokonywaniu
predykcji na podstawie zebranych danych.
Z regu³y w celu zbadania populacji pos³ugujemy siê reprezentatywn¹ prób¹ statystyczn¹. Jednym z warunków uzyskania
reprezentatywnoœci jest niezale¿noœæ wyboru elementów w procesie próbkowania populacji. Wymóg ten nie zawsze mo¿e byæ
spe³niony a typow¹ przyczyn¹ jest struktura danych powtarzanych lub danych hierarchicznych. Dla przyk³adu badanie czasu
krzepliwoœci krwi po podaniu warfaryny w
leczeniu zakrzepicy ¿y³ g³êbokich wykonywane jest w grupie tych samych pacjentów
w okreœlonych chwilach czasu (przed rozpoczêciem leczenia, po podaniu pierwszej
dawki, po 12, 24 i 36 godzinach po podaniu
leku) i stanowi typowy schemat zmiennych
powi¹zanych. Ocena wskaŸnika intensywnoœci próchnicy PUW w grupie pacjentów
ilustruje przyk³ad struktury hierarchicznej
dwupoziomowej (pierwszy poziom - zêby,
drugi poziom - pacjenci).
Czêsto pojawiaj¹cym siê b³êdem w analizie wyników badañ doœwiadczalnych jest
brak uwzglêdnienia ich struktury wewnêtrznej. Jak widaæ ze schematu prowadzonych
badañ uzyskane dane nie s¹ w pe³ni niezale¿ne, co musi wywieraæ istotny wp³yw na
wyniki wnioskowania statystycznego. Dla
przyk³adu mo¿emy spodziewaæ siê, ¿e stan
uzêbienia u okreœlonego pacjenta jest œciœle uwarunkowany przez utrzymywan¹
przez niego higienê jamy ustnej co powoduje, ¿e wskaŸniki cz¹stkowe P, U oraz W
bêd¹ dla tego¿ pacjenta silnie skorelowa-
In biomedical research we often
have to deal with data organized in the
specific multilevel structure. Their
characteristic feature is usually found
correlation between measurements at
various levels of the hierarchy. This
makes impossible the traditional least
squares method approach in estimation of variance and requires the use
of more advanced methods. The paper presents an overview of the most
commonly used techniques and discusses the specific example of their
medical advantages and disadvantages.
ne. O ile analiza danych powi¹zanych nie
stanowi wiêkszego problemu analitycznego,
o tyle badania prowadzone ze strukturami
hierarchicznymi danych s¹ wielokrotnie prowadzone w sposób nieprawid³owy [1,2].
Celem prezentowanego artyku³u jest zapoznanie czytelnika z technikami stosowanymi przy analizie takich danych, ich zaletami
i wadami.
Opis struktury analizowanych danych
(description of structure of analyzed
data)
Wszystkie prezentowane w pracy obliczenia zilustrowano przy u¿yciu zmodyfikowanych danych GABABIES DATA [3] dostêpnych w Internecie pod adresem http://
www.epibiostat.ucsf.edu/biostat/vgsm/data.html Dotycz¹ one mas urodzeniowych
dzieci urodzonych w pewnym okresie czasu w stanie Georgia z kolejnych piêciu ci¹¿
u ka¿dej matki. Struktura eksperymentu jest
jawnie hierarchiczna, gdy¿ poziom pierwszy
danych (1000 mas urodzeniowych dzieci)
jest zanurzony w poziomie drugim (200
matek). Nale¿y podejrzewaæ, ¿e pewne
czynniki (np. genetyczne, socjoekonomiczne) mog¹ warunkowaæ skorelowanie danych
w obrêbie ka¿dej jednostki poziomu drugiego. Widaæ zatem, ¿e zebrane dane nie s¹
w pe³ni niezale¿ne. Spróbujemy oceniæ, jak
skorelowanie wewn¹trzklasowe wp³ywa na
wartoœci estymatorów budowanych przez
nas modeli. Do oryginalnych danych wygenerowano dodatkowo w sposób losowy
zmienn¹ dychotomiczn¹ palenie tytoniu
przez matkê w okresie ci¹¿y (159 - nie pali,
41- pali). Jak zatem widaæ uzyskiwane w
naszym eksperymencie wnioski stanowi¹
ilustracjê do zagadnieñ statystycznych i pod
¿adnym pozorem nie nale¿y ich traktowaæ
965
Rycina 1
Porównanie masy urodzeniowej w grupach matek pal¹cych i niepal¹cych przy
u¿yciu parametrycznego testu t-Studenta dla zmiennych niepowi¹zanych z
poprawk¹ na niejednorodnoœæ wariancji oraz nieparametrycznym testem MannaWhitneya.
Comparison of birthweights between smoking and non-smoking mothers using
parametric t-Student test with correction for non homogenous variances and
nonparametric Mann-Whitney test.
jako rzeczywiste spostrze¿enia epidemiologiczne czy te¿ toksykologiczne. Spróbujemy odpowiedzieæ na dwa pytania: czy palenie tytoniu zmniejsza w sposób istotny masê
urodzeniow¹ noworodka oraz czy istnieje
zale¿noœæ miêdzy mas¹ urodzeniow¹ dziecka i wiekiem matki. Wszystkie obliczenia
realizowane by³y przy u¿yciu oprogramowania STATA/IC v.11.2 [6] oraz specjalistycznego pakietu do modelowania wielopoziomowego MLwiN v. 2.23 opracowanego na
Uniwersytecie Bristol w Wielkiej Brytanii
[4,5].
Analiza danych o strukturze
klasterowej metod¹ zagregowanych
poziomów oraz resamplingu
(Clustered data analysis with
Aggregate Level and resampling
methods)
Jednym z czêsto pope³nianych b³êdów
jest próba standardowego podejœcia do zagadnienia i bezpoœrednie zastosowanie testu t-Studenta dla zmiennych niepowi¹zanych (lub nieparametrycznego odpowiednika takiego jak test Manna-Whitneya). Jak
widaæ z wyników zamieszczonych na ryc.
1 obserwujemy istotn¹ statystycznie ró¿nicê w œredniej masie urodzeniowej noworodków miêdzy grupami matek pal¹cych i niepal¹cych (rycina 1).
Niestety wyniki te obarczone s¹ zasadniczym b³êdem - bior¹c do obliczeñ wszystkie dane nie uwzglêdniliœmy mo¿liwego
skorelowania danych w obrêbie ka¿dej
matki. Dodatkowo tracimy cenn¹ informacjê na temat ewentualnych zmian masy uro-
966
Rycina 2
Porównanie uœrednionych mas urodzeniowych w grupach matek pal¹cych i
niepal¹cych przy u¿yciu parametrycznego testu t-Studenta dla zmiennych
niepowi¹zanych z poprawk¹ na niejednorodnoœæ wariancji oraz
nieparametrycznym testem Manna-Whitneya.
Comparison of averaged birthweights between smoking and non-smoking mothers
using parametric t-Student test with correction for non homogenous variances and
nonparametric Mann-Whitney test.
dzeniowej dzieci w trakcie kolejnych ci¹¿.
Próba obejœcia b³êdu zwi¹zanego ze skorelowaniem danych realizowana jest zazwyczaj poprzez u¿ycie tak zwanych miar podsumowuj¹cych. Najprostsze dwie techniki
to uœrednienie pomiarów w obrêbie poziomu drugiego (matki) (rycina 2) albo tzw. resampling polegaj¹cy na losowym wyborze
jednego z pomiarów w obrêbie ka¿dej jednostki poziomu drugiego (rycina 3).
Jakkolwiek mog³oby siê wydawaæ, ¿e
uniknêliœmy w ten sposób b³êdu zwi¹zanego z brakiem uwzglêdnienia struktury hierarchicznej, utraciliœmy jednak wiele wartoœciowych informacji (przy resamplingu odrzuciliœmy 80% zebranych wyników). Pamiêtajmy równie¿, ¿e œrednia arytmetyczna jest miar¹ czu³¹ na wyniki skrajne i dlatego ³atwo otrzymaæ wyniki obci¹¿one. Opisana technika podejœcia do danych sklasteryzowanych nosi ogóln¹ nazwê metody zagregowanych poziomów (aggregated levels).
Podobny problem napotkamy w zagadnieniach regresyjnych. Gdybyœmy dla przyk³adu chcieli zbadaæ zwi¹zek miêdzy mas¹
urodzeniow¹ a wiekiem matki w trakcie porodu wystêpowanie skorelowania danych
(ryc.4) spowoduje nieprawid³ow¹ estymacjê
parametrów regresj (rycina 4).
Zwi¹zane jest to z faktem, ¿e do ich
oszacowania u¿ywamy standardowo techniki najmniejszych kwadratów (OLS - ordinary least squares), która w przypadku wystêpowania struktur hierarchicznych w danych nie jest adekwatn¹. Brak odpowiednioœci wynika wprost z faktu, ¿e podstawowym za³o¿eniem w modelu regresji liniowej
Przegl¹d Lekarski 2011 / 68 / 10
jest niezale¿noœæ danych a wprowadzona
klasteryzacja niezale¿noœæ tak¹ narusza.
Skutkiem tego b³êdy estymatorów regresyjnych zostaj¹ zazwyczaj zani¿one, co mo¿e
prowadziæ do nieprawid³owego wnioskowania na temat istotnoœci wyników.
Zasadnicz¹ trudnoœæ w badaniach z
danymi klasteryzowanymi stanowi ustalenie
struktury wystêpuj¹cego typu skorelowania.
W naszym przypadku mamy do czynienia z
najprostszym typem - skorelowaniem wymiennym (exchangeable correlation) co
oznacza, ¿e wszystkie wartoœci wspó³czynników korelacji s¹ zbli¿one (rycina 5).
Struktura ta pojawia siê w sytuacjach,
gdy zak³adamy ¿e w obrêbie klasteru nie ma
¿adnych wyró¿nionych obiektów. W istocie
u ¿adnej z 200 matek nie widzimy powodu
aby w jakiœ szczególny sposób wyró¿niæ któreœ z piêciu dzieci ( cz³onków klasteru). Jednak¿e w ogólnoœci mog¹ pojawiæ siê bardziej z³o¿one struktury skorelowania takie
jak autoregresyjne (autoregressive), bez
wyraŸnej struktury wewnêtrznej (unstructured), stacjonarne (stationary) lub niestacjonarne (nonstationary) [6]. Poniewa¿ ustalenie odpowiedniej struktury korelacyjnej
mo¿e stanowiæ du¿y problem, dlatego opracowano strategiê opart¹ na tzw. elastycznych b³êdach standardowych (robust standard errors - RSE). W tym podejœciu roboczo zak³adamy, ¿e pomiary s¹ w pe³ni niezale¿ne i konstruujemy wymagany model (w
naszym przypadku model regresji liniowej
wi¹¿¹cy masê urodzeniow¹ dziecka z wiekiem matki) klasyczn¹ metod¹ najmniejszych kwadratów. O ile same wspó³czynniki regresji bêd¹ numerycznie poprawne, o
J.A. Moczko
Rycina 4
Wartoœci statystyki opisowej oraz wspó³czynnik korelacji liniowej dla masy
urodzeniowej i wieku matki.
Descriptive statistics and linear correlation coefficient for bithweight and mother's age.
Rycina 3
Porównanie losowanych technik¹ warstwow¹ mas urodzeniowych w grupach
matek pal¹cych i niepal¹cych przy u¿yciu parametrycznego testu t-Studenta
dla zmiennych niepowi¹zanych z poprawk¹ na niejednorodnoœæ wariancji oraz
nieparametrycznym testem Manna-Whitneya..
Comparison of stratified sampled birthweights between smoking and non-smoking
mothers using parametric t-Student test with correction for non homogenous
variances and nonparametric Mann-Whitney test.
Rycina 6
Model analizy regresji liniowej dla nieklasteryzowanych danych masy
urodzeniowej (zmienna zale¿na) i wieku matki (zmienna niezale¿na) z elastyczn¹
estymacj¹ wariancji metod¹ Huber/White/sandwich
Linear regression model for not clustered data of birthweight ( dependent variable)
and mother's age (independent variable) with robust Huber/White/sandwich estimation
of variance.
tyle oszacowanie ich b³êdów standardowych
bêdzie nieprawid³owe ( z powodu istniej¹cego w rzeczywistoœci skorelowania danych). Strategia RSE koryguje zatem wartoœci b³êdów standardowych estymatorów
regresji obliczonych przy za³o¿eniu braku
skorelowania, nie koryguje natomiast ze
wzglêdu na klasteryzacjê wartoœci samych
estymatorów regresji. Wyniki analizy dotycz¹cej postawionego przez nas problemu z u¿yciem strategii RSE przedstawia rycina 6.
Porównuj¹c aktualne wyniki z wynikami zamieszczonymi na rys. 5 widzimy, ¿e
wartoœci estymatorów nachylenia i odciêcia
s¹ identyczne. B³êdy estymacji zarówno
wspó³czynnika nachylenia, jak i odciêcia
uleg³y powiêkszeniu, co wp³ywa na obni¿enie wartoœci statystyki t w teœcie Walda.
Widzimy zatem, ¿e nie uwzglêdniaj¹c klasteryzacji danych mo¿emy uzyskaæ efekt
pozornej istotnoœci zwi¹zku miêdzy badanymi zmiennymi. Aczkolwiek metoda RSE
Przegl¹d Lekarski 2011 / 68 / 10
Rycina 5
Model analizy regresji liniowej dla nieklasteryzowanych danych masy
urodzeniowej (zmienna zale¿na) i wieku matki (zmienna niezale¿na) z klasycznym
oszacowaniem wariancji metod¹ najmniejszych kwadratów.
Linear regression model for not clustered data of birthweight (dependent variable)
and mother's age (independent variable) with ordinary least squares estimation of
variance.
Rycina 7
Wielowymiarowy model analizy regresji liniowej dla nieklasteryzowanych danych
masy urodzeniowej (zmienna zale¿na) i wieku matki oraz statusu palenia tytoniu
(zmienne niezale¿ne) z klasycznym oszacowaniem wariancji metod¹
najmniejszych kwadratów.
Multivariate linear regression model for not clustered data of birthweight (dependent
variable) versus mother's age and smoking status (independent variables) with ordinary
least squares estimation of variance.
jest prosta obliczeniowo, mo¿e byæ zastosowana jedynie w przypadku du¿ej liczebnoœci klasterów (powy¿ej 30) i niestety nie
modyfikuje ze wzglêdu na skorelowanie danych samych estymatorów regresji.
Podobn¹ sytuacjê zaobserwujemy buduj¹c bardziej z³o¿one wielowymiarowe modele regresyjne. Na rycinach 7 i 8 prezentujemy wyniki analiz po w³¹czeniu do modelu
kolejnej zmiennej - statusu palenia tytoniu.
Rozwi¹zanie problemu metod¹ uogólnionych równañ estymacyjnych (Generalized Estimating Equations approach)
Bardziej zaawansowane podejœcie do
badañ nad strukturami danych hierarchicznych opiera siê na dwóch technikach: uogólnionych równañ estymacyjnych ( Generalized Estimating Equations - GEE) oraz modelowania efektów losowych (Random Effects Model - REM). Aby lepiej zrozumieæ
sposób dzia³ania tych metod wprowadzimy
najpierw pojêcie modelu marginalnego (
okreœlanego równie¿ jako model uœredniony po populacji) oraz modelu warunkowego
(swoistego dla obiektu)[3]. Model marginalny nie ró¿ni siê niczym od uogólnionego
modelu liniowego GLM dla danych niezale¿nych, zatem interpretacja parametrów
regresji nie jest w ¿aden sposób zmieniona
poprzez charakter zale¿noœci miêdzy pomiarami w obrêbie klasteru. Mo¿emy zatem
interpretowaæ wspó³czynniki regresji jako
uœrednione po ca³ej populacji zmiany zmiennej odpowiedzi ( zmiennej zale¿nej) na jednostkow¹ zmianê predyktora. Ca³kiem inna
sytuacja zachodzi w przypadku modelu warunkowego. Budujemy tutaj seriê modeli
specyficznych dla poszczególnych klasterów, zatem interpretacja wspó³czynników
regresji jest odmienna - oznaczaj¹ one specyficzne zmiany zmiennej odpowiedzi na
skutek jednostkowej zmiany predyktora dla
ka¿dego klasteru w populacji. Uœredniaj¹c
po ca³ej populacji (wszystkich klasterach)
967
Rycina 8
Wielowymiarowy model analizy regresji liniowej dla nieklasteryzowanych
danych masy urodzeniowej (zmienna zale¿na) i wieku matki oraz statusu palenia
tytoniu (zmienne niezale¿ne) z elastyczn¹ estymacj¹ wariancji metod¹ Huber/
White/sandwich.
Multivariate linear regression model for not clustered data of birthweight (dependent
variable) versus mother's age and smoking status (independent variables) with robust
Huber/White/sandwich estimation of variance.
Rycina 9
Konstrukcja prostego modelu regresji liniowej z uwzglêdnieniem klasteryzacji
technik¹ uogólnionych równañ estymacyjnych GEE z klasycznym oszacowaniem
wariancji metod¹ najmniejszych kwadratów.
Simple linear regression model based on clustered data using GEE population-averaged
technique with ordinary least squares estimation of variance.
Rycina 10
Konstrukcja prostego modelu regresji liniowej z uwzglêdnieniem klasteryzacji
technik¹ uogólnionych równañ estymacyjnych GEE z elastyczn¹ estymacj¹
wariancji metod¹ Huber/White/sandwich.
Simple linear regression model based on clustered data using GEE population-averaged
technique with robust Huber/White/sandwich estimation of variance.
Rycina 11
Konstrukcja wielowymiarowego modelu regresji liniowej z uwzglêdnieniem
klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z klasycznym
oszacowaniem wariancji metod¹ najmniejszych kwadratów.
Multivariate linear regression model based on clustered data using GEE populationaveraged technique with ordinary least squares estimation of variance.
Rycina 12
Konstrukcja wielowymiarowego modelu regresji liniowej z uwzglêdnieniem
klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z elastyczn¹
estymacj¹ wariancji metod¹ Huber/White/sandwich.
Multivariate linear regression model based on clustered data using GEE populationaveraged technique with robust Huber/White/sandwich estimation of variance.
Rycina 13
Wyniki estymacji nieparametrycznej wp³ywu klimatyzowania pomieszczenia na
czas reakcji na bodziec wzrokowy.
Results of nonparametric analysis of the influence of air conditioning on time response
to visual stimulus.
modele warunkowe mo¿emy wydobyæ informacjê marginaln¹. Pamiêtajmy jednak¿e, ¿e
kszta³t tak uzyskanego modelu marginalnego bêdzie siê zawsze ró¿ni³ od kszta³tu modeli swoistych dla klasteru. Wspó³czynniki
regresji modelu warunkowego s¹ zazwyczaj
wiêksze od wspó³czynników modelu marginalnego.
968
PrzejdŸmy zatem do techniki uogólnionych równañ estymacyjnych GEE. S³u¿y
ona do konstrukcji modeli typu marginalnego. Testowanie hipotez t¹ metod¹ opiera siê
na teœcie Walda który zak³ada, ¿e ilorazy
wartoœci estymatorów i b³êdów standardowych ich wyznaczenia maj¹ w przybli¿eniu
Przegl¹d Lekarski 2011 / 68 / 10
rozk³ad normalny. Na rycinach 9 i 10 przytaczamy wyniki obliczeñ wykonanych t¹
technik¹ odpowiednio dla klasycznej (OLS)
i opartych na estymatorze Huber/White/
sandwich oszacowaniach b³êdów standardowych w przypadku prostego modeli regresji liniowej.
J.A. Moczko
Rycina 14
Graficzne przedstawienie zale¿noœci masy
urodzeniowej dziecka od wieku matki przy
pominiêciu struktury klasterowej (zmiennoœæ na
poziomie 1 - dziecko).
Graphical presentation of birthweight and mother's age
dependence omitting cluster data structure ( variance
on first level - child).
Rycina 15
Graficzne przedstawienie zale¿noœci masy
urodzeniowej dziecka od wieku matki przy
uwzglêdnieniu struktury klasterowej (zmiennoœæ na
poziomie 2 - matka) - model losowych
wspó³czynników odciêcia (RIM).
Graphical presentation of birthweight and mother's age
dependence taking into account cluster data structure
( variance on second level - mother) - radom intercept
model (RIM).
Rycina 16
Graficzne przedstawienie zale¿noœci masy
urodzeniowej dziecka od wieku matki przy
uwzglêdnieniu struktury klasterowej (zmiennoœæ na
poziomie 2 - kolejny poród) - model losowych
wspó³czynników nachyleñ (RSM).
Graphical presentation of birthweight and mother's age
dependence taking into account cluster data structure
(variance on second level - birth order) - radom slope
model (RSM).
Przegl¹d Lekarski 2011 / 68 / 10
969
Para rycin 11 i 12 przytacza podobnie
przeprowadzone analizy w przypadku modeli wielowymiarowych.
Podstawow¹ zalet¹ metody uogólnionych równañ estymacyjnych GEE jest mo¿liwoœæ okreœlenia na podstawie samych danych istniej¹cej struktury korelacyjnej bez
koniecznoœci tworzenia jakichkolwiek wstêpnych za³o¿eñ. W rozwi¹zywanym przez nas
problemie strukturê hierarchiczn¹ do modelu
w komendzie xtgee wnosi parametr i(matka). Dopuszczalne s¹ rozmaite liczebnoœci
elementów w klasterach, co czyni technikê
bardziej elastyczn¹.
Konstruowanie modeli
wielopoziomowych
(multilevel modelling)
Najwiêksze mo¿liwoœci w zakresie badania danych sklasteryzowanych daje nam
technika tworzenia modeli wielopoziomowych ( multilevel modelling) [3,4,5]. Opiera
siê ona na wystêpowaniu rozmaitych poziomów zmiennoœci. Do analiz wykorzystamy
program MLwiN v.2.23. W naszym przyk³adzie poziom pierwszy zmiennoœci masy urodzeniowej wystêpuje miêdzy poszczególnymi dzieæmi, drugi zaœ miêdzy ich matkami.
Rycina 13 przedstawia rozrzut wartoœci
masy urodzeniowej w funkcji wieku matki dla
wszystkich 1000 badanych dzieci bez
uwzglêdnienia informacji, ¿e niektóre z nich
pochodz¹ od tych samych matek.
Na pocz¹tku wytworzymy model ilustruj¹cy zale¿noœæ liniow¹ miêdzy badanymi
wielkoœciami nie zwracaj¹c uwagi na wystêpuj¹c¹ klasteryzacjê.
Model sk³ada siê z czêœci sta³ej
oraz z czêœci losowej
Czêœæ losowa wyznaczona jest jako odleg³oœæ wartoœci masy urodzeniowej konkretnego dziecka od wartoœci masy urodzeniowej prognozowanej na podstawie czêœci
sta³ej modelu.
Jak widaæ wyniki zgadzaj¹ siê z prezentowanymi na rysunku 5 uzyskanymi zwyczajn¹ metod¹ najmniejszych kwadratów OLS.
Czêœæ losowa ma rozk³ad normalny z wartoœci¹ œredni¹ 0 i odchyleniem standardowym 568.645. Wartoœæ -2*loglikelihood to
podwojona wartoœæ logarytmu wiarygodnoœci modelu, któr¹ bêdziemy u¿ywali do porównywania jakoœci ró¿nych modeli. Wartoœci zamieszczone w nawiasach obok wartoœci estymatorów odciêcia i nachylenia
oznaczaj¹ standardowy b³¹d odpowiedniego estymatora. Istotnoœæ obu estymatorów
badamy testem Walda (dziel¹c wartoœæ estymatora przez standardowy b³¹d jego wyznaczania i obliczaj¹c wartoœæ p odpowiadaj¹c¹ prawdopodobieñstwu pojawienia siê
takiej wartoœci ilorazu (ogon rozk³adu normalnego - normal distribution tail area)). Gra970
ficzne przedstawienie tej zale¿noœci przedstawia rycina 14.
PrzejdŸmy teraz do struktury dwupoziomowej. Nasz model przyjmie postaæ
a wiêc ró¿ni siê od poprzedniego modelu dodatkowym indeksem (matka) okreœlaj¹cym poziom klasteryzacji danych. Na
pocz¹tku zezwolimy, aby wspó³czynnik odciêcia zmienia³ siê losowo pomiêdzy matkami (zak³adamy, ¿e dla ka¿dej matki zale¿noœæ miêdzy jej wiekiem a mas¹ urodzeniow¹ dziecka ró¿ni siê jedynie o wartoœæ
sta³¹; innymi s³owy dla ka¿dej matki wartoœæ
wspó³czynnika nachylenia ß1 jest taki sam).
Otrzymamy model o postaci
Zajmiemy siê teraz jeszcze bardziej z³o¿on¹ konstrukcj¹ - modelem losowych nachyleñ (RSM - Random Slope Model). Jego
ogólna struktura ma postaæ
Jak widaæ, oba parametry regresji maj¹
charakter losowy:
wspó³czynnik odciêcia
oraz wspó³czynnik nachylenia
Jak widaæ, uwzglêdnienie struktury hierarchicznej zmniejszy³o wartoœæ wspó³czynnika nachylenia z 23.952 do 22.770, lecz jak
³atwo sprawdziæ nadal wartoœæ ta jest istotna statystycznie. Skonstruowany model
obejmuje zatem 200 równoleg³ych do siebie prostych (dla ka¿dej matki jedna prosta)
o wspólnym wspó³czynniku nachylenia
22.770 i ró¿ni¹cych siê od siebie wspó³czynnikach odciêcia o wartoœci
gdzie czynnik u0 matka opisuje rozk³ad statystyczny czêœci losowej wspó³czynnika odciêcia
Tak wytworzony model nazywamy modelem losowego odciêcia ( RIM - Random
Intercept Model). Jego graficzna interpretacja przedstawiona jest na rycinie 15.
Wariancja se2 opisuje zmiennoœæ pomiarów na poziomie pierwszym (dzieci), natomiast wariancja su0 2 - zmiennoœæ na poziomie drugim ( matki). W ten sposób wariancja ca³kowita zostaje rozdzielona na
sk³adowe odpowiadaj¹ce dwom poziomom
hierarchii, co pozwala wyznaczyæ podobieñstwo obiektów w obrêbie pojedynczego klasteru. Miara o postaci
zwana jest wspó³czynnikiem korelacji
wewn¹trzklasowej (ICC - intra-class correlation) i wyra¿a proporcjê zmiennoœci miêdzygrupowej do zmiennoœci ca³kowitej. Podstawiaj¹c odpowiednie wartoœci wariancji do
wzoru dojdziemy do wniosku ponad 38.8%
zmiennoœci ca³kowitej wynika ze zmiennoœci miêdzyklasterowej. Drugi model istotnie lepiej opisuje rzeczywistoœæ, co mo¿na
stwierdziæ odejmuj¹c od siebie wyznaczone dla ka¿dego modelu wartoœci logarytmów
wiarygodnoœci i porównuj¹c je z ogonem
rozk³adu Chi2 z jednym stopniem swobody
(15524.389 - 15318.995= 205.394, odpowiadaj¹ca wartoœæ p = 1.3894e-046).
Przegl¹d Lekarski 2011 / 68 / 10
Zmieniaj¹ siê one od matki do matki a
ich wariancje wynosz¹ odpowiednio
oraz
Dodatkowo pojawiaj¹ca siê wielkoœæ su01
to kowariancja miêdzy wartoœciami odciêæ i
nachyleñ. Dokonuj¹c estymacji dla naszego przyk³adu otrzymamy nastêpuj¹cy wynik
Zwróæmy uwagê na wartoœci podwojonego logarytmu wiarygodnoœci dla modelu
losowych odciêæ (15318.995) i modelu losowych nachyleñ (15524.389) i porównajmy ró¿nicê tych wartoœci z ogonem rozk³adu Chi2 z dwoma stopniami swobody. Jak
widaæ ostatnio wytworzony model jest istotnie gorszy od modelu losowych odciêæ i dlatego ostatecznie wybrany przez nas model
zale¿noœci miêdzy mas¹ urodzeniow¹ dziecka a wiekiem matki przy uwzglêdnieniu
struktury hierarchicznej to model losowych
odciêæ RIM.
Aby pokazaæ graficzn¹ interpretacjê
modelu losowych nachyleñ wykonano dodatkowe obliczenia zale¿noœci masy urodzeniowej noworodka i wieku matki bior¹c pod
uwagê inny typ klasteryzacji - numer kolejnego porodu u matki. Przy tego typu badaniu zaobserwowano adekwatnoœæ u¿ycia
modelu losowych nachyleñ (RSM), którego
parametry s¹ nastêpuj¹ce
Rycina 16 ilustruje przedstawienie graficzne dla modelu RSM.
Podejœcie do modelowania danych hierarchicznych technik¹ efektów losowych
pozwala równie¿ na stosunkowo prost¹ ana-
J.A. Moczko
lizê struktur hierarchicznych wielowymiarowych. Dodanie do poprzednio zbudowanego modelu losowych odciêæ dodatkowej
zmiennej dotycz¹cej palenia tytoniu przez
matkê doprowadzi nas do ostatecznej postaci modelu wi¹¿¹cego badane przez nas
wielkoœci
Podsumowanie
W poprzednich rozdzia³ach pokazano,
jak istotny wp³yw na uzyskane wyniki ma
prawid³owe rozpoznanie struktury danych,
sposobu ich skorelowania oraz doboru od-
Przegl¹d Lekarski 2011 / 68 / 10
powiednich technik estymacji wariancji.
Przedstawione przyk³ady dotyczy³y wy³¹cznie regresji liniowej zak³adaj¹cej rozk³ad
normalny zmiennych ale w podobny sposób mo¿na modelowaæ dane bior¹c pod
uwagê inne rozk³ady np. binomialny, multinomialny, Poissona itd. Dopuszczalne s¹
rozmaite postacie funkcji wi¹¿¹cych np. logitowe, probitowe, cloglog. Przy ka¿dym
modelowaniu nale¿y jednak¿e pamiêtaæ o
obowi¹zuj¹cych za³o¿eniach, które nale¿y
sprawdzaæ niezwykle dok³adnie aby unikn¹æ
fa³szywych wniosków. Jak ³atwo zauwa¿yæ,
zasadnicze zmiany w wynikach obliczeñ
dotycz¹ oszacowania wariancji estymatorów, co wp³ywa bezpoœrednio na wynik wnioskowania na temat istotnoœci w³¹czenia predyktora do modelu. Poniewa¿ z regu³y obli-
czana metodami standardowymi wartoϾ
wariancji jest zani¿ana, brak uwzglêdnienia
klasteryzacji mo¿e doprowadziæ do nieuzasadnionego w³¹czania predyktorów do modelu.
Piœmiennictwo
1. Armitage P., Berry G., Matthews J.N.S.: Statistical
Methods in Medical Research. Blackwell Science,
Massachusetts, 2002.
2. Stephen S.: Cross-over trials in Clinical Research.
John Wiley & Sons. New York, 2002.
3. Vittinghoff E., Glidden D.V., Shiboski S.C.,
McCulloch C.E.: Regression Methods in Biostatistics. Linear, Logisic, Survival and Repeated Measures Models. Springer Science+Business Media, Inc.
2005.
4. MLwiN Version 2.23 - dokumentacja elektroniczna
(April,2011).
5. Goldstein H.: Multilevel Statistical Models - http://
www.arnoldpublishers.co/support/goldstein.htm
6. STATA/IC Version 11.2 - dokumentacja elektroniczna
(update 19 July,2011).
971
Download