PRACE POGL¥DOWE Jerzy A. MOCZKO Metody analizy danych o strukturze hierarchicznej Analysis Methods for Hierarchical Data Katedra i Zak³ad Informatyki i Statystyki, Uniwersytet Medyczny im. Karola Marcinkowskiego, Poznañ Kierownik: Prof. dr hab. Jerzy A. Moczko Dodatkowe s³owa kluczowe: modelowanie danych wielopoziomowych wnioskowanie statystyczne uogólnione równanie estymacyjne modele efektów losowych Additional key words: multilevel data modelling statistical inference general equation estimation random effects models W badaniach biomedycznych czêsto mamy do czynienia z danymi o specyficznej strukturze wielopoziomowej. Ich cech¹ charakterystyczn¹ jest wystêpuj¹ce zazwyczaj skorelowanie pomiêdzy pomiarami na rozmaitych poziomach hierarchii. Skorelowanie to uniemo¿liwia tradycyjne podejcie do estymacji wariancji metod¹ najmniejszych kwadratów i wymaga u¿ycia bardziej zaawansowanych metod. W pracy przedstawiono przegl¹d najczêciej stosowanych technik i omówiono na konkretnym przyk³adzie medycznym ich zalet i wady. Klasteryzacja danych a problem za³o¿enia ich niezale¿noci (Clustering of data and the problem of independence assumptions) Adres do korespondencji: Prof. dr hab. Jerzy A. Moczko Katedra i Zak³ad Informatyki i Statystyki Uniwersytet Medyczny 60-529 Poznañ, ul. D¹browskiego 79 Tel./faks: 61 841 11 16 e-mail: [email protected] Przegl¹d Lekarski 2011 / 68 / 10 Wnioskowanie statystyczne opiera siê na wyci¹ganiu konkluzji lub dokonywaniu predykcji na podstawie zebranych danych. Z regu³y w celu zbadania populacji pos³ugujemy siê reprezentatywn¹ prób¹ statystyczn¹. Jednym z warunków uzyskania reprezentatywnoci jest niezale¿noæ wyboru elementów w procesie próbkowania populacji. Wymóg ten nie zawsze mo¿e byæ spe³niony a typow¹ przyczyn¹ jest struktura danych powtarzanych lub danych hierarchicznych. Dla przyk³adu badanie czasu krzepliwoci krwi po podaniu warfaryny w leczeniu zakrzepicy ¿y³ g³êbokich wykonywane jest w grupie tych samych pacjentów w okrelonych chwilach czasu (przed rozpoczêciem leczenia, po podaniu pierwszej dawki, po 12, 24 i 36 godzinach po podaniu leku) i stanowi typowy schemat zmiennych powi¹zanych. Ocena wskanika intensywnoci próchnicy PUW w grupie pacjentów ilustruje przyk³ad struktury hierarchicznej dwupoziomowej (pierwszy poziom - zêby, drugi poziom - pacjenci). Czêsto pojawiaj¹cym siê b³êdem w analizie wyników badañ dowiadczalnych jest brak uwzglêdnienia ich struktury wewnêtrznej. Jak widaæ ze schematu prowadzonych badañ uzyskane dane nie s¹ w pe³ni niezale¿ne, co musi wywieraæ istotny wp³yw na wyniki wnioskowania statystycznego. Dla przyk³adu mo¿emy spodziewaæ siê, ¿e stan uzêbienia u okrelonego pacjenta jest cile uwarunkowany przez utrzymywan¹ przez niego higienê jamy ustnej co powoduje, ¿e wskaniki cz¹stkowe P, U oraz W bêd¹ dla tego¿ pacjenta silnie skorelowa- In biomedical research we often have to deal with data organized in the specific multilevel structure. Their characteristic feature is usually found correlation between measurements at various levels of the hierarchy. This makes impossible the traditional least squares method approach in estimation of variance and requires the use of more advanced methods. The paper presents an overview of the most commonly used techniques and discusses the specific example of their medical advantages and disadvantages. ne. O ile analiza danych powi¹zanych nie stanowi wiêkszego problemu analitycznego, o tyle badania prowadzone ze strukturami hierarchicznymi danych s¹ wielokrotnie prowadzone w sposób nieprawid³owy [1,2]. Celem prezentowanego artyku³u jest zapoznanie czytelnika z technikami stosowanymi przy analizie takich danych, ich zaletami i wadami. Opis struktury analizowanych danych (description of structure of analyzed data) Wszystkie prezentowane w pracy obliczenia zilustrowano przy u¿yciu zmodyfikowanych danych GABABIES DATA [3] dostêpnych w Internecie pod adresem http:// www.epibiostat.ucsf.edu/biostat/vgsm/data.html Dotycz¹ one mas urodzeniowych dzieci urodzonych w pewnym okresie czasu w stanie Georgia z kolejnych piêciu ci¹¿ u ka¿dej matki. Struktura eksperymentu jest jawnie hierarchiczna, gdy¿ poziom pierwszy danych (1000 mas urodzeniowych dzieci) jest zanurzony w poziomie drugim (200 matek). Nale¿y podejrzewaæ, ¿e pewne czynniki (np. genetyczne, socjoekonomiczne) mog¹ warunkowaæ skorelowanie danych w obrêbie ka¿dej jednostki poziomu drugiego. Widaæ zatem, ¿e zebrane dane nie s¹ w pe³ni niezale¿ne. Spróbujemy oceniæ, jak skorelowanie wewn¹trzklasowe wp³ywa na wartoci estymatorów budowanych przez nas modeli. Do oryginalnych danych wygenerowano dodatkowo w sposób losowy zmienn¹ dychotomiczn¹ palenie tytoniu przez matkê w okresie ci¹¿y (159 - nie pali, 41- pali). Jak zatem widaæ uzyskiwane w naszym eksperymencie wnioski stanowi¹ ilustracjê do zagadnieñ statystycznych i pod ¿adnym pozorem nie nale¿y ich traktowaæ 965 Rycina 1 Porównanie masy urodzeniowej w grupach matek pal¹cych i niepal¹cych przy u¿yciu parametrycznego testu t-Studenta dla zmiennych niepowi¹zanych z poprawk¹ na niejednorodnoæ wariancji oraz nieparametrycznym testem MannaWhitneya. Comparison of birthweights between smoking and non-smoking mothers using parametric t-Student test with correction for non homogenous variances and nonparametric Mann-Whitney test. jako rzeczywiste spostrze¿enia epidemiologiczne czy te¿ toksykologiczne. Spróbujemy odpowiedzieæ na dwa pytania: czy palenie tytoniu zmniejsza w sposób istotny masê urodzeniow¹ noworodka oraz czy istnieje zale¿noæ miêdzy mas¹ urodzeniow¹ dziecka i wiekiem matki. Wszystkie obliczenia realizowane by³y przy u¿yciu oprogramowania STATA/IC v.11.2 [6] oraz specjalistycznego pakietu do modelowania wielopoziomowego MLwiN v. 2.23 opracowanego na Uniwersytecie Bristol w Wielkiej Brytanii [4,5]. Analiza danych o strukturze klasterowej metod¹ zagregowanych poziomów oraz resamplingu (Clustered data analysis with Aggregate Level and resampling methods) Jednym z czêsto pope³nianych b³êdów jest próba standardowego podejcia do zagadnienia i bezporednie zastosowanie testu t-Studenta dla zmiennych niepowi¹zanych (lub nieparametrycznego odpowiednika takiego jak test Manna-Whitneya). Jak widaæ z wyników zamieszczonych na ryc. 1 obserwujemy istotn¹ statystycznie ró¿nicê w redniej masie urodzeniowej noworodków miêdzy grupami matek pal¹cych i niepal¹cych (rycina 1). Niestety wyniki te obarczone s¹ zasadniczym b³êdem - bior¹c do obliczeñ wszystkie dane nie uwzglêdnilimy mo¿liwego skorelowania danych w obrêbie ka¿dej matki. Dodatkowo tracimy cenn¹ informacjê na temat ewentualnych zmian masy uro- 966 Rycina 2 Porównanie urednionych mas urodzeniowych w grupach matek pal¹cych i niepal¹cych przy u¿yciu parametrycznego testu t-Studenta dla zmiennych niepowi¹zanych z poprawk¹ na niejednorodnoæ wariancji oraz nieparametrycznym testem Manna-Whitneya. Comparison of averaged birthweights between smoking and non-smoking mothers using parametric t-Student test with correction for non homogenous variances and nonparametric Mann-Whitney test. dzeniowej dzieci w trakcie kolejnych ci¹¿. Próba obejcia b³êdu zwi¹zanego ze skorelowaniem danych realizowana jest zazwyczaj poprzez u¿ycie tak zwanych miar podsumowuj¹cych. Najprostsze dwie techniki to urednienie pomiarów w obrêbie poziomu drugiego (matki) (rycina 2) albo tzw. resampling polegaj¹cy na losowym wyborze jednego z pomiarów w obrêbie ka¿dej jednostki poziomu drugiego (rycina 3). Jakkolwiek mog³oby siê wydawaæ, ¿e uniknêlimy w ten sposób b³êdu zwi¹zanego z brakiem uwzglêdnienia struktury hierarchicznej, utracilimy jednak wiele wartociowych informacji (przy resamplingu odrzucilimy 80% zebranych wyników). Pamiêtajmy równie¿, ¿e rednia arytmetyczna jest miar¹ czu³¹ na wyniki skrajne i dlatego ³atwo otrzymaæ wyniki obci¹¿one. Opisana technika podejcia do danych sklasteryzowanych nosi ogóln¹ nazwê metody zagregowanych poziomów (aggregated levels). Podobny problem napotkamy w zagadnieniach regresyjnych. Gdybymy dla przyk³adu chcieli zbadaæ zwi¹zek miêdzy mas¹ urodzeniow¹ a wiekiem matki w trakcie porodu wystêpowanie skorelowania danych (ryc.4) spowoduje nieprawid³ow¹ estymacjê parametrów regresj (rycina 4). Zwi¹zane jest to z faktem, ¿e do ich oszacowania u¿ywamy standardowo techniki najmniejszych kwadratów (OLS - ordinary least squares), która w przypadku wystêpowania struktur hierarchicznych w danych nie jest adekwatn¹. Brak odpowiednioci wynika wprost z faktu, ¿e podstawowym za³o¿eniem w modelu regresji liniowej Przegl¹d Lekarski 2011 / 68 / 10 jest niezale¿noæ danych a wprowadzona klasteryzacja niezale¿noæ tak¹ narusza. Skutkiem tego b³êdy estymatorów regresyjnych zostaj¹ zazwyczaj zani¿one, co mo¿e prowadziæ do nieprawid³owego wnioskowania na temat istotnoci wyników. Zasadnicz¹ trudnoæ w badaniach z danymi klasteryzowanymi stanowi ustalenie struktury wystêpuj¹cego typu skorelowania. W naszym przypadku mamy do czynienia z najprostszym typem - skorelowaniem wymiennym (exchangeable correlation) co oznacza, ¿e wszystkie wartoci wspó³czynników korelacji s¹ zbli¿one (rycina 5). Struktura ta pojawia siê w sytuacjach, gdy zak³adamy ¿e w obrêbie klasteru nie ma ¿adnych wyró¿nionych obiektów. W istocie u ¿adnej z 200 matek nie widzimy powodu aby w jaki szczególny sposób wyró¿niæ które z piêciu dzieci ( cz³onków klasteru). Jednak¿e w ogólnoci mog¹ pojawiæ siê bardziej z³o¿one struktury skorelowania takie jak autoregresyjne (autoregressive), bez wyranej struktury wewnêtrznej (unstructured), stacjonarne (stationary) lub niestacjonarne (nonstationary) [6]. Poniewa¿ ustalenie odpowiedniej struktury korelacyjnej mo¿e stanowiæ du¿y problem, dlatego opracowano strategiê opart¹ na tzw. elastycznych b³êdach standardowych (robust standard errors - RSE). W tym podejciu roboczo zak³adamy, ¿e pomiary s¹ w pe³ni niezale¿ne i konstruujemy wymagany model (w naszym przypadku model regresji liniowej wi¹¿¹cy masê urodzeniow¹ dziecka z wiekiem matki) klasyczn¹ metod¹ najmniejszych kwadratów. O ile same wspó³czynniki regresji bêd¹ numerycznie poprawne, o J.A. Moczko Rycina 4 Wartoci statystyki opisowej oraz wspó³czynnik korelacji liniowej dla masy urodzeniowej i wieku matki. Descriptive statistics and linear correlation coefficient for bithweight and mother's age. Rycina 3 Porównanie losowanych technik¹ warstwow¹ mas urodzeniowych w grupach matek pal¹cych i niepal¹cych przy u¿yciu parametrycznego testu t-Studenta dla zmiennych niepowi¹zanych z poprawk¹ na niejednorodnoæ wariancji oraz nieparametrycznym testem Manna-Whitneya.. Comparison of stratified sampled birthweights between smoking and non-smoking mothers using parametric t-Student test with correction for non homogenous variances and nonparametric Mann-Whitney test. Rycina 6 Model analizy regresji liniowej dla nieklasteryzowanych danych masy urodzeniowej (zmienna zale¿na) i wieku matki (zmienna niezale¿na) z elastyczn¹ estymacj¹ wariancji metod¹ Huber/White/sandwich Linear regression model for not clustered data of birthweight ( dependent variable) and mother's age (independent variable) with robust Huber/White/sandwich estimation of variance. tyle oszacowanie ich b³êdów standardowych bêdzie nieprawid³owe ( z powodu istniej¹cego w rzeczywistoci skorelowania danych). Strategia RSE koryguje zatem wartoci b³êdów standardowych estymatorów regresji obliczonych przy za³o¿eniu braku skorelowania, nie koryguje natomiast ze wzglêdu na klasteryzacjê wartoci samych estymatorów regresji. Wyniki analizy dotycz¹cej postawionego przez nas problemu z u¿yciem strategii RSE przedstawia rycina 6. Porównuj¹c aktualne wyniki z wynikami zamieszczonymi na rys. 5 widzimy, ¿e wartoci estymatorów nachylenia i odciêcia s¹ identyczne. B³êdy estymacji zarówno wspó³czynnika nachylenia, jak i odciêcia uleg³y powiêkszeniu, co wp³ywa na obni¿enie wartoci statystyki t w tecie Walda. Widzimy zatem, ¿e nie uwzglêdniaj¹c klasteryzacji danych mo¿emy uzyskaæ efekt pozornej istotnoci zwi¹zku miêdzy badanymi zmiennymi. Aczkolwiek metoda RSE Przegl¹d Lekarski 2011 / 68 / 10 Rycina 5 Model analizy regresji liniowej dla nieklasteryzowanych danych masy urodzeniowej (zmienna zale¿na) i wieku matki (zmienna niezale¿na) z klasycznym oszacowaniem wariancji metod¹ najmniejszych kwadratów. Linear regression model for not clustered data of birthweight (dependent variable) and mother's age (independent variable) with ordinary least squares estimation of variance. Rycina 7 Wielowymiarowy model analizy regresji liniowej dla nieklasteryzowanych danych masy urodzeniowej (zmienna zale¿na) i wieku matki oraz statusu palenia tytoniu (zmienne niezale¿ne) z klasycznym oszacowaniem wariancji metod¹ najmniejszych kwadratów. Multivariate linear regression model for not clustered data of birthweight (dependent variable) versus mother's age and smoking status (independent variables) with ordinary least squares estimation of variance. jest prosta obliczeniowo, mo¿e byæ zastosowana jedynie w przypadku du¿ej liczebnoci klasterów (powy¿ej 30) i niestety nie modyfikuje ze wzglêdu na skorelowanie danych samych estymatorów regresji. Podobn¹ sytuacjê zaobserwujemy buduj¹c bardziej z³o¿one wielowymiarowe modele regresyjne. Na rycinach 7 i 8 prezentujemy wyniki analiz po w³¹czeniu do modelu kolejnej zmiennej - statusu palenia tytoniu. Rozwi¹zanie problemu metod¹ uogólnionych równañ estymacyjnych (Generalized Estimating Equations approach) Bardziej zaawansowane podejcie do badañ nad strukturami danych hierarchicznych opiera siê na dwóch technikach: uogólnionych równañ estymacyjnych ( Generalized Estimating Equations - GEE) oraz modelowania efektów losowych (Random Effects Model - REM). Aby lepiej zrozumieæ sposób dzia³ania tych metod wprowadzimy najpierw pojêcie modelu marginalnego ( okrelanego równie¿ jako model uredniony po populacji) oraz modelu warunkowego (swoistego dla obiektu)[3]. Model marginalny nie ró¿ni siê niczym od uogólnionego modelu liniowego GLM dla danych niezale¿nych, zatem interpretacja parametrów regresji nie jest w ¿aden sposób zmieniona poprzez charakter zale¿noci miêdzy pomiarami w obrêbie klasteru. Mo¿emy zatem interpretowaæ wspó³czynniki regresji jako urednione po ca³ej populacji zmiany zmiennej odpowiedzi ( zmiennej zale¿nej) na jednostkow¹ zmianê predyktora. Ca³kiem inna sytuacja zachodzi w przypadku modelu warunkowego. Budujemy tutaj seriê modeli specyficznych dla poszczególnych klasterów, zatem interpretacja wspó³czynników regresji jest odmienna - oznaczaj¹ one specyficzne zmiany zmiennej odpowiedzi na skutek jednostkowej zmiany predyktora dla ka¿dego klasteru w populacji. Uredniaj¹c po ca³ej populacji (wszystkich klasterach) 967 Rycina 8 Wielowymiarowy model analizy regresji liniowej dla nieklasteryzowanych danych masy urodzeniowej (zmienna zale¿na) i wieku matki oraz statusu palenia tytoniu (zmienne niezale¿ne) z elastyczn¹ estymacj¹ wariancji metod¹ Huber/ White/sandwich. Multivariate linear regression model for not clustered data of birthweight (dependent variable) versus mother's age and smoking status (independent variables) with robust Huber/White/sandwich estimation of variance. Rycina 9 Konstrukcja prostego modelu regresji liniowej z uwzglêdnieniem klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z klasycznym oszacowaniem wariancji metod¹ najmniejszych kwadratów. Simple linear regression model based on clustered data using GEE population-averaged technique with ordinary least squares estimation of variance. Rycina 10 Konstrukcja prostego modelu regresji liniowej z uwzglêdnieniem klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z elastyczn¹ estymacj¹ wariancji metod¹ Huber/White/sandwich. Simple linear regression model based on clustered data using GEE population-averaged technique with robust Huber/White/sandwich estimation of variance. Rycina 11 Konstrukcja wielowymiarowego modelu regresji liniowej z uwzglêdnieniem klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z klasycznym oszacowaniem wariancji metod¹ najmniejszych kwadratów. Multivariate linear regression model based on clustered data using GEE populationaveraged technique with ordinary least squares estimation of variance. Rycina 12 Konstrukcja wielowymiarowego modelu regresji liniowej z uwzglêdnieniem klasteryzacji technik¹ uogólnionych równañ estymacyjnych GEE z elastyczn¹ estymacj¹ wariancji metod¹ Huber/White/sandwich. Multivariate linear regression model based on clustered data using GEE populationaveraged technique with robust Huber/White/sandwich estimation of variance. Rycina 13 Wyniki estymacji nieparametrycznej wp³ywu klimatyzowania pomieszczenia na czas reakcji na bodziec wzrokowy. Results of nonparametric analysis of the influence of air conditioning on time response to visual stimulus. modele warunkowe mo¿emy wydobyæ informacjê marginaln¹. Pamiêtajmy jednak¿e, ¿e kszta³t tak uzyskanego modelu marginalnego bêdzie siê zawsze ró¿ni³ od kszta³tu modeli swoistych dla klasteru. Wspó³czynniki regresji modelu warunkowego s¹ zazwyczaj wiêksze od wspó³czynników modelu marginalnego. 968 Przejdmy zatem do techniki uogólnionych równañ estymacyjnych GEE. S³u¿y ona do konstrukcji modeli typu marginalnego. Testowanie hipotez t¹ metod¹ opiera siê na tecie Walda który zak³ada, ¿e ilorazy wartoci estymatorów i b³êdów standardowych ich wyznaczenia maj¹ w przybli¿eniu Przegl¹d Lekarski 2011 / 68 / 10 rozk³ad normalny. Na rycinach 9 i 10 przytaczamy wyniki obliczeñ wykonanych t¹ technik¹ odpowiednio dla klasycznej (OLS) i opartych na estymatorze Huber/White/ sandwich oszacowaniach b³êdów standardowych w przypadku prostego modeli regresji liniowej. J.A. Moczko Rycina 14 Graficzne przedstawienie zale¿noci masy urodzeniowej dziecka od wieku matki przy pominiêciu struktury klasterowej (zmiennoæ na poziomie 1 - dziecko). Graphical presentation of birthweight and mother's age dependence omitting cluster data structure ( variance on first level - child). Rycina 15 Graficzne przedstawienie zale¿noci masy urodzeniowej dziecka od wieku matki przy uwzglêdnieniu struktury klasterowej (zmiennoæ na poziomie 2 - matka) - model losowych wspó³czynników odciêcia (RIM). Graphical presentation of birthweight and mother's age dependence taking into account cluster data structure ( variance on second level - mother) - radom intercept model (RIM). Rycina 16 Graficzne przedstawienie zale¿noci masy urodzeniowej dziecka od wieku matki przy uwzglêdnieniu struktury klasterowej (zmiennoæ na poziomie 2 - kolejny poród) - model losowych wspó³czynników nachyleñ (RSM). Graphical presentation of birthweight and mother's age dependence taking into account cluster data structure (variance on second level - birth order) - radom slope model (RSM). Przegl¹d Lekarski 2011 / 68 / 10 969 Para rycin 11 i 12 przytacza podobnie przeprowadzone analizy w przypadku modeli wielowymiarowych. Podstawow¹ zalet¹ metody uogólnionych równañ estymacyjnych GEE jest mo¿liwoæ okrelenia na podstawie samych danych istniej¹cej struktury korelacyjnej bez koniecznoci tworzenia jakichkolwiek wstêpnych za³o¿eñ. W rozwi¹zywanym przez nas problemie strukturê hierarchiczn¹ do modelu w komendzie xtgee wnosi parametr i(matka). Dopuszczalne s¹ rozmaite liczebnoci elementów w klasterach, co czyni technikê bardziej elastyczn¹. Konstruowanie modeli wielopoziomowych (multilevel modelling) Najwiêksze mo¿liwoci w zakresie badania danych sklasteryzowanych daje nam technika tworzenia modeli wielopoziomowych ( multilevel modelling) [3,4,5]. Opiera siê ona na wystêpowaniu rozmaitych poziomów zmiennoci. Do analiz wykorzystamy program MLwiN v.2.23. W naszym przyk³adzie poziom pierwszy zmiennoci masy urodzeniowej wystêpuje miêdzy poszczególnymi dzieæmi, drugi za miêdzy ich matkami. Rycina 13 przedstawia rozrzut wartoci masy urodzeniowej w funkcji wieku matki dla wszystkich 1000 badanych dzieci bez uwzglêdnienia informacji, ¿e niektóre z nich pochodz¹ od tych samych matek. Na pocz¹tku wytworzymy model ilustruj¹cy zale¿noæ liniow¹ miêdzy badanymi wielkociami nie zwracaj¹c uwagi na wystêpuj¹c¹ klasteryzacjê. Model sk³ada siê z czêci sta³ej oraz z czêci losowej Czêæ losowa wyznaczona jest jako odleg³oæ wartoci masy urodzeniowej konkretnego dziecka od wartoci masy urodzeniowej prognozowanej na podstawie czêci sta³ej modelu. Jak widaæ wyniki zgadzaj¹ siê z prezentowanymi na rysunku 5 uzyskanymi zwyczajn¹ metod¹ najmniejszych kwadratów OLS. Czêæ losowa ma rozk³ad normalny z wartoci¹ redni¹ 0 i odchyleniem standardowym 568.645. Wartoæ -2*loglikelihood to podwojona wartoæ logarytmu wiarygodnoci modelu, któr¹ bêdziemy u¿ywali do porównywania jakoci ró¿nych modeli. Wartoci zamieszczone w nawiasach obok wartoci estymatorów odciêcia i nachylenia oznaczaj¹ standardowy b³¹d odpowiedniego estymatora. Istotnoæ obu estymatorów badamy testem Walda (dziel¹c wartoæ estymatora przez standardowy b³¹d jego wyznaczania i obliczaj¹c wartoæ p odpowiadaj¹c¹ prawdopodobieñstwu pojawienia siê takiej wartoci ilorazu (ogon rozk³adu normalnego - normal distribution tail area)). Gra970 ficzne przedstawienie tej zale¿noci przedstawia rycina 14. Przejdmy teraz do struktury dwupoziomowej. Nasz model przyjmie postaæ a wiêc ró¿ni siê od poprzedniego modelu dodatkowym indeksem (matka) okrelaj¹cym poziom klasteryzacji danych. Na pocz¹tku zezwolimy, aby wspó³czynnik odciêcia zmienia³ siê losowo pomiêdzy matkami (zak³adamy, ¿e dla ka¿dej matki zale¿noæ miêdzy jej wiekiem a mas¹ urodzeniow¹ dziecka ró¿ni siê jedynie o wartoæ sta³¹; innymi s³owy dla ka¿dej matki wartoæ wspó³czynnika nachylenia ß1 jest taki sam). Otrzymamy model o postaci Zajmiemy siê teraz jeszcze bardziej z³o¿on¹ konstrukcj¹ - modelem losowych nachyleñ (RSM - Random Slope Model). Jego ogólna struktura ma postaæ Jak widaæ, oba parametry regresji maj¹ charakter losowy: wspó³czynnik odciêcia oraz wspó³czynnik nachylenia Jak widaæ, uwzglêdnienie struktury hierarchicznej zmniejszy³o wartoæ wspó³czynnika nachylenia z 23.952 do 22.770, lecz jak ³atwo sprawdziæ nadal wartoæ ta jest istotna statystycznie. Skonstruowany model obejmuje zatem 200 równoleg³ych do siebie prostych (dla ka¿dej matki jedna prosta) o wspólnym wspó³czynniku nachylenia 22.770 i ró¿ni¹cych siê od siebie wspó³czynnikach odciêcia o wartoci gdzie czynnik u0 matka opisuje rozk³ad statystyczny czêci losowej wspó³czynnika odciêcia Tak wytworzony model nazywamy modelem losowego odciêcia ( RIM - Random Intercept Model). Jego graficzna interpretacja przedstawiona jest na rycinie 15. Wariancja se2 opisuje zmiennoæ pomiarów na poziomie pierwszym (dzieci), natomiast wariancja su0 2 - zmiennoæ na poziomie drugim ( matki). W ten sposób wariancja ca³kowita zostaje rozdzielona na sk³adowe odpowiadaj¹ce dwom poziomom hierarchii, co pozwala wyznaczyæ podobieñstwo obiektów w obrêbie pojedynczego klasteru. Miara o postaci zwana jest wspó³czynnikiem korelacji wewn¹trzklasowej (ICC - intra-class correlation) i wyra¿a proporcjê zmiennoci miêdzygrupowej do zmiennoci ca³kowitej. Podstawiaj¹c odpowiednie wartoci wariancji do wzoru dojdziemy do wniosku ponad 38.8% zmiennoci ca³kowitej wynika ze zmiennoci miêdzyklasterowej. Drugi model istotnie lepiej opisuje rzeczywistoæ, co mo¿na stwierdziæ odejmuj¹c od siebie wyznaczone dla ka¿dego modelu wartoci logarytmów wiarygodnoci i porównuj¹c je z ogonem rozk³adu Chi2 z jednym stopniem swobody (15524.389 - 15318.995= 205.394, odpowiadaj¹ca wartoæ p = 1.3894e-046). Przegl¹d Lekarski 2011 / 68 / 10 Zmieniaj¹ siê one od matki do matki a ich wariancje wynosz¹ odpowiednio oraz Dodatkowo pojawiaj¹ca siê wielkoæ su01 to kowariancja miêdzy wartociami odciêæ i nachyleñ. Dokonuj¹c estymacji dla naszego przyk³adu otrzymamy nastêpuj¹cy wynik Zwróæmy uwagê na wartoci podwojonego logarytmu wiarygodnoci dla modelu losowych odciêæ (15318.995) i modelu losowych nachyleñ (15524.389) i porównajmy ró¿nicê tych wartoci z ogonem rozk³adu Chi2 z dwoma stopniami swobody. Jak widaæ ostatnio wytworzony model jest istotnie gorszy od modelu losowych odciêæ i dlatego ostatecznie wybrany przez nas model zale¿noci miêdzy mas¹ urodzeniow¹ dziecka a wiekiem matki przy uwzglêdnieniu struktury hierarchicznej to model losowych odciêæ RIM. Aby pokazaæ graficzn¹ interpretacjê modelu losowych nachyleñ wykonano dodatkowe obliczenia zale¿noci masy urodzeniowej noworodka i wieku matki bior¹c pod uwagê inny typ klasteryzacji - numer kolejnego porodu u matki. Przy tego typu badaniu zaobserwowano adekwatnoæ u¿ycia modelu losowych nachyleñ (RSM), którego parametry s¹ nastêpuj¹ce Rycina 16 ilustruje przedstawienie graficzne dla modelu RSM. Podejcie do modelowania danych hierarchicznych technik¹ efektów losowych pozwala równie¿ na stosunkowo prost¹ ana- J.A. Moczko lizê struktur hierarchicznych wielowymiarowych. Dodanie do poprzednio zbudowanego modelu losowych odciêæ dodatkowej zmiennej dotycz¹cej palenia tytoniu przez matkê doprowadzi nas do ostatecznej postaci modelu wi¹¿¹cego badane przez nas wielkoci Podsumowanie W poprzednich rozdzia³ach pokazano, jak istotny wp³yw na uzyskane wyniki ma prawid³owe rozpoznanie struktury danych, sposobu ich skorelowania oraz doboru od- Przegl¹d Lekarski 2011 / 68 / 10 powiednich technik estymacji wariancji. Przedstawione przyk³ady dotyczy³y wy³¹cznie regresji liniowej zak³adaj¹cej rozk³ad normalny zmiennych ale w podobny sposób mo¿na modelowaæ dane bior¹c pod uwagê inne rozk³ady np. binomialny, multinomialny, Poissona itd. Dopuszczalne s¹ rozmaite postacie funkcji wi¹¿¹cych np. logitowe, probitowe, cloglog. Przy ka¿dym modelowaniu nale¿y jednak¿e pamiêtaæ o obowi¹zuj¹cych za³o¿eniach, które nale¿y sprawdzaæ niezwykle dok³adnie aby unikn¹æ fa³szywych wniosków. Jak ³atwo zauwa¿yæ, zasadnicze zmiany w wynikach obliczeñ dotycz¹ oszacowania wariancji estymatorów, co wp³ywa bezporednio na wynik wnioskowania na temat istotnoci w³¹czenia predyktora do modelu. Poniewa¿ z regu³y obli- czana metodami standardowymi wartoæ wariancji jest zani¿ana, brak uwzglêdnienia klasteryzacji mo¿e doprowadziæ do nieuzasadnionego w³¹czania predyktorów do modelu. Pimiennictwo 1. Armitage P., Berry G., Matthews J.N.S.: Statistical Methods in Medical Research. Blackwell Science, Massachusetts, 2002. 2. Stephen S.: Cross-over trials in Clinical Research. John Wiley & Sons. New York, 2002. 3. Vittinghoff E., Glidden D.V., Shiboski S.C., McCulloch C.E.: Regression Methods in Biostatistics. Linear, Logisic, Survival and Repeated Measures Models. Springer Science+Business Media, Inc. 2005. 4. MLwiN Version 2.23 - dokumentacja elektroniczna (April,2011). 5. Goldstein H.: Multilevel Statistical Models - http:// www.arnoldpublishers.co/support/goldstein.htm 6. STATA/IC Version 11.2 - dokumentacja elektroniczna (update 19 July,2011). 971