11/27/2016 Biostatystyka , 2016/2017 dla Fizyki Medycznej , studia magisterskie • • • • • estymacja estymacja średniej punktowa przedział ufności średniej rozkładu normalnego estymacja punktowa i przedziałowa wariancji rozkładu normalnego estymacja parametrów rozkładu dwumianowego i Poissona Estymacja to wnioskowanie statystyczne koncentrujące się wokół oszacowania wartości specyficznych parametrów populacji. Estymacja punktowa: jak w oparciu o posiadane dane oszacować wartość określonego parametru nieznanej populacji. Estymacja przedziałowa: jak w oparciu o posiadane dane oszacować przedział wartości określonego parametru nieznanej populacji. 1 11/27/2016 Wagi noworodków kolejno urodzonych w jednym ze szpitali w Bostonie (waga w uncjach: 100 oz= 2835 g) Zaznaczone są trzy próby o rozmiarze n=10. Każda próba daje 10 wyników dla masy noworodków. Różne próby mogą prowadzić do różnych wartości dla średniego ciężaru noworodków. xA 1 10 A xi 10 i 1 Zatem próbkowanie populacji (wybór próby) jest zmienną losową. Przy założeniu iż losowanie próby było niezależne, prawdopodobieństwo wylosowania dowolnego noworodka jest identyczne. 2 11/27/2016 Rozkład wartości zmiennej X (podkreślenie jest oznaczeniem dla tradycyjnie używanej kreski nad zmienną) Jakie własności posiada zmienna losowa X opisująca średnią z wylosowanych prób? Jak własności zmiennej X wykorzystać do oszacowania średniego ciężaru noworodków w badanej populacji? A może w oszacowaniu wykorzystać inne znane parametry opisujące własności skończonego zestawu danych, takie jak, na przykład, mediana czy wartość średnia najmniejszej i największej wagi w próbie? Wyniki uzyskane z obliczenia wartości różnych prób dla różnych statystyk (a) wartości średniej z próby X (a) (b) mediany z próby , (c) średniej z wartości max i min z próby 3 11/27/2016 Niech estymator ˆ to przepis (statystyka) na obliczenie wartości dla wielkości charakteryzującej badaną populację w oparciu o dane z próby. Estymator ˆ jest nazywanym nieobciążonym estymatorem niezależnie od rozkładu populacji zachodzi jeśli E (ˆ) Wartość średnia z próby X , mediana z próby, średnia z najmniejszej i największej wartości z próby, są nieobciążonymi estymatorami wartości średniej w populacji , czyli E(X )= , E(mediana) = , E(1/2(min{ }+ max{} )= . Jeśli rozkład w populacji jest normalny , to wartość średnia z próby X jest estymatorem o minimalnej wariancji. Ilustracja dla pojęcia SEM , inaczej SE Wyniki rozkładu zmiennej losowej gdy próba składa się z : (a) n=1 (b) n=10 (c) n=30 elementów. X SEM SE n estymujemy s n 4 11/27/2016 Przypominajka: Niech zmienne losowe X1,..Xn są wzajemnie niezależne i mają rozkłady normalne o wartościach 2 oczekiwanych : E ( X i ) i i wariancjach E ( X i ) . i Wówczas dowolna kombinacja liniowa L tych zmiennych jest zmienną o rozkładzie normalnym N ( ci i , ci2 i2 ) i i Wniosek: Dla zmiennej losowej X , jeśli losowe próby pochodzą z populacji2 o wartością średnią oraz wariancją 2 , to X ma rozkład normalny N ( , ) n Twierdzenie CTG: Niech X1, X2, ….., Xn to losowe próby pobrane z populacji o nieznanym (dowolnym) rozkładzie opisywanym wartością średnią oraz wariancją 2. Wówczas dla dużych wartości n mamy X ma w przybliżeniu rozkład N(, 2/n) Ilustracja centralnego twierdzenia granicznego Wyniki rozkładu zmiennej losowej gdy próba składa się z : (a) n=1 (b) n=5 (c) n=10 elementów. X Zauważmy, że (a) opisuje rozkład wag w populacji. Jest niesymetryczny (lewoskośny) a więc jest inny niż normalny. Przy zwiększaniu n rozkład wartości średnich staje się dzwonowaty 5 11/27/2016 Ile jest ? Czy 116.9 czy 132.80? Jeżeli X przektszałcimy na zmienną losową standardową Z, czyli Z X / n to Z jest zmienną o standardowym rozkładzie normalnym N(0,1). Zatem 95% wyników Z uzyskanych z prób losowych o rozmiarze n będzie miało wartości pomiędzy -1.96 i +1.96 . Te wartości odpowiadają 2.5 oraz 97.5 percentylom standardowego rozkładu normalnego. Oznacza to, że 95% prób losowych X leży w przedziale ( - 1.96 / √𝒏 , +1.96 / √𝒏 ) 6 11/27/2016 d=1 d=2 d=5 d=10 d=inf pdf(’t’, x, d) Jeśli X1, X2, … Xn to niezależne zmienne losowe o rozkładzie N(,2) to statystyka: t X s/ n ma rozkład t-Studenta. cdf(’t’, x, d) Oznaczenie : t n-1 d=1 d=2 d=5 d=10 d=inf • Dystrybycja td dla każdego d jest symetryczna • Dystrybycja td ma wolno opadające ogony https://pl.wikipedia.org/wiki/Rozk%C5%82ad_Studenta Można pokazać, że dla dowolnego > 0.05 dystrybucja t-Studenta t d, 1- przyjmuje wartości większe niż rozkład normalny. t d ,1 z1 0.05 7 11/27/2016 100%(1- ) statystyk t wpada pomiędzy dolny /2 i górny 1- /2 percentyl dystrybucji tn-1, czyli P(t n 1, / 2 t t n 1,1 / 2 ) 1 100%(1- ) przedział ufności ( confidence interval) dla średniej rozkładu normalnego o nieznanej wariancji dany jest wzorem: s s , X t n 1,1 / 2 X t n 1,1 / 2 n n 8 11/27/2016 CI to zmienna losowa . 100%(1- )CI to rodzina losowych przedziałów o własności , że 100%(1- ) spośród nich zawiera rzeczywistą wartość parametru . =112 wartość obliczona z całej populacji Szerokość interwału ufności 2 * t n 1,1 / 2 s n n rośnie, to Δ maleje s rośnie, to Δ rosnie rośnie, to Δ maleje s n t n 1,1 / 2 2 Oszacowanie wielkości próby dla osiągnięcia CI o określonej szerokości Δ i ufności n z1 / 2 2 9 11/27/2016 Niech dany będzie przedział ufności 95%CI odsetka dorosłych Amerykanów, którzy nie są aktywni fizycznie (0.23,0.27) Mamy 95% ufność, że prawdziwy odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest pomiędzy 23% i 27% Mamy 95% ufność, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest zawarty w przedziale (23%, 27%) W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie to 25%. Z ufnością 95% ta wartość może być tak mała jak 23% albo tak duża jak 27%. W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie to 25% ( 95% CI: 23% - 27%). Mamy 95% szansę, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest zawarty pomiędzy 23% i 27%. Rozkład zmiennej losowej PROBKOWANIA, czyli możliwych konstrukcji, wyborów niezależnych prób o tym samym rozmiarze n z danej populacji. Zmienna losowa przyjmuje wartości niezależnie obliczane dla każdej próby oddzielnie. Co to jest rozkład próbkowania? Dlaczego średnia z próby jest używana do estymowania średniej z populacji? (1)Jeśli zmienną losową próbkowania reprezentuje średnia wartość z próby, to wartość oczekiwana tej zmiennej jest średnią dla populacji niezależnie od rozkładu wartości w populacji. (2) Ponadto, przy rozkładzie normalnym w populacji , ta zmienna losowa ma najmniejszą wariancję spośród wszystkich możliwych innych zmiennych losowych próbkowania o własności (1). Jaka jest różnica pomiędzy odchyleniem standardowym a błędem standardowym? Odchylenie standardowe charakteryzuje rozrzut wartości w populacji czy próbie, natomiast błąd standardowy mierzy rozrzut wartości zmiennej losowej próbkowania reprezentowanej średnią z próby. Co oznacza 95%CI średniej? W zbiorze przedziałów 95%CI skonstruowanych dla różnych prób, 95% z nich będzie zawierało wartość . 95%CI opisuje zmienną próbkowania, a nie . W szczególności nie wolno uważać, że z prawdopodobieństwem 0.95 przedział zawiera . Skąd konieczność wprowadzenia rozkładu t-Studenta Jeżeli nie znamy wariancji w populacji to estymacja jej przez odchylenie standardowe z próby ma rozkład t-Studenta. Jaka jest różnica pomiędzy rozkładem normalnym a rozkładem t-Studenta? Rozkład t-studenta to rodzina rozkładów indeksowana stopniem swobody. Oba są symetryczne względem O, ale rozkłady t-Studenta mają „tłuste” ogony. Jak rozumiesz centralne twierdzenie graniczne i jego znaczenie dla statystyki CTG gwarantuje, że zmienna próbkowania realizowana przez średnią jest dobrze aproksymowana przez rozkład normalny N(,2/n). 10 11/27/2016 Estymacja punktowa dla średniej populacji w oparciu o wynik z próby: Estymacja przedziałowa przez (1-)%CI dla średniej populacji o rozkładzie normalnym w oparciu o wynik z próby jeżeli: • znamy wariancje populacji • nie znamy wariancji populacji Uwaga praktyczna: jeśli n>30 to zamiast statystyki t stosuje się statystykę z Średnie odchylenie z próby? sˆ 2 Średnia z próby to estymator nieobciążony i z min. wariancją s X n ( X z1 / 2 n ( X t n 1,1 / 2 , X z1 / 2 n ) s s , X t n 1,1 / 2 ) n n Mamy ufność, że 95% przedziałów tak skonstruowanych zawiera średnią populacji Wariancja z próby? n 1 ( xi x ) 2 n i 1 s2 1 n ( xi x ) 2 n 1 i 1 Przy n powtarzających się próbach o rozmiarze n mamy : średnie odchylenie z tych prób nie jest nieobciążonym estymatorem wariancja z próby jest nieobciążonym estymatorem 11 11/27/2016 przykład: pomiar SBP pomiar ciśnienia skurczowego „arteriosondą” –przyrząd wykorzystujący efekt Dopplera do ustalenia ciśnienia krwi. Nagranie interpretowało dwóch operatorów. d (6 3 ... 2) / 10 0.2 s2 1 10 (di d ) 2 8.178 9 i 1 Przy założeniu, że rozkład różnic d jest normalny oszacowanie punktowe dla wariancji to 8.178 n2 n Zmienna G X i2 gdzie X i z N (0,1) ma rozkład i 1 n2 ( x) MATLAB: n=1:9; x=5; y=chi2pdf(x,n); n2 n=1 n=2 n=3 n=4 n=6 n=9 x n / 21e x / 2 2 n / 2 (n / 2) 1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 0.0146 0.0410 0.0732 0.1026 0.1220 0.1283 0.1220 8.0000 9.0000 0.1069 0.0872 http://en.wikipedia.org/wiki/Chi-squared_distribution 12 11/27/2016 u : P( n2 n2,u ) u cdf (' chi' , n2,u , n) u oznaczenie Przykład: Znajdź górny i dolny 2.5-percentyl chi-kwadrat rozkładu dla n=10. icdf to funkcja odwrotna do cdf icdf('chi', 0.025,10) icdf('chi', 0.975,10) 102 ,0.025 =3.2470 102 ,0.975 =20.4832 P(3.24 102 20.48) 0.95 =3.2470 =20.4832 13 11/27/2016 2 2 2 2 P n 1, / 2 s 2 n 1,1 / 2 1 n 1 n 1 Do daje Przykład: Pomiar SBP arteriosondą : 95%CI dla wariancji to ( 3.87, 27.26), 95%CI dla odchylenia standardowego jest: ( 1.97, 5.22). (n 1) s 2 (n 1) s 2 2 , 2 n 1,1 / 2 n 1, / 2 Oszacowanie punktowe dla odchylenia daje s=2.8597 Jeśli próba jest duża, n>30, to przedział ufności staje się symetryczny względem oszacowania punktowego. Zachodzi bowiem P s z s 2 s z 2n s 1 2n Ocena powtarzalności pomiarów Rekrutujemy 15 ochotników, i w odstępie tygodnia pobieramy krew do analizy. Badamy: d gdzie i xi ,1 xi , 2 xi ,1 , xi , 2 to pomiar pierwszy i drugi danego ochotnika. Wyszło d=0 przy s=0.25. A w literaturze jest , że =0.20. Czy nasze pomiary są powtarzalne? Ponieważ: Zatem: Z 95 % ufnością mamy, iż wyniki naszego laboratorium są powtarzalne w odniesieniu do literaturowych To: 14 11/27/2016 Przykład : czerniak złośliwy wśród kobiet w wieku 45-54 lat w USA. Typowa 1 z prawd p jest czerniak zmienna Xi losowa 0 z prawd 1 - p nie ma czerniaka binarna: Zmienna losowa reprezentująca ilość sukcesów wśród n takich zmiennych X X i 1,.., n i Dana jest próbka 5000 kobiet w w/w wieku. Czerniaka stwierdzono u 28. Jak ocenić występowanie (odsetek kobiet z czerniakiem) tej choroby w całej populacji? E ( X ) np Var ( X ) npq Tw: Jeśli X jest zmienna losowa o rozkładzie dwumianowym B(n,p), to nieobciążonym estymatorem p jest Błąd standardowy tej pˆ X / n estymacji to ( p ˆ) pˆ qˆ / n Oszacowanie występowania czerniaka : pˆ 28 / 5000 0.0056 ( pˆ ) 0.0056 * 0.9944 / 5000 0.0011 Estymacja największej wiarygodności ( MLE) to najczęściej stosowana metoda szacowania parametrów modelu. Metoda ta wybiera zbiór wartości dla parametrów rozkładu tak, by tak zwana funkcja wiarygodności osiągała wartości maksymalne. Intuicyjnie metoda największej wiarygodności ustala tak parametr modelu, by maksymalizować zgodność uzyskanych z próby danych z modelem. 15 https://www.youtube.com/watch?v=I_dhPETvll8 11/27/2016 Warunek na ekstremum L L: funkcja wiarygod ności Definicja Niech funkcja prawdopodobieństwa zmiennej dyskretnej X jest opisana jako funkcja k parametrów: p ( p1 , p2 ,..... pk ) Niech x ( x1 , x2 ,.....xn ) to próba n niezależnych obserwacji zmiennej X. Wiarygodnością tej próby przy zadanym p, oznaczaną jako L(x|p) , jest prawdopodobieństwo uzyskania wyników tej próby przy założeniu określonych wartości parametrów, czyli: n L(x | p) P( x1 | p) P( x2 | p)....P( xn | p) P( xi | p) i 1 Wiarygodność próby oceny zachorowalności na czerniaka: 500 L(x | p) P( xi | p) p 28 (1 p) 500 28 i 1 16 11/27/2016 Definicja Niech funkcja gęstości prawdopodobieństwa zmiennej ciągłej X jest opisana funkcją o k parametrach: p ( p1 , p2 ,..... pk ) Niech x ( x1 , x2 ,.....xn ) to próba n niezależnych obserwacji zmiennej X. Wiarygodność tej próby przy zadanym p, oznaczana L(x|p) , to prawdopodobieństwo uzyskania wartości próby przy założeniu określonych wartości parametrów p ( p1 , p2 ,..... pk ) czyli: n L(x | p) f ( x1 | p) f ( x2 | p).... f ( xn | p) f ( xi | p) i 1 Jaka jest wiarygodność danej próby n-elementowej reprezentującej zmienną X o rozkładzie normalnym N(,)? n L(x | ( , )) f ( xi | ( , )) i 1 Definicja Estymatorem największej wiarygodności (MLE) dla nazywamy takie wartości tych parametrów 1 1 exp{ 2 (2 ) n / 2 n 2 n (x ) i 1 2 i p ( p1 , p2 ,..... pk ) p ( p1, MLE , p2, MLE ,..... pk , MLE ) które maksymalizują wiarygodność. Użyteczność: Dla szerokiej klasy rozkładów, gdy rozmiar próby jest dostatecznie duży, to MLE jest nieobciążonym estymatorem punktowym i ma najmniejszą wariancję. 17 11/27/2016 Przykład: Rak piersi wśród kobiet 50-54 letnich, których matki miały raka piersi. Mamy próbę losową 10000 kobiet o w/w wieku, 400 z nich miało lub ma raka piersi. Najlepsze oszacowanie punktowe dla p występowania raka w populacji to p^ = 400/10000=0.040 Jak oszacować przedziałowo parametr p występowanie raka piersi wśród kobiet 50-54 letnich? 95%CI dla raka piersi wśród kobiet 50-54-letnich: pˆ 0.040 0.05 z1 / 2 1.96 n 10000 (0.040 1.96 0.04 * 0.96 / 10000 ,0.040 1.96 0.04 * 0.96 / 10000 ) (0.036,0.044) Jeśli wiadomo, że odsetek występowania raka piersi wśród wszystkich kobiet w tym wieku jest 2%, to możemy ufać, że w grupie kobiet, których matki miały raka piersi, występowanie raka piersi jest wyższe niż średnia dla tej grupy wiekowej. Podsumowanie ( Metoda Walda) Dla B(n,p) takiego, że npq ≥ 5 mamy pˆ z1 / 2 pˆ (1 pˆ ) n Przypadek npq < 5 Gdzie x= obserwacja 18 11/27/2016 Szczury były karmione wysokocukrowa dietą. U dwóch spośród dwudziestu pojawił się rak krwi. Podać estymacje przedziałową dla tego wyniku. pˆ 2 / 20 0.1 0.05 n 20 npq 1.8 5 Trzeba znaleźć p1 i p2 takie , że P( X 2 | p p1 ) 0.025 P( X 2 | p p2 ) 0.025 MATLAB: p1: 1- cdf('bino',1,20,0.01:0.001:0.015) p2 : p1=0.012 0.01 0.011 0.012 0.013 0.014 0.0169 0.0202 0.0237 0.0275 0.0315 cdf('bino',2,20,0.3:0.005:0.33) 0.3 0.0355 0.305 0.0321 0.31 0.315 0.0289 0.0261 0.015 0.0357 0.32 0.0235 0.325 0.0211 p2=0.32 95%CI jest (0.012, 0.32) Definicja Wprowadzamy jednostkę osobo-rok jako jednostkę czasu obserwacji 1 osoby. Przykład: W Woburn u 12 dzieci została zdiagnozowana białaczka w okresie od 1.o1.1970 do 31.12.1979. Zakładamy, że populacja dzieci w Woburn to 12 000, oraz że zachorowalność na białaczkę w populacji ogólnej to 5 przypadków na 100 000 osobo-lat. Jak wygląda estymacja zachorowalności dzieci na białaczkę w Woburn? Zatem, 12 000 dzieci było obserwowanych przez 10 lat, a więc mamy skumulowanych 120 000 osobo-lat. Twierdzenie Niech ilość zdarzeń X w okresie T osobo-lat ma rozkład Poissona z µ = λT. Nieobciążony estymator λ jest dany jako λ=X/T, gdzie X oznacza ilość zaobserwowanych zdarzeń w czasie T osobo-lat. 19 11/27/2016 Przykład: białaczki u dzieci w Woburn. Wyznaczyć 95%CI dla współczynnika zachorowalności dzieci na białaczkę na 100000 osobo-lat (λ) . 20