estymacja

advertisement
11/27/2016
Biostatystyka , 2016/2017
dla Fizyki Medycznej , studia magisterskie
•
•
•
•
•
estymacja
estymacja średniej punktowa
przedział ufności średniej rozkładu normalnego
estymacja punktowa i przedziałowa wariancji rozkładu normalnego
estymacja parametrów rozkładu dwumianowego i Poissona
Estymacja to wnioskowanie statystyczne koncentrujące się wokół oszacowania wartości
specyficznych parametrów populacji.
Estymacja punktowa:
jak w oparciu o posiadane dane oszacować wartość określonego parametru nieznanej populacji.
Estymacja przedziałowa:
jak w oparciu o posiadane dane oszacować przedział wartości określonego parametru nieznanej
populacji.
1
11/27/2016
Wagi noworodków kolejno urodzonych
w jednym ze szpitali w Bostonie
(waga w uncjach: 100 oz= 2835 g)
Zaznaczone są trzy próby o
rozmiarze n=10.
Każda próba daje 10 wyników dla
masy noworodków.
Różne próby mogą prowadzić do
różnych wartości dla średniego
ciężaru noworodków.
xA 
1 10 A
 xi
10 i 1
Zatem próbkowanie populacji
(wybór próby) jest zmienną
losową.
Przy założeniu iż losowanie
próby było niezależne,
prawdopodobieństwo
wylosowania dowolnego
noworodka jest identyczne.
2
11/27/2016
Rozkład wartości zmiennej X (podkreślenie jest
oznaczeniem dla tradycyjnie używanej kreski nad zmienną)
Jakie własności posiada zmienna
losowa X opisująca średnią z
wylosowanych prób?
Jak własności zmiennej X wykorzystać
do oszacowania średniego ciężaru 
noworodków w badanej populacji?
A może w oszacowaniu  wykorzystać
inne znane parametry opisujące
własności skończonego zestawu danych,
takie jak, na przykład,
mediana czy
wartość średnia najmniejszej i
największej wagi w próbie?
Wyniki uzyskane z obliczenia wartości
różnych prób dla różnych statystyk
(a) wartości średniej z próby X (a)
(b) mediany z próby ,
(c) średniej z wartości max i min z próby
3
11/27/2016
 Niech estymator ˆ to przepis (statystyka) na obliczenie wartości 
dla wielkości charakteryzującej badaną populację w oparciu o dane z
próby.
 Estymator ˆ jest nazywanym nieobciążonym estymatorem
niezależnie od rozkładu populacji zachodzi
 jeśli
E (ˆ)  
 Wartość średnia z próby X , mediana z próby, średnia z najmniejszej i
największej wartości z próby, są nieobciążonymi estymatorami
wartości średniej w populacji , czyli
E(X )= , E(mediana) =  , E(1/2(min{ }+ max{} )= .
 Jeśli rozkład w populacji jest normalny , to wartość średnia z próby X jest
estymatorem o minimalnej wariancji.
Ilustracja dla pojęcia SEM , inaczej SE
Wyniki rozkładu zmiennej losowej
gdy próba składa się z :
(a) n=1
(b) n=10
(c) n=30
elementów.
X
SEM  SE 

n
estymujemy
s
n
4
11/27/2016
Przypominajka:
Niech zmienne losowe X1,..Xn są wzajemnie niezależne i mają
rozkłady normalne o wartościach
2
oczekiwanych : E ( X i )  i i wariancjach E ( X i )  
. i
Wówczas dowolna kombinacja liniowa L tych zmiennych jest zmienną o rozkładzie normalnym
N ( ci i ,  ci2 i2 )
i
i
Wniosek:
Dla zmiennej losowej X , jeśli losowe próby pochodzą z populacji2 o wartością
średnią  oraz wariancją 2 , to X ma rozkład normalny N (  ,  )
n
Twierdzenie CTG:
Niech X1, X2, ….., Xn to losowe próby pobrane z populacji o nieznanym (dowolnym)
rozkładzie opisywanym wartością średnią  oraz wariancją 2.
Wówczas dla dużych wartości n mamy
X ma w przybliżeniu rozkład N(, 2/n)
Ilustracja centralnego twierdzenia
granicznego
Wyniki rozkładu zmiennej losowej
gdy próba składa się z :
(a) n=1
(b) n=5
(c) n=10
elementów.
X
Zauważmy, że (a) opisuje rozkład wag w
populacji. Jest niesymetryczny
(lewoskośny) a więc jest inny niż normalny.
Przy zwiększaniu n rozkład wartości
średnich staje się dzwonowaty
5
11/27/2016
Ile jest  ? Czy 116.9 czy 132.80?
Jeżeli X przektszałcimy na zmienną losową standardową Z, czyli
Z
X 
/ n
to Z jest zmienną o standardowym rozkładzie normalnym N(0,1).
Zatem 95% wyników Z uzyskanych z prób losowych o rozmiarze n
będzie miało wartości pomiędzy -1.96 i +1.96 .
Te wartości odpowiadają 2.5 oraz 97.5 percentylom standardowego
rozkładu normalnego.
Oznacza to, że 95% prób losowych X leży w przedziale
(  - 1.96 / √𝒏 ,
+1.96 / √𝒏 )
6
11/27/2016
d=1
d=2
d=5
d=10
d=inf
pdf(’t’, x, d)
Jeśli X1, X2, … Xn to niezależne zmienne losowe
o rozkładzie N(,2) to statystyka:
t
X 
s/ n
ma rozkład t-Studenta.
cdf(’t’, x, d)
Oznaczenie : t n-1
d=1
d=2
d=5
d=10
d=inf
• Dystrybycja td dla każdego d jest symetryczna
• Dystrybycja td ma wolno opadające ogony
https://pl.wikipedia.org/wiki/Rozk%C5%82ad_Studenta
Można pokazać, że dla dowolnego
 > 0.05 dystrybucja
t-Studenta t d, 1- przyjmuje wartości
większe niż rozkład normalny.
t d ,1  z1
 0.05
7
11/27/2016
100%(1- ) statystyk t wpada
pomiędzy dolny /2 i górny 1-  /2
percentyl dystrybucji tn-1, czyli
P(t n 1, / 2  t  t n 1,1 / 2 )  1  
100%(1- ) przedział ufności ( confidence interval) dla średniej rozkładu  normalnego o
nieznanej wariancji dany jest wzorem:
s
s 

, X  t n 1,1 / 2
 X  t n 1,1 / 2

n
n

8
11/27/2016
CI to zmienna losowa .
100%(1- )CI to rodzina losowych
przedziałów o własności , że
100%(1- ) spośród nich zawiera
rzeczywistą wartość parametru .
=112 wartość obliczona
z całej populacji
Szerokość interwału ufności
  2 * t n 1,1 / 2
s
n
n rośnie, to Δ maleje
s rośnie, to Δ rosnie
 rośnie, to Δ maleje
s

n   t n 1,1 / 2 


2
Oszacowanie
wielkości próby dla
osiągnięcia CI
o określonej
szerokości Δ i
ufności 


n   z1 / 2 


2
9
11/27/2016
Niech dany będzie przedział ufności 95%CI odsetka dorosłych Amerykanów, którzy nie są aktywni fizycznie (0.23,0.27)
Mamy 95% ufność, że prawdziwy odsetek dorosłych Amerykanów, którzy nie są aktywni
fizycznie jest pomiędzy 23% i 27%
Mamy 95% ufność, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest
zawarty w przedziale (23%, 27%)
W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są
aktywni fizycznie to 25%. Z ufnością 95% ta wartość może być tak mała jak 23% albo tak
duża jak 27%.
W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są
aktywni fizycznie to 25% ( 95% CI: 23% - 27%).
Mamy 95% szansę, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest
zawarty pomiędzy 23% i 27%.
Rozkład zmiennej losowej PROBKOWANIA, czyli możliwych konstrukcji, wyborów
niezależnych prób o tym samym rozmiarze n z danej populacji. Zmienna losowa
przyjmuje wartości niezależnie obliczane dla każdej próby oddzielnie.
 Co to jest rozkład próbkowania?
 Dlaczego średnia z próby jest używana do estymowania średniej z populacji?
(1)Jeśli zmienną losową próbkowania reprezentuje średnia wartość z próby, to wartość oczekiwana
tej zmiennej jest średnią dla populacji niezależnie od rozkładu wartości w populacji.
(2) Ponadto, przy rozkładzie normalnym w populacji , ta zmienna losowa ma najmniejszą wariancję
spośród wszystkich możliwych innych zmiennych losowych próbkowania o własności (1).
 Jaka jest różnica pomiędzy odchyleniem standardowym a błędem
standardowym?
Odchylenie standardowe charakteryzuje rozrzut wartości w populacji czy próbie, natomiast błąd
standardowy mierzy rozrzut wartości zmiennej losowej próbkowania reprezentowanej średnią z próby.
 Co oznacza 95%CI średniej?
W zbiorze przedziałów 95%CI skonstruowanych dla różnych prób, 95% z nich będzie zawierało
wartość . 95%CI opisuje zmienną próbkowania, a nie .
W szczególności nie wolno uważać, że z prawdopodobieństwem 0.95 przedział zawiera .
 Skąd konieczność wprowadzenia rozkładu t-Studenta
Jeżeli nie znamy wariancji w populacji to estymacja jej przez odchylenie standardowe z próby ma
rozkład t-Studenta.
 Jaka jest różnica pomiędzy rozkładem normalnym a rozkładem t-Studenta?
Rozkład t-studenta to rodzina rozkładów indeksowana stopniem swobody. Oba są symetryczne
względem O, ale rozkłady t-Studenta mają „tłuste” ogony.
 Jak rozumiesz centralne twierdzenie graniczne i jego znaczenie dla statystyki
CTG gwarantuje, że zmienna próbkowania realizowana przez średnią jest dobrze aproksymowana przez rozkład normalny N(,2/n).
10
11/27/2016
Estymacja punktowa dla średniej
populacji w oparciu o wynik z próby:
Estymacja przedziałowa przez (1-)%CI dla średniej
populacji o rozkładzie normalnym w oparciu o wynik
z próby jeżeli:
•
znamy wariancje populacji
• nie znamy wariancji populacji
Uwaga praktyczna:
jeśli n>30 to zamiast statystyki t
stosuje się statystykę z
Średnie odchylenie z próby?
sˆ 2 
Średnia z próby to estymator
nieobciążony i z min. wariancją

s
X
n

( X  z1 / 2
n
( X  t n 1,1 / 2
, X  z1 / 2
n
)
s
s
, X  t n 1,1 / 2
)
n
n
Mamy ufność, że 95% przedziałów
tak skonstruowanych zawiera średnią
populacji
Wariancja z próby?
n
1
( xi  x ) 2

n i 1

s2 
1 n
( xi  x ) 2

n  1 i 1
Przy n powtarzających się
próbach o rozmiarze n mamy :
średnie odchylenie z tych prób
nie jest nieobciążonym
estymatorem 
wariancja z próby jest
nieobciążonym estymatorem

11
11/27/2016
przykład: pomiar SBP
pomiar ciśnienia skurczowego „arteriosondą” –przyrząd wykorzystujący efekt Dopplera do ustalenia ciśnienia krwi.
Nagranie interpretowało dwóch operatorów.
d  (6  3  ...  2) / 10  0.2
s2 
1 10
 (di  d ) 2  8.178
9 i 1
Przy założeniu, że rozkład różnic d jest normalny oszacowanie punktowe dla wariancji to 8.178
 n2
n
Zmienna
G   X i2
gdzie
X i z N (0,1)
ma rozkład
i 1
 n2 ( x) 
MATLAB:
n=1:9;
x=5;
y=chi2pdf(x,n);
 n2
n=1
n=2
n=3
n=4
n=6
n=9
x n / 21e  x / 2
2 n / 2 (n / 2)
1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000
0.0146 0.0410 0.0732 0.1026 0.1220 0.1283 0.1220
8.0000 9.0000
0.1069 0.0872
http://en.wikipedia.org/wiki/Chi-squared_distribution
12
11/27/2016
u : P(  n2   n2,u )  u
cdf (' chi' ,  n2,u , n)  u
oznaczenie
Przykład: Znajdź górny i dolny 2.5-percentyl chi-kwadrat rozkładu dla n=10.
icdf to funkcja
odwrotna do
cdf
icdf('chi', 0.025,10)
icdf('chi', 0.975,10)
102 ,0.025 =3.2470
102 ,0.975 =20.4832
P(3.24  102  20.48)  0.95
=3.2470
=20.4832
13
11/27/2016
 2 2

2 2
P
 n 1, / 2  s 2 
 n 1,1 / 2   1  
n

1
n

1


Do daje
Przykład:
Pomiar SBP arteriosondą :
95%CI dla wariancji to
( 3.87, 27.26),
95%CI dla odchylenia
standardowego jest:
( 1.97, 5.22).
 (n  1) s 2 (n  1) s 2 
 2

, 2


 n 1,1 / 2  n 1, / 2 
Oszacowanie punktowe dla
odchylenia daje s=2.8597
Jeśli próba jest duża, n>30, to przedział ufności staje się symetryczny względem
oszacowania punktowego. Zachodzi bowiem

P s  z

s
  2  s  z
2n
s 
  1
2n 
Ocena powtarzalności pomiarów
Rekrutujemy 15 ochotników, i w odstępie tygodnia pobieramy krew do analizy.
Badamy: d
gdzie
i
 xi ,1  xi , 2
xi ,1 , xi , 2
to pomiar pierwszy i drugi danego ochotnika.
Wyszło d=0 przy s=0.25.
A w literaturze jest , że =0.20.
Czy nasze pomiary są powtarzalne?
Ponieważ:
Zatem:
Z 95 % ufnością mamy, iż wyniki
naszego laboratorium są powtarzalne
w odniesieniu do literaturowych
To:
14
11/27/2016
Przykład : czerniak złośliwy wśród kobiet w
wieku 45-54 lat w USA.
Typowa
 1 z prawd p jest czerniak
zmienna
Xi  
losowa
0 z prawd 1 - p nie ma czerniaka
binarna:
Zmienna losowa
reprezentująca ilość
sukcesów wśród n
takich zmiennych
X
X
i 1,.., n
i
Dana jest próbka 5000 kobiet w w/w wieku.
Czerniaka stwierdzono u 28.
Jak ocenić występowanie (odsetek kobiet z
czerniakiem) tej choroby w całej populacji?
E ( X )  np
Var ( X )  npq
Tw:
Jeśli X jest zmienna losowa o rozkładzie dwumianowym B(n,p), to nieobciążonym
estymatorem p jest
Błąd standardowy tej
pˆ  X / n
estymacji to  ( p
ˆ) 
pˆ qˆ / n
Oszacowanie występowania czerniaka :
pˆ  28 / 5000  0.0056
 ( pˆ )  0.0056 * 0.9944 / 5000  0.0011
 Estymacja największej wiarygodności ( MLE) to najczęściej stosowana
metoda szacowania parametrów modelu.
 Metoda ta wybiera zbiór wartości dla parametrów rozkładu tak, by tak
zwana funkcja wiarygodności osiągała wartości maksymalne.
 Intuicyjnie metoda największej wiarygodności ustala tak parametr
modelu, by maksymalizować zgodność uzyskanych z próby danych z
modelem.
15
https://www.youtube.com/watch?v=I_dhPETvll8
11/27/2016
Warunek na
ekstremum L
L: funkcja
wiarygod
ności
Definicja
Niech funkcja prawdopodobieństwa zmiennej dyskretnej X jest opisana jako funkcja k parametrów:
p  ( p1 , p2 ,..... pk )
Niech
x  ( x1 , x2 ,.....xn ) to próba n niezależnych obserwacji zmiennej X.
Wiarygodnością tej próby przy zadanym p, oznaczaną jako L(x|p) , jest prawdopodobieństwo
uzyskania wyników tej próby przy założeniu określonych wartości parametrów, czyli:
n
L(x | p)  P( x1 | p) P( x2 | p)....P( xn | p)   P( xi | p)
i 1
Wiarygodność próby oceny zachorowalności
na czerniaka:
500
L(x | p)   P( xi | p)  p 28 (1  p) 500 28
i 1
16
11/27/2016
Definicja
Niech funkcja gęstości prawdopodobieństwa zmiennej ciągłej X jest opisana funkcją o k parametrach:
p  ( p1 , p2 ,..... pk )
Niech
x  ( x1 , x2 ,.....xn )
to próba n niezależnych obserwacji zmiennej X.
Wiarygodność tej próby przy zadanym p, oznaczana L(x|p) , to prawdopodobieństwo uzyskania
wartości próby przy założeniu określonych wartości parametrów p  ( p1 , p2 ,..... pk )
czyli:
n
L(x | p)  f ( x1 | p) f ( x2 | p).... f ( xn | p)   f ( xi | p)
i 1
Jaka jest wiarygodność danej próby n-elementowej reprezentującej zmienną X o
rozkładzie normalnym N(,)?
n
L(x | (  ,  ))   f ( xi | (  ,  )) 
i 1
Definicja
Estymatorem największej wiarygodności (MLE) dla
nazywamy takie wartości tych parametrów
1
1
exp{ 2
(2 ) n / 2  n
2
n
 (x  )
i 1
2
i
p  ( p1 , p2 ,..... pk )
p  ( p1, MLE , p2, MLE ,..... pk , MLE )
które maksymalizują wiarygodność.
Użyteczność:
Dla szerokiej klasy rozkładów, gdy rozmiar próby jest dostatecznie duży, to MLE jest nieobciążonym
estymatorem punktowym i ma najmniejszą wariancję.
17
11/27/2016
Przykład: Rak piersi wśród kobiet 50-54 letnich, których matki miały raka piersi. Mamy próbę losową 10000 kobiet o w/w
wieku, 400 z nich miało lub ma raka piersi.
Najlepsze oszacowanie punktowe dla p występowania raka w populacji to p^ = 400/10000=0.040
Jak oszacować przedziałowo parametr p występowanie raka piersi wśród kobiet 50-54 letnich?
95%CI dla raka piersi wśród kobiet 50-54-letnich:
pˆ  0.040
  0.05
z1 / 2  1.96
n  10000
(0.040  1.96 0.04 * 0.96 / 10000 ,0.040  1.96 0.04 * 0.96 / 10000 )
 (0.036,0.044)
Jeśli wiadomo, że odsetek występowania raka piersi wśród wszystkich kobiet w tym wieku jest
2%, to możemy ufać, że w grupie kobiet, których matki miały raka piersi, występowanie raka
piersi jest wyższe niż średnia dla tej grupy wiekowej.
Podsumowanie ( Metoda Walda)
Dla B(n,p) takiego, że npq ≥ 5
mamy
pˆ  z1 / 2
pˆ (1  pˆ )
n
Przypadek npq < 5
Gdzie x= obserwacja
18
11/27/2016
Szczury były karmione wysokocukrowa dietą. U dwóch spośród dwudziestu pojawił się rak krwi.
Podać estymacje przedziałową dla tego wyniku.
pˆ  2 / 20  0.1
  0.05
n  20
npq  1.8  5
Trzeba znaleźć p1 i p2 takie , że
P( X  2 | p  p1 )  0.025
P( X  2 | p  p2 )  0.025
MATLAB:
p1: 1- cdf('bino',1,20,0.01:0.001:0.015)
p2 :
p1=0.012
0.01
0.011 0.012 0.013 0.014
0.0169 0.0202 0.0237 0.0275 0.0315
cdf('bino',2,20,0.3:0.005:0.33)
0.3
0.0355
0.305
0.0321
0.31
0.315
0.0289 0.0261
0.015
0.0357
0.32
0.0235
0.325
0.0211
p2=0.32
95%CI jest (0.012, 0.32)
Definicja
Wprowadzamy jednostkę osobo-rok jako jednostkę czasu obserwacji 1 osoby.
Przykład:
W Woburn u 12 dzieci została zdiagnozowana białaczka w okresie od 1.o1.1970 do 31.12.1979.
Zakładamy, że populacja dzieci w Woburn to 12 000, oraz że zachorowalność na białaczkę w
populacji ogólnej to 5 przypadków na 100 000 osobo-lat.
Jak wygląda estymacja zachorowalności dzieci na białaczkę w Woburn?
Zatem, 12 000 dzieci było obserwowanych przez 10 lat, a więc mamy skumulowanych 120 000
osobo-lat.
Twierdzenie
Niech ilość zdarzeń X w okresie T osobo-lat ma rozkład Poissona z µ = λT.
Nieobciążony estymator λ jest dany jako λ=X/T, gdzie X oznacza ilość
zaobserwowanych zdarzeń w czasie T osobo-lat.
19
11/27/2016
Przykład: białaczki u dzieci w Woburn.
Wyznaczyć 95%CI dla współczynnika zachorowalności dzieci na białaczkę na 100000 osobo-lat (λ) .
20
Download