Wykład 3 Wzór Bayesa – wpływ rozkładu a

advertisement
Wykład 3
Wzór Bayesa, cd.:
Wpływ rozkładu a priori.
Załóżmy teraz, że w pewnej populacji:
 30% ludzi ma HIV,
 test do wykrywania HIV ma czułość 99.7%
i specyficzność 98.5% (jak przedtem).
Jakie jest prawdopodobieństwo, że osoba z
dodatnim wynikiem testu ma HIV?
Zdarzenie
Test +
Prawdziwy +
Test -
Fałszywy -
Test +
Fałszywy +
HIV +
HIV –
Test -
Prawdziwy -
P-stwo
P-stwo, że osoba z dodatnim wynikiem testu
jest (faktycznie) chora wynosi:
P( HIV  i test )
P( HIV  | test ) 
P(test )
Zmienna losowa:
Wartość zależna od wyniku eksperymentu.

Przykład: Liczba orłów uzyskanych w
jednym rzucie monetą.
Zmienna losowa dyskretna
Zbiór wartości, które może przyjąć
zmienna losowa dyskretna jest skończony
lub przeliczalny. Możliwe wartości będziemy
oznaczali x1,x2, …
 Rozkład zmiennej dyskretnej X określamy
podając prawdopodobieństwa pi=P(X=xi).
 Np. w rzucie symetryczną kostką liczba
oczek X ma rozkład P(X=i)=
, i=1,...6.

Ciągła zmienna losowa

Prawdopodobieństwo przyjęcia każdej
ustalonej wartości wynosi zero, np.
P(X=3.14159265358979323)=0

Na tym kursie będziemy rozważać tylko
zmienne losowe ciągłe opisane funkcją
gęstości f(x).
Dystrybuanta zmiennej X:

Dla liczby
x
definiujemy
FX ( x)  P( X  x)

Własności: FX(x) jest funkcją niemalejącą,
ciągłą z prawej strony, oraz
lim x F ( x) 
lim x F ( x) 
Narysuj dystrybuantę dyskretnej zmiennej losowej
X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3.
Narysuj dystrybuantę rozkładu jednostajnego na
odcinku [a,b].
Wartość oczekiwana i wariancja (wzory).
Zmienna losowa dyskretna
•
•
x :=E(X)= xi P(X= xi)=xipi
Var(X)= (xi- x)2 P(X= xi) = xi2 pi - x2
Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0,
gdy reszka)
E(X)=
Var(X)=
 Przykład 2 (X=wynik rzutu kostką)
E(X)=
Var(X)=

Rozkład dwupunktowy z parametrem 0  p  1

P(Y=1)=p, P(Y=0)=1-p.

Oblicz:
 EY=
 VarY=
Wartość oczekiwana i wariancja, cd.
Zmienna losowa ciągła

EX 
 x f(x) dx


Var(X)   (x - EX) f(x) dx 
2
-

 x f(x)dx  (EX)
2

2
Wartość oczekiwana jest środkiem ciężkości figury określonej
przez krzywą gęstości.
Przykład: rozkład jednostajny na [0,1].
Własności wartości oczekiwanej i wariancji
E(aX+b)=aEX+b
Var(aX+b)=a2Var(X)
Dla dwóch zmiennych losowych X i Y:
E(X+Y)=EX+EY
E(X-Y)=EX-EY
E(aX+bY+c)=
Niezależność zmiennych losowych:
Jeżeli zmienne X i Y są niezależne to dla każdej
pary zdarzeń A i B
P( X  A, Y  B)  P( X  A) P(Y  B)
Przykład1: Wybieramy (losowo) liczbę
dwucyfrową; X:=liczba dziesiątek, Y:=liczba
jedności, A={1, 2}, B={3, 4, 5}.
Niezależność zmiennych losowych, cd.
Przykład 2: Wybieramy (losowo) liczbę z
zakresu 12,...,101; X:=cyfra dziesiątek,
Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}.
Przykład 3: Liczby oczek, X, Y, w dwóch
kolejnych rzutach kostką.
Jeżeli X i Y są niezależne, to
E(XY)=E(X)·E(Y)
i
Var(X+Y)=Var(X)+Var(Y).
Ćwiczenia: X i Y niezależne
Var(X-Y)=
Var(X+X)=
Schemat Bernoulliego
i rozkład dwumianowy

Anita, Beata i Krystyna rzucają monetą i podają łączną
liczbę orłów,Y. Podaj rozkład zmiennej Y
A
B
K
O
O
O
O
R
R
R
R
O
O
R
R
O
O
R
R
O
R
O
R
O
R
O
R
P-stwo
Zdarzenie P-stwo
3O (0R)
2O (1R)
1O (2R)
0O (3R)
Histogram rozkładu w populacji.
Populacja =”wszystkie” rzuty trzema monetami
Pr(Y=y)
Rozkład dwumianowy (n=3,p=0.5)
0,4
0,3
0,2
0,1
0
0
1
2
y
3
Schemat Bernoulliego:

n niezależnych powtórzeń tego samego
eksperymentu
 dwa możliwe wyniki w każdej próbie - ``sukces’’ i
``porażka’’ (np. O i R, albo 1 i 0)
 w każdej próbie p-stwo sukcesu wynosi p
Rozkład dwumianowy:
= łączna liczba sukcesów w schemacie
Bernoulliego
Y
Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień
wśród 10 pacjentów poddanych pewnej kuracji
Rozkład dwumianowy:
n y
n y


P(Y  y ) 
p (1  p) ,
 y
n
n!
gdzie   
,
 y  y!(n  y )!
y  0,1,..., n
n
Niektóre własności symbolu Newtona 
 y




Liczba możliwych ciągów y sukcesów i n-y porażek
n
  =
0
n
 =
1 
Ogólnie
n
 =
n
n 

=
 n  1
n n

 

 y n y
W przykładzie p=1/2;
 3
 
0
3
 
1 
 3
 
 2
3
 
3
P(Y  0) 
P(Y  1) 
P(Y  2) 
P(Y  3) 

Uwaga: Rozkład dwumianowy jest
symetryczny dla p=1/2.
Przykład: Efekt uboczny lekarstwa
20% ludzi dostaje nudności po zażyciu
pewnego lekarstwa
 Lekarz przepisał lekarstwo czterem
nowym pacjentom
 Y – liczba pacjentów w naszej próbie,
którzy dostali nudności
 Podaj rozkład zmiennej Y

Odpowiedź:

P(co najmniej dwóch dostanie nudności) =

P(co najwyżej jeden dostanie nudności) =
Parametry rozkładu dwumianowego
 EY
= np
 Var
Y=np(1-p)
Przykład

Jeden na ośmiu dorosłych mężczyzn ma
podniesiony poziom cholesterolu. Losowo
wybieramy 10 mężczyzn z populacji. Jakie
jest p-stwo, że (dokładnie) 2 spośród nich
ma podniesiony poziom cholesterolu ?

Jakie jest p-stwo, że co najmniej jeden z
nich ma podniesiony poziom cholesterolu?

Ilu średnio mężczyzn na dziesięciu ma
podwyższony poziom cholesterolu?
Rozkład normalny


Bardzo często używany do modelowania
symetrycznych rozkładów zmiennych
losowych ciągłych
Przykłady:
 Błąd
pomiarowy
 Wzrost, wydajność
 Temperatura ciała
 Zawartość różnych składników we krwi
Funkcja gęstości
Y ~ N(,)
  - wartość oczekiwana,  - odchylenie
standardowe

1
f ( y) 
e
 2

( y  ) 2
2 2
Standardowy rozkład normalny N(0,1)
 =0 ,=1
 Do oznaczenia zmiennej losowej o
rozkładzie N(0,1) będziemy używali litery Z
 Dystrybuanta rozkładu normalnego N(0,1):
Φ(x)=P(Z < x).
 Test: Φ(0)=
 Tablica dystrybuanty Φ(x) (z „Introduction to
the Practice of Statistics”, Moore, McCabe)
 Parametry:
Korzystanie z Tablic
P(Z < 0.95) =
 P(Z <= 0.95) =
 P(Z > 0.75) =
 P(Z < - 1.5)=
 P(1.12 < Z < 2.24)=
 P(Z>1.96)=

Pożyteczne wzory

Φ(-x) =

P(Z > z) =

P(z1 < Z < z2) =

Oblicz: Pr(|Z| > 1.96) =
Dowolny rozkład normalny: N(, )
Załóżmy, że poziomy cholesterolu w
pewnej populacji mają rozkład normalny o
średniej  = 220 i odchyleniu
standardowym  = 40.
 Y ma rozkład N(220, 40)
 Jaka część populacji ma poziom
cholesterolu powyżej 240?

Standardyzacja
Y
~ N(,)
 (Y-)/ ma rozkład normalny!
 Oznaczmy Z= (Y-)/.
Mamy:
 EZ=
 Var(Z)=
 Zatem Z~ N(0,1)!
Przykład cd.

P (Y > 240)=?
P(Y>y), gdzie y=240.
 Oznaczamy
z = (y-)/ = (240-220)/40 = 0.5.
 P(Y > 240) = P(Z > 0.5)=

Jakie jest p-stwo, że u losowo wybranej osoby
cholesterol będzie pomiędzy 200 a 260?

y1 = 200; z1 = (200-220)/40 = -0.5;
y2 = 260; z2 = (260-220)/40 = 1.0;

P(200 < Y < 260) = P(-0.5 < Z < 1.0) =


Oblicz P(Y < 170)
Reguła 68%–95%–99.7% (reguła 3 )
Jeżeli zmienna X ma rozkład normalny, to
 P(-<X<+)=
 P(-2<X<+2)=
 P(-3<X<+3)=
Kwantyle


W jakim punkcie y dystrybuanta osiąga zadaną
wartość p?
Przykłady:
 Mediana to kwantyl rzędu 50%.
 Trzeci kwartyl to kwantyl rzędu 75%?

Znajdź trzeci kwartyl rozkładu opisującego
poziom cholesterolu.

Znajdź kwantyl rzędu 0.1 dla rozkładu poziomów
cholesterolu.
Ocena normalności

Znaczna część procedur statystycznych, które
poznamy w dalszej części kursu wymaga
założenia, że próba pochodzi z populacji o
rozkładzie normalnym. Założenie to można
sprawdzać np. wykonując proste obliczenia lub
rysując wykres kwantyl-kwantyl.
Reguła 3







Policzmy procent obserwacji, które znajdują się w
odległości  1s,  2s and  3s od y .
Przykład: poziomy serum CK
n = 36, y = 98.28 i s = 40.38.
26/36 = 72% obserwacji jest w przedziale y  1s
34/36 = 94% obserwacji jest w przedziale y  2s
36/36 = 100% obserwacji jest w przedziale y  3s
To w przybliżeniu odpowiada wartościom dla
rozkładu normalnego. OK.
Wykres kwantyl-kwantyl (QQ plot)
62
64
66
68
70
Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5
70.5
a

-1
0
Quantiles of Standard Normal
1
Korekta na ciągłość



Niekiedy używamy rozkładu normalnego dla opisu
rozkładu danych, które nie są ciągłe.
Powody:
 Dyskretyzacja pomiarów
 Niektóre rozkłady dyskretne można dobrze
przybliżać rozkładem normalnym (np. rozkład
dwumianowy)
Korektę można zaniedbać, gdy zbiór możliwych do
uzyskania wartości jest duży i rozmiar próby jest
duży.
Przykład: wyniki testu.
że  = 100 i  = 16.
 Wynik to liczba całkowita – nie pochodzi z
rozkładu ciągłego.
 Jak użyć rozkładu normalnego ?
 Przypisujemy liczbie całkowitej y p-stwo
odcinka od y-.5 do y+.5
 Załóżmy,
jest p-stwo, że losowo wybrany student
uzyska(ł) wynik pomiędzy 120 a 140 punktów.
 Jakie
Przybliżenie rozkładu dwumianowego
rozkładem normalnym
Po co?


Gdy n jest duże, to mamy bardzo dużo
możliwych wartości Y.
Gdy n jest duże, to symbole Newtona są trudne
do wyliczenia.
Przybliżenie działa tym lepiej, im p jest bliższe 0.5,
i im większe jest n.



Rozkład dwumianowy z parametrami n i p
przybliżamy rozkładem normalnym z
parametrami =np i = np(1  p)
.
Przybliżenie jest „dość dobre”, gdy np ≥ 5 i
n(1-p) ≥ 5
Przybliżenie jest dość dokładne w centrum
rozkładu i (względnie) gorsze w „ogonach”.
Przykład

Załóżmy, że Y ma rozkład dwumianowy z n=40 i p=0.25.
Wtedy  = np =
i=
.
Sprawdzamy wielkość np oraz n(1-p).

Obliczmy p-stwo, że Y jest pomiędzy 10 i 15 (włącznie).
P(10≤Y≤15)=

[Wynik dokładny = 0.534; nie najgorzej.]
Rozkłady próbkowe

Rozważmy populację o pewnym rozkładzie, np.:
 normalnym N(, ), lub
 dwupunktowym, np. P(Y=sukces)=p, P(Y=porażka)=1-p



Parametry populacji:  i , lub p.
Bierzemy próbę o rozmiarze n z populacji. Wynik:
 y1, … yn, lub
 y = sumaryczna liczba sukcesów.
Obliczamy estymatory
 y
i s , lub


p̂
Gdy n jest duże, estymatory są na ogół bliskie
parametrom które estymują.
Rozkłady próbkowe, cd.
Jak bardzo estymatory mogą sią różnić od
prawdziwych parametrów ?
 Co się stanie, jeżeli wylosujemy inną próbę?
 Otrzymamy inne wartości y i s, lub p̂
 Interesuje nas rozkład (próbkowy) y ,s, p̂.

Meta-eksperyment





Wyobraźmy sobie, że powtarzamy
eksperyment wiele razy
Interesuje nas rozkład wszystkich możliwych
do uzyskania wartości y , s lub p̂ .
Taki rozkład będziemy nazywali rozkładem
próbkowym estymatora.
Zwykle próbkujemy tylko raz.
Rozkłady próbkowe można obliczyć
teoretycznie.
Rozkład próbkowy estymatora p̂
dla p w rozkładzie dwupunktowym
Y = liczba sukcesów w n próbach
 y = zaobserwowana liczba sukcesów
 p̂ = Y/n jest estymatorem p

Przykład:




Producent ocenia, że 2% jego wyrobów jest
wadliwych. Wyroby te paczkuje się po 40 w jednym
opakowaniu.
Y = liczba wadliwych wyrobów w losowo wybranej
paczce. Y ma rozkład .........................................
Niech p̂ = Y/40 = frakcja elementów wadliwych.
P( p̂ = r ) =
Rozkład p̂ wyznaczamy przy pomocy
(dwumianowego) rozkładu Y!
0
40
ˆ
Pr( p  0)  Pr(Y  0)  (1)(.02) (.98)  0.45
Pr( pˆ  0.025)  Pr(Y  1)  (40)(.02) (.98)  0.36
1
39
Pr( pˆ  0.05)  Pr(Y  2)  (780)(.02) (.98)  0.14
2
38
Pr( pˆ  0.075)  Pr(Y  3)  (9880)(.02) (.98)  0.04
Pr( pˆ  0.1)  Pr(Y  4)  0.01
3
37

Gdybyśmy otworzyli tysiące paczek, to rozkład frakcji
liczby wadliwych elementów w paczce byłby zgodny
z rozkładem wyliczonym na poprzedniej stronie.

Prawdziwa wartość p jest 0.02 i nie jest nawet
możliwa do zaobserwowania w pojedynczym
eksperymencie, ale na ogół otrzymamy wartości
bliskie 0.02. P-stwo, że p̂ = 0.025 wynosi 36%.
P-stwo, że nasza ocena będzie różnić się nie więcej
niż o 0.03 od prawdziwej wartości wynosi:..............

Zatem, jeżeli znajdziemy 3 lub więcej wyrobów
wadliwych w jednej paczce mamy podstawy, żeby
kwestionować twierdzenie producenta o p!
Przykład

n=40 i p = 0.02. Jakie jest p-stwo, że
estymator częstości przekracza dwukrotnie (lub
więcej) prawdziwą wartość?
Zależność od rozmiaru próby






Y ma rozkład Bernoulliego (n,p)
μY=np
Var (Y)=np(1-p)
p̂ =
 p̂ =
Var ( p̂ )=
Gdy n rośnie, to wariancja
...............
i estymator staje się bardziej ....................
 Przykład; p=0.3.

Rozkład p̂ (gdy p=0.3)
n
P(0.25≤ p̂ ≤0.35)
10
0.5
20
0.535
40
0.612
80
0.728
500
0.987
Download