Wykład 3: Prawdopodobieństwo- podstawowe pojęcia i modele

advertisement
Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele
Często
modelujemy zmienność używając
rachunku prawdopodobieństwa.
„Prawdopodobieństwo
opadów deszczu
wynosi 80%.” (zinterpretuj)
„Prawdopodobieństwo
urodzenia
dziewczynki wynosi 0,49.” (zinterpretuj)
Prawdopodobieństwo dotyczy
zdarzeń=zbiorów

A, B, C – zdarzenia (tzw. losowe)

P(A) – prawdopodobieństwo zdarzenia E

0≤P(A)≤1

S – przestrzeń probabilistyczna (zbiór wszystkich
możliwych wyników eksperymentu-zdarzeń
elementarnych)

P(S)=
(?)
1
Działania na zbiorach
i własności prawdopodobieństwa
A B
A B
A  B    P(A  B)  P(A)  P(B)
Diagramy Venna
B
A
A\ B
B\ A
A B
A B
2
Uwagi:

W praktyce prawdopodobieństwo często ustalamy
jako częstość/proporcję grupy posiadającą
interesującą nas własność.

Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z
egzaminu. Jakie jest prawdopodobieństwo tego, że
losując studenta z tej grupy trafimy na takiego, który
dostał 5.0 z egzaminu?
Prawdopodobieństwo klasyczne

Założenie – wszystkie możliwe (elementarne) wyniki
eksperymentu są jednakowo prawdopodobne (tu:
prawdopodobieństwo wylosowania każdego studenta
jest takie samo).

N – liczba możliwych wyników eksperymentu (tu N=
?)
x – liczba tych wyników , które spełniają/sprzyjają
zdarzeniu E
(tu E= „Dostał/a 5.0 z egzaminu”, x=
?)
P(E)=x/N
(tu P(E)=
?)


3
Interpretacja częstościowa
prawdopodobieństwa
Gdy liczba niezależnych powtórzeń
eksperymentu dąży do nieskończoności, to
względna częstość występowania zdarzenia E
dąży do P(E). Jest to tzw. prawo wielkich liczb.
Przykłady zdarzeń

E = „wyrzucenie orła w rzucie symetryczną
monetą”: P(E) =

E = „wyrzucenie 4 w rzucie symetryczną
kostką”: P(E) =

E = „otrzymam 1 lub 6 w rzucie kostką”:
P(E) =
4
Przykład: Ania i Basia rzucają monetą.
 E = obie dostaną orła. P(E) =
Uzasadnienie:
A
dostanie O i B dostanie O
 A dostanie O i B dostanie R
 A dostanie R i B dostanie O
 A dostanie R i B dostanie R
 Te cztery zdarzenia są jednakowo prawdopodobne
(P(E)=P(OO)=P(OR)=P(RO)=P(RR)=
?)

Prawdopodobieństwo, że dostaniemy dokładnie
jednego orła (Ania albo Basia) =
Przykład: Krzyżówka dwóch heterozygot
 Genotyp obu rodziców : Aa
(?)
 Dzieci: P(AA) =
Pr(Aa albo aA) =
(?)
P(aa) =
(?)

Jeżeli liczba dzieci będzie bardzo duża, to
frakcja heterozygot będzie bliska
(?)

Przypomnienie: frakcja w próbie aproksymuje
frakcję w populacji.
5
Niezależność
Definicja: Zdarzenia A i B są niezależne, gdy
P ( A  B )  P ( A)  P ( B )
Przykład: Dwa rzuty monetą.
A=otrzymano orła w pierwszym rzucie
B=otrzymano orła w drugim rzucie
P(A i B) =...
Zdarzenie
0.5
0.5
0.5
O
P-stwo
OO
O
0.5
R
OR
0.5
O
RO
0.5
O
RR
R
6
Prawdopodobieństwo warunkowe
P(A|B) – prawdopodobieństwo zajścia zdarzenia A
pod warunkiem, że zajdzie zdarzenie B.
Definicja matematyczna:
P(A  B)
P(B)
P( A  B)  P(B)  P( A | B)
P(A | B) 
Przykład:

Przypuśćmy, że 2% populacji zarażone jest wirusem
HIV, a test do wykrywania obecności wirusa HIV ma
następujące własności:
 Jeżeli
się ma HIV, to prawdopodobieństwo jego
wykrycia wynosi 0.997 (prawdziwy dodatni wynik
testu, czułość).
 Gdy się nie ma HIV, to prawdopodobieństwo
właściwej diagnozy wynosi 0.985 (prawdziwy
ujemny wynik testu, specyficzność).
7
Zdarzenia (oznaczenia):
A – wybrany losowo człowiek jest chory
 B – test wykazuje obecność wirusa
 P(A)=
 P(B|A)=
 A’- wybrany losowo człowiek jest zdrowy
 B’-test nie wykazuje obecności wirusa
 P(B’|A’)=

Zdarzenie
Test +
Prawdziwy +
Test -
Fałszywy -
Test +
Fałszywy +
P-stwo
HIV +
HIV –
Test -
Prawdziwy -
8
 Jakie
jest p-stwo, że u losowo wybranej
osoby test wykaże obecność wirusa ?
Jakie jest p-stwo, że osoba, u której test wskazał
obecność wirusa, jest faktycznie zakażona?
9
Wzór Bayesa
P( A | B) 
P ( B | A)  P ( A)
P(B)
Wpływ rozkładu a priori:
Załóżmy teraz, że w pewnej populacji:
 30% ludzi ma HIV,
 test do wykrywania HIV ma czułość 99.7%
i specyficzność 98.5% (jak przedtem).
Jakie jest prawdopodobieństwo, że osoba z
dodatnim wynikiem testu ma HIV?
10
Zdarzenie
Test +
Prawdziwy +
Test -
Fałszywy -
Test +
Fałszywy +
P-stwo
HIV +
HIV –
Test -
Prawdziwy -
P-stwo, że osoba z dodatnim wynikiem testu
jest (faktycznie) chora wynosi:
P ( HIV  | test  ) 
P ( HIV  oraz test  )
P ( test  )
11
Zmienna (tzw.) losowa:
Wartość zależna od wyniku eksperymentu.

Przykład: Liczba orłów uzyskanych w
jednym rzucie monetą.
Zmienna losowa dyskretna

Zbiór wartości, które może przyjąć zmienna losowa
dyskretna jest skończony lub przeliczalny. Możliwe
wartości będziemy oznaczali x1,x2, …

Rozkład zmiennej dyskretnej X określamy podając
prawdopodobieństwa pi=P(X=xi).

Np. w rzucie symetryczną kostką liczba oczek X
ma rozkład P(X=i)=
, i=1,...6.
12
Ciągła zmienna losowa

Prawdopodobieństwo przyjęcia każdej
ustalonej wartości wynosi zero, np.
P(X=3.14159265358979323)=0

Zmienne losowe ciągłe rozważane na tym
kursie będą zawsze opisane funkcją
gęstości f(x).
Dystrybuanta zmiennej X:

Dla liczby
x
definiujemy
FX ( x)  P ( X  x)

Własności: FX(x) jest funkcją niemalejącą,
ciągłą z prawej strony, oraz
lim x F ( x) 
lim x F ( x) 
13
Funkcje gęstość rozkładu
prawdopodobieństwa

Heurystyka: histogram z dużą liczbą klas:
Jeżeli mamy liczbowe dane ciągłe, to
więcej klas + dużo danych = bardziej
regularny histogram
14
Gęstość rozkładu prawdopodobieństwa

Gdy rozmiar próby dąży do nieskończoności a
szerokość klas do zera, histogram zbiega do
wykresu gęstości rozkładu zmiennej.

Podobnie jak dla histogramu, pole pod
wykresem gęstości (całka) jest frakcją
osobników wpadających do danego przedziału
(czyli prawdopodobieństwem tego, że losowo
wybrany osobnik jest w danym przedziale).
15
Gęstość (funkcja gęstości)

Gęstość, f, rozkładu prawdopodobieństwa to każda
funkcja, która spełnia następujące dwa warunki:
 f(x)
 0 dla wszystkich x.
 Całkowite
pole pod wykresem f(x) wynosi 1:

 f ( x)dx  1

Przykłady rozkładów ciągłych
Rozkład jednostajny na odcinku [a,b]
f(x)=
 Rozkład wykładniczy z parametrem λ>0
f(x)=
,
 Rozkład normalny
f(x)=
 Rozkład zaproponowany przez salę:
f(x)=

16
Rozkłady (ciągłe): podstawowa zależność

Rozkłady (absolutnie) ciągłe dane są przez:
b
P( X  (a, b))   f ( x)dx
a

Niech Y ma rozkład jednostajny na odcinku [0,1].
 P(Y>0.3)=
 P(Y<0.3)=
 P(Y=0.3)=
?
?
?
Narysuj dystrybuantę dyskretnej zmiennej losowej
X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3.
17
Narysuj dystrybuantę rozkładu jednostajnego na
odcinku [a,b].
Wartość oczekiwana i wariancja (wzory).
Zmienna losowa dyskretna
x :=E(X)= xi P(X= xi)=xipi
• Var(X)= (xi- x)2 P(X= xi) = xi2 pi - x2
•
Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0,
gdy reszka)
E(X)=
Var(X)=
 Przykład 2 (X=wynik rzutu kostką)
E(X)=
Var(X)=

18
Rozkład dwupunktowy z parametrem 0p1

P(Y=1)=p, P(Y=0)=1-p.

Oblicz:
 EY=
 VarY=
Wartość oczekiwana i wariancja, cd.
Zmienna losowa ciągła

EX 
 x f(x) dx



2
Var(X)   (x - EX) f(x) dx 
-
2
2
x
f(x)dx

(EX)


19
Wartość oczekiwana jest środkiem ciężkości figury określonej
przez krzywą gęstości.
Przykład: rozkład jednostajny na [a,b].
20
Przykład: rozkład wykładniczy z
paramerem λ>0:
Własności wartości oczekiwanej i wariancji
E(aX+b)=aEX+b
Var(aX+b)=a2Var(X)
21
Dla dwóch zmiennych losowych X i Y:
E(X+Y)=EX+EY
E(X-Y)=EX-EY
E(aX+bY+c)=
Niezależność zmiennych losowych:
Jeżeli zmienne X i Y są niezależne, to
P ( X  A, Y  B )  P ( X  A) P (Y  B )
Przykład1: Wybieramy (losowo) liczbę
dwucyfrową; X:=liczba dziesiątek, Y:=liczba
jedności, A={1, 2}, B={3, 4, 5}.
22
Niezależność zmiennych losowych, cd.
Przykład 2: Wybieramy (losowo) liczbę z
zakresu 12,...,101; X:=cyfra dziesiątek,
Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}.
Przykład 3: Liczby oczek, X, Y, w dwóch
kolejnych rzutach kostką.
Jeżeli X i Y są niezależne, to
E(XY)=E(X)·E(Y)
i
Var(X+Y)=Var(X)+Var(Y).
23
Ćwiczenia: X i Y niezależne, to
Var(X-Y)=
Var(X+X)=
Schemat Bernoulliego i rozkład dwumianowy
Anita, Beata i Celina rzucają monetą i uzyskują łączną liczbę
orłów Y. Podaj rozkład zmiennej Y
A
O
O
O
O
R
R
R
R
B
O
O
R
R
O
O
R
R
C
O
R
O
R
O
R
O
R
P-stwo
Zdarzenie P-stwo
3O (0R)
2O (1R)
1O (2R)
0O (3R)
24
Histogram rozkładu w populacji.
Populacja =”wszystkie” rzuty trzema monetami
Pr(Y=y)
Rozkład dwumianowy (n=3,p=0.5)
0,4
0,3
0,2
0,1
0
0
1
2
3
y
Schemat Bernoulliego:



n niezależnych powtórzeń tego samego
eksperymentu
dwa możliwe wyniki w każdej próbie - ``sukces’’ i
``porażka’’ (np. O i R, albo 1 i 0)
w każdej próbie p-stwo sukcesu wynosi p
Rozkład dwumianowy:

Y = łączna liczba sukcesów w schemacie
Bernoulliego
Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród
10 pacjentów poddanych pewnej kuracji
25
Rozkład dwumianowy (wzór):
n y
P (Y  y )    p (1  p) n y ,
 y
n
n!
gdzie   
,
 y  y!(n  y )!
y  0,1,..., n
Niektóre własności symbolu Newtona

Liczba możliwych ciągów y sukcesów i n-y porażek

n
  =
0
n
 =
n

n
 =
1 
n 

=
n

1



n
 
 y
Ogólnie
n  n


  

 y n y
26
W przykładzie A, B, C mamy p=1/2;
 3
 
0
3
 
1
 3
 
 2
3
 
3
P(Y  0) 
P(Y  1) 
P(Y  2) 
P(Y  3) 

Uwaga: Rozkład dwumianowy jest
symetryczny dla p=1/2.
Przykład: Efekt uboczny lekarstwa
20% ludzi dostaje nudności po zażyciu
pewnego lekarstwa
 Lekarz przepisał lekarstwo czterem
nowym pacjentom
 Y – liczba pacjentów w naszej próbie,
którzy dostali nudności
 Podaj rozkład zmiennej Y

27
Rozwiązanie:
Dalsze pytania:

P(co najmniej dwóch dostanie nudności) =

P(co najwyżej jeden dostanie nudności) =
28
Parametry rozkładu dwumianowego:
 EY
 Var
= np
Y=np(1-p)
Przykład:

Jeden na ośmiu dorosłych mężczyzn ma
podniesiony poziom cholesterolu. Losowo
wybieramy 10 mężczyzn z populacji. Jakie
jest p-stwo, że (dokładnie) 2 spośród nich
ma podniesiony poziom cholesterolu ?
29

Jakie jest p-stwo, że co najmniej jeden z
nich ma podniesiony poziom cholesterolu?

Ilu średnio mężczyzn na dziesięciu ma
podwyższony poziom cholesterolu?
Rozkład normalny

Bardzo często używany do modelowania
symetrycznych rozkładów zmiennych
losowych ciągłych

Przykłady:
 Błąd
pomiarowy
 Wzrost, wydajność
 Temperatura ciała
 Zawartość różnych składników we krwi
30
Funkcja gęstości:
Y ~ N(,)
  - wartość oczekiwana,  - odchylenie
standardowe


1
f ( y) 
e
 2
( y  )2
2 2
31
Standardowy rozkład normalny: N(0,1)
 Parametry:
 =0 ,=1
 Do oznaczenia zmiennej losowej o
rozkładzie N(0,1) będziemy używali litery Z
 Dystrybuanta rozkładu normalnego N(0,1):
Φ(z)=P(Z < z).
(?)
 Φ(0)=
 Tablica dystrybuanty Φ(z) (z „Introduction to
the Practice of Statistics”, Moore, McCabe)
32
Korzystanie z Tablic
P(Z < 0.95) =
 P(Z <= 0.95) =
 P(Z > 0.75) =
 P(Z < - 1.5)=
 P(1.12 < Z < 2.24)=
 P(Z>1.96)=

Pożyteczne wzory:

Φ(-z) =

P(Z > z) =

P(z1 < Z < z2) =

Ćwiczenie: Pr(|Z| > 1.96) =
33
Dowolny rozkład normalny: N(, )

Załóżmy, że poziom cholesterolu w pewnej
populacji ma rozkład normalny o średniej 
= 220 i odchyleniu std.  = 40.

Y ma rozkład N(220, 40)

Jaka część populacji ma poziom
cholesterolu powyżej 240?
Standaryzacja:
Y
~ N(,)
 (Y-)/ ma rozkład normalny!
 Oznaczmy Z= (Y-)/.
Mamy:
 EZ=
 Var(Z)=
 Zatem Z~ N(0,1)!
34
Przykład cd.

P (Y > 240)=... tj. P(Y>y), gdzie y=240.

Oznaczamy
z = (y-)/ = (240-220)/40 = 0.5.

P(Y > 240) = P(Z > 0.5)=
35
Jakie jest p-stwo, że u losowo wybranej osoby
cholesterol będzie pomiędzy 200 a 260?

y1 = 200; z1 = (200-220)/40 = -0.5;
y2 = 260; z2 = (260-220)/40 = 1.0;

P(200 < Y < 260) = P(-0.5 < Z < 1.0) =


Oblicz P(Y < 170)
36
Reguła 68%–95%–99.7% (reguła 3 )
Jeżeli zmienna X ma rozkład normalny, to
 P(-<X<+)=
 P(-2<X<+2)=
 P(-3<X<+3)=
37
Kwantyle

W jakim punkcie y dystrybuanta osiąga zadaną
wartość p?

Przykłady:
 Mediana to kwantyl rzędu 50%.
 Trzeci kwartyl to kwantyl rzędu 75%.
Kwantyle rozkładu N(0,1)

z0.1=

z0.9=
38
Kwantyle Y~N(μ, σ)

yp= μ+σzp

Znajdź trzeci kwartyl rozkładu poziomu
cholesterolu.

Znajdź kwantyl rzędu 0.1 dla rozkładu
poziomu cholesterolu.
39
Ocena normalności

Znaczna część procedur statystycznych, które
poznamy w dalszej części kursu wymaga
założenia, że próba pochodzi z populacji o
rozkładzie normalnym. Założenie to można
sprawdzać to przez pewne proste (orientacyjne)
obliczenia lub rysując wykres kwantyl-kwantyl...
Reguła 3







Policzmy procent obserwacji, które znajdują się w
odległości  1s,  2s and  3s od y .
Przykład: poziomy serum CK
n = 36, y = 98.28 i s = 40.38.
26/36 = 72% obserwacji jest w przedziale y  1s
34/36 = 94% obserwacji jest w przedziale y  2s
36/36 = 100% obserwacji jest w przedziale y  3s
To w przybliżeniu odpowiada wartościom dla
rozkładu normalnego. OK.
40
Wykres kwantyl-kwantyl (QQ plot)
66
64
a
68
70
Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5
70.5
62

-1
0
1
Quantiles of Standard Normal
41
Download