Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele Często modelujemy zmienność używając rachunku prawdopodobieństwa. „Prawdopodobieństwo opadów deszczu wynosi 80%.” (zinterpretuj) „Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49.” (zinterpretuj) Prawdopodobieństwo dotyczy zdarzeń=zbiorów A, B, C – zdarzenia (tzw. losowe) P(A) – prawdopodobieństwo zdarzenia E 0≤P(A)≤1 S – przestrzeń probabilistyczna (zbiór wszystkich możliwych wyników eksperymentu-zdarzeń elementarnych) P(S)= (?) 1 Działania na zbiorach i własności prawdopodobieństwa A B A B A B P(A B) P(A) P(B) Diagramy Venna B A A\ B B\ A A B A B 2 Uwagi: W praktyce prawdopodobieństwo często ustalamy jako częstość/proporcję grupy posiadającą interesującą nas własność. Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z egzaminu. Jakie jest prawdopodobieństwo tego, że losując studenta z tej grupy trafimy na takiego, który dostał 5.0 z egzaminu? Prawdopodobieństwo klasyczne Założenie – wszystkie możliwe (elementarne) wyniki eksperymentu są jednakowo prawdopodobne (tu: prawdopodobieństwo wylosowania każdego studenta jest takie samo). N – liczba możliwych wyników eksperymentu (tu N= ?) x – liczba tych wyników , które spełniają/sprzyjają zdarzeniu E (tu E= „Dostał/a 5.0 z egzaminu”, x= ?) P(E)=x/N (tu P(E)= ?) 3 Interpretacja częstościowa prawdopodobieństwa Gdy liczba niezależnych powtórzeń eksperymentu dąży do nieskończoności, to względna częstość występowania zdarzenia E dąży do P(E). Jest to tzw. prawo wielkich liczb. Przykłady zdarzeń E = „wyrzucenie orła w rzucie symetryczną monetą”: P(E) = E = „wyrzucenie 4 w rzucie symetryczną kostką”: P(E) = E = „otrzymam 1 lub 6 w rzucie kostką”: P(E) = 4 Przykład: Ania i Basia rzucają monetą. E = obie dostaną orła. P(E) = Uzasadnienie: A dostanie O i B dostanie O A dostanie O i B dostanie R A dostanie R i B dostanie O A dostanie R i B dostanie R Te cztery zdarzenia są jednakowo prawdopodobne (P(E)=P(OO)=P(OR)=P(RO)=P(RR)= ?) Prawdopodobieństwo, że dostaniemy dokładnie jednego orła (Ania albo Basia) = Przykład: Krzyżówka dwóch heterozygot Genotyp obu rodziców : Aa (?) Dzieci: P(AA) = Pr(Aa albo aA) = (?) P(aa) = (?) Jeżeli liczba dzieci będzie bardzo duża, to frakcja heterozygot będzie bliska (?) Przypomnienie: frakcja w próbie aproksymuje frakcję w populacji. 5 Niezależność Definicja: Zdarzenia A i B są niezależne, gdy P ( A B ) P ( A) P ( B ) Przykład: Dwa rzuty monetą. A=otrzymano orła w pierwszym rzucie B=otrzymano orła w drugim rzucie P(A i B) =... Zdarzenie 0.5 0.5 0.5 O P-stwo OO O 0.5 R OR 0.5 O RO 0.5 O RR R 6 Prawdopodobieństwo warunkowe P(A|B) – prawdopodobieństwo zajścia zdarzenia A pod warunkiem, że zajdzie zdarzenie B. Definicja matematyczna: P(A B) P(B) P( A B) P(B) P( A | B) P(A | B) Przykład: Przypuśćmy, że 2% populacji zarażone jest wirusem HIV, a test do wykrywania obecności wirusa HIV ma następujące własności: Jeżeli się ma HIV, to prawdopodobieństwo jego wykrycia wynosi 0.997 (prawdziwy dodatni wynik testu, czułość). Gdy się nie ma HIV, to prawdopodobieństwo właściwej diagnozy wynosi 0.985 (prawdziwy ujemny wynik testu, specyficzność). 7 Zdarzenia (oznaczenia): A – wybrany losowo człowiek jest chory B – test wykazuje obecność wirusa P(A)= P(B|A)= A’- wybrany losowo człowiek jest zdrowy B’-test nie wykazuje obecności wirusa P(B’|A’)= Zdarzenie Test + Prawdziwy + Test - Fałszywy - Test + Fałszywy + P-stwo HIV + HIV – Test - Prawdziwy - 8 Jakie jest p-stwo, że u losowo wybranej osoby test wykaże obecność wirusa ? Jakie jest p-stwo, że osoba, u której test wskazał obecność wirusa, jest faktycznie zakażona? 9 Wzór Bayesa P( A | B) P ( B | A) P ( A) P(B) Wpływ rozkładu a priori: Załóżmy teraz, że w pewnej populacji: 30% ludzi ma HIV, test do wykrywania HIV ma czułość 99.7% i specyficzność 98.5% (jak przedtem). Jakie jest prawdopodobieństwo, że osoba z dodatnim wynikiem testu ma HIV? 10 Zdarzenie Test + Prawdziwy + Test - Fałszywy - Test + Fałszywy + P-stwo HIV + HIV – Test - Prawdziwy - P-stwo, że osoba z dodatnim wynikiem testu jest (faktycznie) chora wynosi: P ( HIV | test ) P ( HIV oraz test ) P ( test ) 11 Zmienna (tzw.) losowa: Wartość zależna od wyniku eksperymentu. Przykład: Liczba orłów uzyskanych w jednym rzucie monetą. Zmienna losowa dyskretna Zbiór wartości, które może przyjąć zmienna losowa dyskretna jest skończony lub przeliczalny. Możliwe wartości będziemy oznaczali x1,x2, … Rozkład zmiennej dyskretnej X określamy podając prawdopodobieństwa pi=P(X=xi). Np. w rzucie symetryczną kostką liczba oczek X ma rozkład P(X=i)= , i=1,...6. 12 Ciągła zmienna losowa Prawdopodobieństwo przyjęcia każdej ustalonej wartości wynosi zero, np. P(X=3.14159265358979323)=0 Zmienne losowe ciągłe rozważane na tym kursie będą zawsze opisane funkcją gęstości f(x). Dystrybuanta zmiennej X: Dla liczby x definiujemy FX ( x) P ( X x) Własności: FX(x) jest funkcją niemalejącą, ciągłą z prawej strony, oraz lim x F ( x) lim x F ( x) 13 Funkcje gęstość rozkładu prawdopodobieństwa Heurystyka: histogram z dużą liczbą klas: Jeżeli mamy liczbowe dane ciągłe, to więcej klas + dużo danych = bardziej regularny histogram 14 Gęstość rozkładu prawdopodobieństwa Gdy rozmiar próby dąży do nieskończoności a szerokość klas do zera, histogram zbiega do wykresu gęstości rozkładu zmiennej. Podobnie jak dla histogramu, pole pod wykresem gęstości (całka) jest frakcją osobników wpadających do danego przedziału (czyli prawdopodobieństwem tego, że losowo wybrany osobnik jest w danym przedziale). 15 Gęstość (funkcja gęstości) Gęstość, f, rozkładu prawdopodobieństwa to każda funkcja, która spełnia następujące dwa warunki: f(x) 0 dla wszystkich x. Całkowite pole pod wykresem f(x) wynosi 1: f ( x)dx 1 Przykłady rozkładów ciągłych Rozkład jednostajny na odcinku [a,b] f(x)= Rozkład wykładniczy z parametrem λ>0 f(x)= , Rozkład normalny f(x)= Rozkład zaproponowany przez salę: f(x)= 16 Rozkłady (ciągłe): podstawowa zależność Rozkłady (absolutnie) ciągłe dane są przez: b P( X (a, b)) f ( x)dx a Niech Y ma rozkład jednostajny na odcinku [0,1]. P(Y>0.3)= P(Y<0.3)= P(Y=0.3)= ? ? ? Narysuj dystrybuantę dyskretnej zmiennej losowej X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3. 17 Narysuj dystrybuantę rozkładu jednostajnego na odcinku [a,b]. Wartość oczekiwana i wariancja (wzory). Zmienna losowa dyskretna x :=E(X)= xi P(X= xi)=xipi • Var(X)= (xi- x)2 P(X= xi) = xi2 pi - x2 • Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0, gdy reszka) E(X)= Var(X)= Przykład 2 (X=wynik rzutu kostką) E(X)= Var(X)= 18 Rozkład dwupunktowy z parametrem 0p1 P(Y=1)=p, P(Y=0)=1-p. Oblicz: EY= VarY= Wartość oczekiwana i wariancja, cd. Zmienna losowa ciągła EX x f(x) dx 2 Var(X) (x - EX) f(x) dx - 2 2 x f(x)dx (EX) 19 Wartość oczekiwana jest środkiem ciężkości figury określonej przez krzywą gęstości. Przykład: rozkład jednostajny na [a,b]. 20 Przykład: rozkład wykładniczy z paramerem λ>0: Własności wartości oczekiwanej i wariancji E(aX+b)=aEX+b Var(aX+b)=a2Var(X) 21 Dla dwóch zmiennych losowych X i Y: E(X+Y)=EX+EY E(X-Y)=EX-EY E(aX+bY+c)= Niezależność zmiennych losowych: Jeżeli zmienne X i Y są niezależne, to P ( X A, Y B ) P ( X A) P (Y B ) Przykład1: Wybieramy (losowo) liczbę dwucyfrową; X:=liczba dziesiątek, Y:=liczba jedności, A={1, 2}, B={3, 4, 5}. 22 Niezależność zmiennych losowych, cd. Przykład 2: Wybieramy (losowo) liczbę z zakresu 12,...,101; X:=cyfra dziesiątek, Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}. Przykład 3: Liczby oczek, X, Y, w dwóch kolejnych rzutach kostką. Jeżeli X i Y są niezależne, to E(XY)=E(X)·E(Y) i Var(X+Y)=Var(X)+Var(Y). 23 Ćwiczenia: X i Y niezależne, to Var(X-Y)= Var(X+X)= Schemat Bernoulliego i rozkład dwumianowy Anita, Beata i Celina rzucają monetą i uzyskują łączną liczbę orłów Y. Podaj rozkład zmiennej Y A O O O O R R R R B O O R R O O R R C O R O R O R O R P-stwo Zdarzenie P-stwo 3O (0R) 2O (1R) 1O (2R) 0O (3R) 24 Histogram rozkładu w populacji. Populacja =”wszystkie” rzuty trzema monetami Pr(Y=y) Rozkład dwumianowy (n=3,p=0.5) 0,4 0,3 0,2 0,1 0 0 1 2 3 y Schemat Bernoulliego: n niezależnych powtórzeń tego samego eksperymentu dwa możliwe wyniki w każdej próbie - ``sukces’’ i ``porażka’’ (np. O i R, albo 1 i 0) w każdej próbie p-stwo sukcesu wynosi p Rozkład dwumianowy: Y = łączna liczba sukcesów w schemacie Bernoulliego Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród 10 pacjentów poddanych pewnej kuracji 25 Rozkład dwumianowy (wzór): n y P (Y y ) p (1 p) n y , y n n! gdzie , y y!(n y )! y 0,1,..., n Niektóre własności symbolu Newtona Liczba możliwych ciągów y sukcesów i n-y porażek n = 0 n = n n = 1 n = n 1 n y Ogólnie n n y n y 26 W przykładzie A, B, C mamy p=1/2; 3 0 3 1 3 2 3 3 P(Y 0) P(Y 1) P(Y 2) P(Y 3) Uwaga: Rozkład dwumianowy jest symetryczny dla p=1/2. Przykład: Efekt uboczny lekarstwa 20% ludzi dostaje nudności po zażyciu pewnego lekarstwa Lekarz przepisał lekarstwo czterem nowym pacjentom Y – liczba pacjentów w naszej próbie, którzy dostali nudności Podaj rozkład zmiennej Y 27 Rozwiązanie: Dalsze pytania: P(co najmniej dwóch dostanie nudności) = P(co najwyżej jeden dostanie nudności) = 28 Parametry rozkładu dwumianowego: EY Var = np Y=np(1-p) Przykład: Jeden na ośmiu dorosłych mężczyzn ma podniesiony poziom cholesterolu. Losowo wybieramy 10 mężczyzn z populacji. Jakie jest p-stwo, że (dokładnie) 2 spośród nich ma podniesiony poziom cholesterolu ? 29 Jakie jest p-stwo, że co najmniej jeden z nich ma podniesiony poziom cholesterolu? Ilu średnio mężczyzn na dziesięciu ma podwyższony poziom cholesterolu? Rozkład normalny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we krwi 30 Funkcja gęstości: Y ~ N(,) - wartość oczekiwana, - odchylenie standardowe 1 f ( y) e 2 ( y )2 2 2 31 Standardowy rozkład normalny: N(0,1) Parametry: =0 ,=1 Do oznaczenia zmiennej losowej o rozkładzie N(0,1) będziemy używali litery Z Dystrybuanta rozkładu normalnego N(0,1): Φ(z)=P(Z < z). (?) Φ(0)= Tablica dystrybuanty Φ(z) (z „Introduction to the Practice of Statistics”, Moore, McCabe) 32 Korzystanie z Tablic P(Z < 0.95) = P(Z <= 0.95) = P(Z > 0.75) = P(Z < - 1.5)= P(1.12 < Z < 2.24)= P(Z>1.96)= Pożyteczne wzory: Φ(-z) = P(Z > z) = P(z1 < Z < z2) = Ćwiczenie: Pr(|Z| > 1.96) = 33 Dowolny rozkład normalny: N(, ) Załóżmy, że poziom cholesterolu w pewnej populacji ma rozkład normalny o średniej = 220 i odchyleniu std. = 40. Y ma rozkład N(220, 40) Jaka część populacji ma poziom cholesterolu powyżej 240? Standaryzacja: Y ~ N(,) (Y-)/ ma rozkład normalny! Oznaczmy Z= (Y-)/. Mamy: EZ= Var(Z)= Zatem Z~ N(0,1)! 34 Przykład cd. P (Y > 240)=... tj. P(Y>y), gdzie y=240. Oznaczamy z = (y-)/ = (240-220)/40 = 0.5. P(Y > 240) = P(Z > 0.5)= 35 Jakie jest p-stwo, że u losowo wybranej osoby cholesterol będzie pomiędzy 200 a 260? y1 = 200; z1 = (200-220)/40 = -0.5; y2 = 260; z2 = (260-220)/40 = 1.0; P(200 < Y < 260) = P(-0.5 < Z < 1.0) = Oblicz P(Y < 170) 36 Reguła 68%–95%–99.7% (reguła 3 ) Jeżeli zmienna X ma rozkład normalny, to P(-<X<+)= P(-2<X<+2)= P(-3<X<+3)= 37 Kwantyle W jakim punkcie y dystrybuanta osiąga zadaną wartość p? Przykłady: Mediana to kwantyl rzędu 50%. Trzeci kwartyl to kwantyl rzędu 75%. Kwantyle rozkładu N(0,1) z0.1= z0.9= 38 Kwantyle Y~N(μ, σ) yp= μ+σzp Znajdź trzeci kwartyl rozkładu poziomu cholesterolu. Znajdź kwantyl rzędu 0.1 dla rozkładu poziomu cholesterolu. 39 Ocena normalności Znaczna część procedur statystycznych, które poznamy w dalszej części kursu wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można sprawdzać to przez pewne proste (orientacyjne) obliczenia lub rysując wykres kwantyl-kwantyl... Reguła 3 Policzmy procent obserwacji, które znajdują się w odległości 1s, 2s and 3s od y . Przykład: poziomy serum CK n = 36, y = 98.28 i s = 40.38. 26/36 = 72% obserwacji jest w przedziale y 1s 34/36 = 94% obserwacji jest w przedziale y 2s 36/36 = 100% obserwacji jest w przedziale y 3s To w przybliżeniu odpowiada wartościom dla rozkładu normalnego. OK. 40 Wykres kwantyl-kwantyl (QQ plot) 66 64 a 68 70 Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5 70.5 62 -1 0 1 Quantiles of Standard Normal 41