Marek Cieciura, Janusz Zacharski PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE CZĘŚĆ III RACHUNEK PRAWDOPODOBIEŃSTWA Na prawach rękopisu Warszawa, wrzesień 2011 1 RACHUNEK PRAWDOPODOBIEŃSTWA Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao Podręcznik: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE publikowany jest w częściach podanych poniŜej Nr Tytuł I. Wprowadzenie II. Statystyka opisowa III. Rachunek prawdopodobieństwa IV. Statystyka matematyczna V. Przykłady zastosowań w informatyce VI. Wybrane twierdzenia z dowodami VII. Tablice statystyczne Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu http://cieciura.net/mp/ Publikowane części będą na bieŜąco poprawiane, w kaŜdej będzie podawana data ostatniej aktualizacji. Podręcznik udostępnia się na warunku licencji Creative Commons (CC): Uznanie Autorstwa – UŜycie Niekomercyjne – Bez Utworów ZaleŜnych (CC-BY-NC-ND),co oznacza: • Uznanie Autorstwa (ang. Attribution - BY): zezwala się na kopiowanie, dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twórcy. • UŜycie Niekomercyjne (ang. Noncommercial - NC): zezwala się na kopiowanie, dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych.. • Bez Utworów ZaleŜnych (ang. No Derivative Works - ND): zezwala się na kopiowanie, dystrybucję, wyświetlanie tylko dokładnych (dosłownych) kopii dzieła, niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych. Podręcznik i skorelowany z nim portal, są w pełni i powszechnie dostępne, stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang. Open Educational Resources – OER). 2 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE SPIS TREŚCI 5. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO ..................................................... 5 5.1. UWAGI WSTĘPNE ................................................................................................................... 5 5.2. ZDARZENIA LOSOWE.............................................................................................................. 5 5.3. RELACJE MIĘDZY ZDARZENIAMI ............................................................................................. 6 5.4. DEFINICJE PRAWDOPODOBIEŃSTWA ....................................................................................... 9 5.4.1. Klasyczna definicja prawdopodobieństwa...................................................................... 9 5.4.2. Geometryczna definicja prawdopodobieństwa ............................................................... 9 5.4.3. Statystyczna definicja prawdopodobieństwa................................................................. 10 5.4.4. Aksjomatyczna definicja prawdopodobieństwa ............................................................ 11 5.7. PRAWDOPODOBIEŃSTWO WARUNKOWE ................................................................................ 12 5.8. PRAWDOPODOBIEŃSTWO CAŁKOWITE I TWIERDZENIE BAYESA .............................................. 13 5.9. ZDARZENIA NIEZALEśNE...................................................................................................... 15 6. ZMIENNE LOSOWE ............................................................................................................. 19 6.1. ZMIENNE LOSOWE JEDNOWYMIAROWE ................................................................................. 19 6.1.1. Pojęcie zmiennej losowej ............................................................................................. 19 6.1.2. Zbiory przeliczalne i nieprzeliczalne ............................................................................ 21 6.1.3. Zmienne losowe skokowe ............................................................................................. 21 6.1.4. Dystrybuanta ............................................................................................................... 23 6.1.5. Zmienne losowe ciągłe................................................................................................. 26 6.2. ZMIENNE LOSOWE DWUWYMIAROWE ................................................................................... 29 6.2.1. Pojęcie zmiennej losowej dwuwymiarowej ................................................................... 29 6.2.2. Dystrybuanta zmiennej losowej dwuwymiarowej.......................................................... 31 6.2.3. Zmienne losowe dwuwymiarowe skokowe .................................................................... 31 6.2.4. Zmienne losowe dwuwymiarowe ciągłe........................................................................ 32 5.2.5. Rozkłady brzegowe ...................................................................................................... 34 6.2.6. Rozkłady warunkowe ................................................................................................... 39 6.2.7. Zmienne losowe niezaleŜne .......................................................................................... 42 7. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH ................................................ 44 7.1. MIARY POŁOśENIA ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ ................................................ 44 7.1.1. Wartość oczekiwana .................................................................................................... 44 7.1.2. Mediana ...................................................................................................................... 47 7.1.3. Parametry pozycyjne ................................................................................................... 47 7.1.4. Wartość oczekiwana funkcji zmiennej losowej.............................................................. 48 7.2. MIARY ROZPROSZENIA ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ ........................................... 48 7.2.1. Wariancja.................................................................................................................... 48 7.2.2. Odchylenie przeciętne.................................................................................................. 50 7.2.3. Odchylenie ćwiartkowe................................................................................................ 51 7.2.4. Współczynnik zmienności............................................................................................. 51 7.3. ASYMETRIA I SPŁASZCZENIE ROZKŁADU JEDNOWYMIAROWEJ ZMIENNEJ LOSOWEJ ................. 52 7.4. WARTOŚĆ OCZEKIWANA I MOMENTY ZMIENNEJ LOSOWEJ DWUWYMIAROWEJ ........................ 54 7.5. PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ DWUWYMIAROWEJ ........................................... 57 7.5.1. Wartość oczekiwana funkcji dwuwymiarowej zmiennej losowej ................................... 57 7.5.2. Momenty dwuwymiarowej zmiennej losowej ................................................................ 59 7.5.3. Współczynnik korelacji ................................................................................................ 62 7.5.3. Zmienne losowe nieskorelowane .................................................................................. 64 3 RACHUNEK PRAWDOPODOBIEŃSTWA 8. REGRESJA ZMIENNYCH LOSOWYCH............................................................................ 65 8.1. WPROWADZENIE ................................................................................................................. 65 8.2. ZALEśNOŚĆ FUNKCYJNA ZMIENNYCH LOSOWYCH ................................................................. 66 8.3. REGRESJA I RODZAJU .......................................................................................................... 67 8.4. REGRESJA II RODZAJU ......................................................................................................... 68 8.5. LINIOWA REGRESJA II RODZAJU ........................................................................................... 68 9. PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA ........................................... 75 9.1. ROZKŁADY SKOKOWE .......................................................................................................... 75 9.1.1. Rozkład jednopunktowy ............................................................................................... 75 9.1.2. Rozkład dwupunktowy.................................................................................................. 75 9.1.3. Rozkład dwumianowy .................................................................................................. 76 9.1.4. Rozkład geometryczny.................................................................................................. 79 9.1.5. Rozkład Poissona......................................................................................................... 80 9.1.6. Powiązanie rozkładów skokowych ............................................................................... 83 9.2. ROZKŁADY CIĄGŁE .............................................................................................................. 84 9.2.1. Rozkład jednostajny ..................................................................................................... 84 9.2.2. Rozkłady normalne ...................................................................................................... 85 9.2.3. Rozkład wykładniczy.................................................................................................... 93 9.2.4 Rozkład chi kwadrat ..................................................................................................... 93 9.2.5. Rozkład Studenta ......................................................................................................... 95 9.2.6. Rozkład Snedecora ...................................................................................................... 97 9.2.8. Powiązania rozkładów ciągłych................................................................................... 99 9.3 ZESTAWIENIE ROZKŁADÓW ................................................................................................ 100 9.3.1. Zestawienie rozkładów skokowych ............................................................................. 100 9.3.2. Zestawienie rozkładów ciągłych................................................................................. 101 10. TWIERDZENIA GRANICZNE ......................................................................................... 105 10.1. RODZAJE TWIERDZEŃ GRANICZNYCH................................................................................ 105 10.2. TWIERDZENIA INTEGRALNE.............................................................................................. 105 10.2.1. ZbieŜność według dystrybuant.................................................................................. 105 10.2.2. Twierdzenie Lindeberga – Levy’ego......................................................................... 105 10.2.3. Integralne twierdzenie Moivre’a – Laplace’a........................................................... 106 10.2.5. Związek pomiędzy twierdzeniami granicznymi integralnymi..................................... 107 10.2.6. Uwagi końcowe o twierdzeniach integralnych.......................................................... 107 10.3. TWIERDZENIA LOKALNE .................................................................................................. 107 10.3.1. Twierdzenie Poissona .............................................................................................. 107 10.3.2. Lokalne twierdzenie Moivre’a – Laplace’a .............................................................. 108 10.4. PRAWA WIELKICH LICZB .................................................................................................. 108 10.4.1. ZbieŜność według prawdopodobieństwa................................................................... 108 10.4.2. Prawo wielkich liczb Bernoulliego........................................................................... 109 10.4.3. Prawo wielkich liczb Chinczyna............................................................................... 109 4 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 5. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO 5.1. Uwagi wstępne Przypadkowość lub inaczej losowość wiąŜe się z kaŜdym doświadczeniem, jest ono bowiem zawsze w większym czy mniejszym stopniu losowe. Rachunek prawdopodobieństwa jest działem matematyki zajmującym się badaniem prawidłowości w zakresie doświadczeń losowych, zwanych takŜe zjawiskami przypadkowymi. Przez doświadczenie losowe rozumiemy takie doświadczenie, które moŜe być powtarzane wiele razy w tych samych warunkach i którego wyników nie moŜna jednoznacznie przewidzieć. Przykłady doświadczeń losowych: • Rzut monetą. • Rzut kością. • Losowanie Toto-Lotka. • Rozdanie kart w czasie gry w brydŜa. • Obserwacja liczby cząstek α emitowanych przez substancję promieniotwórczą w ciągu pewnego czasu, np. 10 sek. • Pomiar określonej wielkości fizycznej. • Strzelanie do celu. • Bezawaryjny czas pracy komputera, itp. 5.2. Zdarzenia losowe Pojęciem pierwotnym rachunku prawdopodobieństwa jest zdarzenie elementarne. Dla kaŜdego doświadczenia naleŜy oddzielnie ustalić, co rozumie się przez to pojęcie i jakie moŜliwe są zdarzenia elementarne. Zbiór wszystkich zdarzeń elementarnych danego doświadczenia losowego oznaczamy literą Ω. Zdarzenia losowe (krótko: zdarzenia) są podzbiorami złoŜonymi z pewnej liczby zdarzeń elementarnych. Dane zdarzenie losowe zachodzi wtedy i tylko wtedy, gdy zachodzi jedno ze zdarzeń elementarnych wchodzących w skład tego zdarzenia losowego. O zdarzeniach elementarnych, które naleŜą do danego zdarzenia losowego mówi się, Ŝe sprzyjają temu zdarzeniu. Zdarzeniami losowymi są takŜe szczególne zbiory: • Sam zbiór wszystkich zdarzeń elementarnych Ω, który nazywamy zdarzeniem pewnym; • Zbiór ∅ nie zawierający Ŝadnego zdarzenia elementarnego (zbiór pusty), który nazywamy zdarzeniem niemoŜliwym; • Zbiory jednoelementowe, składające się z jednego zdarzenia elementarnego. Zdarzenie pewne zachodzi w kaŜdym doświadczeniu losowym, natomiast zdarzenie niemoŜliwe nie zachodzi w Ŝadnym doświadczeniu. Jeśli zbiór zdarzeń elementarnych Ω ma n elementów, to zdarzeń losowych jest 2 n (łącznie ze zdarzeniem pewnym i niemoŜliwym) czyli tyle, ile podzbiorów ma n-elementowy zbiór. Przykład 5.1 Partia towaru składa się ze sztuk dobrych i wadliwych. Z partii tej wybieramy losowo jedną sztukę towaru. Zdarzenia elementarne ustalamy następująco: d - wybranie sztuki dobrej, w - wybranie sztuki wadliwej. Wtedy zbiorem zdarzeń elementarnych jest zbiór Ω = {d, w} 5 RACHUNEK PRAWDOPODOBIEŃSTWA MoŜliwe są 4 zdarzenia losowe: {d} - wybranie sztuki dobrej; {w} - wybranie sztuki wadliwej; {d, w} = Ω - wybranie sztuki dobrej lub wadliwej (zdarzenie pewne); ∅- zdarzenie niemoŜliwe (wybranie sztuki ani dobrej ani wadliwej). Przykład 5.2 Strzelec oddaje do celu dwa strzały. Zdarzenia elementarne ustalamy następująco: (t , t ) - dwukrotne trafienie do celu; (t , c ) - trafienie w pierwszym strzale i chybienie w drugim strzale; (c, t ) chybienie w pierwszym i trafienie w drugim strzale; (c, c ) - dwukrotne chybienie celu. Zbiorem zdarzeń elementarnych jest zbiór Ω = {(t, t ), (t, c ), (c, t ), (c, c )} 4 MoŜliwych jest tu 2 = 16 zdarzeń losowych. Oto niektóre z nich: {(t, t ), (t, c), (c, t )} - trafienie do celu co najmniej raz; {(t, t ), (t, c)} - trafienie do celu w pierwszym strzale; {(t, t )} - dwukrotne trafienie do celu. Przykład 5.3 Strzelec oddaje do celu dwa strzały. Interesuje nas liczba celnych strzałów. Zdarzenia elementarne w odróŜnieniu od poprzedniego przykładu ustalimy następująco: ω0 - strzelec trafił do celu 0 razy, ω1 - trafił do celu dokładnie raz i ω 2 - trafił dwa razy. Zbiorem zdarzeń elementarnych jest teraz zbiór Ω = {ω0 , ω1 , ω 2 } Zdarzeń losowych mamy w tym przykładzie 2 3 = 8 . Oto niektóre z nich: {ω1 , ω2 } - trafienie do celu co najmniej raz; - trafienie do celu co najwyŜej raz; {ω0 ,ω1 } {ω1 } - trafienie do celu dokładnie raz; {ω0 , ω1 , ω 2 } = Ω - trafienie do celu nie więcej niŜ dwa razy (zdarzenie pewne). Przy tak określonym zbiorze zdarzeń elementarnych nie moŜna mówić o zdarzeniu polegającym na trafieniu do celu w pierwszym strzale. ♦ Przykłady 5.2 i 5.3 wskazują, Ŝe dla tego samego doświadczenia losowego, w zaleŜności od interesującego nas zagadnienia, zbiór zdarzeń elementarnych moŜe być określony w róŜny sposób. 5.3. Relacje między zdarzeniami Stosując działania rachunku zbiorów z danych zdarzeń losowych moŜemy tworzyć nowe, analogicznie jak robimy to ze zdaniami1. Postępując tak określamy: • Sumę zdarzeń A, B - zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które naleŜą do co najmniej jednego ze zdarzeń A, B – rys. 5.1. Sumę zdarzeń A, B oznaczamy symbolem A ∪ B . Suma zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi co najmniej jedno ze zdarzeń A, B. • Iloczyn zdarzeń A, B - zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które naleŜą do kaŜdego ze zdarzeń A, B – rys. 5.2. Iloczyn zdarzeń A, B oznaczamy symbolem A ∩ B . Iloczyn zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi kaŜde ze zdarzeń A, B. 1 KaŜde działanie w rachunku zbiorów ma odpowiednik w rachunku zdań i odwrotnie, np. sumie zbiorów odpowiada alternatywa zdań, a iloczynowi zbiorów – koniunkcja zdań. 6 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE • • • • RóŜnicę zdarzeń A, B - zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które naleŜą do A i nie naleŜą do B – rys. 5.3. RóŜnicę zdarzeń A, B oznaczamy symbolem A − B . RóŜnica zdarzeń A, B zachodzi wtedy i tylko wtedy, gdy zachodzi A i nie zachodzi B. Zdarzenie przeciwne do zdarzenia A - zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które nie naleŜą do A (lecz naleŜą do zbioru zdarzeń elementarnych Ω) – rys. 5.4. Zdarzenie przeciwne do A oznaczamy symbolem A ′ . Zdarzenie przeciwne do A zachodzi wtedy i tylko wtedy, gdy nie zachodzi zdarzenie A. Zdarzenie A pociągające za sobą zdarzenie B - jeśli kaŜde zdarzenie elementarne naleŜące do A naleŜy takŜe do B i zapisujemy to w postaci A ⊂ B - rys. 5.5. Zdarzenie A pociąga zdarzenie B wtedy i tylko, wtedy, gdy z zajścia zdarzenia A wynika zajście zdarzenia B. Wykluczające się zdarzenia A, B - jeśli nie mają one wspólnych zdarzeń elementarnych, tzn. iloczyn zdarzeń A, B jest zdarzeniem niemoŜliwym A ∩ B = ∅ - rys. 5.6. Zdarzenia A, B wykluczają się wtedy i tylko wtedy, gdy nie mogą zajść łącznie. Rys. 5.1. Suma zdarzeń Rys. 5.2. Iloczyn zdarzeń Rys. 5.3. RóŜnica zdarzeń Rys. 5.4. Zdarzenie przeciwne Rys. 5.5. Zdarzenie pociągające Rys. 5.6. Zdarzenia wykluczające się PowyŜsze rysunki nazywane są diagramami Venna. W poniŜszej tabeli podano wybrane relacje dotyczące rozpatrywanych zdarzeń2. Tabela 5.1. Relacje dotyczące zdarzeń Suma i iloczyn zdarzeń Zdarzenie przeciwne RóŜnica zdarzeń A∪A =A (A’)’ = A A–B = A∩B’ A∩A = A A∩A’= ∅ Ω–A= A’ A∪B=B∪A A∪A’= Ω A–Ω= ∅ A∩B=B∩A A∩(B∩C) =(A∩B)∩C A∩(B ∪C)=(A∩B) ∪(A ∩C) ’ Ω =∅ ∅–A= ∅ ’ ’ (A∪B) = A ∩B ’ ’ ’ (A∩B) = A ∪B prawa de Morgana A–A= ∅ A–∅= A A∪(B∩C) =(A∪B)∩(A∪C) A∪Ω=Ω A∩∅=∅ A∩Ω=A 2 Dowód praw de Morgana odano w punkcie 20.1 części VII Wybrane twierdzenia z dowodami 7 RACHUNEK PRAWDOPODOBIEŃSTWA PoniŜej za pomocą diagramów Venna przedstawiono dwie z w/w zaleŜności: • A∩(B ∪C)=(A∩B)∪(A∩C) - rys. 5.7 • A∪(B∩C) =(A∪B)∩(A∪C) - rys. 5.8. B ∪C A∩B B∩C A∪B A∩(B ∪C) A∩C A∪(B∩C) A∪C (A∩B)∪(A∩C) (A∪B)∩(A∪C) Rys. 5.7. A∩ ∩(B ∪C)=(A∩ ∩B)∪ ∪(A∩ ∩C) Rys. 5.8. A∪ ∪(B∩ ∩C) =(A∪ ∪B)∩ ∩(A∪ ∪C) Przykład 5.4 Z partii układów scalonych wybrano losowo 5 sztuk. Interesuje nas liczba wybranych wadliwych układów. Dlatego zbiór zdarzeń elementarnych określamy następująco Ω = {ω 0 , ω1 , ω 2 , ω3 , ω 4 , ω5 } gdzie: ω k (k = 0,1,K ,5) oznacza zdarzenie elementarne polegające na wybraniu dokładnie k wadliwych układów scalonych. Zdarzenie A = {ω2 , ω3 , ω 4 , ω5 } oznacza wybranie co najmniej dwóch wadliwych układów; B = {ω0 , ω1 , ω 2 , ω3 , ω 4 } – wybranie nie więcej niŜ czterech wadliwych układów; C = {ω1 } wybranie dokładnie jednego wadliwego układu. Wtedy: suma A ∪ B = Ω jest zdarzeniem pewnym; iloczyn A ∩ B = {ω 2 , ω3 , ω 4 } oznacza wybranie 2 lub 3 lub 4 wadliwych układów; róŜnica A − B = {ω5 } oznacza wybranie dokładnie 5 wadliwych układów; zdarzeniem przeciwnym do A jest A ′ = {ω0 , ω1 } oznacza wybranie co najwyŜej jednego wadliwego układu; zdarzenie C pociąga zdarzenie B, C ⊂ B oznacza to, Ŝe gdy zajdzie zdarzenie C to zajdzie takŜe zdarzenie B zdarzenia A i C wykluczają się, A ∩ B = ∅ oznacza to, Ŝe zdarzenia te nie mogą zajść łącznie. 8 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 5.4. Definicje prawdopodobieństwa 5.4.1. Klasyczna definicja prawdopodobieństwa Jeśli: a) zbiór zdarzeń elementarnych ma skończoną liczbę elementów Ω = {ω1, ω2, … , ωn} b) wszystkie zdarzenia losowe jednoelementowe {ω1}, {ω2}, ..., {ωn} są jednakowo prawdopodobne P({ω1}) = P({ω2}) = ... = P({ωn}) to prawdopodobieństwo zdarzenia A jest równe P(A) = A Ω gdzie: A oznacza liczbę zdarzeń elementarnych naleŜących do zdarzenia A, natomiast Ω liczbę wszystkich zdarzeń elementarnych. Zdarzenia elementarne, z których składa się zdarzenie A, nazywamy zdarzeniami sprzyjającymi zajściu tego zdarzenia, zaś zdarzenia elementarne, naleŜące do zbioru Ω zdarzeniami moŜliwymi. MoŜna więc powiedzieć, Ŝe gdy spełnione są załoŜenia a) i b), to prawdopodobieństwo zdarzenia A jest równe stosunkowi liczby zdarzeń sprzyjających zajściu A do liczby moŜliwych zdarzeń elementarnych. Przykład 5.5 Rzut kością Ω = {ω1, ω2, ω3, ω4, ω5 ω6}, gdzie ωk (k = 1, ..., 6) oznacza wyrzucenie k oczek. Jeśli kość jest symetryczna, to spełnione są załoŜenia a) i b). Mamy 6 moŜliwych zdarzeń elementarnych. Zdarzeniu A - wyrzucenie parzystej liczby oczek - sprzyjają 3 zdarzenia 3 1 = ; zdarzeniu B (wyrzucenie co najmniej 3 oczek) elementarne ω2, ω4, ω6, więc P(A) = 6 2 4 2 sprzyjają 4 zdarzenia elementarne {ω3, ω4, ω5 ω6}, więc P(B) = = ; zdarzeniu 6 3 1 C - wyrzuceniu dokładnie 3 oczek sprzyja tylko jedno zdarzenie elementarne ω3, więc P(C) = . 6 5.4.2. Geometryczna definicja prawdopodobieństwa Rozpatrzymy przypadek, gdy zbiór zdarzeń elementarnych Ω jest zbiorem punktów prostej, płaszczyzny lub przestrzeni. Zakładamy, Ŝe: a) zbiór Ω jest mierzalny o skończonej mierze, tzn. ma skończoną długość, pole lub objętość; b) wszystkie punkty zbioru Ω mają jednakowe szanse wylosowania. Wtedy prawdopodobieństwo dowolnego zdarzenia A, będącego podzbiorem mierzalnym zbioru Ω, wyraŜa się wzorem: miaraA P(A) = miaraΩ gdzie przez miarę rozumiemy długość, pole lub objętość, w zaleŜności czy zbiór Ω leŜy na prostej, płaszczyźnie lub w przestrzeni. 9 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 5.6 Obliczymy prawdopodobieństwo, Ŝe losowo wybrany punkt kwadratu OBCD o boku 1 jest oddalony od punktu 0 więcej niŜ o 0,5 i mniej niŜ o 1. 2 1 2 1 π1 − 2 3π poleA 4 P(A ) = = = poleΩ 16 12 Przykład 5.7 Dysponujemy radarem o jednostajnie obracającej się antenie, której rozwarcie charakterystyki kierunkowej wynosi 18°. Obliczymy prawdopodobieństwo wykrycia pojedynczego sygnału radiowego przez ten radar. Zakładamy, Ŝe sygnał jest punktowy, tzn. Ŝe jest bardzo krótki w porównaniu z okresem obrotu anteny. Rozwiązanie Radar wykrywa sygnał w wycinku koła o promieniu R w kącie rozwarcia 18°. Natomiast sygnał moŜe pojawić się w dowolnym punkcie tego koła (nie znamy połoŜenia nadajnika). Pola wycinka i koła są proporcjonalne do kątów 18° i 360°, więc poleA 18° P(A) = = = 0,05 360° poleΩ 5.4.3. Statystyczna definicja prawdopodobieństwa W praktyce nie zawsze znana jest liczebność zbioru zdarzeń elementarnych, która jest potrzebna przy wykorzystaniu definicji klasycznej, bądź nie jest łatwo doliczyć się liczby zdarzeń elementarnych sprzyjających poszczególnym zdarzeniom losowym. Podobnie nie zawsze są znane miary potrzebne dla skorzystania z definicji geometrycznej. Znajomości tych wielkości nie wymaga definicja statystyczna. W długiej serii doświadczeń obserwuje się wystąpienia zdarzenia A. JeŜeli częstość n/N zdarzenia A, gdzie N jest długością serii, a n liczbą doświadczeń, w których pojawiło się zdarzenie A, przy wzrastaniu długości serii zbliŜa się do pewnej liczby p oscylując wokół tej liczby i jeśli wahania częstości zdarzenia przejawiają tendencję malejącą przy wzrastającym N, to liczba p nazywana jest prawdopodobieństwem zdarzenia A. n N →∞ N P(A ) = lim 10 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Rys. 5.9. Ilustracja statystycznej definicji prawdopodobieństwa 5.4.4. Aksjomatyczna definicja prawdopodobieństwa śadna z podanych powyŜej definicji nie jest pozbawiona wad. I tak: • Definicja klasyczna jest tautologią3, gdyŜ definiując prawdopodobieństwo posługuje się pojęciem zdarzeń jednakowo moŜliwych, czyli jednakowo prawdopodobnych. • Definicja geometryczna wymaga znajomości miary zbiorów, którymi się posługuje. • Definicja statystyczna nie jest ścisła, bo nie jest sprecyzowana granica w niej występująca. Wspólną wadą tych definicji jest to, Ŝe definiując prawdopodobieństwo zdarzenia, odnosimy się do określonego typu doświadczenia. Takich wad nie ma podana poniŜej definicja aksjomatyczna, gdyŜ dotyczy ona wszystkich rodzajów doświadczeń losowych. Jeśli kaŜdemu zdarzeniu losowemu A przyporządkowano liczbę rzeczywistą P(A), zwaną prawdopodobieństwem zdarzenia A, w taki sposób, aby spełnione były następujące warunki: I. 0 ≤ P(A) ≤ 1 II. Prawdopodobieństwo zdarzenia pewnego jest równe 1 P(Ω) = 1 III. JeŜeli zdarzenia A1, A2, ...An,... wykluczają się parami (tzn. kaŜde dwa z nich wykluczają się), wtedy prawdopodobieństwo sumy tych zdarzeń jest równe sumie ich prawdopodobieństw P(A1 ∪ A2 ∪ ... ∪ An ∪ ...) = P(A1) + P(A2) + ... + P(An) + ... to określoną w ten sposób funkcję P nazywamy prawdopodobieństwem. Jeśli zbiór zdarzeń elementarnych Ω ma skończoną liczbę elementów, to warunek III moŜe być zastąpiony prostszym warunkiem: III'. Prawdopodobieństwo sumy dwóch dowolnych zdarzeń wykluczających się jest równe sumie ich prawdopodobieństw P(A ∪ B) = P(A) + P(B) Podane wcześniej definicje prawdopodobieństwa: klasyczna, geometryczna i statystyczna są szczególnymi przypadkami definicji aksjomatycznej. Przykład 5.8 Rzut monetą. Ω = {O, R}, gdzie O oznacza wyrzucenie orła, zaś R - wyrzucenie reszki. Mamy cztery zdarzenia losowe ∅, {O}, {R}, Ω.. Określimy na tych zdarzeniach funkcję P w następujący sposób 1 1 P(∅) = 0, P({O}) = , P({R}) = , P(Ω) = 1 2 2 Łatwo sprawdzić, Ŝe tak określona funkcja P spełnia warunki I, II, III, a więc jest prawdopodobieństwem. Wartości tej funkcji są prawdopodobieństwami poszczególnych zdarzeń. 3 Wypowiedź, w której treści wyraz określający nie wzbogaca treści wyrazu określanego, powtarzając ją tylko. 11 RACHUNEK PRAWDOPODOBIEŃSTWA Na tych samych zdarzeniach losowych określimy inną funkcję, którą dla odróŜnienia oznaczymy P1 1 2 P1(∅) = 0; P1({O}) = , P1({R}) = , P1(Ω) = 1 3 3 Łatwo sprawdzić, Ŝe takŜe funkcja P1 jest prawdopodobieństwem. Widzimy, Ŝe aksjomatyczna definicja prawdopodobieństwa nie precyzuje jednoznacznie wartości liczbowych prawdopodobieństw poszczególnych zdarzeń losowych. Na tym samym zbiorze zdarzeń losowych prawdopodobieństwo moŜe być określone na róŜne sposoby, byleby zgodnie z warunkami I, II, III. Jeśli jednak chcemy wykorzystywać teorię prawdopodobieństwa w praktyce, to powinniśmy określić prawdopodobieństwo tak, by spełniony był postulat: w długim ciągu powtórzeń w tych samych warunkach doświadczenia losowego częstość4 zajścia zdarzenia A powinna zbliŜać się do prawdopodobieństwa tego zdarzenia. Postulat ten nazywamy interpretacją prawdopodobieństwa przy pomocy częstości. Z aksjomatycznej definicji prawdopodobieństwa moŜna wyprowadzić następujące własności prawdopodobieństwa5: I. prawdopodobieństwo zdarzenia niemoŜliwego jest równe zeru P(∅) = 0 II. jeśli zdarzenia A1,..., An wykluczają się parami, to prawdopodobieństwo sumy zdarzeń jest równe sumie ich prawdopodobieństw P(A1 ∪ A2 ∪ ... ∪ An) = P(A1) + P(A2) + ... + P(An) III. jeśli zdarzenie A pociąga zdarzenie B, to P(A) ≤ P(B) P(B – A) = P(B) – P(A) IV. prawdopodobieństwo sumy dwóch dowolnych zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń zmniejszonej o prawdopodobieństwo ich iloczynu P(A ∪ B) = P(A) + P(B) – P(A ∩ B) V. prawdopodobieństwo zdarzenia A jest równe róŜnicy jedności i prawdopodobieństwa zdarzenia przeciwnego do A P(A) = 1 – P(A') 5.7. Prawdopodobieństwo warunkowe Definicja prawdopodobieństwa warunkowego Niech A i B będą dowolnymi zdarzeniami losowymi, przy czym P(B)>0. Prawdopodobieństwem warunkowym zdarzenia A pod warunkiem, Ŝe zaszło zdarzenie B, nazywamy iloraz prawdopodobieństwa iloczynu zdarzeń A i B oraz prawdopodobieństwa zdarzenia B, co zapisujemy P(A/B) = P(A ∩ B) P (B) Symbol P(A/B) czytamy: „prawdopodobieństwo zdarzenia A pod warunkiem, Ŝe zaszło zdarzenie B”. Tak więc informacja o jakimś zdarzeniu B, które zaszło, moŜe mieć wpływ na prawdopodobieństwo innego zdarzenia A. 4 Częstością zdarzenia A nazywamy stosunek liczby doświadczeń, w których zdarzenie A zaszło, do liczby wykonanych doświadczeń. 5 Dowody podano w punkcie 20.2. części VII Wybrane twierdzenia z dowodami 12 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 5.9 Obliczymy prawdopodobieństwo zdarzenia A polegającego na wyrzuceniu parzystej liczby oczek przy rzucie kością pod warunkiem, Ŝe zaszło zdarzenie B polegające na wyrzuceniu co najwyŜej 5 oczek. Rozwiązanie Oczywiście A = {ω2, ω4, ω6}, B ={ω1, ω2, ω3, ω4, ω5,}, zaś A ∩ B = {ω2, ω4}, więc 2 P(A ∩ B) 6 2 P(A/B) = = = 5 5 P(B) 6 Prawdopodobieństwo iloczynu Ze wzoru na prawdopodobieństwo warunkowe moŜna wyznaczyć prawdopodobieństwo iloczynu dwóch zdarzeń. Prawdopodobieństwo iloczynu dwóch zdarzeń jest równe iloczynowi prawdopodobieństwa jednego z tych zdarzeń i prawdopodobieństwa drugiego zdarzenia pod warunkiem zajścia pierwszego P(A ∩ B) = P(A) P(B/A) przy załoŜeniu, Ŝe P(A)>0 Przykład 5.10 Detale poddawane są dwóm próbom. Drugiej próbie poddawane są te detale, które pozytywnie przeszły pierwszą próbę. Prawdopodobieństwo, Ŝe detal przejdzie pozytywnie pierwszą próbę wynosi 0,8, a dla drugiej pod warunkiem, Ŝe przeszedł pierwszą próbę wynosi 0,6. Obliczymy prawdopodobieństwo, Ŝe detal przeszedł pozytywnie obie próby. Rozwiązanie Niech A oznacza zdarzenie: detal przeszedł pozytywnie pierwszą próbę, B: detal przeszedł pozytywnie drugą próbę. Obliczymy P(A ∩ B). Z treści zadania wynika, Ŝe P(A) = 0,8, P(B/A) = 0,6, więc P(A ∩ B) = P(A)P(B/A) = 0,8•0,6 = 0,48 5.8. Prawdopodobieństwo całkowite i twierdzenie Bayesa Twierdzenie o prawdopodobieństwie całkowitym JeŜeli zdarzenia losowe A1, A2,..., An o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, to dla dowolnego zdarzenia losowego B zachodzi wzór P(B) = P(A1)P(B/A1) + P(A2)P(B/A2) + … + P(An)P(B/An) zwany wzorem na prawdopodobieństwo całkowite.6 Przykład 5.11 Piłkarzy podzielono na trzy grupy. W pierwszej grupie było 10, w drugiej 25, w trzeciej 15 piłkarzy. KaŜdy piłkarz z pierwszej grupy zdobywa gola z karnego z prawdopodobieństwem 0,9, z drugiej z prawdopodobieństwem 0,8, a z trzeciej z prawdopodobieństwem 0,6. Obliczymy prawdopodobieństwo, Ŝe losowo wybrany piłkarz zdobędzie gola z karnego. Rozwiązanie Niech Ak będzie zdarzeniem polegającym na wybraniu piłkarza z k-tej grupy (k = 1,2,3), zaś B zdarzeniem polegającym na tym, Ŝe wybrany piłkarz strzeli gola z karnego. Łatwo sprawdzić, Ŝe zdarzenia A1, A2, A3, spełniają załoŜenia twierdzenia o prawdopodobieństwie całkowitym, więc P(B) = P(A1)P(B/A1) + P(A2)P(B/A2) + P(A3)P(B/A3) 6 Dowód podano w punkcie 20.3. części VII Wybrane twierdzenia z dowodami 13 RACHUNEK PRAWDOPODOBIEŃSTWA 10 25 15 = 0,2, P(A2) = = 0,5, P(A3) = = 0,3, dalej 50 50 50 z treści zadania wynika, Ŝe P(B/A1) = 0,9, P(B/A2) = 0,8, P(B/A3) = 0,6, zatem Wszystkich piłkarzy było 50, więc P(A1) = P(B) = 0,2 ⋅ 0,9 + 0,5 ⋅ 0,8 + 0,3 ⋅ 0,6 = 0,76 Przykład 5.12 Zakład produkuje układy scalone na dwie zmiany. Pierwsza zmiana produkuje dwa razy więcej układów scalonych niŜ druga. Wśród układów scalonych wyprodukowanych przez pierwszą zmianę jest 3% wadliwych, a przez drugą zmianę jest 5% wadliwych. Z dziennej produkcji układów scalonych wybrano losowo jeden układ. Obliczymy prawdopodobieństwo, Ŝe jest on wadliwy. Rozwiązanie Wprowadzamy oznaczenia A1 - wybrany układ został wyprodukowany przez pierwszą zmianę, A2 - wybrany układ został wyprodukowany przez drugą zmianę, B - wybrany układ jest wadliwy. Obliczymy P(B). Z treści zadania wynika, Ŝe zdarzenia A1 i A2 spełniają załoŜenie twierdzenia o prawdopodobieństwie całkowitym, zatem P(B) = P(A1 )P(B | A1 ) + P(A 2 )P(B | A 2 ) ale P(A1 ) = 2 / 3, P(B | A1 ) = 0, 03 P(A 2 ) = 1/ 3 P(B | A 2 ) = 0, 05 więc P(B) = 2 / 3 ⋅ 0, 03 + 1/ 3 ⋅ 0, 05 = 11 300 Twierdzenie Bayesa JeŜeli zdarzenia losowe A1,A2,...,An o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, zaś B jest dowolnym zdarzeniem o dodatnim prawdopodobieństwie, to zachodzi wzór P(A k | B) = P(Ak/B) = P(A k )P(B | A k ) wzór Bayesa - postać zredukowana P(B) P(A k )P(B / A k ) wzór Bayesa P(A1 )P(B / A1 ) + P(A 2 )P(B / A 2 ) + ... + P(A n )P(B / A n ) postać pełna dla k=1,2, ... , n zwany wzorem Bayesa7. Na podstawie wzoru Bayesa moŜna więc obliczyć prawdopodobieństwa P(Ak/B), k=1,2, …,n znając prawdopodobieństwa P(Ak). Oznacza to, Ŝe jeŜeli znamy prawdopodobieństwa P(Ak) oraz wiemy, Ŝe zdarzenie B zostało zrealizowane, względnie - na pewno zostanie zrealizowane - to moŜemy jakby na nowo obliczyć prawdopodobieństwo tych samych zdarzeń uwzględniając fakt realizacji zdarzenia B, stąd teŜ prawdopodobieństwa P(Ak) nazywane są prawdopodobieństwami a priori, natomiast prawdopodobieństwa P(Ak/B) prawdopodobieństwami a posteriori. 7 Dowód podano w punkcie 20.4. części VII Wybrane twierdzenia z dowodami 14 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 5.13 Sklep sprzedaje Ŝarówki produkowane przez fabryki F1 i F2. śarówki wyprodukowane przez F1 stanowią 60 %, zaś przez F2 40% całego zapasu Ŝarówek. Wiadomo, Ŝe 1 % Ŝarówek wyprodukowanych przez F1 i 2 % Ŝarówek wyprodukowanych przez F2 to braki. Kupiono jedną Ŝarówkę, która okazała się brakiem. Obliczymy prawdopodobieństwo, Ŝe została ona wyprodukowana przez F2. Rozwiązanie Niech A1 będzie zdarzeniem polegającym na kupieniu Ŝarówki wyprodukowanej przez F1, A2 – na kupieniu Ŝarówki wyprodukowanej przez F2, zaś B – na kupieniu Ŝarówki, która jest brakiem. NaleŜy obliczyć P(A2/B). Łatwo sprawdzić, Ŝe zdarzenia A1, A2 i B spełniają załoŜenia twierdzenia Bayesa, więc P(A 2 )P(B / A 2 ) 0,4 ⋅ 0,02 4 = = 0,57 P(A2/B) = = P(A1 )P(B / A1 ) + P(A 2 )P(B / A 2 ) 0,6 ⋅ 0,01 + 0,4 ⋅ 0,02 7 Przykład 5.14 Dalszy ciąg przykładu 5.12. Wylosowano układ wadliwy. Obliczymy prawdopodobieństwo, Ŝe został on wyprodukowany przez pierwszą zmianę. Rozwiązanie NaleŜy obliczyć P(A1/B). Ze wzoru Bayesa – postać zredukowana - mamy P(A1 / B) = P(A1 )P(B / A1) 2 / 3 ⋅ 0, 03 6 = = P(B) 11/ 300 11 5.9. Zdarzenia niezaleŜne NiezaleŜność dwóch zdarzeń Zdarzenia A, B nazywamy zdarzeniami niezaleŜnymi, jeśli prawdopodobieństwo iloczynu tych zdarzeń jest równe iloczynowi ich prawdopodobieństw P(A ∩ B) = P(A) P(B) (5.1) Zakładamy, Ŝe P(B)>0. Warunkiem koniecznym i wystarczającym niezaleŜności zdarzeń A i B jest równość P(A/B) = P(A) Oznacza to, Ŝe zdarzenie B nie ma wpływu na prawdopodobieństwo zajścia zdarzenia A. Dowód konieczności ZałóŜmy, Ŝe A i B są zdarzeniami niezaleŜnymi. Wtedy P(A ∩ B) P(A) ⋅ P(B) P(A / B) = = = P (A ) P(B) P(B) Dowód dostateczności ZałóŜmy, Ŝe zachodzi wzór P(A/B) = P(A). Wówczas P(A ∩ B) = P(A/B) P(B)=P(A) P(B) co świadczy o tym, Ŝe zdarzenia A i B są niezaleŜne. Przykład 5.15 Dwukrotny rzut monetą Ω = {(O,O),(O,R),(R,O),(R,R)}. Niech A oznacza zdarzenie – w pierwszym rzucie otrzymano orła, B - w drugim rzucie otrzymano orła, wtedy 15 RACHUNEK PRAWDOPODOBIEŃSTWA 1 1 1 , P(B)=P({(O,O),(R,O)}) = , P(A ∩ B) = P({(O,O)}) = , więc 2 2 4 P(A ∩ B) = P(A) P(B), czyli zdarzenia A i B są niezaleŜne. P(A) = P({(O,O),(O,R)}) = Przykład 5.16 Rzut kostką. Ω = {ω1 , ω 2 , ω 3 , ω 4 , ω 5 , ω 6 } A = {ω2 ,ω4 ,ω6 } - wyrzucenie parzystej liczby oczek, B = {ω1,ω2 ,ω3 ,ω4 ,ω5} - wyrzucenie co najwyŜej 5 oczek, C = {ω1,ω2 ,ω3 ,ω4 } - wyrzucenie co najwyŜej 4 oczek. Czy zdarzenia A i B oraz A i C stanowią pary zdarzeń niezaleŜnych? Rozwiązanie PoniewaŜ A ∩ B = {ω2 ,ω4 } = A ∩ C , więc P(A ∩ B) = P(A ∩ C) = 2 1 = , zatem 6 3 1 5 5 ⋅ = ≠ P(A ∩ B) 2 6 12 1 2 1 P(A)P(C) = ⋅ = = P(A ∩ C) 2 3 3 Odp. Zdarzenia A i B nie są niezaleŜne, natomiast zdarzenia A i C są niezaleŜne. P(A)P(B) = NiezaleŜność zdarzeń przeciwnych JeŜeli zdarzenia A1 i A2 są niezaleŜne, to a) A1 i A '2 są parami zdarzeń niezaleŜnych8. b) A1' i A2 c) A1' i A '2 NiezaleŜność trzech zdarzeń Trzy zdarzenia A, B i C są niezaleŜne, jeśli zachodzą wzory P(A ∩ B) = P(A) P(B), P(A ∩ C) = P(A) P(C), P(B ∩ C) = P(B) P(C) P(A ∩ B ∩ C) = P(A) P(B) P(C) (5.2) (5.3) Przykład 5.17 W hali pracują trzy maszyny. Zdarzenia polegające na zepsuciu się tych maszyn w czasie T są zdarzeniami niezaleŜnymi o prawdopodobieństwach 0,1 dla pierwszej maszyny, 0,2 dla drugiej maszyny i 0,15 dla trzeciej maszyny. Obliczymy prawdopodobieństwo, Ŝe w czasie T zepsują się a) wszystkie maszyny, b) dwie maszyny. Rozwiązanie Wprowadzamy zdarzenia A – w czasie T zepsuje się pierwsza maszyna, B – w czasie T zepsuje się druga maszyna, C – w czasie T zepsuje się trzecia maszyna. Z treści zadania wynika, Ŝe zdarzenia A, B i C są niezaleŜne o prawdopodobieństwach P(A) = 0,1, P(B) = 0,2, P(C)=0,15. a) D – w czasie T zepsują się wszystkie maszyny PoniewaŜ D = A ∩ B ∩ C oraz zdarzenia A, B i C są niezaleŜne, więc P(D) = P(A ∩ B ∩ C) = P(A)P(B)P(C) = 0,1 ⋅ 0, 2 ⋅ 0,15 = 0, 03 8 Dowód podano w podpunkcie 20.2.5. części VII Wybrane twierdzenia z dowodami 16 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE b) E – w czasie T zepsują się dwie maszyny. Mamy E = (A ∩ B ∩ C′) ∪(A ∩ B′ ∩ C) ∪ (A′ ∩ B ∩ C) PoniewaŜ iloczyny występujące w nawiasach są zdarzeniami wykluczającymi się, więc P(E) = P(A ∩ B ∩ C′) + P(A ∩ B′ ∩ C) + P(A′ ∩ B ∩ C) Z niezaleŜności zdarzeń A, B i C mamy P(E) = P(A)P(B)P(C′) + P(A)P(B′)P(C) + P(A′)P(B)P(C) więc P(E) = 0,1 ⋅ 0, 2 ⋅ (1 − 0,15) + 0,1 ⋅ (1 − 0, 2) ⋅ 0,15 + (1 − 0,1) ⋅ 0, 2 ⋅ 0,15 = 0, 056 Odp. a) 0,03, b) 0,056 Uwaga: Z równości (5.2) nie wynikają równości (5.3) oraz z równości (5.3) nie wynika równość (5.2), zatem przyjęcie jako definicji niezaleŜności trzech zdarzeń jedynie równości (5.2) nie gwarantuje niezaleŜności parami tych zdarzeń. NiezaleŜność n zdarzeń (n ≥ 3) Zdarzenia A1,..., A n nazywamy zdarzeniami niezaleŜnymi, jeśli (5.4) P(A1 ∩ ... ∩ A n ) = P(A1 )...P(A n ) oraz prawdopodobieństwo iloczynu jest równe iloczynowi prawdopodobieństw dla dowolnego podciągu ciągu zdarzeń (5.4) złoŜonego z co najmniej dwóch zdarzeń. Z powyŜszej definicji wynika wcześniej przyjęta definicja niezaleŜności trzech zdarzeń. NiezaleŜność przeliczalnie wielu zdarzeń Zdarzenia A1,A2,… nazywamy zdarzeniami niezaleŜnymi, jeŜeli dla dowolnej liczby naturalnej n ≥ 2 zdarzenia A1,..., A n są niezaleŜne. Uwaga. Z przyjętych definicji niezaleŜności zdarzeń wynika zasada: Jeśli (A n ) jest skończonym lub nieskończonym ciągiem zdarzeń niezaleŜnych, to dowolny jego podciąg (złoŜony z co najmniej dwóch zdarzeń) jest ciągiem zdarzeń niezaleŜnych. Przykład 5.18 Do samolotu oddano niezaleŜnie trzy strzały. Prawdopodobieństwo trafienia samolotu pierwszym strzałem wynosi 0,4, drugim 0,5 i trzecim 0,7. Jeśli w samolot trafił jeden pocisk, to nastąpi zestrzelenie samolotu z prawdopodobieństwem 0,2, jeśli dwa pociski - to z prawdopodobieństwem 0,6, jeśli trzy pociski - to samolot zostanie na pewno zestrzelony. Obliczymy prawdopodobieństwo, Ŝe w rezultacie trzech strzałów samolot zostanie zestrzelony. Rozwiązanie Oznaczmy: B1 - samolot został trafiony pierwszym pociskiem, B2 - samolot został trafiony drugim pociskiem, B3 - samolot został trafiony trzecim pociskiem, A0 - w samolot nie trafił Ŝaden pocisk, A1 - w samolot trafił jeden pocisk, A2 - w samolot trafiły dwa pociski, A3 - w samolot trafiły trzy pociski, B - samolot został strącony. 17 RACHUNEK PRAWDOPODOBIEŃSTWA P(A0) = P(B1′ ∩ B2′ ∩ B3′) = (1–P(B1))(1–P(B2)) (1–P(B3)) = 0,6·0,5·0,3 = 0,09 P(A1) = P((B1 ∩ B2′ ∩ B3′) ∪ (B1′ ∩ B2 ∩ B3′) ∪ (B1′ ∩ B2′ ∩ B3)) = = 0,4·0,5·0,3 + 0,6·0,5·0,3 + 0,4·0,5·0,7 = 0,36 P(A2) = P((B1 ∩ B2 ∩ B3′) ∪ (B1 ∩ B2′ ∩ B3) ∪ (B1′ ∩ B2 ∩ B3)) = = 0,4·0,5·0,3 + 0,4·0,5·0,7 + 0,6·0,5·0,7 = 0,41 P(A3) = (B1 ∩ B2 ∩ B3) = 0,4·0,5·0,7 = 0,14 Przy obliczaniu powyŜszych prawdopodobieństw korzystaliśmy z faktu, Ŝe zdarzenia B1, B2 i B3 są niezaleŜne oraz z twierdzenia o prawdopodobieństwie sumy zdarzeń wykluczających się. ZauwaŜmy, Ŝe zdarzenia A0, A1, A2, A3 spełniają załoŜenia twierdzenia o prawdopodobieństwie całkowitym, więc P(B) = P(A0)P(B/A0) + P(A1)P(B/A1) + P(A2) P(B/A2) + P(A3)P(B/A3) Z treści zadania wynika, Ŝe P(B/A0) = 0; P(B/A1) = 0,2; P(B/A2) = 0,6; P(B/A3) =1,0 zatem P(B) = 0,09·0 + 0,36·0,2 + 0,41·0,6 + 0,14·1,0 = 0,458 18 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6. ZMIENNE LOSOWE 6.1. Zmienne losowe jednowymiarowe 6.1.1. Pojęcie zmiennej losowej Pojęcie zmiennej losowej jest jednym z podstawowych pojęć rachunku prawdopodobieństwa. JeŜeli kaŜdemu zdarzeniu elementarnemu przyporządkujemy liczbę rzeczywistą, to mówimy, Ŝe została określona zmienna losowa jednowymiarowa, albo - w skrócie - zmienna losowa. Zmienna losowa jest więc funkcją, której dziedziną jest zbiór zdarzeń elementarnych Ω, a wartościami są liczby rzeczywiste9. Zmienne losowe oznaczamy duŜymi literami z końca alfabetu łacińskiego X, Y, … JeŜeli zmienną losową oznaczymy literą X, to wartości przyjmowane przez tę zmienną losową oznaczamy małą literą x. Niech A będzie podzbiorem zbioru liczb rzeczywistych. Symbolem X∈A oznaczamy zbiór tych wszystkich zdarzeń elementarnych którym zmienna losowaBłąd! Nie zdefiniowano zakładki. X przyporządkowuje liczby naleŜące do zbioru A. PowyŜszą definicję i jej niektóre szczególne przypadki przedstawiamy w poniŜszej tabeli. Tabela 6.1. Wybrane definicje Symbol Definicja symbolu X∈A X=a X<a {ω : X (ω) ∈ A} {ω : X (ω) = a} {ω : X (ω) < a} a≤X<b {ω : a ≤ X (ω) < b} Przykład 6.1 Rzut kością. Ω = {ω1 , ω 2 , ω3 , ω 4 , ω 5 , ω 6 } . Przyporządkowanie ω1 ω 2 ω3 ω4 ω5 ω6 ↓,↓,↓,↓,↓,↓ 1 2 3 4 5 6 jest zmienną losową o zbiorze wartości {1, 2, 3, 4, 5, 6}. Zmienną tą oznaczymy X. Przyporządkowanie ω1 ω 2 ω3 ω 4 ω5 ω6 ↓,↓,↓,↓,↓,↓ −1 −1 −1 0 1 1 jest takŜe zmienną losową o zbiorze wartości {-1, 0, 1}, oznaczymy ją Y. Zmienna losowa X moŜe słuŜyć do opisu sytuacji w której interesuje nas liczba wyrzuconych oczek na kości. Natomiast zmienna losowa Y moŜe opisywać następującą sytuację: rzucamy kością, jeśli wyrzucimy 1 lub 2 lub 3 oczka, to płacimy 1 zł, jeśli wyrzucimy 4 oczka to nic nie płacimy i nic nie otrzymujemy, jeśli wyrzucimy 5 lub 6 oczek, to otrzymujemy 1 zł. Wtedy Y oznacza wygraną w tej grze. PoniŜsze zaleŜności ilustrują symbole podane w tabeli 6.1. 3 1 P(X ∈ {2,4,6}) = P({ω : X(ω) ∈ {2,4,6}}) = P({ω 2 , ω 4 , ω 6 }) = = 6 2 9 PowyŜsza definicja jest ścisła, gdy kaŜdy podzbiór zbioru zdarzeń elementarnych jest zdarzeniem losowym. Gdy tak nie jest, to definicję zmiennej losowej naleŜ y uzupełnić pewnym warunkiem , spełnionym na ogół w zagadnieniach praktycznych, patrz np. R. Leitner, J. Zacharski Matematyka dla studentów, cz. III str.182-183, WNT 1998, wydanie VIII. 19 RACHUNEK PRAWDOPODOBIEŃSTWA P(X = 3) = P({ω : X (ω) = 3}) = P({ω3 }) = 1 6 P(X < 3) = P({ω : X(ω) < 3}) = P({ω1 , ω 2 }) = P(X ≥ 7 ) = P({ω : X (ω) ≥ 7}) = P(∅ ) = 0 2 1 = 6 3 P(2 ≤ X < 5) = P({ω : 2 ≤ X(ω) < 5}) = P({ω 2 , ω3 , ω 4 }) = P(1 ≤ X ≤ 6) = P({ω : 1 ≤ X (ω) ≤ 6}) = P(Ω) = 1 2 1 P(X < 3) = P({ω : X(ω) < 3}) = P({ω1 , ω 2 }) = = 6 3 P(Y = −1) = P({ω : Y (ω) = −1}) = P({ω1 , ω 2 , ω 3 }) = P(Y = 0 ) = P({ω : Y(ω) = 0}) = P({ω 4 }) = 3 1 = 6 2 3 1 = 6 2 1 6 P(Y = 1) = P({ω : Y(ω) = 1}) = P({ω5 , ω 6 }) = 2 1 = 6 3 Przykład 6.2 Partia towaru składa się ze sztuk dobrych i wadliwych. Z partii tej pobieramy losowo jedną sztukę towaru, wtedy Ω = {d, w}. Zdarzeniu elementarnemu d, polegającemu na wybraniu sztuki dobrej, przyporządkujmy liczbę 0, zaś zdarzeniu elementarnemu w - wybrana sztuka jest wadliwa - liczbę 1. Została określona w ten sposób zmienna losowa X, przyjmująca dwie wartości x1 = 0 i x2 = 1. Przykład 6.3 Zajmując się badaniem monet znajdujących się w obiegu i wyprodukowanych w latach 2000 – 2005 w zaleŜności od ich wieku, najwygodniej jest uŜywać jako zmienną losową rok emisji. Zbiorem wartości tej zmiennej losowej jest zbiór {2000, 2001, 2002, 2003, 2004, 2005}. Przykład 6.4 Strzelec strzela tak długo aŜ trafi do celu. Zbiór zdarzeń elementarnych, określamy następująco Ω = {ω1, ω2,...) gdzie zdarzenie elementarne ωn (n = 1, 2, ...) oznacza, Ŝe strzelec trafił do celu pierwszy raz w n tym strzale. Zdarzeniu elementarnemu ωn przyporządkujemy liczbę n. Zbiorem wartości tak określonej zmiennej losowej jest zbiór wszystkich liczb naturalnych. Przykład 6.5 Pomiar wielkości fizycznej. Jeśli nie wiemy nawet w przybliŜeniu, jakie moŜna otrzymać wyniki pomiarów pewnej nieznanej wielkości fizycznej, to przyjmujemy, Ŝe mogą one wyrazić się dowolnymi liczbami rzeczywistymi. W tym przypadku zbiorem zdarzeń elementarnych Ω jest zbiór wszystkich liczb rzeczywistych Ω = (-∞, ∞) Na tym zbiorze określimy zmienną losową X następująco: kaŜdej liczbie rzeczywistej x przyporządkujemy tę samą liczbę x. Zbiorem wartości tej zmiennej losowej jest zbiór wszystkich liczb rzeczywistych. Zmienne losowe pozwalają przedstawiać wyniki doświadczeń losowych za pomocą liczb, co znacznie ułatwia badanie tych doświadczeń i pozwala traktować je jednolicie. Na tym samym zbiorze zdarzeń elementarnych Ω moŜna określać róŜne zmienne losowe w zaleŜności od zagadnienia, które nas interesuje (przykład 6.1). 20 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6.1.2. Zbiory przeliczalne i nieprzeliczalne Zbiór nieskończony (tzn. mający nieskończoną liczbę elementów) nazywamy zbiorem przeliczalnym, jeŜeli wszystkie jego elementy moŜna ustawić w jeden ciąg, czyli gdy zbiór ten jest równoliczny ze zbiorem liczb naturalnych. Natomiast zbiór nieskończony, którego wszystkich elementów nie moŜna ustawić w jeden ciąg, nazywamy zbiorem nieprzeliczalnym. Dowodzi się, Ŝe zbiór liczb wymiernych jest przeliczalny, natomiast zbiór liczb rzeczywistych jest nieprzeliczalny, co więcej - zbiór liczb rzeczywistych z dowolnego przedziału (a ,b) jest zbiorem nieprzeliczalnym. Zmienne losowe z przykładów 6.1, 6.2 i 6.3 mają zbiory wartości skończone, zmienna losowa z przykładu 6.4 ma zbiór wartości przeliczalny, natomiast zmienna losowa z przykładu 6.5 nieprzeliczalny. 6.1.3. Zmienne losowe skokowe Punkt skokowy. Skok Jeśli P ( X = a ) = p >0 to liczbę a nazywamy punktem skokowym zmiennej losowej X, zaś p skokiem w tym punkcie. Przykład 6.6 Punktami skokowymi zmiennej losowej X z przykładu 6.1 są liczby 1, 2, 3, 4, 5, 6. W kaŜdym z tych punktów skok wynosi 1/6. Suma wszystkich skoków jest równa 1. Punktami skokowymi zmiennej losowej Y z tegoŜ przykładu są liczby –1, 0, 1, zaś skoki wynoszą odpowiednio 1/2, 1/6 i 1/3. Suma skoków jest równa 1. Pojęcie zmiennej losowej skokowej Zmienna losowa skokowa jest to zmienna losowa, której suma skoków jest równa 110. Przykład 6.7 Zmienne losowe X i Y z przykładu 6.1 są zmiennymi losowymi skokowymi (patrz przykład 6.6). Funkcja prawdopodobieństwa Funkcja prawdopodobieństwa zmiennej losowej skokowej X jest to przyporządkowanie kaŜdemu punktowi skokowemu xi skoku pi w tym punkcie, co zapisujemy wzorem P(X = x i ) = pi lub tabelą xi x1 x2 x3 ... pi p1 p2 p3 ... Przykład 6.8 Funkcję prawdopodobieństwa zmiennej losowej X z przykładu 6.1 moŜna przedstawić wzorem 1 dla i = 1, 2, ... , 6 P ( X = i) = 6 natomiast funkcję prawdopodobieństwa zmiennej losowej Y z tego przykładu tabelą yi -1 0 1 pi 1 2 1 6 1 3 10 Zmienną losową skokowa definiuje się takŜe jako zmienną losową, której zbiór wartości jest skończony lub przeliczalny. 21 RACHUNEK PRAWDOPODOBIEŃSTWA Własności funkcji prawdopodobieństwa zmiennej losowej skokowej 10 dziedziną funkcji jest co najwyŜej przeliczalny podzbiór zbioru liczb rzeczywistych, 20 wartościami funkcji są liczby nieujemne o sumie równej 1. KaŜda funkcja spełniająca dwa powyŜsze warunki jest funkcją prawdopodobieństwa pewnej zmiennej losowej skokowej. Funkcja prawdopodobieństwa zmiennej losowej skokowej X wyznacza prawdopodobieństwo P(X ∈ A) = ∑ pi i x i ∈A gdzie A oznacza dowolny podzbiór zbioru liczb rzeczywistych, natomiast sumowanie obejmuje te wskaźniki i, dla których punkt skokowy x i naleŜy do zbioru A. Przykład 6.9 Dla jakich wartości c funkcja k = 1, 2, 3, ... ; p ∈ (0;1) f (k) = c(1 − p)k −1 , jest funkcją prawdopodobieństwa pewnej zmiennej losowej skokowej X? Rozwiązanie PoniewaŜ dziedziną funkcji f jest zbiór liczb naturalnych (zbiór przeliczalny), więc by funkcja f była funkcją prawdopodobieństwa wystarczy by suma jej wartości była równa 1 i by wartości te były dodatnie. ∞ c c 1 = ∑ f (k) = ∑ c(1 − p)k −1 = = 1 − (1 − p) p k =1 Stąd c = p. Przykład 6.10 Wyznaczymy c tak, by funkcja P(X = k) = zmiennej losowej skokowej X. c 3k , k =1, 2, 3, … była funkcją prawdopodobieństwa Rozwiązanie Jest oczywiste, Ŝe funkcja ta spełnia warunek 10 (ppkt 6.1.3.). Aby spełniała takŜe warunek 2 0 ∞ c musi być c>0 i ∑ k =1. Z tej ostatniej równości wyznaczymy c, korzystając ze wzoru na sumę k =1 3 szeregu geometrycznego. 1 ∞ ∞ c c 1 = c∑ k = c 3 = ∑ k 1 2 k =1 3 k =1 3 1− 3 c więc = 1, czyli c = 2. 2 22 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6.1.4. Dystrybuanta Pojęcie dystrybuanty Dystrybuantą zmiennej losowej X nazywamy funkcję F(x) określoną wzorem F(x) = P(X < x) dla x∈R Dystrybuanta zmiennej losowej skokowej X o funkcji prawdopodobieństwa wyraŜa się wzorem P(X = xi) = pi F(x) = ∑ pi i: x i < x przy czym sumowanie rozciąga się na składniki pi o wskaźnikach, dla których spełnione są nierówności xi < x. Z powyŜszego wzoru wynika, Ŝe dystrybuanta zmiennej losowej skokowej X jest funkcją przedziałami stałą i w skończonej lub przeliczalnej liczbie punktów, które są wartościami tej zmiennej, ma skoki równe prawdopodobieństwom, z którymi X te wartości przyjmuje. Interpretacja Interpretując prawdopodobieństwo jako masę jednostkową rozłoŜoną na osi Ox stwierdzamy, Ŝe dla kaŜdego x∈ R dystrybuanta F(x) oznacza masę prawdopodobieństwa rozłoŜoną w przedziale (− ∞; x ) . Przykład 6.11 Zmienna losowa X przyjmuje wartości x1=–1, x2=1, x3=4 odpowiednio z prawdopodobieństwami 1 3 1 p1 = , p2 = , p3 = . Znajdziemy dystrybuantę zmiennej losowej X. 5 5 5 Rozwiązanie 0 1 5 F(x) = ∑ pi = 1 3 4 + = i: x i < x 5 5 5 1 3 1 + + =1 5 5 5 dla x ≤ −1 dla − 1 < x ≤ 1 dla 1< x ≤ 4 dla x>4 Wykres dystrybuanty przedstawiono na poniŜszym rysunku – rys. 6.1. Rys. 6.1 23 RACHUNEK PRAWDOPODOBIEŃSTWA Własności dystrybuanty Dystrybuanta F(x) ma własności: a) F(x) jest funkcją niemalejącą; b) F(x) jest funkcją lewostronnie ciągłą, tzn. lim F(x) = F(a) x →a − c) F(-∞) = 0, F(+∞) = 1, co jest skrótem zapisu lim F( x ) = 0 i lim F( x ) =1 x → −∞ x →∞ d) P(a ≤ X < b) = F(b) - F(a) e) P(X = a) = lim F(x) - F(a) x →a + czyli prawdopodobieństwo, Ŝe zmienna losowa X przyjmie wartość a jest równe skokowi dystrybuanty w tym punkcie (tzn. róŜnicy granicy prawostronnej dystrybuanty i jej wartości w punkcie a); f) jeśli a jest punktem ciągłości dystrybuanty F, to P(X = a) = 0 KaŜda funkcja F spełniająca warunki a), b) i c) jest dystrybuantą pewnej zmiennej losowej X. Przykład 6.12 Zmienna losowa skokowa ma dystrybuantę x ≤ −2 0 dla 1 7 dla − 2 < x ≤ 0 4 dla 0 < x ≤ 2 F(x) = 7 6 dla 2 < x ≤ 3 7 1 dla x>3 Znajdziemy funkcję prawdopodobieństwa tej zmiennej losowej. Rozwiązanie Zmienna losowa przyjmuje z dodatnimi prawdopodobieństwami tylko te wartości, w których dystrybuanta ma skok. Są nimi liczby x1 = -2, x2 = 0, x3 = 2, x4 = 3. Prawdopodobieństwa, z którymi zmienna lososowa przyjmuje te wartości są równe skokom dystrybuanty w punktach x1, x2, x3, x4, więc 1 1 4 1 3 6 4 2 6 1 p1 = - 0 = , p2 = - = , p3 = = , p4 = 1 - = . 7 7 7 7 7 7 7 7 7 7 Otrzymaną funkcję prawdopodobieństwa przedstawiamy w poniŜszej tabeli. xk pk -2 1 7 0 3 7 2 2 7 3 1 7 Uogólniając postępowanie zademonstrowane w przykładach 6.11 i 6.12 moŜna stwierdzić, Ŝe: Między dystrybuantą zmiennej losowej skokowej X i jej funkcją prawdopodobieństwa istnieje wzajemnie jednoznaczna odpowiedniość – dystrybuancie zmiennej X odpowiada funkcja prawdopodobieństwa, - funkcji prawdopodobieństwa zmiennej X odpowiada dystrybuanta. 24 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wynika stąd, Ŝe rozkład prawdopodobieństwa zmiennej losowej skokowej X moŜna określać za pomocą jej funkcji prawdopodobieństwa, tj. funkcji spełniającej warunki 10 i 2 0 . Jest to znacznie prostsze niŜ określanie rozkładu zmiennej losowej za pomocą dystrybuanty. Prawdopodobieństwa wyznaczone za pomocą dystrybuanty 1. P(X < a) = F(a) (6.1) 2. P(a ≤ X < b) = F(b) − F(a) (6.2) 3. P(X ≥ b) = 1 − F(b) (6.3) 4. P(X = a) = F(a + 0) − F(a) (6.4) F (a+0) oznacza granicę prawostronną dystrybuanty F w punkcie a, natomiast F(a + 0) − F(a) skok dystrybuanty w punkcie a. PowyŜsze własności pozwalają wyznaczyć za pomocą dystrybuanty prawdopodobieństwo przyjęcia wartości przez zmienną losowa z dowolnego przedziału. Przykład 6.13 P(a < X < b) = P(a ≤ X < b) − P(X = a) = ( F(b) − F(a) ) − ( F(a + 0) − F(a) ) = F(b) − F(a + 0) Przykłady dystrybuant Przykład 6.14 Funkcje, których wykresy przedstawione są na rysunkach 6.2, 6.3 i 6.4 są niemalejące, lewostronnie ciągłe i mają granice: w - ∞ równą 0 i w ∞ równą 1, są więc wykresami dystrybuant pewnych zmiennych losowych . Zmienne te oznaczmy X, Y i Z Rys. 6.2 Rys. 6. 3 Rys. 6.4 Ze wzoru (6.4) wynika, Ŝe zmienna losowa przyjmuje z dodatnimi prawdopodobieństwami tylko te wartości, w których dystrybuanta ma skok, przy czym skok ten jest równy prawdopodobieństwu, z którym zmienna losowa tę wartość przyjmuje. Zmienna losowa X przyjmuje z dodatnim prawdopodobieństwem wartości x1 = 1, x 2 = 2 , x3 = 4 , 2 4 2 2 4 1 przy czym p1 = , p2 = − = , p3 = 1 − = . PoniewaŜ p1 + p2 + p3 = 1 , więc zmienna 5 5 5 5 5 5 losowa X jest skokowa o funkcji prawdopodobieństwa xi 1 2 4 pi 2 5 2 5 1 5 Zmienna losowa Y nie przyjmuje Ŝadnej wartości z dodatnim prawdopodobieństwem, gdyŜ jej dystrybuanta nie ma punktów skokowych (jest funkcją ciągłą). Zmienna losowa Y nie jest więc 25 RACHUNEK PRAWDOPODOBIEŃSTWA zmienną losową skokową. Zmienna losowa Z przyjmuje wartość x1 = −2 z prawdopodobieństwem 1 1 2 1 p1 = − 0 = oraz wartość x 2 = 2 z prawdopodobieństwem p2 = 1 − = . PoniewaŜ 6 6 3 3 1 1 p1 + p 2 = + ≠ 1 , więc zmienna losowa Z nie jest skokowa. 6 3 6.1.5. Zmienne losowe ciągłe Pojęcie zmiennej losowej ciągłej Zmienna losowa ciągła jest to zmienna losowa11, której dystrybuantę F moŜna przedstawić w postaci x F(x) = ∫ f ( t )dt −∞ gdzie: f jest pewną funkcja nieujemną zwaną gęstością prawdopodobieństwa (krótko: gęstością) zmiennej losowej X. Gęstość moŜna wyrazić za pomocą dystrybuanty następującym wzorem F' ( x ) gdy pochodna ta istnieje f (x) = w przeciwnym przypadku 0 Z własności f) dystrybuanty wnosimy, Ŝe zmienna losowa ciągła przyjmuje kaŜdą pojedynczą wartość z prawdopodobieństwem równym zeru, natomiast b P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b) = P (a ≤ X < b) = F (b) – F (a) = ∫ f ( x )dx a Interpretacja geometryczna powyŜszych równości: prawdopodobieństwo, Ŝe zmienna losowa X przyjmuje wartości z dowolnego przedziału jest równe polu obszaru ograniczonego wykresem gęstości, osią OX oraz prostymi x = a i x = b, rys. 6.5. Własności gęstości Gęstość f(x) ma następujące własności: a) f(x) jest funkcją nieujemną f(x) ≥ 0 dla x∈R b) Funkcja f(x) jest całkowalna na R ∞ i ∫ f ( x)dx = 1 . −∞ Interpretacja geometryczna: pole obszaru ograniczonego wykresem gęstości i osią OX jest równe 1. Rys. 6.5 Interpretacja gęstości: Gęstość jest miarą prawdopodobieństwa wystąpienia wartości zmiennej losowej z przedziału [x, x + dx), czyli P ( x ≤ X < x + dx ) ≅ f ( x )dx dx - mały przyrost argumentu x. KaŜda funkcja spełniająca warunki a), b) jest gęstością pewnej zmiennej losowej. Przykład 6.15 Prostym przykładem dystrybuanty zmiennej losowej jest pozycja kątowa wskazówki zegara, odczytywana w losowych przedziałach czasu - rys. 6.6. Odpowiadająca jej gęstość f(x) jest funkcją stałą – rys. 6.7. 11 Ciągła zmienna losowa przyjmuje warości z określonego przedziału – moŜe to być podstawą jej określenia. 26 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 0 dla x ≤ 0 x F( x ) = P(X < x ) = dla 0 < x ≤ 360 360 dla x > 360 1 1 f ( x ) = F ' ( x ) = 360 0 ( dla x ∈ 0 0 ; 360 0 ) dla pozostałych x Rys. 6.6 Rys. 6.7 Przykład 6.16 Wyznaczymy tak stałą c, by funkcja dla x≤0 dla 0 < x < 2 dla x≥2 0 f(x) = cx 2 0 była gęstością pewnej zmiennej losowej X. Rozwiązanie Z warunku b) mamy ∞ 1= ∫ f (x)dx = −∞ 0 2 ∞ −∞ 0 2 2 ∫ 0dx + ∫ cx dx + ∫ 0dx = c x3 2 8 =c 3 3 0 8 3 3 c = 1, czyli c = . Gdy c = spełnione są takŜe warunki a) i b) na gęstość. 3 8 8 3 Czyli c = 8 więc Przykład 6.17 Zmienna losowa X ma gęstość 0 3 f (x) = x 2 8 0 dla x≤0 dla 0 < x < 2 dla x≥2 Znajdziemy dystrybuantę zmiennej losowej X. Rozwiązanie Korzystamy ze wzoru x F(x) = ∫ f ( t )dt −∞ 27 RACHUNEK PRAWDOPODOBIEŃSTWA Rys 6.8 Rys 6.9 Rys 6.10 Dla x ≤ 0 (rys.6.8) x F(x) = ∫ f (t )dt = −∞ 0 ∫ 0dt = 0, −∞ Dla 0 <x < 2 (rys.6.9) x F(x) = ∫ f (t )dt = −∞ 0 ∫ 0dt + −∞ x 3 ∫8t 0 2 dt = 1 3 x 8 Dla x ≥ 2 (rys. 6.10) x 0 2 x 3 2 F(x) = ∫ f ( t )dt = ∫ dt + ∫ t dt + ∫ 0dt = 1 8 −∞ −∞ 2 0 0 1 Zestawiając powyŜsze wyniki otrzymujemy (rys. 6.11): F(x) = x 3 8 1 dla x≤0 dla 0 < x < 2 dla x≥2 Rys.6.11 Wyznaczanie prawdopodobieństwa za pomocą gęstości a 1. P(X < a) = ∫ f (x)dx −∞ b 2. P(a ≤ X < b) = ∫ f (x)dx a ∞ 3. P(X ≥ b) = ∫ f (x)dx b Z ciągłości dystrybuanty i z jej własności (6.4) wynika, Ŝe dla zmiennej losowej ciągłej prawdopodobieństwo P(X =a) = 0 dla a ∈ R . Zatem w równościach (6.1 – 6.3) znaki nierówności ≤, ≥ moŜna zastąpić znakami < , >, natomiast znak < moŜna zastąpić znakiem ≤. 28 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 6.18 Zmienna losowa ciągła X ma gęstość 2x dla 0 < x < 1 f (x) = 0 dla pozostalych x 1 3 1 Obliczymy prawdopodobieństwa P < X < , P X > . 2 4 4 Rozwiązanie 1 2 1 2 1 2 2 2 1 1 1 3 1 1 1 P < X < = ∫ f (x)dx = ∫ 2xdx = x 2 = − = − = 2 1 4 16 16 1 2 4 4 1 4 4 4 1 2 1 ∞ 3 ∞ 7 3 2 P X > = ∫ f (x)dx = ∫ 2xdx + ∫ 0dx = x = 12 − = 4 4 16 3 3 1 3 4 4 4 Obliczone prawdopodobieństwa zilustrowane są na rys. 6.12 Rys.6.12 6.2. Zmienne losowe dwuwymiarowe 6.2.1. Pojęcie zmiennej losowej dwuwymiarowej Jeśli na zbiorze zdarzeń elementarnych Ω określimy dwie zmienne losowe X i Y, to uporządkowaną parę (X, Y) nazywamy zmienną losową dwuwymiarową. Zmienna losowa dwuwymiarowa jest więc przyporządkowaniem kaŜdemu zdarzeniu elementarnemu uporządkowanej pary liczb rzeczywistych (x, y). Pary te nazywamy wartościami zmiennej losowej dwuwymiarowej (X, Y), są one punktami płaszczyzny. Niech A będzie podzbiorem płaszczyzny. Symbolem (X, Y ) ∈ A oznaczamy zbiór tych wszystkich zdarzeń elementarnych, dla których zmienna losowa (X,Y) przyjmuje wartości ze zbioru A. PowyŜszą definicję i jej niektóre szczególne przypadki przedstawiamy w poniŜszej tabeli. Tabela 6.2. Przykładowe definicje Symbol ( X, Y ) ∈ A ( X = a , Y = b) ( X < x , Y < y) Definicja symbolu {ω : (X(ω), Y(ω)) ∈ A} {ω : X(ω) = a i Y(ω) = b} {ω : X(ω) < x i Y(ω) < y} {ω : x 1 ≤ X(ω) < x 2 ( x 1 ≤ X < x 2 , y1 ≤ Y < y 2 ) 29 i y 1 ≤ Y (ω) < y 2 } RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 6.19 Doświadczenie polega na losowym wyborze liczby spośród liczb 1, 2, 3, 4, 5, 6. Zmienna losowa X przyjmuje wartość 1, gdy wylosowano liczbę parzystą lub wartość 0, gdy wylosowano liczbę nieparzystą. Zmienna losowa Y przyjmuje wartość 1, gdy wylosowano liczbę podzielną przez 3 lub wartość 0, gdy wylosowano liczbę niepodzielną przez 3. Y: 0 01001 ↑ ↑↑↑↑↑ Ω = {1, 2, 3, 4, 5, 6} ↓ ↓↓↓↓↓ X: 0 10101 Para (X,Y) jest zmienną losową dwuwymiarową o zbiorze wartości {(0,0), (0,1), (1,0), (1,1)} Mamy 1 P(X = 0, Y = 0) = P({1,5}) = 3 1 P(X = 0, Y = 1) = P({3}) = 6 1 P(X = 1, Y = 0) = P({2,4}) = 3 1 P(X = 1, Y = 1) = P({6}) = 6 P(X < 0, Y < 0) = P(∅) = 0 P(X ≥ 0, Y ≥ 0) = P(Ω) = 1 Przykład 6.20 Dwukrotny rzut monetą. Ω = {(O, O), (O, R), (R, O), (R, R)}. Zdarzeniom elementarnym (O, O), (O, R), (R, O), (R, R) przyporządkujmy odpowiednio pary liczb (1, 1), (1, 0), (0, 1), (0, 0). Została w ten sposób określona zmienna losowa dwuwymiarowa (X, Y) przyjmująca 4 wartości, przy czym 1 1 P(X = 1, Y = 1) = P({(O, O)}) = , P(X = 1, Y = 0) = P({(O, R)}) = , 4 4 P(X = 0, Y = 1) = P({(R, O)}) = 1 1 , P(X = 0, Y = 0) = P({(R, R)}) = , 4 4 Przykład 6.21 Przykładem dwuwymiarowej zmiennej losowej jest wzrost i waga osób (X, Y). W tym przypadku moŜe nas interesować zaleŜność wagi Y od wzrostu X. MoŜna rozszerzyć rozpatrywane dane o wiek osób, otrzymujemy wtedy zmienną losową trójwymiarową. Kolejne rozszerzenie moŜe dotyczyć płci osób. W przypadku ogólnym moŜna rozpatrywać zmienna losową n-wymiarową. Dla uproszenia rozwaŜań w niniejszej ksiąŜce ograniczono się do zmiennych losowych dwuwymiarowych. 30 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 6.2.2. Dystrybuanta zmiennej losowej dwuwymiarowej Dystrybuantą zmiennej losowej dwuwymiarowej (X,Y) nazywamy funkcję F(x,y) określoną wzorem F(x, y) = P(X < x, Y < y) dla x,y ∈ R Interpretacja Wartość dystrybuanty zmiennej losowej dwuwymiarowej (X,Y) w punkcie (x,y) jest równa prawdopodobieństwu przyjęcia przez tą zmienną wartości z ćwiartki płaszczyzny przedstawionej na poniŜszym rysunku – rys. 6.14, bez krawędzi tej ćwiartki. Rys. 6.14 Dystrybuanta F(x, y) zmiennej losowej dwuwymiarowej (X, Y) ma następujące własności: a) dla dowolnych punktów (x1, y1) i (x2, y2) gdzie x1< x2 i y1 < y2 zachodzi nierówność F(x2, y2) – F(x1, y2) – F(x2, y1) + F(x1, y1) ≥ 0 b) F(x, y) jest funkcją lewostronnie ciągłą, c) F(+∞, +∞) = 1, F(–∞, –∞) = 0, F(–∞, y) = 0, F(x, –∞) = 0 d) P(x1 ≤ X < x2, y1 ≤ Y < y2) = F(x2, y2) – F(x2, y1) – F(x1, y2) + F(x1,y1) e) Funkcje FX(x) = F(x, +∞), FY(y) = F( +∞, y) są dystrybuantami odpowiednio zmiennej losowej X i zmiennej losowej Y. Funkcje FX(x) i FY(y) nazywamy takŜe dystrybuantami rozkładów brzegowych, przez co podkreślamy, Ŝe dystrybuanty te zostały otrzymane przy pomocy dystrybuanty F(x, y) zmiennej losowej dwuwymiarowej (X, Y). KaŜda funkcja F(x, y) spełniająca warunki a), b) i c) jest dystrybuantą pewnej zmiennej losowej dwuwymiarowej (X, Y). 6.2.3. Zmienne losowe dwuwymiarowe skokowe Punkt skokowy. Skok Jeśli P(X = a, Y = b) = p > 0 to punkt (a,b) nazywamy punktem skokowym zmiennej losowej dwuwymiarowej (X,Y), zaś p skokiem w tym punkcie. Pojęcie zmiennej losowej skokowej Zmienna losowa dwuwymiarowa skokowa jest to zmienna losowa dwuwymiarowa mająca sumę skoków równą 1. JeŜeli zmienna losowa dwuwymiarowa (X, Y) przyjmuje tylko skończoną lub przeliczalną liczbę wartości, to jest ona zmienną losową dwuwymiarową skokową Funkcja prawdopodobieństwa Funkcja prawdopodobieństwa zmiennej losowej dwuwymiarowej skokowej (X,Y) jest to przyporządkowanie kaŜdemu punktowi skokowemu tej zmiennej skoku w tym punkcie. Funkcję prawdopodobieństwa zmiennej losowej dwuwymiarowej skokowej (X,Y) przedstawiamy wzorem P(X = x i , Y = y j ) = p i j i, j =1, 2, ... lub w postaci tabeli 31 RACHUNEK PRAWDOPODOBIEŃSTWA yj xi x1 x2 x3 K y1 y2 y3 K p11 p21 p31 p12 p22 p32 p13 p23 p33 K K K K K K K Przykład 6.22 Zmienna losowa dwuwymiarowa (X,Y) z przykładu 6.19 jest zmienną losową dwuwymiarową skokową o funkcji prawdopodobieństwa przedstawionej w poniŜszej tabeli yj xi 0 1 0 1 1 3 1 3 1 6 1 6 TakŜe zmienna losowa dwuwymiarowa z przykładu 6.27 jest skokowa. Jej prawdopodobieństwa jest określona równościami zapisanymi w tym przykładzie. funkcja Dystrybuanta zmiennej losowej dwuwymiarowej skokowej (X, Y) wyraŜa się wzorem F(x, y) = ∑ ∑ p ij i j xi <x y j < y gdzie sumowanie rozciąga się na składniki pij o wskaźnikach, dla których spełnione są jednocześnie nierówności xi < x i yj < y. Przykład 6.23 Zmienna losowa dwuwymiarowa skokowa (X,Y) ma funkcję prawdopodobieństwa określoną tabelą yj xi 0 1 0 1 2 0,2 0,1 0,1 0,2 0,3 0,1 F(0, 5; 1,5) = P(X < 0,5; Y < 1, 5) = P(X = 0; Y = 0) + P(X = 0; Y = 1) = 0, 2 + 0,1 = 0, 3 F(1, 3) = P(X < 1, Y < 3) = P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 0, Y = 2) = 0, 2 + 0,1 + 0,3 = 0, 6 F(0,0) = P(X < 0, Y < 0) = P(∅) = 0 F(2,4) = F(X < 2, Y < 4) = P (Ω) = 1 6.2.4. Zmienne losowe dwuwymiarowe ciągłe Zmienna losowa dwuwymiarowa ciągła jest to zmienna losowa dwuwymiarowa, której dystrybuantę F moŜna przedstawić w postaci x y F( x , y) = ∫ ∫ f ( t , u )du dt dla x , y ∈ R −∞ −∞ gdzie: f jest pewną funkcją nieujemną dwóch zmiennych rzeczywistych zwaną gęstością prawdopodobieństwa (krótko: gęstością) zmiennej losowej dwuwymiarowej (X, Y). 32 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Gęstość f zmiennej losowej dwuwymiarowej ciągłej jest funkcją dwóch zmiennych i ma własności 1. f jest funkcją nieujemną: f ( x , y) ≥ 0 dla x , y ∈ R ∞ ∞ ∫ ∫ f ( x , y)dy dx = 1 − ∞ − ∞ 3. Jeśli F jest dystrybuantą zmiennej losowej dwuwymiarowej ciągłej, to funkcja ∂2 F( x , y) gdy pochodna ta istnieje f ( x, y) = ∂x∂y 0 w przeciwnym przypadku jest gęstością tej zmiennej. b d 4. P(a < X < b, c < Y < d ) = ∫ ∫ f ( x , y)dy dx a c KaŜda funkcja f spełniająca warunki 1 i 2 jest gęstością pewnej zmiennej losowej dwuwymiarowej ciągłej. 2. Przykład 6.24 Sprawdzimy czy funkcja x + y f ( x , y) = 0 jest gęstością zmiennej losowej dwuwymiarowej ciągłej. dla 0 < x < 1 i 0 < y < 1 dla pozostałych x Rozwiązanie Funkcja f jest dodatnia wewnątrz prostokąta przedstawionego na poniŜszym rysunku – rys. 6.15 i równa zeru dla pozostałych punktów płaszczyzny, zatem spełnia warunek 1. Sprawdzimy, czy spełnia warunek 2. Rys. 6.15 1 1 1 1 ∞ 1 y2 y = 1 xy + dx = x + dx = = f ( x , y ) dy dx ( x + y ) dy dx = ∫ ∫ ∫ ∫ ∫−∞−∫∞ 2 y = 0 2 0 0 0 0 x2 1 1 1 1 = + x = + = 1 2 2 0 2 2 Funkcja f spełnia warunek 2. ∞ Odp. Funkcja f jest gęstością pewnej zmiennej losowej dwuwymiarowej ciągłej. 33 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 6.25 Niech f będzie gęstością zmiennej losowej dwuwymiarowej ciągłej (X,Y) z poprzedniego przykładu. Wtedy 13 24 1 3 2 1 3 u2 u = 4 1 3 F , = P X < , Y < = ∫ ∫ ( t + u )du dt = ∫ tu + dt = 2 4 00 2 2 4 0 u=0 1 1 2 3 9 9 2 3 9 15 3 = ∫ t + dt = t 2 + t = + = 32 32 32 64 64 8 0 4 0 Przykład 6.26 Niech f będzie gęstością zmiennej losowej dwuwymiarowej ciągłej (X,Y) z przykładu 6.31. 1 1 1 Obliczymy prawdopodobieństwo P < X < , 0 < Y < . 2 2 4 Rozwiązanie 1 y= 1 1 1 2 2 2 2 1 1 y2 1 P < X < , 0 < Y < = ∫ ∫ f (x, y)dy dx = ∫ ∫ (x + y)dy dx = ∫ xy + dx = 2 2 1 0 2 4 1 0 1 y=0 4 4 4 1 1 2 1 1 1 2 1 1 1 1 5 1 = ∫ x + dx = x 2 + x = + − + = 8 8 1 16 16 64 32 64 4 1 2 4 4 5.2.5. Rozkłady brzegowe MoŜna udowodnić, Ŝe rozkład prawdopodobieństwa zmiennej losowej dwuwymiarowej (X,Y) wyznacza rozkład zmiennej losowej X i rozkład zmiennej losowej Y. 1 1 2 2 Rozkłady brzegowe zmiennych losowych X i Y są to rozkłady prawdopodobieństwa tych zmiennych wyznaczone za pomocą rozkładu zmiennej losowej dwuwymiarowej (X,Y). Pr zypa de k zmie nny ch l os ow yc h s ko kow y ch Jeśli (X,Y ) jest zmienną losową dwuwymiarową skokową o funkcji prawdopodobieństwa P(X = x i , Y = y j ) = p ij dla i, j = 1,2, ... to X jest zmienną losową skokową o funkcji prawdopodobieństwa P(X = x i ) = p i. funkcja prawdopodobieństwa brzegowa zm. los. X gdzie p i. = ∑ p ij dla i = 1,2, ..., j takŜe Y jest zmienną losową skokową o funkcji prawdopodobieństwa P (Y = y j ) = p . j funkcja prawdopodobieństwa brzegowa zm. los. Y gdzie p . j = ∑ p ij dla j= 1,2, .... i 34 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Jeśli funkcję prawdopodobieństwa przedstawimy w tabeli zmiennej yj losowej dwuwymiarowej y1 y2 y3 K x1 p11 p13 K x2 p 21 p12 p 22 p 23 K x3 K p 31 K p 32 K p 33 K K K xi skokowej (X,Y) to prawdopodobieństwo p1. jest sumą prawdopodobieństw z pierwszego wiersza tej tabeli, prawdopodobieństwo p 2. jest sumą prawdopodobieństw z drugiego wiersza itd., natomiast prawdopodobieństwo p .1 jest sumą prawdopodobieństw z pierwszej kolumny, p .2 jest sumą prawdopodobieństw z drugiej kolumny powyŜszej tabeli itd. Dlatego prawdopodobieństwa te wygodnie jest przedstawić w dodatkowym wierszu i w dodatkowej kolumnie tej tabeli. yj y1 y2 y3 x1 p11 p12 p13 K p1. x2 p 21 p 22 p 23 K p 2. x3 K p. j p 31 K p .1 p 32 K p .2 p 33 K p .3 K p 3. xi Kolumna tytułowa wraz z ostatnią kolumną prawdopodobieństwa brzegową zmiennej losowej X pi⋅ (po transponowaniu) xi x1 x2 x3 K p i. p1. p 2. p 3. K tworzą funkcję Podobnie wiersz tytułowy z ostatnim wierszem tworzą funkcję prawdopodobieństwa brzegową zmiennej losowej Y. K yi y1 y2 y3 K p. j p .1 p .2 p .3 Przykład 6.27 Zmienna losowa dwuwymiarowa skokowa ma funkcję prawdopodobieństwa określoną w tabeli: yj xi 1 3 -1 0 1 1 11 2 11 3 11 1 11 2 11 2 11 Znajdziemy funkcje prawdopodobieństwa brzegowe zmiennych losowych X i Y. Rozwiązanie p1. = P(X = 1) = 1 3 2 6 + + = suma prawdopodobieństw z pierwszego wiersza 11 11 11 11 35 RACHUNEK PRAWDOPODOBIEŃSTWA 2 1 2 5 + + = suma prawdopodobieństw z drugiego wiersza 11 11 11 11 Funkcja prawdopodobieństwa brzegowa zmiennej losowej X p 2 . = P(X = 3) = xi 1 3 p i. 6 11 5 11 1 2 3 suma prawdopodobieństw z pierwszej kolumny + = 11 11 11 3 1 4 p .2 = P(Y = 0) = + = suma prawdopodobieństw z drugiej kolumny 11 11 11 2 2 4 suma prawdopodobieństw z trzeciej kolumny p .3 = P(Y = 1) = + = 11 11 11 Funkcja prawdopodobieństwa zmiennej losowej Y p .1 = P(Y = −1) = yi –1 3 11 p. j Obliczone prawdopodobieństwa prawdopodobieństwa. 0 4 11 przedstawimy yj xi 1 3 p. j 1 4 11 na brzegu tabeli –1 0 1 p i. 1 11 2 11 3 11 3 11 1 11 4 11 2 11 2 11 4 11 6 11 5 11 Suma =1 określającej funkcję Przykład 6.28 Zmienna losowa X oznacza cenę komputera (w zł), Y oznacza liczbę awarii tego komputera w czasie T. Wiadomo, Ŝe zmienna losowa dwuwymiarowa (X,Y) skokowa ma funkcję prawdopodobieństwa przedstawioną w tabeli yj 0 1 2 3 4 5 p i. 2 3 4 5 6 7 0,01 0,02 0,03 0,04 0,05 0,01 0,02 0,03 0,05 0,07 0,08 0,02 0,03 0,04 0,05 0,04 0,03 0,02 0,02 0,04 0,01 0,01 0,06 0,05 0,04 0,03 0,06 0,04 p. j 0,15 0,26 0,21 0,1 0,18 0,1 0,17 0,17 0,17 0,17 0,16 0,16 Suma 1 xi 36 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Funkcja prawdopodobieństwa brzegowa zmiennej losowej X St ruk tu ra ko mp ute rów w g cen y xi p i. 2 3 4 5 6 7 0,17 0,17 0,17 0,17 0,16 0,16 3 4 5 0,1 0,18 0,1 Funkcja prawdopodobieństwa brzegowa zmiennej losowej Y St ruk tu ra ko mp ute rów w g l ic zby a wa ri i yj 0 1 2 p. j 0,15 0,26 0,21 Pr zypa de k zmie nny ch l os ow yc h c i ągł ych JeŜeli zmienna losowa dwuwymiarowa ciągła (X, Y) ma gęstość f(x, y), to gęstość fX(x) zmiennej losowej X wyraŜa się wzorem ∞ fX(x) = ∫ f ( x , y)dy −∞ zaś gęstość fY(y) zmiennej losowej Y wyraŜa się wzorem ∞ fY(y) = ∫ f (x, y)dx −∞ Otrzymane w powyŜszy sposób gęstości fX(x) i fY(y) zmiennych losowych X i Y nazywamy gęstościami rozkładów brzegowych tych zmiennych losowych. Przykład 6.29 Zmienna losowa dwuwymiarowa ciągła (X, Y) ma gęstość 8xy f(x, y) = 0 dla x > 0 , y > 0 i x 2 + y 2 < 1 dla pozostałych x i y Znaleźć gęstości rozkładów brzegowych zmiennych losowych X i Y. Rozwiązanie Zbiór punktów płaszczyzny Oxy, dla których gęstość f(x, y) jest dodatnia, moŜe być opisany nierównościami. 0 < x <1 2 0 < y < 1 − x Dla 0 < x < 1 gęstość zmiennej losowej x 1− x 2 ∞ fX(x) = ∫ f (x, y)dy = ∫ 8xydy = 4x (1 − x −∞ 2 ) 0 Rys. 6.16. Natomiast dla x ≥ 1 lub x ≤ 0 gęstość f(x, y) = 0, więc takŜe fX(x) = 0, ostatecznie 0 fX(x) = 4x(1 − x 2 ) 0 37 dla x≤0 dla 0 < x < 1 dla x ≥1 RACHUNEK PRAWDOPODOBIEŃSTWA Analogicznie postępując otrzymujemy, Ŝe gęstość fY(y) zmiennej losowej Y wyraŜa się wzorem 0 dla y ≤ 0 2 fY(y) = 4y(1 − y ) dla 0 < y < 1 0 dla y ≥1 Pr zypa de k dow ol ny ch zmie nny ch l os o w yc h Jeśli zmienna losowa dwuwymiarowa (X,Y) ma dystrybuantę F(x, y), to zmienna losowa X ma dystrybuantę FX ( x ) = F( x , ∞) dla x ∈ R dystrybuanta brzegowa zmiennej losowej X zaś zmienna losowa Y ma dystrybuantę FY ( y) = F(∞, y) dla y ∈ R dystrybuanta brzegowa zmiennej losowej Y Przykład 6.30 Zmienna losowa dwuwymiarowa (X, Y) ma dystrybuantę F(x,y) 0 1 6 1 F(x, y) = 2 7 15 1 dla x ≤ 0 lub 0 < y ≤ 1 dla 0 < x ≤1 i 0 < y ≤1 dla 0 < x ≤1 i y >1 dla x >1 i 0 < y ≤1 dla x >1 i y >1 Wyznaczymy dystrybuanty brzegowe zmiennej losowej X oraz Y. Rozwiązanie Warstwowy wykres dystrybuanty zmiennej losowej dwuwymiarowej ma postać Rys. 6.19 Symbol F(x , ∞ ) oznacza granicę dystrybuanty F(x , y ) , gdy y → ∞ , przy stałej wartości x. 38 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Na rysunku 6.20 strzałkami (z przerywanej linii) oznaczone są drogi dąŜenia do nieskończoności zmiennej y, dla ustalonych wartości x, w poszczególnych przedziałach. . Rys. 6.20 Z rysunku wynika, Ŝe dla x ≤ 0 mamy F(x , ∞ ) =0; dla 0< x ≤ 1 mamy F(x , ∞ ) = ½; dla x > 1 mamy F(x , ∞ ) =1, zatem x≤0 0 dla FX (x ) = F(x , ∞ ) = 1 / 2 dla 0 < x ≤ 1 1 dla x >1 Analogicznie moŜna wyznaczyć dystrybuantę zmiennej losowej Y dla y≤0 0 FY (x ) = F(∞, y ) = 7 / 15 dla 0 < y ≤ 1 1 dla y >1 6.2.6. Rozkłady warunkowe Przypadek zmiennych losowych skokowych Dwuwymiarowa zmienna losowa skokowa (X, Y) ma funkcję prawdopodobieństwa P(X = xi, Y = yj) = pij Symbolem X/Y = yj (czytaj: X pod warunkiem, Ŝe Y równa się yj) oznaczamy zmienną losową skokową mającą funkcję prawdopodobieństwa P(X = x i ,Y = y j ) pij P(X = xi/Y = yj) = = P(Y = y j ) p.j przy czym zdarzenie Y = yj jest ustalone, natomiast xi przebiega wszystkie wartości przyjmowane przez zmienną losową X, dla których prawa strona powyŜszego wzoru jest dodatnia. Symbolem Y/X = xi oznaczamy zmienną losową, której funkcje prawdopodobieństwa wyraŜa się wzorem P(X = x i , Y = y j ) p ij P(Y = yj/ X = xi) = = P( X = x i ) p i. przy czym zdarzenie X = xi jest ustalone, natomiast yj przebiega wszystkie wartości przyjmowane przez zmienną losową Y, dla których prawa strona powyŜszej równości jest dodatnia. O zmiennych losowych X/Y = yj i Y/X = xi mówimy, Ŝe mają rozkłady warunkowe. 39 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 6.31 Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej skokowej (X,Y) oraz funkcje prawdopodobieństwa brzegowe zmiennych losowych X i Y przedstawione są w tabeli yj –1 xi 0 1 p i. 1 3 2 6 11 11 11 11 2 1 2 5 3 11 11 11 11 3 4 4 Suma p. j 1 11 11 11 Wyznaczymy funkcje prawdopodobieństwa warunkowe zmiennych losowych X/ Y = 0 oraz Y/X=3. 1 Rozwiązanie 3 P(X = 1, Y = 0) 11 3 P(X = 1 / Y = 0) = = = 4 4 P(Y = 0) 11 1 P(X = 3, Y = 0) 11 1 P(X = 3 / Y = 0) = = = 4 4 P(Y = 0) 11 Funkcja prawdopodobieństwa warunkowa zmiennej losowej X/ Y = 0 xi P ( X = x i / Y = 0) 1 3 4 3 1 4 2 P(X = 3, Y = −1) 11 2 P(Y = −1 / X = 3) = = = 5 5 P(X = 3) 11 1 P(X = 3, Y = 0) 11 1 P(Y = 0 / X = 3) = = = 5 5 P(X = 3) 11 2 P(X = 3, Y = 1) 11 2 P(Y = 1 / X = 3) = = = 5 5 P(X = 3) 11 40 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Funkcja prawdopodobieństwa warunkowa zmiennej losowej Y / X = 3 yj -1 2 5 P(Y = yj/ X = 3) 1 2 5 0 1 5 Przykład 6.32 Znajdziemy rozkład awarii komputerów kosztujących 7 tys. zł oraz rozkład ceny komputerów mających 4 awarie w ciągu czasu T, dla danych z przykładu 6.35. Rozwiązanie NaleŜy wyznaczyć funkcje prawdopodobieństwa zmiennych losowych Y/X=7 oraz X/Y=4. 0,05 5 0,08 8 P ( Y = 0 / X = 7) = = , P( Y = 1 / X = 7) = = , 0,16 16 0,16 16 0,03 3 = 0,16 16 Rozkład awarii komputerów kosztujących 7 tys. zł. P ( Y = 2 / X = 7) = Funkcja prawdopodobieństwa warunkowa Y/X=7 yj 0 5 16 P(Y = y j /X = 7) 1 1 2 P( X = 2 / Y = 4) = 0,06 6 0,05 5 = , P ( X = 3 / Y = 4) = = 0,18 18 0,18 18 P(X = 4 / Y = 4) = 0,04 4 0,03 3 = , P(X = 5 / Y = 4) = = 0,18 18 0,18 18 2 3 16 Rozkład ceny komputerów mających 4 awarie w czasie T Funkcja prawdopodobieństwa zmiennej losowej X/Y=4 xi 2 1 3 P ( X = x i / Y = 4) 3 5 18 4 2 9 5 1 6 Przypadek zmiennych losowych ciągłych Dwuwymiarowa zmienna losowa ciągła (X, Y) ma gęstość f(x, y). Niech fX(x) i fY(y) będą gęstościami rozkładów brzegowych zmiennych losowych X i Y. Symbolem X/Y=y0 oznaczamy zmienną losową, której gęstość fX(x/y0) wyraŜa się wzorem fX(x/y0) = f ( x, y 0 ) f Y (y0 ) przy czym zakładamy, Ŝe fY(y0) ≠ 0. 41 RACHUNEK PRAWDOPODOBIEŃSTWA Symbolem Y/X=x0 oznaczamy zmienną losową, której gęstość fY(y/x0) wyraŜa się wzorem f ( x 0 , y) fY(y/x0) = f X (x 0 ) przy czym zakładamy, Ŝe fX(x0) ≠ 0 O zmiennych losowych X/Y=y0 i Y/X=x0 mówimy, Ŝe mają rozkłady warunkowe. Przykład 6.33 Dwuwymiarowa zmienna losowa (X, Y) ma gęstość 8xy dla x > 0 , y > 0 i x 2 + y 2 < 1 f(x, y) = 0 dla pozostałych x i y Znajdziemy gęstość zmiennej losowej Y/X = 1/2 Rozwiązanie Gęstość zmiennej losowej X wyraŜa się wzorem (patrz przykład 6.36) 0 dla x≤0 2 fX(x) = 4x(1 − x ) dla 0 < x < 1 0 dla x ≥1 3 1 więc f X = . Natomiast (patrz rys. 6.16) 2 2 3 1 4 y dla 0 < y < f , y = 2 2 0 dla pozostałych y Szukana gęstość 1 f , y 8 3 1 2 = y dla 0 < y < fY y / = 3 2 1 2 0 dla pozostałych y f1 2 6.2.7. Zmienne losowe niezaleŜne Niech F(x, y), FX(x), FY(y) będą dystrybuantami odpowiednio zmiennych losowych (X, Y), X, Y. Zmienne losowe X i Y nazywamy niezaleŜnymi, jeśli F(x, y) = FX(x)FY(y) Jeśli (X, Y) jest dwuwymiarową zmienną losową skokową o funkcji prawdopodobieństwa P(X=xi, Y=yj) = pij to warunkiem koniecznym i wystarczającym niezaleŜności zmiennych losowych X i Y jest zachodzenie równości pij = P(X = xi, Y = yj) = P(X = xi) P(Y = yj) = pi.p.j dla kaŜdej wartości (xi ,yj) zmiennej losowej (X, Y). JeŜeli (X, Y) jest dwuwymiarową zmienną losową ciągłą o gęstości f(x, y), zaś fX(x) i fY(y) są gęstościami zmiennych losowych X i Y, to warunkiem koniecznym i wystarczającym niezaleŜności X i Y jest zachodzenie równości f(x, y) = fX(x) fY(y) we wszystkich punktach ciągłości gęstości f(x, y). 42 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 6.34 Sprawdzimy czy zmienne losowe z przykładu 6.27 są niezaleŜne. Rozwiązanie. Z tabeli w przykładzie 6.27 odczytujemy, Ŝe P(X = 1, Y = –1) = 1 , zaś z rozwiązania tego 11 przykładu mamy 6 3 P(X= 1) = , P(Y= –1) = , więc 11 11 P(X = 1)P(X = –1) = czyli zmienne losowe X i Y są zaleŜne. 6 3 18 = ≠ P( X=1, Y=–1) 11 11 121 Przykład 6.35 Sprawdzimy, czy zmienne losowe X i Y z przykładu 6.29 są niezaleŜne, Rozwiązanie Bezpośrednio widać, Ŝe fX(x) fY(y) ≠ f(x, y), więc zmienne losowe X i Y nie są niezaleŜne. Przykład 6.36 Dwuwymiarowa zmienna losowa (X, Y) ma funkcję prawdopodobieństwa określoną tabelką. yj xi –1 1 0 2 3 2 4 15 2 4 15 2 15 15 15 1 15 Sprawdzić, czy zmienne losowe X i Y są niezaleŜne. Rozwiązanie Postępując jak w przykładzie 6.27 otrzymujemy 1 2 2 2 1 P(Y = 0) = , P(Y = 2) = , P(Y=3) = P(X = –1) = , P(X =1) = 5 5 5 3 3 Mamy 1 2 2 P(Y = 0) P(X = –1) = · = = P(Y = 0, X= –1) 5 3 15 2 2 4 P(Y = 2) P(X = –1) = · = = P(Y = 2, X = –1) 5 3 15 2 2 4 P(Y = 3) P(X = –1) = · = = P(Y = 3, X = –1) 5 3 15 1 1 1 P(Y = 0) P(X = 1) = · = = P(Y = 0) P(X = 1) 5 3 15 2 1 2 P(Y = 2) P(X = 1) = · = = P(Y = 2, X = 1) 5 3 15 2 1 2 P(Y = 3) P(X = 1) = · = = P(Y = 3, X = 1) 5 3 15 czyli zmienne losowe X i Y są niezaleŜne. 43 RACHUNEK PRAWDOPODOBIEŃSTWA 7. PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH W zastosowaniach praktycznych zamiast rozpatrywać funkcje rozkładu prawdopodobieństwa, gęstość czy dystrybuantę zmiennych losowych, wystarczy nieraz ograniczyć się do wykorzystania jednego lub kilku parametrów opisujących zasadnicze właściwości rozkładu zmiennej losowej. Parametry są liczbami, które charakteryzują zmienne losowe i są związane z ich rozkładami. W niniejszym rozdziale opisano podstawowe parametry rozkładu zmiennych losowych. Parametry rozkładu zmiennej losowej jednowymiarowej dzielimy na dwie grupy: • Miary połoŜenia, dotyczące określonych wartości zmiennej losowej. Do miar tego typu zaliczamy wartość oczekiwaną, medianę i dominantę ( modę). • Miary zmienności, zwane teŜ miarami rozproszenia. Przykładem miar tego typu jest wariancja i odchylenie standardowe. 7.1. Miary połoŜenia zmiennej losowej jednowymiarowej 7.1.1. Wartość oczekiwana Wartością oczekiwaną zmiennej losowej X nazywamy moment rzędu 1 i oznaczamy symbolami EX lub m Tak więc: A. Wartością oczekiwaną zmiennej losowej skokowej X przyjmującej skończoną liczbę wartości x1, x2, …, xn odpowiednio z prawdopodobieństwami p1, p2, …, pn nazywamy liczbę n EX = x 1 p1 + x 2 p 2 + ... + x n p n = ∑ x k p k k =1 B. Wartością oczekiwaną zmiennej losowej skokowej X przyjmującej przeliczalną liczbę wartości x1, x2 …, xn,... odpowiednio z prawdopodobieństwami p1, p2, …, pn, … nazywamy liczbę ∞ EX = ∑ x k p k k =1 przy czym zakładamy, Ŝe szereg ∞ ∑x k pk k =1 jest zbieŜny. Jeśli powyŜszy szereg jest rozbieŜny, to zmienna losowa X nie ma wartości oczekiwanej. C. Wartością oczekiwaną zmiennej losowej ciągłej o gęstości f(x) nazywamy liczbę ∞ ∫ x f (x ) dx EX = −∞ przy czym zakładamy, Ŝe całka ∞ ∫ x f (x ) dx −∞ jest zbieŜna. Jeśli powyŜsza całka jest rozbieŜna, to zmienna losowa X nie ma wartości oczekiwanej. Przykład 7.1 Zmienna losowa X oznacza liczbę wyrzuconych oczek na kości. Znajdziemy wartość oczekiwaną X. Rozwiązanie 1 1 1 1 1 1 EX = 1 • + 2 • + 3 • + 4 • + 5 • + 6 • = 3,5 6 6 6 6 6 6 44 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 7.2 Zmienna losowa skokowa X przyjmuje n wartości x1, x 2 ,..., x n prawdopodobieństwami. Znajdziemy wartość oczekiwaną tej zmiennej losowej. z jednakowymi Rozwiązanie Zmienna losowa X skokowa ma funkcję prawdopodobieństwa określoną wzorem P(X = x i ) = 1 n dla i = 1, ... , n. Zatem n 1 1 n = ∑ xi = x n n i =1 i i =1 czyli wartość oczekiwana zmiennej losowej jest w tym przypadku średnią arytmetyczną jej wartości. EX = ∑ x i p i = ∑ x i Przykład 7.3 Zbadano 200 gospodarstw domowych ze względu na liczbę osób w gospodarstwie. Wyniki badania przedstawione są w szeregu rozdzielczym punktowym Liczebność gospodarstw, w których jest i osób n i 30 40 60 50 12 8 n=200 Liczba osób w gospodarstwie i 1 2 3 4 5 6 Suma Niech zmienna losowa X oznacza liczbę osób w gospodarstwie domowym. Znajdziemy wartość oczekiwaną tej zmiennej losowej. Rozwiązanie n Zmienna losowa X przyjmuje wartość i dla i = 1,..., 6 z prawdopodobieństwem p i = i , więc jej n funkcję prawdopodobieństwa moŜna przedstawić w tabeli i 1 2 3 4 5 6 n pi = i n 0,15 0,2 0,3 0,25 0,06 0,04 Zatem EX = 1 ⋅ 0,15 + 2 ⋅ 0,2 + 3 ⋅ 0,3 + 4 ⋅ 0,25 + 5 ⋅ 0,06 + 6 ⋅ 0,04 = 2,99 ZauwaŜmy, Ŝe w powyŜszym zadaniu wzór na wartość oczekiwaną przybiera postać r n 1 r ∑ i i czyli ∑ i n i , (r oznacza liczbę wariantów cechy X, w naszym zadaniu r = 6) zatem n i=1 i =1 n wartość oczekiwana jest równa średniej waŜonej wariantów cechy X, a więc średniej arytmetycznej wszystkich danych statystycznych. 45 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 7.4 Zmienna losowa X ma funkcję prawdopodobieństwa 1 P(X = 2k) = k 2 Znajdziemy wartość oczekiwaną X. k = 1, 2, … Rozwiązanie EX = ∞ ∑2 k k =1 1 =∞ 2k Zmienna losowa X nie ma wartości oczekiwanej. Przykład 7.5 Zmienna losowa X ma gęstość 0 3 f(x) = x 2 8 0 dla x ≤ 0 dla 0 < x < 2 dla x ≥ 2 Znajdziemy wartość oczekiwaną X. Rozwiązanie +∞ EX = ∫ x f (x ) dx = −∞ 0 +∞ 2 3 2 3 ∫−∞x ⋅ 0 dx + ∫0 x ⋅ 8 x dx + ∫0 x ⋅ 0 dx = 2 Przykład 7.6 Zmienna losowa X ma funkcję prawdopodobieństwa określoną tabelą xk pk -2 1 8 -1 2 8 0 1 8 1 1 8 2 1 8 3 2 8 Znajdziemy wartość oczekiwaną zmiennej losowej Y = X2 . Rozwiązanie Funkcja prawdopodobieństwa zmiennej losowej Y = X2 wyraŜa się tabelą Y1 0 1 8 P1 EY = 0 • 1 8 +1 1 3 8 • 4 2 8 9 2 8 3 2 2 5 +4• +9• =3 8 8 8 8 Interpretacja wartości oczekiwanej Wartość oczekiwana zmiennej losowej jest rozszerzeniem pojęcia średniej arytmetycznej wartości tej zmiennej na nieskończenie wiele składników. Własności wartości oczekiwanej12 Zakładamy, Ŝe istnieją wartości oczekiwane zmiennych losowych X i Y. a) wartość oczekiwana stałej jest równa tej stałej Eb = b b) stałą moŜna wyłączać przed znak wartości oczekiwanej E(aX) = a EX (jednorodność) 12 Dowód podano w punkcie 20.5 części VII Wybrane twierdzenia z dowodami 46 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE c) E (aX + b) = aEX+b d) wartość oczekiwana sumy zmiennych losowych jest równa sumie ich wartości oczekiwanych E(X +Y) = EX +EY (addytywność) e) wartość oczekiwana iloczynu zmiennych losowych niezaleŜnych jest równa iloczynowi ich wartości oczekiwanej E(XY) = EX · EY (multiplikatywność) 7.1.2. Mediana Mediana jest jednym z najwaŜniejszych parametrów pozycyjnych. PoniewaŜ mediana jest kwantylem rzędu 0.5, oznacza się ją jako x0.5 lub x1/2. Mediana spełnia relacje 1 1 P (X ≤ x1/2) ≥ i P (X ≥ x1/2) ≥ 2 2 Przykład 7.7 KaŜda liczba z przedziału 3;4 jest medianą zmiennej losowej oznaczającej liczbę wyrzuconych oczek na kości, natomiast mediana zmiennej losowej X przyjmującej wartości x1 = –1, x2 = 2, x3 = 1 1 1 jest równa 2. 4 odpowiednio z prawdopodobieństwami pl = , p2 = , p3 = 4 2 4 Przykład 7.8 Zmienna losowa X ma gęstość 3 2 8 x dla x ∈ (0;2 ) f (x ) = 0 dla x ∉ (0;2 ) Znajdziemy medianę tej zmiennej losowej. Rozwiązanie W przykładzie 6.17 obliczyliśmy, Ŝe dla x ∈ (0;2 ) dystrybuanta zmiennej losowej X jest równa 1 1 1 F(x) = x 3 . Mediana jest więc pierwiastkiem równania x 3 = 8 8 2 3 Stąd x1/2 = 4 7.1.3. Parametry pozycyjne Wśród parametrów pozycyjnych najwaŜniejszą rolę odgrywają kwantyle. Liczbę xp nazywamy kwantylem p-tego rzędu ( 0 < p < 1) zmiennej losowej X, jeŜeli spełnione są warunki P(X ≤ x p ) ≥ p P(X ≥ x p ) ≥ 1 − p JeŜeli dystrybuanta F(x) jest ciągła w punkcie xp, to xp jest pierwiastkiem równania F(x)=p. Kwantyl rzędu p=0,5 nazywamy medianą, a kwantyle rzędu p=0,25 i p=0,75 nazywamy kwartylami. Do parametrów pozycyjnych zalicza się równieŜ dominantę (modę). Dominantą (modą) zmiennej losowej ciągłej nazywamy taką jej wartość xd, dla której gęstość ma maksimum (lokalne). JeŜeli występuje tylko jedno maksimum to rozkład nazywany jest jednomodalnym, a jeŜeli więcej - rozkładem wielomodalnym. JeŜeli nie występują maksima, to rozkład nazywany jest antymodalnym. 47 RACHUNEK PRAWDOPODOBIEŃSTWA 7.1.4. Wartość oczekiwana funkcji zmiennej losowej Wartość oczekiwana zmiennej losowej Y = g(X) wyraŜa się wzorem ∑ g( x k )p k gdy X ma rozkład skokowy o funkcji k prawdopodobieństwa P(X = x k ) = p k EY = Eg (X) = ∞ ∫ g( x )f ( x )dx gdy X ma rozkład ciągły o gęstości f (x ) −∞ przy czym zakłada się, Ŝe występujące w tym wzorze szereg i całka są bezwzględnie zbieŜne. PowyŜszy wzór wskazuje, Ŝe do obliczenia wartości oczekiwanej zmiennej losowej Y = g(X) wystarczy znajomość rozkładu zmiennej losowej X (nie potrzeba wyznaczać rozkładu zmiennej losowej Y = g(X), patrz przykład 7.8). Przyjmując za g róŜne funkcje otrzymujemy nowe parametry rozkładu zmiennej losowej X. NajwaŜniejsze z nich przedstawiamy w poniŜszej tabeli. Tabela 7.1. Parametry rozkładu zmiennej losowej Funkcja g Parametr Nazwa parametru g(x) = x m = EX Wartość oczekiwana zmiennej losowej X g(x) = xk mk = EXk k g(x) = (x- m) Moment (zwyczajny) rzędu k zmiennej losowej X k µ k = E(X – m) 2 Moment centralny rzędu k zmiennej losowej X 2 g(x) = (x- m)2 µ 2 = σ = D X= =E(X – m)2 Wariancja zmiennej losowej X g(x) = (x- c)k E(X – c)k Moment centralny rzędu k zmiennej losowej X względem liczby rzeczywistej c Omówimy (poniŜej) własności parametrów z tabeli oraz innych kluczowych parametrów. 7.2. Miary rozproszenia zmiennej losowej jednowymiarowej 7.2.1. Wariancja Wariancją zmiennej losowej X oznaczamy symbolami D2 X lub teŜ σ 2 W tabeli 7.1 podano, Ŝe wariancja jest równa momentowi centralnemu rzędu 2 σ 2 = D2X = E(X – m)2 Uwzględniając określenie wartości oczekiwanej zmiennej losowej (punkt 7.1.1.) otrzymujemy, Ŝe wariancja zmiennej losowej wyraŜa się wzorem ∑ ( x i − m) 2 p i gdy X ma rozkład skokowy o funkcji i prawdopodobieństwa P(X = x i ) = p i D2X = +∞ 2 gdy X ma rozkład ciągły o gęstości f (x ) ∫ (x - m ) f ( x )dx -∞ Interpretacja Z powyŜszych wzorów wynika następująca interpretacja wariancji: im mniejsza jest wariancja, tym bardziej jest prawdopodobne, iŜ zmienna losowa przyjmie wartość z pewnego ustalonego otoczenia wartości oczekiwanej. Dlatego o wariancji mówimy, Ŝe jest miarą rozproszenia (rozrzutu) rozkładu zmiennej losowej dokoła jej wartości oczekiwanej. 48 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE MoŜna udowodnić, Ŝe moment rzędu 2 względem liczby c E(X – c)2 ma najmniejszą wartość, gdy c = m, czyli rozproszenie rozkładu od liczby c jest najmniejsze, gdy c jest równe wartości oczekiwanej i miarą tego rozproszenia jest wariancja zmiennej losowej. Pierwiastek kwadratowy z wariancji nazywamy odchyleniem standardowym i oznaczamy lub DX σ Odchylenie standardowe ma analogiczną interpretację jak wariancja. Własności wariancji13 a) Wariancja stałej jest równa zeru D2b = 0 b) Stałą moŜna wyłączać przed znak wariancji, podnosząc ją do kwadratu 2 2 2 D2(aX) = a2D2X c) D (aX + b) = a D X d) Wariancja jest równa róŜnicy momentu rzędu 2 i kwadratu momentu rzędu 1, co zapisujemy D2X = EX2 – (EX)2 lub w innej notacji σ2 = m2 – m2 Udowadnia się powyŜszą zaleŜność następująco D2X = E(X – EX)2=E[X2-2X EX + (EX)2]= EX2 – 2EX EX + (EX)2=EX2-(EX)2 e) Jeśli zmienna losowa X ma wartość oczekiwaną m to zmienna losowa ~ X = X−m ~ ma wartość oczekiwaną 0. Zmienną losową X nazywamy zmienną losową scentrowaną . f) Jeśli zmienna losowa X ma wartość oczekiwaną m i wariancję σ 2 ≠ 0 to zmienna losowa o X−m X= σ o ma wartość oczekiwaną 0 i wariancję 1. Zmienną losową X nazywamy zmienną losową standaryzowaną. Przy centrowaniu i standaryzowaniu zmiennych losowych następuje zmiana punktu zerowego w zakresie zmienności. Badanie własności zmiennych losowych zwykle prowadzi się po dokonaniu ich standaryzacji. g) Wariancja sumy lub róŜnicy zmiennych losowych niezaleŜnych jest równa sumie wariancji tych zmiennych D2(X ± Y) = D2X +D2Y co dla przypadku sumy, korzystając z własności d) udowadnia się następująco D2(X + Y) = E(X+Y)2- [E(X+Y)]2= E(X2+2XY+Y2)-(EX+EY)2 , poniewaŜ z załoŜenia zmienne losowe X i Y są niezaleŜne, to E(XY) = EX EY, zatem D2(X + Y) = EX2+2EXEY+EY2-(EX)2-2EXEY-(EY)2= [EX2-(EX)2]+[EY2-(EY)2] = =D2X + D2Y Natomiast D2(X - Y) = D2[X +(-1) Y] = D2X + D2 [(-1) Y] = D2 X + (-1)2 D2 Y = D2 X + D2 Y Na zakończenie naleŜy podkreślić, Ŝe własność d) wykorzystujemy często do obliczania wariancji zmiennych losowych. 13 Dowód podano w punkcie 20.5. części VII Wybrane twierdzenia z dowodami 49 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 7.9 Znajdziemy wariancję zmiennej losowej X oznaczającej liczbę wyrzuconych oczek na kości. Rozwiązanie W przykładzie 7.1 obliczyliśmy, Ŝe m = 3,5. Obliczymy teraz moment rzędu 2 zmiennej losowej X 1 1 1 1 1 1 1 m2 = 12 • + 22 • + 32 • + 42 • + 52 • + 62 • = 15 6 6 6 6 6 6 6 Na podstawie własności d) wariancji 1 11 D2X = m2 - m2 = 15 - 3,52 = 2 6 12 Przykład 7.10 Zmienna losowa X ma gęstość 3 2 8 x dla x ∈ (0;2 ) f (x ) = 0 dla x ∉ (0;2 ) Znajdziemy wariancję zmiennej losowej X. Rozwiązanie W przykładzie 7.1 obliczyliśmy, Ŝe m = 1,5. Obliczymy moment rzędu 2 zmiennej losowej X +∞ 2 3 m 2 = ∫ x 2 f ( x ) dx = ∫ x 2 ⋅ x 2 dx = 2,4 8 −∞ 0 więc D2X = m2 - m2 = 2,4 - 1,52 = 0,15 7.2.2. Odchylenie przeciętne Odchyleniem przeciętnym zmiennej losowej X nazywamy wartość oczekiwaną zmiennej losowej X−m gdzie m jest wartością oczekiwaną zmiennej losowej X. Odchylenie przeciętne oznaczać będziemy literą β β=E X−m Odchylenie przeciętne zmiennej losowej X wyraŜa się wzorem gdy X jest zmienną losową skokową o funkcji ∑ x i − m pi prawdopodobieństwa P(X = x i ) = p i i β= ∞ gdy X jest zmienną losową ciągłą o gęstości f (x ) ∫ x i − m f ( x ) dx −∞ Odchylenie przeciętne, obok wariancji i odchylenia standardowego, jest jedną z miar rozproszenia zmiennej losowej dookoła wartości oczekiwanej. Odchylenie przeciętne względem liczby c definiowane jako E| X –c| ma wartość najmniejszą, gdy c jest równe medianie zmiennej losowej X. Przykład 7.11 Zmienna losowa X oznacza liczbę wyrzuconych oczek na kości. Znajdziemy odchylenie przeciętne tej zmiennej losowej. 50 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Rozwiązanie W przykładzie 7.1 obliczyliśmy, Ŝe m = 3,5, więc odchylenie przeciętne 1 1 1 1 1 1 β = 1 − 3,5 ⋅ + 2 − 3,5 ⋅ + 3 − 3,5 ⋅ + 4 − 3,5 ⋅ + 5 − 3,5 ⋅ + 6 − 3,5 ⋅ = 1,5 6 6 6 6 6 6 Przykład 7.12 Zmienna losowa X ma gęstość 3 2 8 x dla x ∈ (0;2 ) f (x ) = 0 dla x ∉ (0;2 ) Znajdziemy odchylenie przeciętne zmiennej losowej X. Rozwiązanie W przykładzie 7.5 obliczyliśmy, Ŝe m = 1,5, więc odchylenie przeciętne 1, 5 ∞ 2 2 3 3 3 81 β = ∫ x − m f ( x )dx = ∫ x − 1,5 ⋅ x 2 dx = − ∫ ( x − 1,5) x 2 dx + ∫ ( x − 1,5) x 2 dx = 8 8 8 256 −∞ 0 0 1, 5 7.2.3. Odchylenie ćwiartkowe W oparciu o kwartyle definiuje się prawdopodobne odchylenie zmiennej losowej od mediany, zwane teŜ odchyleniem ćwiartkowym, jako 1 d = (x3/4 – x1/4) 2 Odchylenie ćwiartkowe jest jedną z miar rozproszenia wartości zmiennej losowej. Przykład 7.13 Znajdziemy odchylenie ćwiartkowe zmiennej losowej o gęstości podanej w przykładzie 5.17. Rozwiązanie Kwantyl x3/4 jest pierwiastkiem równania 1 3 3 x = 8 4 zaś kwantyl x1/4 jest pierwiastkiem równania 1 3 1 x = 8 4 1 Więc x3/4 = 3 6 , x1/4 = 3 2 . Odchylenie ćwiartkowe d = ( 3 6 - 3 2 ) 2 7.2.4. Współczynnik zmienności Współczynnikiem zmienności zmiennej losowej X nazywamy stosunek odchylenia standardowego do wartości oczekiwanej tej zmiennej losowej, przy załoŜeniu Ŝe m ≠ 0. Współczynnik zmienności oznaczać będziemy literą v σ v= m Interpretacja Współczynnik zmienności jest miarą rozproszenia zmiennej losowej dokoła wartości oczekiwanej, gdy za jednostkę przyjmujemy wartość oczekiwaną. Zatem mierzy rozproszenie względne. 51 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 7.14 Zmienna losowa X ma gęstość 3 2 8 x dla x ∈ (0;2 ) f (x ) = 0 dla x ∉ (0;2 ) Znajdziemy współczynnik zmienności tej zmiennej losowej. Rozwiązanie W przykładach 7.5 i 7.10 obliczyliśmy, Ŝe m = 1,5 i σ2= 0,15, więc współczynnik zmienności 0,15 σ v= = = 0,26 m 1,5 7.3. Asymetria i spłaszczenie rozkładu jednowymiarowej zmiennej losowej Mówimy, Ŝe zmienna losowa skokowa ma rozkład symetryczny, jeśli istnieje liczba rzeczywista c taka, Ŝe wykres funkcji prawdopodobieństwa tej zmiennej jest symetryczny względem prostej x = c. Liczba c nazywa się środkiem symetrii rozkładu zmiennej losowej. Rys. 7.1 Mówimy, Ŝe zmienna losowa ciągła o gęstości f(x) ma rozkład symetryczny, jeśli istnieje liczba rzeczywista c taka , Ŝe wykres gęstości jest symetryczny względem prostej x = c , tzn. spełniona jest równość f (c − x ) = f (c + x ) . Rys. 7.2 PowyŜszy rozkład ma dwa maksima, stąd jest nazywany dwumodanym, jest to szczególny przypadek rozkładu wielomodalnego, który posiada kilka maksimów. Przykład 7.15 Zmienna losowa X oznaczająca liczbę wyrzuconych oczek na kości ma rozkład symetryczny o środku symetrii c = 3,5. Przykład 7.16 ( x −a )2 1 − 2 Zmienna losowa X o gęstości f(x) = e 2π ma rozkład symetryczny o środku symetrii c = a. 52 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Jeśli zmienna losowa X ma rozkład symetryczny o środku symetrii c i istnieją momenty tej zmiennej, to : a) wartość oczekiwana tej zmiennej losowej jest równa c, b) wszystkie momenty centralne rzędu nieparzystego są równe 0. Współczynnikiem asymetrii rozkładu zmiennej losowej X nazywamy liczbę µ E(X − m)3 γ = 33 = 3 σ E(X − m)2 gdzie µ3 jest momentem centralnym rzędu 3, zaś σ odchyleniem standardowym zmiennej losowej X. Przykład 7.17 Niech X oznacza liczbę wyrzucanych oczek na kości. PoniewaŜ X ma rozkład symetryczny, więc µ3 = 0, zatem współczynnik asymetrii γ = 0. Przykład 7.18 Zmienna losowa X ma gęstość 3 2 x dla x ∈ ( 0; 2 ) f ( x ) = 8 0 dla x ∉ ( 0; 2 ) Znajdziemy współczynnik asymetrii tej zmiennej losowej. Rozwiązanie W przykładach 7.5 i 7.10 obliczyliśmy, Ŝe m = 1,5 oraz σ2 = 0,15. Obliczymy teraz moment centralny µ3. ∞ 2 3 µ3 = ∫ ( x − m) 3f ( x )dx = ∫ ( x − 1,5) 3 ⋅ x 2 dx = −0,05 8 −∞ 0 Współczynnik asymetrii µ − 2 15 γ = 33 = σ 9 Współczynnikiem spłaszczenia (kurtozą) rozkładu zmiennej losowej X nazywamy liczbę µ E(X − m)4 kurt = 44 − 3 = −3 4 σ 2 E(X − m) gdzie µ4 jest momentem centralnym rzędu 4, zaś σ odchyleniem standardowym zmiennej losowej X. Kurtoza rozkładu normalnego14 wynosi 0. Rozkłady prawdopodobieństwa moŜna podzielić ze względu na wartość kurtozy na rozkłady: • mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego • leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niŜ przy rozkładzie normalnym • platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niŜ przy rozkładzie normalnym 14 Dowód podano w punkcie 20.6. części VII Wybrane twierdzenia z dowodami 53 RACHUNEK PRAWDOPODOBIEŃSTWA 7.4. Wartość oczekiwana i momenty zmiennej losowej dwuwymiarowej Jeśli (X, Y) jest zmienną losową dwuwymiarową, g(x,y) jest funkcją rzeczywistą dwóch zmiennych rzeczywistych, to funkcja g(X, Y) jest zmienną losową jednowymiarową A. Niech (X, Y) będzie dwuwymiarową zmienną losową skokową o funkcji prawdopodobieństwa P(X = x i , Y = y i ) = Pij Wartością oczekiwaną zmiennej losowej g(X, Y) nazywamy liczbę (3.1) Eg (X, Y ) = ∑∑ g ( x i , y j )p ij i przy czym zakładamy, Ŝe ∑∑ g( x , y ) p i i j j ij < ∞ tzn., Ŝe szereg występujący po prawej stronie j wzoru (3.1) jest bezwzględnie zbieŜny. B. Niech. (X, Y) będzie dwuwymiarową zmienną losową ciągłą o gęstości f(x, y). Wartością oczekiwaną zmiennej losowej g(X, Y) nazywamy liczbę ∞ ∞ (3.2) Eg (X, Y ) = ∫ ∫ g ( x , y)f ( x , y)dydx − ∞ − ∞ ∞ ∞ przy czym zakładamy, Ŝe ∫ ∫ | g ( x , y) | f ( x , y)dy dx < ∞ tzn., Ŝe całka występująca po prawej − ∞ − ∞ stronie wzoru (3.2) jest bezwzględnie zbieŜna. Przykład 7.18a Dwuwymiarowa zmienna losowa (X, Y) ma funkcję prawdopodobieństwa określoną tabelą yj -1 0 1 xi 1 2 3 -1 11 11 11 2 1 2 1 11 11 11 2 2 Znajdziemy wartość oczekiwaną zmiennej losowej X + Y . Rozwiązanie W naszym przypadku g(X, Y) = X2 + Y2, więc na podstawie wzoru (3.1) E(X2 + Y2) = ∑∑ ( x i [ + (−1) 2 + 12 2 i [ + y 2j )p ij = (−1) 2 + (−1) 2 j ]113 + [1 2 + (−1) 2 ]112 + [1 2 + 02 ]111 + [1 ]111 + [(−1) 2 + 12 2 + 02 ]112 + ]112 = 19 11 Przykład 7.18b Dwuwymiarowa zmienna losowa (X, Y) ma gęstość 8xy f (x , y ) = 0 Znaleźć wartość oczekiwaną zmiennej losowej X. dla x > 0 , y > 0 i x 2 + y 2 < 1 dla pozostałych x i y Rozwiązanie W naszym przykładzie g(X, Y) = X, więc na podstawie wzoru (3.2) 54 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE +∞ +∞ EX = ∫ ∫ xf (x, y)dy dx −∞ − ∞ Zbiór punktów płaszczyzny (x, y) dla których gęstość f(x, y) jest dodatnia, moŜe być opisany nierównościami 0 < x <1 2 0 < y < 1 − x więc 1− x 2 8 EX = ∫ ∫ x ⋅ 8xy dy dx = 15 0 0 Podstawiając do (3.1) lub do (3.2) w miejsce g róŜne funkcje dwóch zmiennych otrzymujemy nowe parametry rozkładu zmiennej losowej dwuwymiarowej. NajwaŜniejsze z nich przedstawiamy w poniŜszej tabeli. 1 Tabela 3.2. Parametry rozkładu zmiennej losowej dwuwymiarowej Funkcja g(x, y) k l Parametr k Nazwa parametru l g(x, y) = x y mkl= E(X Y ) Moment rzędu k + l g(x, y) = x m10= EX Moment rzędu pierwszego – m jeden zero – wartość oczekiwana zmiennej losowej X g(x, y) = y m01= EY Moment rzędu pierwszego – m zero jeden – wartość oczekiwana zmiennej losowej Y g(x, y) = x2 m20= EX2 Moment rzędu 2 – m dwa zero – moment rzędu 2 zmiennej losowej X g(x, y) = y2 m02= EY2 Moment rzędu 2 – m zero dwa – moment rzędu 2 zmiennej losowej Y g(x, y) = xy m11= E (XY ) Moment rzędu 2 – m jeden jeden – wartość oczekiwana iloczynu zmiennych losowych X i Y g(x, y) = =(x- m10)k(y-m01)l µkl = =E[(X- m10)k(Y-m01)l] Moment centralny rzędu k + l g(x, y) = =(x- m10) (y-m01) µ11 = E[(X- m10)(Y-m01)] Moment centralny rzędu 1 + 1 kowariancja zmiennych losowych X i Y A. Moment rzędu k, k=1,2, …, zmiennej losowej X jest to wartość oczekiwana zmiennej losowej Xk (oznaczenie mk ), zatem mk = EXk Moment rzędu k zmiennej losowej X wyraŜa się wzorem (przyjmujemy we wzorze na Eg(X), Ŝe g(x) = xk) 55 RACHUNEK PRAWDOPODOBIEŃSTWA ∑ x ik p i i gdy X ma rozkład skokowy o funkcji k prawdopodobieństwa P(X = x i ) = p i m k = EX = ∞ k ∫ x f ( x )dx gdy X ma rozkład ciągły o gęstości f (x ) − ∞ Moment rzędu 1 nazywamy wartością oczekiwaną i oznaczamy m (zamiast m1), czyli m = EX Przykład 7.19 Zmienna losowa X ma gęstość 1 dla x ∈ (0;2 ) f (x) = 2 0 dla x ∉ (0;2 ) Obliczymy moment rzędu k zmiennej losowej X. Rozwiązanie +∞ 2 −∞ 0 m k = ∫ x k f ( x ) dx = ∫ x k 1 12 2k dx = ∫ x k dx = 2 20 k +1 B. Moment centralny rzędu k zmiennej losowej X jest to wartość oczekiwana zmiennej losowej (X – m)k (oznaczenie µ k), zatem µ k = E(X – m)k Moment centralny rzędu k zmiennej losowej X wyraŜa się wzorem (przyjmujemy we wzorze na Eg(X), Ŝe g(x) = (x – m)k) ∑ ( x i − m) k p k i µk = ∞ k ∫ ( x − m) f ( x )dx −∞ gdy X jest zmienną losową skokową o funkcji prawdopodobieństwa P(X = x i ) = p i gdy X jest zmienną losową ciągłą o gęstości f (x ) Przykład 7.20 Zmienna losowa X ma gęstość 1 dla x ∈ (0;1) f(x) = 0 dla x ∉ (0;1) Znajdziemy moment centralny rzędu k zmiennej losowej X. Rozwiązanie Obliczymy najpierw wartość oczekiwaną EX m = EX = +∞ 1 −∞ 0 ∫ x f (x) dx = ∫ xdx = 56 1 2 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Teraz moŜemy obliczyć moment centralny rzędu k µ k = E(X – m)k = k +1 k +1 1 1 k 1 1 1 k − = − = ( x m ) f ( x ) dx ( x ) dx − − ∫ ∫0 2 k + 1 2 2 −∞ ∞ 1 (k + 1)2 k gdy k jest liczbą parzystą µk = 0 gdy k nie jest liczbą parzystą Moment centralny pierwszego rzędu dowolnej zmiennej losowej jest równy zeru µ 1=0 (o ile istnieje). 7.5. Parametry rozkładu zmiennej losowej dwuwymiarowej 7.5.1. Wartość oczekiwana funkcji dwuwymiarowej zmiennej losowej Jeśli (X, Y) jest zmienną losową dwuwymiarową, g(x,y) jest funkcją rzeczywistą dwóch zmiennych rzeczywistych, to funkcja g(X, Y) jest zmienną losową jednowymiarową A. Niech (X, Y) będzie dwuwymiarową zmienną losową skokową o funkcji prawdopodobieństwa P(X = x i , Y = y i ) = Pij Wartością oczekiwaną zmiennej losowej g(X, Y) nazywamy liczbę (7.1) Eg (X, Y ) = ∑∑ g ( x i , y j )p ij i przy czym zakładamy, Ŝe ∑∑ g( x , y ) p i i j j ij < ∞ tzn., Ŝe szereg występujący po prawej stronie j wzoru (7.1) jest bezwzględnie zbieŜny. B. Niech. (X, Y) będzie dwuwymiarową zmienną losową ciągłą o gęstości f(x, y). Wartością oczekiwaną zmiennej losowej g(X, Y) nazywamy liczbę ∞ ∞ (7.2) Eg (X, Y ) = ∫ ∫ g ( x , y)f ( x , y)dydx − ∞ − ∞ ∞ ∞ przy czym zakładamy, Ŝe ∫ ∫ | g ( x , y) | f ( x , y)dy dx < ∞ tzn., Ŝe całka występująca po prawej − ∞ − ∞ stronie wzoru (7.2) jest bezwzględnie zbieŜna. Przykład 7.21 Dwuwymiarowa zmienna losowa (X, Y) ma funkcję prawdopodobieństwa określoną tabelą yj -1 0 1 xi 1 2 3 -1 11 11 11 2 1 2 1 11 11 11 2 2 Znajdziemy wartość oczekiwaną zmiennej losowej X + Y . Rozwiązanie W naszym przypadku g(X, Y) = X2 + Y2, więc na podstawie wzoru (7.1) 1 2 E(X2 + Y2) = ∑∑ ( x i2 + y 2j )p ij = (−1) 2 + (−1) 2 + (−1) 2 + 0 2 + 11 11 i j [ ] 57 [ ] RACHUNEK PRAWDOPODOBIEŃSTWA [ + (−1) 2 + 12 ]113 + [1 2 + (−1) 2 ]112 + [1 2 + 02 ]111 + [1 2 + 12 ]112 = 19 11 Przykład 7.22 Dwuwymiarowa zmienna losowa (X, Y) ma gęstość 8xy f (x , y ) = 0 Znaleźć wartość oczekiwaną zmiennej losowej X. dla x > 0 , y > 0 i x 2 + y 2 < 1 dla pozostałych x i y Rozwiązanie W naszym przykładzie g(X, Y) = X, więc na podstawie wzoru (7.2) +∞ +∞ EX = ∫ ∫ xf (x , y )dy dx − ∞ − ∞ Zbiór punktów płaszczyzny (x, y) dla których gęstość f(x, y) jest dodatnia, moŜe być opisany nierównościami 0 < x <1 2 0 < y < 1 − x więc 1− x 2 8 EX = ∫ ∫ x ⋅ 8xy dy dx = 15 0 0 Podstawiając do (7.1) lub do (7.2) w miejsce g róŜne funkcje dwóch zmiennych otrzymujemy nowe parametry rozkładu zmiennej losowej dwuwymiarowej. NajwaŜniejsze z nich przedstawiamy w poniŜszej tabeli. 1 Tabela 7.2. Parametry rozkładu zmiennej losowej dwuwymiarowej Funkcja g(x, y) Parametr Nazwa parametru g(x, y) = xkyl mkl= E (XkYl) Moment rzędu k + l g(x, y) = x m10= E X Moment rzędu pierwszego – m jeden zero – wartość oczekiwana zmiennej losowej X g(x, y) = y m01= EY Moment rzędu pierwszego – m zero jeden – wartość oczekiwana zmiennej losowej Y g(x, y) = x2 m20= E X2 Moment rzędu 2 – m dwa zero – moment rzędu 2 zmiennej losowej X g(x, y) = y2 m02= E Y2 Moment rzędu 2 – m zero dwa – moment rzędu 2 zmiennej losowej Y g(x, y) = xy m11= E (XY ) Moment rzędu 2 – m jeden jeden – wartość oczekiwana iloczynu zmiennych losowych X i Y g(x, y) = =(x- m10)k(y-m01)l µkl = =E[(X- m10)k(Y-m01)l] Moment centralny rzędu k + l g(x, y) = =(x- m10) (y-m01) µ11 = E[(X- m10)(Y-m01)] Moment centralny rzędu 1 + 1 - kowariancja zmiennych losowych X i Y 58 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 7.5.2. Momenty dwuwymiarowej zmiennej losowej A. Momentem rzędu k + 1 (k = 0, 1, ..., l = 0, 1, ...;) dwuwymiarowej zmiennej losowej (X,Y) nazywamy wartość oczekiwaną zmiennej losowej XkYl Moment rzędu k + l oznaczamy symbolem mkl, więc mkl = E(XkYl) Przyjmując g(X, Y) = XkYl, otrzymujemy na podstawie (7.1) i (7.2) następujące wzory x ik y lj p ij ∑∑ i j m kl = + ∞+ ∞ k l ∫ ∫ x y f (x , y )dy dx −∞ −∞ Momenty rzędu pierwszego gdy (X, Y ) ma rozkład skokowy P(X = x i , Y = y j ) = p ij gdy (X, Y ) ma rozkład ciągły o gęstości f (x , y ) m10 = EX, m01 = EY mogą być obliczone takŜe za pomocą rozkładów brzegowych zmiennych losowych X i Y. Za pomocą tych rozkładów wyznacza się takŜe m20 = EX2 - moment rzędu 2 zmiennej losowej X, m02 = EY2 - moment rzędu 2 zmiennej losowej Y. Z kolei dla wyznaczenia momentu mieszanego m11 = E(XY) - wartość oczekiwana iloczynu zmiennych losowych X i Y. niezbędna jest znajomość rozkładu łącznego (patrz przykład 7.24). Przykład 7.23 Dwuwymiarowa zmienna losowa (X, Y) ma gęstość 1 dla ( x , y) ∈ A f(x) = 0 dla ( x , y) ∉ A gdzie A jest zbiorem punktów płaszczyzny (x, y), dla których 0 < x < 1 i 0 < y < 2x (rysunek 7.3). Obliczymy momenty rzędu 1 i rzędu 2 tej zmiennej losowej Rys. 7.3 Rozwiązanie 1 1 2 x 2 m10 = ∫ ∫ x f ( x , y)dy dx = ∫ x ∫ dy dx = ∫ 2 x 2 dx = 3 − ∞ − ∞ 0 0 0 +∞ +∞ 1 1 2 x 2 m01 = ∫ ∫ y f ( x , y)dy dx = ∫ ∫ y dy dx = ∫ 2x 2 dx = 3 − ∞ − ∞ 0 0 0 +∞ +∞ 1 1 2 x 1 m20 = ∫ ∫ x 2 f ( x , y)dy dx = ∫ x 2 ∫ dy dx = ∫ 2 x 3 dx = 2 − ∞ − ∞ 0 0 0 +∞ +∞ 1 1 ∞ 2 2 x 2 8x 3 2 = = x f ( x , y ) dy dx y dy dx dx = ∫−∞−∫∞ ∫ ∫ ∫ 3 3 0 0 0 ∞ m02 = 59 RACHUNEK PRAWDOPODOBIEŃSTWA 1 1 ∞ 2 x 1 xyf ( x , y ) dy dx = x y dy dx = 2 x 3 dx = ∫−∞−∫∞ ∫ ∫ ∫ 2 0 0 0 ∞ m11 = Przykład 7.24 Dwuwymiarowa zmienna losowa (X, Y) ma funkcję prawdopodobieństwa określoną tabelą yj xi 1 3 -1 0 1 1 11 2 11 3 11 1 11 2 11 2 11 Znajdziemy momenty rzędu 1 i rzędu 2 tej zmiennej losowej. Rozwiązanie Momenty m10, m01, m20 i m02 łatwiej jest znaleźć przy pomocy rozkładów brzegowych zmiennych losowych X i Y. W przykładzie 5.34 znaleźliśmy te rozkłady: Rozkład X xi 1 6 11 pi. 3 5 11 Rozkład Y yj -1 3 11 p.j m10 = EX = 6 5 0 4 11 1 4 11 21 ∑ x pi. = 1 ⋅ 11 + 3 ⋅ 11 = 11 i i 3 4 4 1 + 0 ⋅ + 1⋅ = 11 11 11 11 j 6 5 51 m20 = EX2 = ∑ x i2 p i. = 12 ⋅ + 3 2 ⋅ = 11 11 11 i 3 4 4 7 m02 = EY2 = ∑ y j p . j = (−1) 2 ⋅ + 0 2 ⋅ + 12 ⋅ = 11 11 11 11 j 1 3 2 m11 = E(XY) = ∑∑ x i y j p ij = 1 ⋅ (−1) ⋅ + 1 ⋅ 0 ⋅ + 1 ⋅ 1 ⋅ + 11 11 11 i j 2 1 2 1 + 3⋅0⋅ + 3 ⋅ 0 ⋅ + 3 ⋅1 ⋅ = 11 11 11 11 B. Momentem centralnym rzędu k+1 dwuwymiarowej zmiennej losowej (X, Y) nazywamy wartość oczekiwaną zmiennej losowej (X - m10)k(Y – m01)1 m01 = EY = ∑ y p. j j = (−1) ⋅ Moment centralny rzędu k+1 oznaczamy symbolem µkl, więc [ µkl = E (X − m10 ) k (Y − m 01 )1 ] Przyjmując g(X, Y) = (X –m10)k(Y – m01)l, otrzymujemy na podstawie wzorów (7.1) i (7.2) następujący wzór 60 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE ∑∑ ( x i − m10 ) k ( y j − m 01 ) l p ij gdy (X, Y ) ma rozkład skokowy i j P(X = x i , Y = y j ) = p ij µ kl = ∞ ∞ k l ∫ ∫ ( x − m10 ) ( y − m 01 ) f ( x, y)dy dx gdy (X, Y ) ma rozkład ciągły −∞ − ∞ o gęstości f (x , y ) Momenty centralne rzędu 1 są równe zeru µ10 = E(X – m10) = 0, µ01= E(Y – m01) = 0 DuŜa rolę w praktyce odgrywają momenty centralne rzędu drugiego zmiennej losowej dwuwymiarowej (X,Y): • • • µ20= E(X – m10)2 = D2X, czyli wariancja zmiennej losowej X µ02= E(Y – m01)2 = D2Y, czyli wariancja zmiennej losowej Y, µ11= E[(X – m10)(Y – m01)], czyli centralny moment mieszany, który nazywa się kowariancją zmiennej losowej (X, Y). PoniewaŜ wartość oczekiwana iloczynu zmiennych losowych niezaleŜnych jest równa iloczynowi wartości oczekiwanych tych zmiennych losowych oraz momenty centralne rzędu 1 są równe zeru, więc kowariancja zmiennych losowych niezaleŜnych jest równa zeru. Twierdzenie odwrotne jest nieprawdziwe - z zerowania się kowariancji zmiennych losowych nie wynika ich niezaleŜność. Przykład 7.25 Wyrazimy kowariancję zmiennych losowych X i Y jako funkcję momentów zwyczajnych tych zmiennych. Rozwiązanie W poniŜszych przekształceniach będziemy korzystać z własności wartości oczekiwanej µ11 = E[(X – m10)(Y – m01)] = E(XY)– m10 EY – m01 EX + m10m01= = m11 – m10m01 – m10m01 + m10m01 = m11 – m10 – m01 Momenty centralne rzędu 2 wyraŜają się przy pomocy momentów zwyczajnych następującymi wzorami µ20 = D2X = m20 – (m10)2, µ20 = D2Y = m02 – (m01)2 µ11 = m11 – m10m01 Przykład 7.26 Obliczymy momenty centralne rzędu drugiego zmiennej losowej dwuwymiarowej z przykładu 7.23 Rozwiązanie 2 2 1 2 1 W przykładzie 7.23 obliczyliśmy, Ŝe m10 = , m01 = , m20 = , m02 = , m11 = , 3 3 2 3 2 więc µ20 = m20 – (m10)2 = 2 1 2 1 - = 2 3 18 2 2 2 2 – = 3 3 9 1 2 2 1 µ11 = m11 – m10m01 = – · = 2 3 3 18 µ02 = m02 – (m01)2 = 61 RACHUNEK PRAWDOPODOBIEŃSTWA 7.5.3. Współczynnik korelacji Współczynnikiem korelacji Pearsona (albo krótko współczynnikiem korelacji) zmiennych losowych X i Y nazywamy liczbę ρ określoną wzorem µ ( załoŜenie σ1, σ2 ≠ 0 ) ρ = 11 σ1σ 2 gdzie: µ11 jest kowariancją tych zmiennych, σ1 - odchyleniem standardowym zmiennej losowej X, zaś σ2 odchyleniem standardowym zmiennej losowej Y. Współczynnik korelacji ρ wyraŜa się przy pomocy momentów zwyczajnych następującym wzorem m11 − m10 m 01 ρ= 2 2 m 20 − m10 m 02 − m 01 Przykład 7.27 Niech (X, Y) będzie dwuwymiarową zmienną losową z przykładu 7.23. Obliczymy współczynnik korelacji zmiennych losowych X i Y. Rozwiązanie W przykładzie 7.26 obliczyliśmy, Ŝe µ11 = 1 , 18 σ12 = µ20 = 1 18 , σ 22 = µ02 = 2 , więc 9 1 1 ρ = 18 = 1 2 2 ⋅ 18 9 Własności współczynnika korelacji15 Zakładamy, Ŝe istnieje współczynnik korelacji zmiennych losowych X i Y. a) Współczynnik korelacji zmiennych losowych niezaleŜnych jest równy 0 (bo wtedy kowariancja jest równa zeru). b) Współczynnik korelacji przyjmuje wartości z przedziału <-1,+1> -1 ≤ ρ ≤ 1 c) Wartość bezwzględna współczynnika korelacji jest równa 1 wtedy i tylko wtedy, gdy z prawdopodobieństwem równym jeden zmienne losowe są zaleŜne liniowo | ρ | = 1 ⇔ P(Y = aX + b) = 1 przy czym dla ρ =1 mamy a > 0, zaś dla ρ = -1 mamy a < 0. Współczynnik korelacji, ze względu na powyŜsze własności, interpretujemy jako miarę zaleŜności liniowej zmiennych losowych. Jeśli współczynnik korelacji ma moduł większy od 0,7 to przyjmuje się, Ŝe stopień zaleŜności linowej jest na tyle wysoki, iŜ moŜna wtedy jedną zmienną losową aproksymować funkcją liniową drugiej zmiennej losowej. Zagadnieniem tym zajmiemy się w następnym rozdziale. 15 Dowód podano w punkcie 20.8 części VII Wybrane twierdzenia z dowodami 62 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 7.28 W poniŜszej tabeli przedstawiona jest funkcja prawdopodobieństwa zmiennej losowej dwuwymiarowa skokowej (X,Y) oraz funkcje prawdopodobieństwa brzegowe zmiennych losowych X i Y. Obliczymy współczynnik korelacji tych zmiennych. yj xi -2 -1 0 1 p. j 1 0 2 3 p i. 0,3 0,3 0,2 0,2 0,3 0,3 Suma 0,3 0,25 0,15 0,3 1 0,2 0,05 0,15 Rozwiązanie m10 = EX = ∑ x i p i. = (− 2 ) ⋅ 0,3 + (−1) ⋅ 0,2 + 0 ⋅ 0,2 + 1 ⋅ 0,3 = −0,5 i m 01 = EY = ∑ y j p . j = 0 ⋅ 0,3 + 1 ⋅ 0,25 + 2 ⋅ 0,15 + 3 ⋅ 0,3 = 1,45 j 2 m 20 = EX = ∑x 2 i p i. =(− 2 ) ⋅0,3 + (−1) 2 ⋅ 0,2 + 0 2 ⋅ 0,2 + 12 ⋅ 0,3 = 1,7 2 i 2 m02 = EY = ∑ y j p . j = 0 2 ⋅ 0,3 + 12 ⋅ 0,25 + 2 2 ⋅ 0,15 + 3 2 ⋅ 0,3 =3,55 2 j m11 = E(XY ) = ∑∑ x y p i i ρ= j ij = (−2) ⋅ 0 ⋅ 0,3 + (−1) ⋅1 ⋅ 0,2 + 0 ⋅1 ⋅ 0,05 + 0 ⋅ 2 ⋅ 0,15 + 1 ⋅ 3 ⋅ 0, 3 = 0, 7 j m11 − m10 m 01 m 20 − m10 2 m 02 − m 01 2 = 0,7 − (−0,5) ⋅ 1,45 1,7 − (−0,5) 2 3,55 − 1,45 2 = 0,984 Wnioski: • Zmienne losowe X i Y są zaleŜne, bo ρ ≠ 0. • ZaleŜność zmiennych losowych X i Y nie jest liniowa, bo |ρ| ≠ 1. ZaleŜność zmiennych losowych X i Y zbliŜona jest do rosnącej zaleŜności liniowej, bo ρ jest bliskie 1. Przykład 7.29 Zmienna losowa dwuwymiarowa ciągła ma gęstość x + y dla 0 < x < 1 i 0 < y < 1 f ( x , y) = dla pozostałych x i y 0 Znajdziemy współczynnik korelacji zmiennych losowych X i Y. Rozwiązanie ZauwaŜmy, Ŝe ze względu na postać gęstości momenty m10 i m01 oraz momenty m 20 i m 02 są sobie równe. ∞ ∞ 1 1 m10 = EX = ∫ ∫ xf ( x , y)dy dx = ∫ ∫ x ( x + y)dy dx = −∞ −∞ 0 0 y =1 1 1 1 x3 x2 y2x 1 1 7 2 2 x = ∫ x y + dx = ∫ x + dx = + = + = 2 2 4 3 4 12 0 0 3 y=0 0 63 RACHUNEK PRAWDOPODOBIEŃSTWA 1 1 ∞ ∞ m 20 = EX 2 = ∫ ∫ x 2 f ( x , y)dy dx = ∫ ∫ x 2 ( x + y)dy dx = −∞ −∞ 0 0 y =1 1 2 1 1 x4 x3 y2x2 1 1 5 3 3 x = ∫ x y + dx = ∫ x + + dx = = + = 2 2 6 4 6 12 0 0 4 y=0 0 1 1 ∞ ∞ m11 = E(XY ) = ∫ ∫ xyf ( x , y)dy dx = ∫ ∫ xy( x + y)dy dx = −∞ − ∞ 0 0 y =1 1 1 x2y2 1x2 x x3 x2 y3x 1 1 1 = ∫ + dx = ∫ + dx = + = + = 3 3 6 6 6 3 0 2 0 2 6 y=0 0 Zatem współczynnik korelacji jest równy ρ= m11 − m10 m01 m 20 − m102 m02 − m012 48 − 49 1 = 144 = − 60 − 49 2 11 5 7 − 144 12 12 1 7 7 − 3 12 12 = 5 7 − 12 12 2 7.5.3. Zmienne losowe nieskorelowane JeŜeli współczynnik korelacji zmiennych losowych X i Y jest równy zeru, to nazywamy je zmiennymi losowymi nieskorelowanym. Zmienne losowe niezaleŜne są zmiennymi losowymi nieskorelowanymi (o ile istnieje współczynnik korelacji tych zmiennych). Zmienne losowe nieskorelowane mogą nie być niezaleŜne. Dwa waŜne twierdzenia o zmiennych losowych nieskorelowanych. • Wartość oczekiwana iloczynu zmiennych losowych jest równa iloczynowi ich wartości oczekiwanych wtedy i tylko wtedy, gdy zmienne te są nieskorelowane. • Wariancja sumy zmiennych losowych jest równa sumie ich wariancji wtedy i tylko wtedy, gdy zmienne te są nieskorelowane. Przykład 7.30 Zmienna losowa dwuwymiarowa skokowa (X,Y) oraz zmienne losowe X i Y mają funkcje prawdopodobieństwa przedstawione w tabeli yj -1 0 p i. -1 0 1 0,2 0,2 0,2 0,2 p. j 0,6 0,4 0,4 0,2 0,4 Suma 1 xi 0,2 m10 = EX = ∑ x i p i. = (− 1) ⋅ 0,4 + 0 ⋅ 0,2 + 1 ⋅ 0,4 = 0 i m 01 = EY = ∑ y j p . j = (− 1) ⋅ 0,6 + 0 ⋅ 0,4 = −0,6 j m11 = E(XY ) = ∑ ∑ x i y jp ij = (−1) ⋅ (−1) ⋅ 0,2 + (−1) ⋅ 0 ⋅ 0,2 + 0 ⋅ (−1) ⋅ 0,2 + 1 ⋅ (−1) ⋅ 0,2 + 1 ⋅ 0 ⋅ 0,2 = 0 i j cov (X,Y) = m11 − m10 m01 = 0 − 0 ⋅ (−0,6) = 0 PoniewaŜ cov (X,Y) = 0, więc takŜe ρ = 0, zatem zmienne losowe X i Y są nieskorelowane. PoniewaŜ P(X = −1)P(Y = −1) = 0,4 ⋅ 0,6 = 0,24 ≠ P(X = −1, Y = −1) = 0,2 więc zmienne losowe X i Y nie są niezaleŜne, czyli są zaleŜne. 64 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 8. REGRESJA ZMIENNYCH LOSOWYCH 8.1. Wprowadzenie W rozdziale 5 (ppkt 5.2.7) wprowadziliśmy pojęcie zmiennych losowych niezaleŜnych. Mianowicie w ogólnym przypadku zmienne losowe X i Y nazywamy zmiennymi losowymi niezaleŜnymi, jeśli F( x , y) = FX ( x )FY ( y) dla x, y ∈ R gdzie F( x , y) - dystrybuanta zmiennej losowej dwuwymiarowej (X,Y), FX ( x ) - dystrybuanta brzegowa zmiennej losowej X. FY ( y) - dystrybuanta brzegowa zmiennej losowej Y. W przypadku skokowym zmienne losowe X i Y są niezaleŜne wtedy i tylko wtedy, gdy P(X = x i , Y = y j ) = P(X = x i )P(Y = y j ) dla kaŜdego punktu ( x i , y j ) skokowego zmiennej losowej dwuwymiarowej (X,Y), zaś w przypadku ciągłym zmienne losowe X i Y są niezaleŜne wtedy i tylko wtedy, gdy f ( x , y ) = f X ( x )f Y ( y ) w kaŜdym punkcie ( x , y) ciągłości funkcji f ( x , y) , przy czym f ( x, y) - gęstość zmiennej losowej dwuwymiarowej (X,Y), f X ( x ) - gęstość brzegowa zmiennej losowej X, f Y ( y) - gęstość brzegowa zmiennej losowej Y. Zmienne losowe X i Y nie będące zmiennymi losowymi niezaleŜnymi nazywamy zmiennymi losowymi zaleŜnymi PoniŜsze twierdzenia pokazują, w jakim sensie pojęcia niezaleŜności i zaleŜności zmiennych losowych odpowiadają niezaleŜności i zaleŜności rozumianej potocznie. • Jeśli zmienne losowe X i Y są niezaleŜne, to rozkład warunkowy zmiennej losowej X pod warunkiem, Ŝe zaszło zdarzenie Y = y jest równy rozkładowi zmiennej losowej X, takŜe rozkład warunkowy zmiennej losowej Y pod warunkiem, Ŝe zaszło zdarzenie X = x jest równy rozkładowi zmiennej losowej Y. • Jeśli rozkład warunkowy zmiennej losowej X pod warunkiem, Ŝe zaszło zdarzenie Y = y jest taki sam jak rozkład zmiennej losowej X (dla tych wszystkich wszystkich, dla których ten rozkład istnieje) lub, jeśli rozkład warunkowy zmiennej losowej Y pod warunkiem, Ŝe zaszło zdarzenie X = x jest taki sam jak rozkład zmiennej losowej Y (dla tych wszystkich x dla których ten rozkład istnieje), to zmienne losowe X i Y są niezaleŜne. • Jeśli istnieje rozkład warunkowy zmiennej losowej X pod warunkiem, Ŝe zaszło zdarzenie Y = y róŜny od rozkładu zmiennej losowej X lub istnieje rozkład warunkowy zmiennej losowej Y pod warunkiem, Ŝe zaszło zdarzenie X = x jest róŜny od rozkładu zmiennej losowej Y, to zmienne losowe są zaleŜne. Tak więc niezaleŜność zmiennych losowych oznacza, Ŝe przyjęcie przez jedną ze zmiennych dowolnej wartości nie ma wpływu na rozkład prawdopodobieństwa drugiej zmiennej losowej. Natomiast zaleŜność zmiennych losowych oznacza, Ŝe istnieje co najmniej jeden rozkład warunkowy X/Y=y róŜny od rozkładu zmiennej losowej X lub co najmniej jeden rozkład warunkowy Y/X=x róŜny od rozkładu zmiennej losowej Y, a zatem przyjęcie przez jedną zmienną losową wartości moŜe mieć wpływ na rozkład prawdopodobieństwa drugiej zmiennej losowej. Aby podkreślić, Ŝe chodzi o niezaleŜność lub zaleŜność zmiennych losowych w powyŜszym sensie mówimy, Ŝe zmienne losowe są niezaleŜne stochastycznie lub, Ŝe są zaleŜne stochastycznie. 65 RACHUNEK PRAWDOPODOBIEŃSTWA 8.2. ZaleŜność funkcyjna zmiennych losowych Mówimy, Ŝe zmienne losowe X i Y są zaleŜne funkcyjnie, jeśli istnieje róŜna od stałej funkcja g rzeczywista zmiennej rzeczywistej taka, Ŝe Y = g (X ) lub X = g (Y ) Oznacza to, Ŝe wszystkie wartości ( x , y) zmiennej losowej dwuwymiarowej (X, Y ) naleŜą do wykresu funkcji y = g ( x ) lub do wykresu funkcji x = g( y) . Przykład 8.1 Zmienna losowa dwuwymiarowa (X,Y) skokowa ma poniŜszą funkcję prawdopodobieństwa yj -1 xi -1 0 1 2 1 3 5 0,2 0,1 0,3 0,4 Zmienne losowe X i Y są zaleŜne funkcyjnie Y=2X+1 (rys. 8.1) Przykład 8.2 Zmienna losowa dwuwymiarowa (X,Y) skokowa ma funkcję prawdopodobieństwa określoną tabelą yj xi -1 0 1 2 0 1 4 0,2 0,1 0,3 0,4 2 Zmienne losowe X i Y są zaleŜne funkcyjnie Y =X (rys. 8.2 ) Rys. 8.2 Rys. 8.1 ZaleŜność funkcyjna zmiennych losowych jest zaleŜnością stochastyczną. Odwrotne twierdzenie nie jest prawdziwe. 66 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 8.3 Niech (X,Y) będzie dwuwymiarową zmienną losową skokową o funkcji prawdopodobieństwa przedstawioną tabelą w przykładzie 5.31. W przykładzie tym wyznaczyliśmy funkcję prawdopodobieństwa warunkową Y/X=3. Rozkład ten jest róŜny od rozkładu brzegowego zmiennej losowej Y, więc zmienne losowe X i Y są zaleŜne stochastycznie. Nie są jednak zaleŜne funkcyjnie, gdyŜ nie istnieje taka funkcja, której wykres przechodziłby przez wszystkie punkty będące wartościami zmiennej losowej dwuwymiarowej (X,Y) (rys. 8.3). Rys. 8.3 8.3. Regresja I rodzaju ZaleŜność funkcyjna zmiennych losowych jest waŜna w zagadnieniach teoretycznych i kluczowa w zastosowaniach praktycznych. Jeśli np. Y = g (X) i znana jest funkcja g, to moŜna za pomocą rozkładu prawdopodobieństwa zmiennej losowej X wyznaczyć rozkład prawdopodobieństwa i parametry zmiennej losowej Y, moŜna takŜe wyznaczyć wartości zmiennej losowej Y za pomocą wartości zmiennej losowej X (co jest waŜne przy prognozowaniu wartości zmiennej losowej Y). Krótko mówiąc, jeśli zmienne losowe są zaleŜne funkcyjnie, to do opisu rozkładu zmiennej losowej dwuwymiarowej wystarczy znać rozkład jednej ze zmiennych losowych jednowymiarowych. Jednak zaleŜności funkcyjnie zmiennych losowych rzadko występują w zagadnieniach praktycznych. Natomiast istnieje wiele sytuacji, w których zaleŜność stochastyczna mało róŜni się od zaleŜności funkcyjnej i moŜe być z niewielkim błędem aproksymowana (przybliŜana) tą zaleŜnością. Zagadnienie Wyznaczyć funkcję h rzeczywistą zmiennej rzeczywistej tak by zmienna losowa Ŷ = h (X) była taką aproksymacją zmiennej losowej Y, Ŝeby wyraŜenie 2 δ g = E[Y − g (X)] średniokwadratowe odchylenie zm. los. Y od zm. los. g(X) miało wartość najmniejszą , gdy funkcja g jest równa funkcji h. PowyŜszą zasadę wyznaczania zmiennej losowej Ŷ = h (X) nazywamy zasadą najmniejszych kwadratów. Zmienną losową Ŷ = h (X) nazywamy wówczas regresją I rodzaju zmiennej losowej Y względem zmiennej losowej X. Zatem: Regresja I rodzaju zmiennej losowej Y względem zmiennej losowej X jest to zmienna losowa Ŷ = h (X) taka, Ŝe E[Y − h (X)] = min E[Y − g (X )] 2 2 g(x) czyli zmienna losowa wyznaczona zgodnie z zasadą najmniejszych kwadratów Wykres funkcji y = h ( x ) nazywamy wówczas krzywą regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X. 67 RACHUNEK PRAWDOPODOBIEŃSTWA 8.4. Regresja II rodzaju Wyznaczanie regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X polegało na znalezieniu funkcji h rzeczywistej zmiennej rzeczywistej takiej, by wyraŜenie δ g = E (Y − g (X)) 2 miało wartość najmniejszą, gdy funkcja g jest równa funkcji h, czyli szukaliśmy w klasie wszystkich funkcji takiej funkcji h, dla której wyraŜenie δ h jest najmniejsze. Wtedy zmienna losowa Ŷ = g (X) , zwana regresją I rodzaju zmiennej losowej Y względem zmiennej losowej X aproksymuje zaleŜność stochastyczną zmiennych losowych zaleŜnością funkcyjną (najlepiej zgodnie z przyjętym kryterium wyboru funkcji h, czyli zgodnie z zasadą najmniejszych kwadratów). W zagadnieniach praktycznych posługiwanie się regresją I rodzaju jest niewygodne, bowiem na ogół nie jest znany wzór określający funkcję h, co stanowi kłopot przy przewidywaniu wartości zmiennej losowej Y, gdy znana jest wartość zmiennej losowej X. Aby ominąć tę trudność, poszukujemy funkcji h zgodnie z zasadą najmniejszych kwadratów nie w klasie wszystkich funkcji, tylko w pewnej klasie K funkcji określonych wspólnym wzorem zaleŜnym od parametrów. Wówczas zmienną losową Ŷ = h (X) nazywamy regresją II rodzaju w klasie K zmiennej losowej Y względem zmiennej losowej X. Przykład 8.5 Nazwa klasy K Klasa funkcji liniowych Klasa funkcji wykładniczych Klasa funkcji potęgowych Klasa hiperbol Wzór określający Parametry funkcję naleŜącą do funkcji klasy K y = ax + b a, b x a, b y = ax b a, b y = ba y= a +c x−b a, b, c Kryterium wyboru parametrów funkcji min E [Y − (aX + b)]2 [ ] min E[Y − ab )] x 2 min E Y − ba ) x 2 a min E Y − + c x−b 2 8.5. Liniowa regresja II rodzaju RozwaŜania dotyczące regresji II rodzaju ograniczymy do regresji liniowej, tj. regresji w klasie K funkcji liniowych. Czynimy to z kilku powodów 1. W wielu zagadnieniach praktycznych zaleŜność stochastyczna rzeczywiście mało róŜni się od zaleŜności liniowej (choć nie jest tą zaleŜnością). 2. W niektórych przypadkach regresję nieliniową moŜna dość łatwo sprowadzić do regresji liniowej. 3. Metodę wyznaczania regresji moŜna najłatwiej przedstawić w przypadku regresji liniowej. 4. Wyznaczanie regresji względem klasy K funkcji róŜnych od funkcji liniowych przebiega podobnie jak względem klasy funkcji liniowych. RozwaŜamy zmienną losową dwuwymiarową (X,Y). Oznaczamy m10 = EX, m 01 = EY, σ X 2 = D 2 X, σ Y 2 = D 2 Y, cov(X, Y ) - kowariancja zmiennych losowych X i Y, ρ - współczynnik korelacji zmiennych losowych X i Y. Zakładamy, Ŝe powyŜsze parametry istnieją oraz, Ŝe σ X > 0 i σ Y > 0. 68 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Regresja liniowa II rodzaju zmiennej losowej Y względem zmiennej losowej X jest to zmienna losowa Ŷ = α Y X + β Y gdzie liczby α Y i β Y są wyznaczone tak, by funkcja g (α, β) = E[Y − (α X + β)]2 miała w punkcie (α Y , β Y ) wartość najmniejszą. Prostą o równaniu ŷ = α Y x + β Y nazywamy prostą regresji II rodzaju zmiennej losowej Y względem zmiennej losowej X. Liczby α Y i β Y nazywamy współczynnikami prostej regresji II rodzaju cechy Y względem cechy X. Współczynnik α Y oznacza średni przyrost zmiennej losowej Y, gdy zmienna losowa X wzrośnie o jednostkę, natomiast współczynnik β Y jest rzędną punktu przecięcia prostej regresji yˆ = αY x + βY z osią Oy. Wyznaczanie współczynników α Y i β Y Przekształcimy funkcję g (α, β) g (α, β) = E[Y − (α X + β)]2 = E[(Y − m 01 ) − α(X-m10 ) + (m 01 − am10 − β )] 2 MoŜna wykazać16, współczynniki minimalizujące powyŜszą funkcje są równe σ σ α = Y ρ , β = m 01 − Y ρm10 = m o1 − αm10 σX σX Stosując poznane w matematyce metody moŜemy stwierdzić, Ŝe dla powyŜszych wartości α i β funkcja g ma wartość najmniejszą. Zatem σ α Y = Y ρ , β Y = m 01 − α Y m10 współczynniki regresji liniowej Y względem X σX σ σ ŷ = Y ρx + m 01 − Y ρ m10 równanie prostej regresji II rodzaju Y względem X σX σX σ σ regresja liniowa II rodzaju liniowa Y względem X Ŷ = Y ρX + m 01 − Y ρ m10 σX σX Przykład 8.6 Zmienna losowa X oznacza cenę sztuki pewnego towaru (w zł.), natomiast zmienna losowa Y podaŜ tego towaru (w tys. sztuk). Funkcja prawdopodobieństwa zmiennej losowej dwuwymiarowej (X,Y) i funkcje prawdopodobieństwa brzegowe zmiennych losowych X i Y przedstawione są w tabeli. yj p i. 5 6 7 8 9 xi 2,0 0,10 0,05 0,02 0,17 2,5 0,08 0,15 0,03 0,26 3,0 0,02 0,08 0,05 0,02 0,02 0,19 3,5 0,02 0,05 0,05 0,05 0,17 4,0 0,10 0,03 0,08 0,21 p . j 0,20 0,30 0,25 0,10 0,15 Suma 1,00 16 Dowód podano w punkcie 20.8. części VII Wybrane twierdzenia z dowodami 69 RACHUNEK PRAWDOPODOBIEŃSTWA Znajdziemy prostą regresji II zmiennej losowej Y względem zmiennej losowej X. Rozwiązanie m10 = EX = ∑ x i p i. = 2 ⋅ 0,17 + 2,5 ⋅ 0, 26 + 3 ⋅ 0,19 + 3,5 ⋅ 0,17 + 4 ⋅ 0, 21 = 2,995 i m 01 = EY = ∑ y jp.j = 5 ⋅ 0, 2 + 6 ⋅ 0,3 + 7 ⋅ 0, 25 + 8 ⋅ 0,1 + 9 ⋅ 0,15 =6, 70 j 2 m 20 = EX 2 = ∑ x i 2 p i. = 2 ⋅0,17 + 2,52 ⋅ 0, 26 + 32 ⋅ 0,19 + 3,52 ⋅ 0,17 + 42 ⋅ 0, 21 = 9,4575 i 2 m02 = EY = ∑ y j2 p.j = 52 ⋅ 0, 2 + 62 ⋅ 0,3 + 7 2 ⋅ 0, 25 + 82 ⋅ 0,1 + 92 ⋅ 0,15 = 46,60 j m11 = E(XY ) = ∑ ∑ x i y jp ij = 2 ⋅ 5 ⋅ 0,1 + 2 ⋅ 6 ⋅ 0,05 + 2 ⋅ 7 ⋅ 0,02 + i j +2,5 ⋅ 5 ⋅ 0, 08 + 2, 5 ⋅ 6 ⋅ 0,15 + 2, 5 ⋅ 7 ⋅ 0, 03 + 3 ⋅ 5 ⋅ 0, 02 + 3 ⋅ 6 ⋅ 0, 08 + +3 ⋅ 7 ⋅ 0, 05 + +3 ⋅ 8 ⋅ 0, 02 + 3 ⋅ 9 ⋅ 0, 02 + 3, 5 ⋅ 6 ⋅ 0, 02 + 3,5 ⋅ 7 ⋅ 0, 05 + +3, 5 ⋅ 8 ⋅ 0, 05 + 3,5 ⋅ 9 ⋅ 0, 05 + 4 ⋅ 7 ⋅ 0, 01 + 4 ⋅ 8 ⋅ 0, 03 + 4 ⋅ 9 ⋅ 0, 08 = 20, 725 σ X 2 = m 20 − m10 2 = 9,4575 −2,9952 = 0, 49 , σ X = 0, 49 = 0, 7 σ Y 2 = m 02 − m 012 = 46,6 −6, 7 2 = 4, 71 , σ Y = 1, 71 = 1,3 cov(X, Y ) = m11 − m10 m01 = 20, 725 − 2,995 ⋅ 6, 70 = 0, 66 1,46 cov(X, Y) 0, 66 ρ= = = 0, 72 σX σY 0, 7 ⋅1,3 Widzimy, Ŝe współczynnik korelacji zmiennych losowych X i Y jest dość wysoki, więc ma sens aproksymacja zaleŜności tych zmiennych losowych zaleŜnością liniową, czyli wyznaczenie regresji liniowej II rodzaju σY 1,3 ρ= ⋅ 0, 72 =1,35, σX 0,7 βY = m01 − α Y m10 = 6, 7 − 1,35 ⋅ 2,995 = 2, 65 ŷ = 1,35x + 2, 65 równanie prostej regresji II rodzaju zm. los. Y względem zm. los. X αY = Ŷ = 1, 35X + 2, 65 regresja liniowa II rodzaju zm. los. Y względem zm. los. X Współczynnik α Y = 1, 35 oznacza, Ŝe wzrostowi ceny jednostki towaru o 1 zł odpowiada średni wzrost podaŜy o 1,35 tys. sztuk towaru. Natomiast współczynnik β Y = 2, 65 nie ma interpretacji ekonomicznej. Wartości liniowej regresji II rodzaju i regresji I rodzaju (patrz przykład 8.4) zmiennej losowej Y dla wszystkich wartości zmiennej losowej X przedstawia tabela xi ŷi = 1,35x i + 2, 65 2 5,4 2,5 6,0 3 6,7 3,5 7,4 4 8,1 y i = m 2 (x i ) 5,5 5,8 6,7 7,8 7,6 Obie regresje przedstawione są na rys. 8.5. 70 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Rys. 8.5 Jako miarę błędu aproksymacji zmiennej losowej Y regresją liniową II rodzaju Ŷ przyjmujemy wartość funkcji g (α, β) w punkcie (α Y , β Y ) . MoŜna obliczyć, Ŝe g (α Y , β Y ) = σ Y 2 (1 − ρ 2 ) Z drugiej strony g (α Y , β Y ) = E(Y − Ŷ) 2 czyli jest momentem rzędu 2 zmiennej losowej Z = Y − Ŷ , a poniewaŜ EZ = EY − EŶ = m 01 − E(α Y X + b Y ) = m 01 − α Y EX − b Y = = m 01 − α Y m10 − (m 01 −α Y m10 ) = 0 więc g (α Y , β Y ) jest wariancją zmiennej losowej Z = Y − Ŷ . Oznaczmy ją σ Z 2 i nazywamy wariancją resztową zmiennej losowej Y. Zatem: Miara błędu aproksymacji zmiennej losowej Y liniową regresją II rodzaju Ŷ jest równa wariancji σ Z2 zmiennej losowej Z = Y − Ŷ (wariancji resztowej) i wyraŜa się wzorem σ Z 2 = σ Y 2 (1 − ρ 2 ) Wnioski 1. Błąd aproksymacji zmiennej losowej Y regresją liniową II rodzaju Ŷ jest największy, gdy współczynnik korelacji ρ zmiennych losowych X i Y jest równy zeru, tzn. gdy te zmienne są nieskorelowane. Wtedy takŜe współczynnik α Y = 0 , co oznacza, Ŝe prosta regresji jest równoległa do osi Ox. 2. Błąd aproksymacji zmiennej losowej Y regresją liniową II rodzaju Ŷ jest najmniejszy (równy zeru), gdy współczynnik korelacji ρ zmiennych losowych X i Y ma moduł równy jeden. Wtedy zmienne losowe są zaleŜne liniowo (z prawdopodobieństwem 1). Wariancja resztowa jest bezwzględną miarą błędu aproksymacji zmiennej losowej Y regresją liniową II rodzaju Ŷ . W praktyce wygodniej posługiwać się miarami względnymi. Skonstruujemy taką miarę. Mamy Y − m 01 = Y − Ŷ + Ŷ − m 01 ( ) ( Podnosimy do kwadratu obie strony tej równości. ( ) ( ( ) 2 (Y − m 01 ) 2 = Y − Ŷ + Ŷ − m 01 i obliczmy wartości oczekiwane 2 ( ) ) ( 2 )( + 2 Y − Ŷ Ŷ − m 01 ) 2 [( )( ) E(Y − m 01 ) 2 = E Y − Ŷ + E Ŷ − m 01 + 2E Y − Ŷ Ŷ − m 01 71 )] RACHUNEK PRAWDOPODOBIEŃSTWA 2 Lewa strona powyŜszej równości jest wariancją zmiennej losowej Y (oznaczenie σ Y ), pierwszy 2 składnik prawej strony, to znana nam wariancja resztowa σ Z , drugi składnik jest wariancją 2 liniowej regresji II rodzaju Ŷ ( oznaczenie σ Ŷ ), bowiem EŶ = E(αX + β ) = αEX + β = am 01 + m 01 − am 01 = m 01 Natomiast trzeci składnik, jak moŜna wykazać jest równy zeru. Zatem 2 2 2 σ Y = σ Z + σ Yˆ równość wariancyjna Podzielimy obie strony tej równości przez σ Y 2 2 2 σ Ŷ σZ + =1 2 2 σY σY Oznaczmy ϕ2 = σZ2 σY 2 Liczba ϕ 2 jest miarą względną błędu aproksymacji zmiennej losowej Y liniową regresją II Ŷ i ma własności 1. ϕ 2 = 1 − ρ 2 2 2. 0 ≤ ϕ ≤ 1 (bo σ Z = σ Y 2 (1 − ρ 2 ) ) 2 ( wynika to z równości σZ2 σY 2 + σ Ŷ 2 σY 2 = 1) 3. ϕ 2 = 0 wtedy i tylko wtedy, gdy zmienne losowe są zaleŜne liniowo, 4. ϕ 2 =1 wtedy i tylko wtedy, gdy zmienne losowe X i Y są nieskorelowane. Oznaczmy 2 ν = σ Ŷ 2 σY 2 2 Liczba ν jest miarą względną stopnia zdeterminowania wartości zmiennej losowej Y przez wartości regresji Ŷ i ma własności 1. ν 2 = ρ 2 (bo ϕ 2 + ν 2 = 1 i ϕ 2 = 1 − ρ 2 ) 2. 0 ≤ ν 2 ≤ 1 3. ν 2 = 0 wtedy i tylko wtedy, gdy zmienne losowe X i Y są nieskorelowane 4. ν 2 =1 wtedy i tylko wtedy, gdy zmienne losowe są zaleŜne liniowo. Liczba ν 2 bywa nazwana współczynnikiem determinacji, bowiem podaje ona w jakim stopniu wartości zmiennej losowej Y są zdeterminowane wartościami Ŷ regresji liniowej II rodzaju. Wtedy liczbę ϕ 2 nazywamy współczynnikiem indeterminacji. Podaje on w jakim stopniu wartości zmiennej losowej Y są zdeterminowane przez inne przyczyny niŜ regresja. ZauwaŜmy jeszcze, Ŝe dla ρ>0 mamy a Y > 0 , więc zmienną losową Y aproksymujemy zaleŜnością liniową rosnącą, natomiast, gdy ρ<0, to zmienną losową Y aproksymujemy zaleŜnością liniową malejącą. W pierwszym przypadku mówimy, Ŝe zmienne losowe są skorelowane dodatnio, w drugim przypadku, Ŝe są skorelowane ujemnie. 72 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wniosek Wartość bezwzględna współczynnika korelacji informuje nas o sile związku liniowego zmiennych losowych, natomiast znak współczynnika korelacji o tym czy związek ten jest rosnący czy malejący. Przykład 8.7 Dla danych z przykładu obliczymy współczynniki determinacji i indeterminacji zmiennej losowej Y. Rozwiązanie W przykładzie 8.6 obliczyliśmy, Ŝe ρ = 0,72, zatem ν 2 = ρ 2 = 0,72 2 = 0,52 współczynnik determinacji ϕ 2 = 1 − ρ 2 = 0,48 współczynnik indeterminacji. Interpretacja Popyt na towar jest w 52% zdeterminowany przez cenę jednostki towaru i w 48% przez inne czynniki ( np. przez czynniki losowe). MoŜna takŜe wprowadzić pojęcie regresji liniowej II rodzaju cechy X względem cechy Y. Mianowicie: Regresja liniowa II rodzaju zmiennej losowej X względem zmiennej losowej Y jest to zmienna losowa X̂ = α X Y + β X gdzie liczby α X i β X są wyznaczone tak, by funkcja g (α, β) = E [X − (α Y + β)] miała w punkcie (α X , β X ) wartość najmniejszą. 2 Prostą o równaniu x̂ = α X y + β X nazywamy prostą regresji II rodzaju zmiennej losowej X względem zmiennej losowej Y. Liczby α X i β X nazywamy współczynnikami prostej regresji II rodzaju cechy X względem cechy Y. Współczynnik α X oznacza średni przyrost zmiennej losowej X, gdy zmienna losowa Y wzrośnie o jednostkę, natomiast współczynnik β X jest odciętą punktu przecięcia prostej regresji x̂ = α X y + β X z osią Ox. Współczynniki regresji liniowej zmiennej losowej X względem zmiennej losowej Y wyraŜają się wzorami σ α X = X ρ , β X = m10 − α X m 01 współczynniki regresji liniowej X względem Y σY σ σ x̂ = X ρy + m10 − X ρ m 01 równanie prostej regresji II rodzaju X względem Y σY σY σ σ X̂ = X ρY + m10 − X ρ m 01 regresja liniowa II rodzaju liniowa X względem Y σY σY Miarą bezwzględną aproksymacji zmiennej losowej X liniową regresją II rodzaju jest wariancja zmiennej losowej U = X − X̂ σ U = σ X (1 − ρ 2 ) 2 2 wariancja resztowa zmiennej losowej X 73 RACHUNEK PRAWDOPODOBIEŃSTWA PoniewaŜ współczynnik korelacji zmiennych losowych Y i X jest taki sam jak zmiennych losowych X i Y, więc współczynnik determinacji zmiennej losowej X jest taki sam jak zmiennej losowej Y. To samo dotyczy współczynnika indeterminacji. Przykład 8.8 Dla zmiennej losowej dwuwymiarowej (X,Y) z przykładu 8.6 wyznaczymy prostą regresji II rodzaju cechy X względem cechy Y. Rozwiązanie Posługujemy się wielkościami obliczonymi w tym przykładzie : σ 0, 70 αX = X ρ = ⋅ 0, 72 = 0,39 , β X = m10 − α X m 01 = 2,995 − 0,39 ⋅ 6, 7 = 0,41 σY 1,3 x̂ = 0, 39y + 0, 41 równanie prostej regresji II rodzaju zmiennej losowej X względem zmiennej losowej Y. Na rysunku 8.6 przedstawione są obie proste regresji II rodzaju zmiennej losowej Y względem zmiennej losowej X i zmiennej losowej Y względem zmiennej losowej X. Rys. 8.6 Oznaczenia do rysunku: 1) Prosta regresji liniowej II rodzaju zmiennej losowej Y względem zmiennej losowej X 2) Prosta regresji liniowej II rodzaju zmiennej losowej X względem zmiennej losowej Y Uwagi 1. Proste regresji II rodzaje zmiennej losowej Y względem zmiennej losowej X oraz zmiennej losowej X względem zmiennej losowej Y są na ogół róŜnymi prostymi. 2. Obie proste regresji II rodzaju przecinają się w punkcie (m10 , m 01 ) . 3. Jeśli moduł współczynnika korelacji jest równy 1, to obie proste regresji II rodzaju pokrywają się. 4. Jeśli zmienne losowe są nieskorelowane, to proste regresji II rodzaju są prostopadłe i równoległe do osi układu. 74 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 9. PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA W wielu problemach probabilistycznych znajomość rozkładów prawdopodobieństwa jest kluczowa. Wiedza o tych rozkładach jest niezbędna do rozwiązania szeregu praktycznych problemów, m.in. dotyczących oszacowania określonych charakterystyk zmiennych losowych, czy teŜ symulowania lub prognozowania ich wartości. Znajomość rozkładów prawdopodobieństwa określonych zmiennych losowych warunkuje takŜe rozwiązanie szeregu problemów teoretycznych statystyki matematycznej w zakresie estymacji parametrów czy weryfikacji hipotez. 9.1. Rozkłady skokowe 9.1.1. Rozkład jednopunktowy Rozkład jednopunktowy w punkcie c, zwany takŜe rozkładem Diraca, jest to rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa P(X = c ) = 1 czyli P(X ≠ c ) = 0 Dystrybuanta rozkładu jednopunktowego ma postać 0 F( x ) = 1 dla x ≤ c dla x > c Wartość oczekiwana EX = c, a wariancja D2X=0. NaleŜy podkreślić, Ŝe rozkład jednopunktowy jest jedynym rozkładem o wariancji równej zeru (nie ma rozproszenia od wartości oczekiwanej). 9.1.2. Rozkład dwupunktowy Zmienna losowa X ma dwupunktowy rozkład prawdopodobieństwa z parametrami a, b i p, jeŜeli ma funkcję prawdopodobieństwa 1 − p dla x = a a<b P(X = x ) = p dla x = b Dystrybuanta rozkładu dwupunktowego ma postać dla x ≤ a 0 F(x ) = 1 − p dla a < x ≤ b 1 dla x > b Wartość oczekiwana EX = (1 − p)a + pb ; wariancja D 2 X = p(1 − p )(a − b )2 . JeŜeli a = 0 i b =1 to rozkład dwupunktowy nazywa się rozkładem zerojedynkowym. Zmienne losowe o rozkładzie dwupunktowym są modelami słuŜącymi do opisu własności urządzeń dwustanowych, jak np. wszelkiego rodzaju układy przekaźnikowe. Rozkładem dwupunktowym (zerojedynkowym) posługujemy się takŜe wtedy, gdy w doświadczeniu spodziewamy się tylko dwóch wyników. Jeden z nich czasami nazywamy sukcesem i spodziewamy się go z prawdopodobieństwem p . Drugi nazywamy niepowodzeniem lub poraŜką i jest on oczekiwany z prawdopodobieństwem q = 1 − p . Taka sytuacja moŜe dotyczyć losowego sprawdzania wyrobów. Wprowadzamy zmienną losową, która przyjmuje wartość 1, gdy wylosowany wyrób posiada określone wady, a 0 gdy Ŝadnych wad nie stwierdzono. Wtedy parametr p nazywany jest wadliwością partii. 75 RACHUNEK PRAWDOPODOBIEŃSTWA Wartość oczekiwana i wariancja rozkładu zerojedynkowego są równe: EX = 1 ⋅ p + 0 ⋅ q = p EX 2 = 12 ⋅ p + 0 2 ⋅ q = p Zatem σ 2 = m 2 − m 2 = p − p 2 = p(1 − p ) = p ⋅ q 9.1.3. Rozkład dwumianowy Schemat Bernoulliego Mówimy, Ŝe ciąg doświadczeń jest wykonany według schematu Bernoulliego, jeśli spełnione są dwa poniŜsze warunki: a) w wyniku kaŜdego doświadczenia moŜe zajść zdarzenie A, zwane sukcesem lub zdarzenie do niego przeciwne A’ zwane poraŜką; b) wyniki poszczególnych doświadczeń są niezaleŜne, przy czym prawdopodobieństwo sukcesu w kaŜdym doświadczeniu jest takie samo. Tak więc poszczególne doświadczenia moŜna modelować zmiennymi losowymi niezaleŜnymi o tym samym rozkładzie zerojedynkowym z parametrem p będącym prawdopodobieństwem sukcesu w jednym doświadczeniu. Tabela 9.1. Przykłady prób Bernoulliego Lp Próby Bernoulliego Sukces PoraŜka b) Rzut monetą Orzeł Reszka c) Strzelanie do celu Trafienie Nie trafienie d) Losowanie ze zwracaniem sztuk towaru Sztuka wadliwa Sztuka dobra Liczba sukcesów Niech zmienna losowa X oznacza liczbę sukcesów w n doświadczeniach Bernoulliego. MoŜna wykazać, Ŝe prawdopodobieństwo wystąpienia k sukcesów w n doświadczeniach wyraŜa się wzorem n P(X = k) = p k q n − k k gdzie k = 0, 1,........, n, p jest prawdopodobieństwem sukcesu w jednym doświadczeniu p ∈ ( 0;1) , zaś q = 1 − p jest prawdopodobieństwem poraŜki w tym doświadczeniu. O zmiennej losowej X, której funkcja prawdopodobieństwa ma powyŜszą postać mówimy, Ŝe ma rozkład dwumianowy lub rozkład Bernoulliego z parametrami n i p. MoŜna obliczyć, Ŝe dla rozkładu dwumianowego m = np, σ 2 = npq 17 Deska Galtona jest praktyczną wizualizacją schematu Bernoulliego. Jest to deska z rozmieszczonymi na kształt trójkąta gwoździami. Kulki spuszczane z góry odbijają się od gwoździ na róŜne strony, a ich ostateczne połoŜenie jest całkowicie losowe. JeŜeli przyjmiemy, Ŝe spadek w prawą stronę oznaczymy jako 1 (sukces), zaś spadek w lewo jako 0 (poraŜka), to deska Galtona moŜe słuŜyć jako przykład moŜliwości zdarzeń losowych - mało prawdopodobny jest spadek zawsze w lewą lub prawą stronę, a najbardziej prawdopodobna jest średnia wartość (mniej więcej równa liczba sukcesów i poraŜek). 17 Dowód podano w punkcie 20.6. części VII Wybrane twierdzenia z dowodami 76 Rys. 9.1. PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Zmienna losowa o rozkładzie dwumianowym moŜe być traktowana jako suma n zmiennych niezaleŜnych o takim samym rozkładzie dwupunktowym z parametrem p. Przykład 9.1 3 . Do celu oddano niezaleŜnie 6 4 strzałów. Obliczymy prawdopodobieństwo, Ŝe cel został trafiony: a) jeden raz, b) ani razu, c) co najmniej raz, d) co najwyŜej raz. Prawdopodobieństwo trafienia do celu w jednym strzale wynosi Rozwiązanie Niech sukcesem będzie trafienie do celu w jednym strzale, zaś X zmienną losową oznaczającą liczbę celnych strzałów spośród 6 strzałów. Zmienna losowa ma rozkład dwumianowy 3 z parametrami n = 6, p = =0,75. 4 5 6 3 1 9 a) P(X = 1) = = = 0,0044 2048 1 4 4 Sposób obliczenia prawdopodobieństwa za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.DWUM wpisując wymagane dane i parametr FAŁSZ (moŜna wpisać takŜe 0 – dotyczy to takŜe innych funkcji). 0 6 6 3 1 1 b) P(X = 0) = = = 0,0002 4096 0 4 4 Sposób obliczenia prawdopodobieństwa za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek 77 RACHUNEK PRAWDOPODOBIEŃSTWA Tak jak poprzednio wykorzystano funkcję statystyczną ROZKŁAD.DWUM wpisując wymagane dane i parametr FAŁSZ. c) P(X ≥ 1) = 1 – P(X < 1) = 1 – P(X = 0) = 1 – 0,0002 = 0,9998 d) P(X ≤ 1) = P(X = 0) + P(X = 1) = 0,0002 + 0,0044 = 0,0046 Sposób obliczenia prawdopodobieństwa za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.DWUM wpisując wymagane dane i parametr PRAWDA (moŜna wpisać takŜe 0 – dotyczy to takŜe innych funkcji). 78 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 9.2 Prawdopodobieństwo trafienia do celu w jednym strzale wynosi 0,6. Ile strzałów naleŜy oddać niezaleŜnie, aby z prawdopodobieństwem 0,95 lub większym, cel był trafiony co najmniej raz? Rozwiązanie Niech X oznacza liczbę celnych strzałów spośród n strzałów. Zgodnie z treścią zadania powinno być: P(X ≥ 1) ≥ 0,95 ale P(X ≥ 1) = 1 – P(X < 1) = 1 – P(X = 0) = 1 – ( 0,4) n więc 1 – ( 0,4) n ≥ 0,95 stąd ( 0,4) n ≤ 0,05 i po obliczeniu otrzymujemy, Ŝe n ≥ 4. 9.1.4. Rozkład geometryczny Zmienna losowa X skokowa ma rozkład geometryczny z parametrem p, jeśli jej funkcja prawdopodobieństwa wyraŜa się wzorem: P(X = n ) = p(1 − p ) n −1 n = 1,2,... 0 < p < 1 1− p 1 Wartość oczekiwana: EX = Wariancja: D 2 X = 2 p p Interpretacja. Zmienna losowa o rozkładzie geometrycznym oznacza numer doświadczenia Bernoulliego, w którym sukces wypadnie po raz pierwszy. Przykład 9.3 W partii towaru, w której prawdopodobieństwo wylosowania sztuki wadliwej wynosi 0,35 naleŜy określić prawdopodobieństwo, Ŝe podczas losowania wadliwa sztuka pojawi się za trzecim razem. P(X = 3) = 0, 35 ⋅ (1 − 0,35) 2 = 0,35 ⋅ 0, 652 = 0,147875 Sposób obliczeń za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.DWUM.PRZEC wpisując wymagane dane. 79 RACHUNEK PRAWDOPODOBIEŃSTWA 9.1.5. Rozkład Poissona Zmienna losowa skokowa ma rozkład Poissona z parametrem λ, jeśli jej funkcja prawdopodobieństwa wyraŜa się wzorem: P( X = k ) = λk e − λ , k = 0,1,2,..., λ > 0 k! Rozkład Poissona jest stablicowany (patrz tablica w punkcie 2 części VII). Parametr λ jest wartością oczekiwaną oraz wariancją zmiennej losowej X. Zgodnie z lokalnym twierdzeniem Poissona (patrz pkt 8.3.) moŜna w prosty sposób obliczyć przybliŜoną wartość prawdopodobieństwa w rozkładzie Bernoulliego, przy duŜej liczbie prób i niskim prawdopodobieństwie sukcesu, w oparciu o rozkład Poissona w sposób następujący n λk P( X n = k ) = p k q n − k ≈ e − λ (przybliŜenie Poissona) k! k gdzie λ = np . Przykład 9.4 Wadliwość produkcji oporników wynosi 0,015. Obliczymy prawdopodobieństwo, Ŝe w pudełku liczącym 200 oporników będą dwa wadliwe. Rozwiązanie Niech X będzie zmienną losową oznaczającą liczbę oporników wadliwych w pudełku liczącym 200 sztuk. NaleŜy obliczyć P(X = 2). PoniewaŜ X ma rozkład dwumianowy o parametrze p=0,015, więc: 200 ⋅ 0,015 2 ⋅ 0,985198 P(X = 2) = 2 Wartość powyŜszego wyraŜenia obliczamy stosując przybliŜenie Poissona. Mamy np = 200 ⋅ 0,015 = 3 , więc: 200 32 ⋅ 0,0152 ⋅ 0,985198 ≈ e − 3 P( X = 2 ) = 2! 2 Z tablicy rozkładu Poissona (pkt 2) dla k=2 i λ= 3 odczytujemy wartość P(X=2)= 3 2 e −3 2! = 0,2240 i ostatecznie otrzymujemy, Ŝe P(X = 2) = 0,2240 Lokalne twierdze Poissona (patrz pkt 7.3.) wyjaśnia genezę rozkładu Poissona, mianowicie rozkład ten jest granicą ciągu rozkładów dwumianowych. Inne wyjaśnienie jest następujące: RozwaŜmy pewne zjawisko i zdarzenie, które moŜe zachodzić w losowych chwilach np. • Zjawisko – rozpad radioaktywny, zdarzenie - wyemitowanie cząsteczki α • Zjawisko – obsługa rozmów telefonicznych zgłaszanych do centrali, zdarzenie – zgłoszenie rozmowy do centrali. • Produkcja na automatycznej linii detali, zdarzenie – wyprodukowanie detalu wadliwego. 80 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Niech Xt będzie zmienną losową oznaczającą liczbę wystąpień wyróŜnionego zdarzenia w czasie od 0 do t (w czasie t). Zakładamy, Ŝe spełnione są warunki: • Liczby wystąpień tego zdarzenia w rozłącznych przedziałach czasu są zmiennymi losowymi niezaleŜnymi, dla dowolnie wielu tych przedziałów, czyli dla losowo wybranych chwil t o < t1 < t 2 < ... < t n zmienne losowe X t 0 , X t1 − X t 0 , X t 2 − X t1 ,...., X t n − X t n −1 są niezaleŜne. • • • • wystąpienia zdarzenia Dla dowolnego przedziału czasu prawdopodobieństwo w przedziale czasu zaleŜy tylko od jego długości. Prawdopodobieństwo wystąpienia zdarzenia tylko jeden raz w krótkim przedziale czasu o długości t wynosi λ t + o (t ) gdzie o(t) dąŜy do zera szybciej niŜ t, tzn. o( t ) lim =0 t →0 t Dla przedziału o krótkiej długości t prawdopodobieństwo wystąpienia zdarzenia więcej niŜ raz wynosi o(t). Oznacza to, Ŝe zdarzenia nie mogą zachodzić parami. W chwili t = 0 wyróŜnione zdarzenie nie wystąpiło, czyli P(X 0 = 0) = 1 MoŜna udowodnić, Ŝe przy spełnieniu powyŜszych warunków zmienna losowa Xt ma rozkład Poissona z parametrem λt, czyli prawdopodobieństwo, Ŝe w czasie t zdarzenie zajdzie k razy wyraŜa się wzorem (λt)k −λt P ( Xt = k ) = e , k = 0,1, 2,..., λ > 0, t ≥ 0 k! EX t = λt, D 2 X t = λt Z powyŜszych równości wynika, Ŝe parametr λ jest średnią liczbą wystąpień zdarzenia w czasie jednostki czasu, jak równieŜ wariancją liczby tych wystąpień. Przykład 9.5 Badano występowanie awarii urządzenia elektronicznego. Na podstawie wielokrotnych obserwacji ustalono, Ŝe średnia liczba awarii na godzinę wynosi 0,001 oraz, Ŝe spełnione są warunki przedstawione powyŜej. Zatem zmienna losowa Xt oznaczająca liczbę awarii w czasie t ma rozkład Poissona z parametrem 0,001t. NaleŜy obliczyć, Ŝe w czasie 2000 godzin: a) nie wystąpi awaria b) wystapią co najwyŜej dwie awarie. Rozwiązanie a) Z tablicy rozkładu Poissona dla λ=2000 ⋅ 0,001=2 i k=0 odczytujemy P(X2000=0)= 20 − 2 e = 0,135 0! Zatem prawdopodobieństwo, Ŝe w czasie 2000 godzin nie wystąpi awaria wynosi P( X2000 = 0) = 0,135 Sposób rozwiązania przykładu za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek 81 RACHUNEK PRAWDOPODOBIEŃSTWA Wykorzystano funkcję statystyczną ROZKŁAD.POISSON wpisując wymagane dane i parametr FAŁSZ. 20 − 2 b) Z tablicy rozkładu Poissona dla λ=2000 ⋅ 0,001=2 odczytujemy P(X2000=0)= e = 0,135 0! 2 0 −2 2 0 −2 P(X2000=1)= e = 0,271 P(X2000=2)= e = 0,271 Zatem prawdopodobieństwo, Ŝe w 1! 2! czasie 2000 godzin wystąpią co najwyŜej dwie wynosi P( X2000 ≤2) = P(X2000=0)+ P(X2000=1)+ P(X2000=2)=0,135 + 0,271 + 0,271 = 0,676 Sposób rozwiązania przykładu za pomocą arkusza kalkulacyjnego Excel ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.POISSON wpisując wymagane dane i parametr PRAWDA. 82 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 9.1.6. Powiązanie rozkładów skokowych Rozkład dwumianowy Rozkład dwupunktowy Rozkład zerojedynkowy Rys. 9.2 a Rozkład dwumianowy Schemat Bernoulliego Rozkład geometryczny Rys. 9.2 b 83 Rozkład Poissona 9.2. Rozkłady ciągłe 9.2.1. Rozkład jednostajny Rozkład jednostajny (zwany teŜ równomiernym lub prostokątnym) w przedziale (a ; b) jest to ciągły rozkład prawdopodobieństwa, dla którego gęstość prawdopodobieństwa w tym przedziale jest stałą dodatnią, a poza nim jest równa zeru. PoniewaŜ rozkład jest ciągły, nie ma większego znaczenia czy punkty a i b włączy się do przedziału czy nie. Rozkład jest określony parą parametrów a i b, takich, Ŝe b>a. Rozkład jednostajny w przedziale (a, b) jest to rozkład zmiennej losowej ciągłej o gęstości 0 f (x) = 1 b − a dla x < a lub x > b dla a<x<b a<b Dystrybuanta wyraŜa się wzorem 0 dla x ≤ a x−a F(x ) = dla a < x ≤ b b−a 1 dla x > b Parametry rozkładu18 (b − a ) 2 a+b 2 środek przedziału (a, b) D X = rozproszenie zaleŜy od długości przedziału 2 12 MoŜna wykazać, Ŝe jeŜeli X jest dowolną ciągłą zmienną losową o dystrybuancie F(x), to zmienna losowa Y = F(X) ma rozkład jednostajny w przedziale (0, 1). Oznacza to, Ŝe kaŜda zmienna losowa ciągła o dystrybuancie F(x) moŜe być transformowana za pomocą przekształcenia Y = F(X) na zmienną losową o rozkładzie jednostajnym w przedziale [0,1]. Wykorzystuje się to zarówno w zastosowaniach teoretycznych (m.in. dowodzenie twierdzeń), jak i praktycznych (generowanie sygnałów losowych). EX = Zmienną losową o rozkładzie jednostajnym wykorzystuje się w metodzie Monte Carlo19. Wyobraźmy sobie, Ŝe chcemy wyznaczyć pole koła wpisanego w kwadrat. W tym celu za pomocą generatora rozkładu jednostajnego wyznaczamy wewnątrz kwadratu duŜo losowych punktów. Następnie zliczamy te punkty, które wpadają do wnętrza koła. Pole koła jest w przybliŜeniu równe: P1 = n1 P n gdzie: P1 – pole koła P – pole kwadratu n1 – liczba punktów w kole n – liczba wszystkich punktów Rys. 9.3 http://www.i-lo.tarnow.pl/edu/inf/alg/calki/pages/005.php 18 19 Dowód podano w punkcie 20.6. części VII Wybrane twierdzenia z dowodami Metoda Monte Carlo (MC) jest stosowana do modelowania matematycznego procesów zbyt złoŜonych, aby moŜna było obliczyć ich wyniki za pomocą podejścia analitycznego. Istotną rolę w metodzie MC odgrywa losowanie (wybór przypadkowy) wielkości charakteryzujących proces, przy czym losowanie dotyczy rozkładów znanych skądinąd. 84 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 9.2.2. Rozkłady normalne Rozkład normalny jednowymiarowy Rozkład normalny, zwany teŜ rozkładem Gaussa, jest jednym z najwaŜniejszych rozkładów prawdopodobieństwa. Pełni waŜną rolę zarówno w rozwaŜaniach teoretycznych, jak równieŜ w najrozmaitszych zastosowaniach. Rozkład ten jest często spotykany wśród zjawisk mających charakter przyrodniczy, fizyczny, ekonomiczny i techniczny. Przykładowo rozkładowi normalnemu podlegają: • Losowe błędy pomiarów czy obserwacji; • Losowe odchyłki wartości cechy wyrobów od nominalnej (znamionowej) jej wartości; • Losowe zakłócenia w kanale nakładające się na przesyłane sygnały. Zmienna losowa ciągła X ma rozkład normalny N(m, σ), jeśli jej gęstość wyraŜa się wzorem: f (x) = 1 e 2πσ − (x − m)2 2σ2 Rys 9.4 Gęstość rozkładu normalnego N(m,σ) Wykres gęstości f(x) jest symetryczny względem prostej y = 020, ma maksimum w punkcie x = m wynoszące 1/( 2πσ) , zaś punkty x = m ±σ są punktami przegięcia tej funkcji. Parametr m jest wartością oczekiwaną zmiennej losowej X, zaś σ jest odchyleniem standardowym tej zmiennej21. Na rys. 9.5 przedstawione są wykresy gęstości trzech zmiennych losowych o rozkładzie normalnym, przy czym wartość oczekiwana jest dla wszystkich zmiennych taka sama, zaś odchylenia standardowe są odpowiednio równe σ1 < σ 2 < σ 3 . Widać wyraźnie, Ŝe im mniejsze jest odchylenie standardowe σ, tym rozkład jest bardziej skupiony dokoła wartości oczekiwanej. Jest to zgodne z wcześniej podaną interpretacją parametru σ. Rys.9.5 20 21 Dowód podano w punkcie 20.6. części VII Wybrane twierdzenia z dowodami Dowód podano w przykładzie zamieszczonym w punkcie 22.2. części VII Wybrane twierdzenia z dowodami 85 RACHUNEK PRAWDOPODOBIEŃSTWA Zmienna losowa Y o rozkładzie normalnym N(0,1) ma gęstość: 1 − f (x) = e 2π x2 2 Ф(x) Rys.9.6 Gęstość rozkładu normalnego N(0,1) Dystrybuanta tej zmiennej wyraŜa się wzorem: 1 x − Φ(x) = ∫e 2π −∞ t2 2 dt PoniŜszy rysunek pokazuje wykres dystrybuanty rozkładu normalnego N(0, 1). Wartości tej dystrybuanty są pokazane takŜe na rysunkach 9.5 i 9.7 Rys. 9. 7 Dystrybuanta rozkładu normalnego N(0,1) Funkcje f(x) i Ф(x) są stablicowane dla argumentów z przedziału <0; 4,99) (patrz tablice w punktach 3 i 4). Dla argumentów co najmniej równych 5 gęstość jest praktycznie równa 0, natomiast dystrybuanta 1. Przy obliczaniu wartości tych funkcji dla x ujemnych korzystamy ze wzorów: f(-x) = f(x) Ф(-x) = 1 - Ф(x) Pierwszy wzór jest oczywisty, drugi jest zilustrowany na rys 9.8 Rys 9.8 86 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 9.6 Zmienna losowa X ma rozkład normalny N(0 ,1). Obliczymy prawdopodobieństwa P(X < −2), P(−1 ≤ X < 3), P(X ≥ 6). Rozwiązanie P(X < −2) = Φ (−2) = 1 − Φ (2) Z tablicy 4 odczytujemy wartość Φ(2)=0,97725 Zatem P(X < −2) = Φ(−2) = 1 − Φ (2) = 1 − 0,97725 = 0,02275. Wartość dystrybuanty moŜna otrzymać takŜe arkusza kalkulacyjnego Excel, ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.NORMALNY.S22 wpisując wartość argumentu. Postępując analogicznie otrzymujemy P(−1 ≤ X < 3) = Φ (3) − Φ (−1) = Φ (3) + Φ (1) − 1 = 0,9987 + 0,8413 − 1 ==0,8400 P ( X ≥ 6) = 1 − P ( X < 6) = 1 − Φ ( 6) = 1 − 1 = 0 Standaryzacja Jeśli zmienna losowa X ma rozkład normalny N(m,σ), to zmienna losowa X−m Y= σ ma rozkład normalny N(0, 1), czyli przez standaryzację zmiennej losowej X o rozkładzie normalnym N(m,σ) otrzymujemy zmienną losową standaryzowaną Y o rozkładzie normalnym N(0,1)23. 22 Wartość dystrybuanty dla rozkładu normalnego N(m,σ) moŜna otrzymać wykorzystując funkcję ROZKŁAD.NORMALNY 23 Dowód dla dowolnego rozkładu podano w punkcie 20.5. części VII Wybrane twierdzenia z dowodami 87 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 9.7 Czas naprawy pewnego urządzenia (w godzinach) jest losową X o rozkładzie normalnym N(8,2). Obliczymy prawdopodobieństwa P(X < 5), P(6 ≤ X ≤ 11) , P(X > 12). Rozwiązanie X −8 5−8 P(X < 5) = P < = P(Y < −1,5) = Φ (−1,5) = 1 − Φ (−1,5) =1 − 0,93319 = 0, 06681 2 2 6 − 8 X − 8 11 − 8 P(6 ≤ X ≤ 11) = P ≤ < = P(−1 ≤ Y ≤ 1, 5) = 2 2 2 = Φ (1,5) − Φ (−1) = Φ (1,5) + Φ (1) − 1 = 0, 9332 + 0,8413 − 1 = 0,7745 X − 8 12 − 8 P(X > 12) = P > = P(Y > 2) = 1 − Φ (2) = 0, 02275 2 2 Obliczone prawdopodobieństwa zilustrowane są na rys. 9.9 Rys. 9.9 Interpretacja otrzymanych prawdopodobieństw: • około 6,7% napraw wykonywanych jest w czasie krótszym od 5 godzin, • około 77,5% napraw wykonywanych jest w czasie od 6 do 11 godzin, • około 2,3% napraw wykonywanych jest w czasie dłuŜszym od 12 godzin. Przykład 9.7a Czas naprawy pewnego urządzenia (w godzinach) jest losową X o rozkładzie normalnym N(8,2). Wymagamy, aby prawdopodobieństwo naprawy wynosiło 0,9. Jaki czas na naprawę naleŜy w tym przypadku zarezerwować? Rozwiązanie Szukany czas wyznaczamy z równania x gr − 8 X − 8 x gr − 8 < P(X < x gr ) = P ) = 0,9 = Φ( 2 2 2 Z tabeli … odczytujemy argument dystrybuanty dla którego jest ona równa 0,9 Zatem równanie do wyznaczenia xgr ma postać x gr − 8 2 = 1, 28 Czyli x gr = 2 ⋅1, 28 + 8 = 2,56 + 8 = 10, 56 88 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Argument dystrybuanty moŜna otrzymać takŜe arkusza kalkulacyjnego Excel, ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.NORMALNY.ODW24 wpisując wymagane dane. Przykład 9.8 Zmienna losowa X ma rozkład normalny N(m,σ). Obliczymy prawdopodobieństwo a) P( X − m < kσ) , gdzie k > 0 , następnie prawdopodobieństwa b) P( X − m < σ) , c) P( X − m < 2σ), d) P( X − m < 3σ) . Rozwiązanie. X−m a) P( X − m < kσ) = = P ( − kσ < X − m < kσ ) = P −k < < k == Φ (k) − Φ(− k) = 2Φ (k) − 1 σ Stąd b) P( X − m < σ) = 2Φ (1) − 1 = 2 ⋅ 0,8413 − 1 = 0, 6826 ≈ 68% c) P( X − m < 2σ) = 2Φ (1) − 1 = 2 ⋅ 097725 − 1 = 0, 9545 ≈ 95% d) P( X − m < 3σ) = 2Φ (3) − 1 = 2 ⋅ 0,998650 − 1 = 0,9973 ≈ 99, 73% PowyŜsze prawdopodobieństwa zilustrowane są na rys. 9.10 Rys 9.10 24 Argument dystrybuanty dla rozkładu normalnego N(0,1) moŜna otrzymać wykorzystując funkcję ROZKŁAD.NORMALNY.S.ODW 89 RACHUNEK PRAWDOPODOBIEŃSTWA Teoretycznie zmienna losowa o rozkładzie normalnym przyjmuje wartości od −∞ do + ∞ , praktycznie jednak prawie wszystkie wartości tej zmiennej (około 99,73%) naleŜą do przedziału (m − 3σ; m + 3σ) , czyli do otoczenia wartości oczekiwanej o promieniu równym trzem odchyleniom standardowym (reguła trzysigmowa). Długość tego przedziału zaleŜy od wartości σ, co jeszcze raz potwierdza interpretację tego parametru. Przykład 9.9 Przypuśćmy, Ŝe wzrost męŜczyzn jest modelowany zmienną losową X o rozkładzie normalnym N(175 cm, 5 cm). Uwzględniając wyniki otrzymane w przykładzie 9.8 moŜemy stwierdzić, Ŝe około 68% męŜczyzn ma wzrost od 170 cm do 180 cm, około 95% męŜczyzn ma wzrost od 165 do 185 cm, natomiast około 99,73% męŜczyzn ma wzrost od 160 do 190 cm. Zgodnie z regułą trzech sigm przedziałem typowego wzrostu męŜczyzn jest przedział (160 cm; 190 cm). ZauwaŜmy, Ŝe X − 175 0 − 175 P(X < 0) = P < = Φ (−37) >0 5 5 czyli w przyjętym modelu prawdopodobieństwo, Ŝe męŜczyzna ma wzrost ujemny jest dodatnie, jednak jest niewyobraŜalnie małe. Dlatego róŜnica między zjawiskiem a jego modelem jest w tym przypadku niewielka, niemniej zdarzenie, Ŝe X < 0 nie jest w tym modelu zdarzeniem niemoŜliwym. Widzimy, Ŝe zjawisko i jego matematyczny model mogą się róŜnić, model doświadczenia losowego jest idealizacją i uproszczeniem tego doświadczenia. Rozkład normalny odgrywa wyjątkowo wielką rolę w rachunku prawdopodobieństwa zarówno teoretyczną jaki i praktyczną, bowiem wiele twierdzeń w rachunku prawdopodobieństwa jest prawdziwych przy załoŜeniu, Ŝe zmienna losowa ma rozkład normalny oraz wiele waŜnych doświadczeń losowych moŜe być modelowanych tym rozkładem. Podamy teraz jeszcze trzy waŜne własności rozkładu normalnego. Jeśli zmienna losowa X ma rozkład normalny N(m,σ), to zmienna losowa Y = aX + b a≠0 ma rozkład normalny N(am + b, |a|σ), zatem funkcja liniowa zmiennej losowej o rozkładzie normalnym ma rozkład normalny25. Jeśli zmienne losowe X i Y są niezaleŜne o rozkładach normalnych N(m1,σ1) i N(m2,σ2), to zmienna losowa Z = X + Y ma rozkład normalny N(m1 + m2 , σ12 + σ 22 ) , czyli suma zmiennych losowych niezaleŜnych o rozkładach normalnych ma rozkład normalny26. Jeśli zmienne losowe X i Y są niezaleŜne o rozkładach normalnych N(m1,σ1) i N(m2,σ2), to zmienna losowa Z = X - Y ma rozkład normalny N(m1 − m 2 , σ12 + σ 22 ) , czyli róŜnica zmiennych losowych niezaleŜnych o rozkładach normalnych ma rozkład normalny. Przykład 9.10 Cena jednostkowa pewnego towaru jest zmienną losową X o rozkładzie normalnym N(20,2). PodaŜ Y tego towaru zaleŜy od ceny jednostkowej: Y = 5X+10. Obliczymy prawdopodobieństwo, Ŝe podaŜ nie przekroczy 150. Rozwiązanie Zmienna losowa Y ma rozkład normalny N(5 ⋅ 20 + 10, 5 ⋅ 2) = N (110, 10) . Y − 110 150 − 110 Zatem P(Y ≤ 150) = P ≤ = Φ (4) = 0, 99997 10 10 Odp. Prawdopodobieństwo, Ŝe podaŜ nie przekroczy 150 wynosi 0,99997. Prawdopodobieństwo to jest bardzo duŜe, więc moŜna uznać, iŜ jest praktycznie pewne zajście tego zdarzenia. 25 26 Dowód podano w punkcie 20.7. części VII Wybrane twierdzenia z dowodami Dowód podano w punkcie 20.7. części VII Wybrane twierdzenia z dowodami 90 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 9.11 Urządzenie złoŜone z dwóch bloków pracuje w ten sposób, Ŝe najpierw włączony jest pierwszy blok, a w chwili zepsucia się tego bloku włącza się drugi blok. Czasy pracy poszczególnych bloków są niezaleŜnymi zmiennymi losowymi o rozkładach normalnych N(60h, 4h) i N(80h, 3h). Obliczymy prawdopodobieństwo, Ŝe urządzenie będzie pracować co najmniej 160h. Rozwiązanie Niech X będzie zmienną losową oznaczającą czas pracy pierwszego bloku, Y czas pracy drugiego bloku, zaś Z czas pracy urządzenia. Z treści zadania wynika, Ŝe Z = X + Y, więc zmienna losowa Z ma rozkład normalny N( 60+80 h, 4 2 + 3 2 h) = N(140 h, 5 h) oraz, Ŝe naleŜy obliczyć P(Z ≥ 150). Zatem Z − 140 150 − 140 ≥ P(Z ≥ 150) = P = 1 − Φ (2) = 1 − 0, 97725 = 0, 02275 Odp. 2,3%. 5 5 Jedną z najwaŜniejszych własności rozkładu normalnego jest fakt, Ŝe przy pewnych załoŜeniach rozkład sumy duŜej liczby zmiennych losowych jest w przybliŜeniu normalny. Są to tak zwane centralne twierdzenia graniczne – patrz rozdział 8. Rozkład normalny dwuwymiarowy Dwuwymiarowa zmienna losowa (X, Y) ma rozkład normalny dwuwymiarowy N (m1 , m 2 , σ1 , σ 2 , ρ) , jeśli jej gęstość wyraŜa się wzorem: f(x, y) = 1 2πσ1σ2 1 − ρ2 − e 2 2 (x −m1) −2ρ (x −m1)(y −m2 ) + (y −m2 ) σ1σ2 2(1−ρ2 ) σ12 σ22 1 Znaczenie parametrów występujących w powyŜszym wzorze jest następujące: m 1 = EX, m 2 = EY, σ12 = D 2 X , σ 22 = D 2 Y , ρ - współczynnik korelacji zmiennych losowych X i Y. Własności dwuwymiarowego rozkładu normalnego: Jeśli (X,Y) ma rozkład N (m1 , m 2 , σ1 , σ 2 , ρ) , to • X ma rozkład N( m1 , σ1 ) • Y ma rozkład N( m2 , σ 2 ). • Zmienne losowe nieskorelowane są niezaleŜne • Regresja I rodzaju jest funkcją liniową, a więc krzywe regresji I i II rodzaju pokrywają się. Przykład 9.12 Dana jest gęstość dwuwymiarowej zmiennej losowej (X,Y) o rozkładzie normalnym 1 −w2 / 2 f (x, y) = e 9, 6Π 1 (x − 1) 2 y2 gdzie w 2 = − 0, 2y(x − 1) + 0,36 4 16 a) Wyznaczymy parametry tego rozkładu. b) Wyznaczymy rozkłady brzegowe zmiennych losowych X i Y. c) Wyznaczymy krzywe regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X i zmiennej losowej X względem zmiennej losowej Y. 91 RACHUNEK PRAWDOPODOBIEŃSTWA Rozwiązanie a) Wykładnik w 2 moŜna zapisać w postaci 1 (x − 1)2 x − 1 y y2 w2 = − 2 ⋅ 0,8 + 2 4 42 1 − 0,82 22 zaś 2 1 f (x, y) = e− w / 2 2Π ⋅ 2 ⋅ 4 1 − 0,82 Z powyŜszych równości odczytujemy, Ŝe m1 = 1, m 2 = 0, σ1 = 2, σ 2 = 4, ρ = 0,8 . Zatem zmienna losowa dwuwymiarowa (X,Y) ma dwuwymiarowy rozkład normalny N(1, 0, 2, 4, 0,8). b) Zmienna losowa X ma rozkład normalny N(1, 2), zaś zmienna losowa Y ma rozkład normalny N(0, 4) . c) PoniewaŜ krzywa regresji I rodzaju jest dla rozkładu normalnego dwuwymiarowego jest toŜsama z prostą regresji II rodzaju, więc krzywa regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X jest linią prostą o równaniu y = α Y x + βY gdzie σ 4 α Y = Y ρ = ⋅ 0,8 = 1, 6, βY = m01 − α Y m10 = 0 − 1, 6 ⋅1 = −1, 6 σX 2 Zatem y = 1, 6x − 1, 6 jest równaniem prostej regresji I i II rodzaju zmiennej losowej Y względem zmiennej losowej X, natomiast krzywa regresji I rodzaju zmiennej losowej X względem zmiennej losowej Y jest prostą o równaniu x = α X y + βx , gdzie σ 2 α X = X ρ = ⋅ 0,8 = 0, 4, βX = m10 − α X m01 = 1 − 0, 4 ⋅ 0 = 1 σY 4 Zatem x = 0, 4y + 1 jest równaniem prostej regresji I i II rodzaju zmiennej losowej X względem zmiennej losowej Y. Przykład 9.13 Zmienna losowa X oznacza cenę jednostki towaru (w zł.), zaś zmienna losowa Y popyt na ten towar (w tys. sztuk). Wiadomo, Ŝe zmienna losowa dwuwymiarowa (X,Y) ma rozkład dwuwymiarowy normalny N(10, 30, 0,5, 1,5, - 0,9). Znajdziemy równanie prostej regresji zmiennej losowej Y względem zmiennej losowej X. Rozwiązanie y = α Y x + βY gdzie αY = σY 1, 5 ⋅ (−0, 9) = −2, 7, βY = m01 − α Y m10 = 30 − (−2, 7) ⋅10 = 57 ρ= σX 0, 5 zatem y = −2, 7x + 57 to równanie prostej regresji I i II rodzaju zmiennej losowej Y względem zmiennej losowej X I n ter pr e ta c ja w s p ół cz yn ni k a α Y = −2, 7 Jeśli cena jednostki towaru zwiększy się o 1 zł., to popyt na ten towar zmniejszy się o 2,7 tys. sztuk. 92 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Przykład 9.14 Zmienna losowa dwuwymiarowa ciągła (X,Y) ma gęstość 1 − f (x, y) = e 12Π Sprawdzimy, czy zmienne losowe X i Y są niezaleŜne. (x + 6) 2 (y − 4)2 − 8 18 Rozwiązanie Daną gęstość moŜna zapisać w postaci 1 (x + 6)2 (y − 4)2 − + 2 22 32 e 1 2Π ⋅ 2 ⋅ 3 zatem zmienna losowa dwuwymiarowa (X,Y) ma rozkład dwuwymiarowy normalny N(-6, 4, 2, 3,0). PoniewaŜ ρ=0, więc zmienne losowe X i Y są nieskorelowane, a dla rozkładu dwuwymiarowego normalnego oznacza, Ŝe są niezaleŜne. Odp. Zmienne losowe X i Y są niezaleŜne. 9.2.3. Rozkład wykładniczy Zmienna losowa X ma rozkład wykładniczy z parametrem a, jeśli jej gęstość wyraŜa się wzorem: ae− ax dla x > 0 a >0 f (x) = dla x ≤ 0 0 MoŜna obliczyć, Ŝe m = EX = 1/a oraz σ2=D2X = 1/a2 f (x, y) = Rozkład wykładniczy jest przykładowo modelem czasu Ŝycia atomu pierwiastka promieniotwórczego, czasu między dwoma kolejnymi wezwaniami w centrali telefonicznej, czasu między dwoma kolejnymi uszkodzeniami urządzenia (maszyny). Rozkład wykładniczy jest rozkładem gamma dla p=1 i dowolnego, nieujemnego a. 9.2.4 Rozkład chi kwadrat Niech zmienne losowe X 1 , X 2 , …, X n będą niezaleŜne i kaŜda z nich ma rozkład N(0, 1). O zmiennej losowej Yn = X12 + X 22 + … + X 2n mówimy, Ŝe ma rozkład χ 2 (chi kwadrat) z n stopniami swobody. Dowodzi się, Ŝe rozkład χ 2 z n stopniami swobody jest szczególnym przykładem rozkładu gamma n 1 p = , a = , więc gęstość zmiennej losowej Yn wyraŜa się wzorem: 2 2 n y 1 −1 − 2 y e 2 n n f ( y ) = 2 2 Γ( ) 2 0 2 dla y>0 dla y≤0 Rozkład χ jest stablicowany (patrz tablica w punkcie 5 części VII). Z tablicy tej dla stopni swobody 1, 2, …,30 i niektórych wartości α ∈ (0,1) , odczytujemy liczbę u α taką, Ŝe: P( Yn ≥ u α ) = α Ilustruje to rysunek 6.11. 93 RACHUNEK PRAWDOPODOBIEŃSTWA Rys. 6.11 Jeśli liczba stopni swobody jest większa od 30, to zmienna losowa 2Yn ma w przybliŜeniu rozkład normalny N( 2n − 1 , 1). Przykład 6.15 a) Zmienna losowa Y17 ma rozkład χ 2 z 17 stopniami swobody. Obliczyć P( Y17 ≥ 10). b) Zmienna losowa Y61 ma rozkład χ 2 z 61 stopniami swobody. Obliczyć P( Y61 ≥ 50). Rozwiązanie a) Z tabeli 5 odczytujemy dla liczby stopni swobody r = 17 wartość α dla której P(Yr ≥ 10) = α Zatem szukane prawdopodobieństwo P( Y17 ≥ 10) jest równe 0,9 Prawdopodobieństwo moŜna otrzymać takŜe za pomocą arkusza kalkulacyjnego Excel, co ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.CHI27 wpisując wymagane dane. b) Przy obliczeniu prawdopodobieństwa skorzystamy z faktu, Ŝe zmienna losowa 2Y61 ma w przybliŜeniu rozkład N(11, 1) i wykorzystamy tablicę 4 z częśći VII P( Y61 ≥ 50) = P( Y61 ≥ 100) = P( 2Y61 ≥ 10) = P( 2Y61 - 11 ≥ -1) = = 1 - Ф(-1) = Ф(1) = 0,8413 27 Argument moŜna otrzymać wykorzystując funkcję ROZKŁAD.CHI.ODW po podaniu prawdopodobieństwa i stopni swobody 94 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Dokładną wartość prawdopodobieństwo moŜna otrzymać za pomocą arkusza kalkulacyjnego Excel, co ilustruje poniŜszy rysunek Tak jak poprzednio wykorzystano funkcję statystyczną ROZKŁAD.CHI wpisując wymagane dane. 9.2.5. Rozkład Studenta Niech zmienne losowe X i Yn będą zmiennymi losowymi niezaleŜnymi X o rozkładzie normalnym N(0, 1), zaś Yn o rozkładzie χ 2 z n stopniami swobody. O zmiennej losowej: X Tn = n Yn mówimy, Ŝe ma rozkład Studenta z n stopniami swobody. Gęstość zmiennej losowej Tn wyraŜa się wzorem: g(t) = n +1 ) 1 2 n +1 n nπΓ ( ) (1 + t 2 ) 2 n 2 Γ( Wykres gęstości g(t) jest symetryczny względem prostej t = 0 i ma kształt zbliŜony (szczególnie dla duŜych n) do wykresu gęstości rozkładu normalnego N(0, 1) (rys.6.12) Rozkład Studenta jest stablicowany (patrz tablica w punkcie 6 części VII). Z tablicy tej dla stopni swobody 1, 2, ..., 30, 40, 60, 120 i niektórych wartości α ∈ (0,1) , odczytujemy liczbę t α taką, Ŝe: P(| Tn | ≥ t α ) = α. Ilustruje to rysunek 6.12. W ostatnim wierszu tej tablicy podane są graniczne prawdopodobieństwa, gdy liczba stopni swobody dąŜy do nieskończoności. Są to prawdopodobieństwa obliczane wg rozkładu normalnego N(0, 1), gdyŜ ciąg dystrybuant rozkładów T Studenta przy liczbie stopni swobody dąŜącej do nieskończoności jest zbieŜny do dystrybuanty rozkładu normalnego N(0, 1). Rys. 6.12 95 RACHUNEK PRAWDOPODOBIEŃSTWA Przykład 6.15a Dla α=0,1 i liczby stopni swobody równej 5 wyznaczyć wartość t α dla której P(| Tn | ≥ t α ) = α. Z tablic rozkładu Studenta odczytujemy, Ŝe t 0,1 =2,015 Wartość t 0,1 moŜna otrzymać takŜe za pomocą arkusza kalkulacyjnego Excel, co ilustruje poniŜszy rysunek Wykorzystano funkcję statystyczną ROZKŁAD.T.ODW wpisując wymagane dane. W arkuszu Excel dostępna jest takŜe funkcja pozwalająca wyznaczyć dla liczby stopni swobody prawdopodobieństwo α na podstawie t α 96 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wykorzystano funkcję statystyczną ROZKŁAD.T wpisując wymagane dane – parametr Ślady=2 określa rozkład dwustronny (dla uzyskania rozkładu jednostronnego naleŜy podać parametr Ślady=1). 9.2.6. Rozkład Snedecora Niech X n1 i Yn 2 będą zmiennymi losowymi niezaleŜnymi o rozkładach χ 2 z n 1 i n 2 stopniami swobody. O zmiennej losowej: F= n 2 X n1 n 1 Yn 2 mówimy, Ŝe ma rozkład Snedecora z parą ( n 1 , n 2 ) stopni swobody. Rozkład Snedecora jest stablicowany (patrz tablice w punkcie 7 części VII). Z tablic tych dla α = 0,01 lub α = 0,05 i dla niektórych stopni swobody ( n 1 , n 2 ) odczytujemy liczbę f α taką, Ŝe: P(F ≥ f α ) = α Przykład 6.15b Dla liczby stopni swobody (32, 20) wyznaczyć wartość f0,01 dla której P(F ≥ f 0, 01 ) = 0,01 Z tablic rozkładu Snedecora odczytujemy, Ŝe f 0, 01 =1,91 Wartość f 0, 01 moŜna otrzymać takŜe za pomocą arkusza kalkulacyjnego Excel, co ilustruje poniŜszy rysunek 97 RACHUNEK PRAWDOPODOBIEŃSTWA Wykorzystano funkcję statystyczną ROZKŁAD.F.ODW wpisując wymagane dane. W arkuszu Excel dostępna jest takŜe funkcja pozwalająca wyznaczyć dla liczby stopni swobody prawdopodobieństwo α na podstawie f α Wykorzystano funkcję statystyczną ROZKŁAD.F wpisując wymagane dane. 98 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 9.2.8. Powiązania rozkładów ciągłych Tn= X1 n Yn Rozkład T Studenta o n stopniach swobody X1 X2 X1: N (0,1) Rozkład Cauchy’ego X2: N (0,1) .. . Uwaga: Oznaczają z jakich rozkładów tworzony jest rozkład wynikowy Yn= X12 + X 22 + ... + X 2n Rozkład χ2 o n stopniach swobody Xn: N (0,1) Ym Rozkład χ2 o m stopniach swobody m ⋅ Yn n ⋅ Ym Rozkład Snedecora o (n,m) stopniach swobody Rozkład N(m,σ) Rozkład Beta Rozkład Gamma Rozkład N(0,1) Rozkład jednostajny Rozkład wykładniczy Rys. 9.13 99 RACHUNEK PRAWDOPODOBIEŃSTWA 9.3 Zestawienie rozkładów 9.3.1. Zestawienie rozkładów skokowych Tabela 9.2. Zestawienie rozkładów skokowych Lp 1 2 3 4 Nazwa rozkładu Rozkład jedno – P(X = c) = 1 punktowy w Rozkład wykorzystywany punkcie c w prawach wielkich liczb. Rozkład P(X = 1) = p, zerojedynkowy P(X = 0) = 1 − p = q z parametrem p Szczególny przypadek rozkładu dwumianowego (n = 1) Parametr p oznacza frakcję elementów populacji o wyróŜnionej własności Rozkład n P(X = k) = p k q n −k dwumianowy k z parametrami p ∈ (0;1), q = 1 − p nip k = 0,1, 2,..., n Rozkład liczby sukcesów: P(X=k) oznacza prawdopodobień – stwo, Ŝe w n doświadczeniach Bernoulliego sukces wypadnie k razy, p -prawdopodobieństwo sukcesu q – prawdopodobieństwo poraŜki Rozkład P(X = k) = q k −1p q=1-p geometryczny k 1, 2,,, ,,,; p (0;1) = ∈ z parametrem p P(X=k) oznacza prawdopodobieństwo, Ŝe w ciągu doświadczeń Bernoulliego sukces wypadnie pierwszy raz w doświadczeniu o numerze k Rozkład Poissona z parametrem λ 5 Funkcja prawdopodobieństwa Własności rozkładu λk −λ P(X = k) = e (k = 0, 1, 2, ...; k! λ > 0) PrzybliŜenie Poissona n k λ k −λ p q ≈ e ; λ = np k! k n – duŜe, p - małe. 100 Funkcja charakterystyczna Funkcja tworząca prawdopodobieństwa ϕ(t) = eitc φ(s) = sc ( φ(s) = ( ps + q ) ϕ(t) = 1 − qeit ps φ(s) = 1 − qs it −1) φ(s) = e λ (s −1) σ2 = pq mk = p n m= np σ2 = npq n peit ϕ(t) = eλ (e ) σ2 = 0 m=p ϕ(t) = peit + q φ(s) = ps + q ϕ(t) = peit + q Wartość oczekiwana Wariancja Parametry m=c m= σ2 = 1 p q p2 m=λ σ2 = λ PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 9.3.2. Zestawienie rozkładów ciągłych Tabela 9.3. Zestawienie rozkładów ciągłych Lp 1 Nazwa rozkładu Rozkład jednostajny w przedziale (a; b) Rozkład normalny N(0,1) Gęstość Funkcja charakterystyczna Własności rozkładu 1 dla x ∈ (a; b) f (x) = b − a 0 dla x ∉ (a; b) eibt − eiat ϕ(t) = it 1 1 − f (x) = e 2π 2 − Wartość oczekiwana Wariancja Parametry b+a m= 2 σ2 = dla t ≠ 1 (b − a)2 12 dla t = 1 x2 m=0 2 σ2 = 1 t2 2 ϕ(t) = e Gęstość f(x) i dystrybuanta Φ (x) są stablicowane f (− x) = f (x); Φ (− x) = 1 − Φ (x) Rozkład normalny N(m,σ) f (x) = 1 e σ 2π − (x − m)2 2σ2 EX = m, m ∈ R, σ > 0 22 3 4 ϕ(t) = eitm −σ t / 2 Jeśli Y ma rozkład N(0,1), X ma rozkład N(m,σ), to X−m standaryzacja Y= σ oraz X = σY + m Rozkład a p p−1 −ax x e dla x > 0 gamma f (x) = Γ(p) z parametrami 0 dla x ≥ 0 aip ∞ Γ(p) = ∫ x p−1e − x dx, D2X = σ2 µ 2k −1 = 0 µ 2k = = σ 2k (2k − 1)!! m= σ2 = a > 0, p > 0 p a p a2 0 ϕ(t) = 5 6 ap ( a − it )p Rozkład x − x 2 /(2σ2 ) dla x > 0 e Rayleigha f (x) = σ 2 z parametrem 0 dla x ≤ 0 σ Rozkład a x a +1 Pareto dla x > x 0 0 f (x) = x0 x z parametrami a i x0 dla x ≤ x 0 0 101 σ>0 a, x 0 > 0 EX = σ π 2 D 2 X = σ 2 (2 − π / 2) a 2 m= x 0 dla a > 1 a −1 σ2 = a x 02 (a − 1) 2 (a − 2) dla a > 2 RACHUNEK PRAWDOPODOBIEŃSTWA Lp 7 Gęstość Funkcja charakterystyczna Własności rozkładu Nazwa rozkładu Rozkład wykładniczy z parametrem a ae−ax dla x > 0 f (x) = a>0 dla x ≤ 0 0 a ϕ(t) = a − it Rozkład wykładniczy jest szczególnym przypadkiem rozkładu gamma (p = 1) Rozkład χ2 1 x n / 2−1e− x / 2 dla x > 0 n/2 (chi kwadrat) f (x) = 2 Γ(n / 2) z n stopniami 0 dla x ≤ 0 swobody n∈N ϕ(t) = Wartość oczekiwana Wariancja Parametry 1 m= a σ2 = 1 a2 m=n σ2 = 2n 1 (1 − 2it )n / 2 Rozkład χ2 jest szczególnym przypadkiem rozkładu gamma a= 0,5, p = n/2 8 Rozkład χ2 z n stopniami swobody jest rozkładem zmiennej losowej Yn = X12 + X 22 + + X 2n , gdzie X1, X 2 ,...,X n są zmiennymi losowymi niezaleŜnymi o rozkładach normalnych N(0,1). Rozkład χ2 jest tablicowany. 9 10 11 Rozkład beta z parametrami piq Γ(p + q) p−1 x (1 − x)q −1 dla f (x) = Γ (p) Γ (q) 0 dla p, q >0 Rozkład 1 1 Cauchy’ego z f (x) = π λ 2 + (x − µ)2 λ>0 parametrami iµt −λ t ϕ(t) = e λiµ x −µ Rozkład 1 − λ Laplace’a z f (x) = e λ >0 2λ parametrami λiµ e tµ ϕ(t) = 1 + λ2t 2 102 x ∈ (0,1) m= x ∉ (0,1) σ2 = p p+q pq (p + q)2 (p + q + 1) Momenty nie istnieją m=µ σ2=2λ2 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Lp 12 13 Gęstość Funkcja charakterystyczna Własności rozkładu Rozkład Γ ((n + 1) / 2) 1 Studenta nπΓ(n / 2) (1 + t 2 / n)(n +1) / 2 dla z n stopniami f (t) = t>0 swobody 0 dla t ≤ 0 n∈N Dla n ≥ 30 gęstość rozkładu Studenta i gęstość rozkładuN(0,1) mało się róŜnią. Nazwa rozkładu dla n ≥ 2 σ2 = n n −1 dla n ≥ 3 Rozkład Studenta jest stablicowany. Rozkład Erlanga z parametrami aim Rozkład Studenta z n stopniami swobody jest rozkładem X zmiennej losowej Tn = n, Yn gdzie X i Yn są zmiennymi losowymi niezaleŜnymi, X o rozkładzie N(0,1), Yn o rozkładzie χ2 z n stopniami swobody. am x m −1e −ax dla x > 0 f (x) = (m − 1)! 0 dla x ≥ 0 a > 0, m ∈ N ϕ(t) = Rozkład Snedecora zmin stopniami swobody 14 Wartość oczekiwana Wariancja Parametry m=0 a m m= σ2 = m a m a2 ( a − it )m Γ (( m + n ) / 2) n/2 x m / 2−1 n m f (x) = Γ ( m / 2 ) Γ ( n / 2 ) m= m + n / 2 ( ) n−2 n ( x + n / m) dla x ≤ 0 0 dla n > 2 Rozkład Snedecora z m i n stopniami swobody jest σ2 = X/m rozkładem zmiennej losowej F = 2n 2 (m + n − 2) Y/n = X – zmienna losowa o rozkładzie χ2 z m stopniami m(n − 2)2 (n − 4) swobody, dla n > 4 Y – zmienna losowa o rozkładzie χ2 z n stopniami swobody, X i Y zmienne losowe niezaleŜne Rozkład Snedecora jest tablicowany 103 RACHUNEK PRAWDOPODOBIEŃSTWA Lp Nazwa rozkładu Rozkład Weibula z parametrami aip 15 16 Gęstość Funkcja charakterystyczna Własności rozkładu p −1 ax p dla x > 0 a > 0, p > 0 f (x) = apx e dla x ≤ 0 0 Rozkład Weibula jest dla p =1 rozkładem wykładniczym, natomiast dla p =2 i dla 1 a = 2 jest rozkładem Rayleigha. 2σ Wartość oczekiwana Wariancja Parametry Γ(1/ p) m= pa1/ a 1 σ2 = × p 2a 2 / p 2 2pΓ − p × 1 −Γ 2 p Rozkład 2 2 1 e− (ln x − m) /(2σ ) dla x > 0 Logarytmicz- f (x) = σ>0 xσ 2π no normalny 0 dla x ≤ 0 z parametrami Rozkład logarytmiczno normalny jest to rozkład miσ zmiennej losowej X będącej logarytmem naturalnym zmiennej losowej Y o rozkładzie normalnym N(m,σ) X = lnY Y ma rozkład N(m,σ). Rozkład EX = m1 , 1 −w2 / 2 f (x, y) = e normalny 2Π σ1σ 2 EY = m 2 , dwuwymia – gdzie D 2 X = σ12 , rowy 2 2 N(m1, m2, σ1, 1 ( x − m1 ) x-m1 y − m 2 ( y − m 2 ) 2 2 D = σ22 , w 2 ρ = − + 2 2 2 σ2, ρ) σ1 σ2 1 − ρ σ1 σ2 Wsp.korel. =ρ 17 m1 , m 2 ∈ R, σ 1 , σ 2 > 0, ρ <1 1 ϕ(t, u) = exp i ( m1t + m 2 u ) − σ12 t 2 + 2ρσ1σ2 tu + σ22 u 2 2 ( Rozkład normalny n wymiarowy 18 X ma rozkład N(m1, σ1 ) , Y ma rozkład N(m 2,σ2 ) Jeśli X i Y są nieskorelowane (ρ = 0), to są niezaleŜne. Regresje I i II rodzaju są identyczne. 1 1 EX = mi f (x) = exp − (x − m)M −1 (x − m)T i n/2 (2π) det M 2 D 2 X = µ i gdzie x = [ x1 , x 2 ,...., x n ] , m = [ m1 , m 2 ,....m n ] M = µij - macierz kwadratowa stopnia n, symetryczna , dodatnio określona. 104 ii cov(X i , X j ) = = µ ij dla i ≠ j PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 10. TWIERDZENIA GRANICZNE 10.1. Rodzaje twierdzeń granicznych RozwaŜać będziemy ciągi zmiennych losowych określonych na zbiorze zdarzeń elementarnych Ω. Twierdzenia graniczne są to twierdzenia podające warunki dostateczne lub warunki konieczne i dostateczne zbieŜności ciągów zmiennych losowych dla róŜnych rodzajów zbieŜności. Zestawienie zbiorcze najwaŜniejszych twierdzeń granicznych przedstawiono w poniŜszej tabeli. Wykaz twierdzeń Rodzaj zbieŜności Nazwa twierdzenia Tabela 10.1. Zestawienie twierdzeń granicznych TWIERDZENIA INTEGRALNE TWIERDZENIA LOKALNE PRAWA WIELKICH LICZB ZbieŜność według dystrybuant ZbieŜność ciągu: • funkcji prawdopodobieństwa, gdy zmienne losowe są skokowe, • gęstości, gdy zmienne losowe są ciągłe. ZbieŜność według prawdopodobieństwa • Twierdzenie LindebergaLevy’ego • Integralne twierdzenie Moivre’a-Laplace’a • Twierdzenie lokalne Poissona • Twierdzenie lokalne Moivre’a-Laplace’a • Prawo wielkich liczb Chinczyna • Prawo wielkich liczb Bernoulliego PoniewaŜ sformułowania twierdzeń granicznych są trudne dlatego ograniczymy się do podania wniosków z tych twierdzeń. 10.2. Twierdzenia integralne 10.2.1. ZbieŜność według dystrybuant Oznaczenia: Xn, X - zmienne losowe, Fn - dystrybuanta zmiennej losowej Xn, F - dystrybuanta zmiennej losowej X. Mówimy, Ŝe ciąg (Xn ) zmiennych losowych jest zbieŜny według dystrybuant do zmiennej losowej X, jeśli ciąg (Fn) jest zbieŜny do dystrybuanty F w kaŜdym punkcie jej ciągłości. Interpretacja Jeśli n jest duŜą liczbą to dystrybuanta Fn mało róŜni się od dystrybuanty F, zatem prawdopodobieństwa: P(Xn < a), P(a ≤ X < b), P(X ≥ b), mogą być obliczone (w przybliŜeniu) za pomocą dystrybuanty F. Jak wynika z powyŜszej tabeli twierdzenia integralne są to twierdzenia, w których bada się zbieŜność wg dystrybuant ciągów zmiennych losowych. Twierdzenia integralne, w których zmienną losową graniczną jest zmienna losowa o rozkładzie normalnym N(0, 1) nazywamy twierdzeniami centralnymi rachunku prawdopodobieństwa. 10.2.2. Twierdzenie Lindeberga – Levy’ego Dla duŜych n zmienna losowa 105 RACHUNEK PRAWDOPODOBIEŃSTWA Yn = X1 + X2 + … + Xn. gdzie: X1, … , Xn są niezaleŜnymi zmiennymi losowymi o takim samym rozkładzie z wartością oczekiwaną m i wariancją σ2 > 0 ma w przybliŜeniu rozkład normalny N( nm, n σ ), stąd P( Yn − nm Y − nm < a) ≅ Φ (a) , P(a ≤ n < b) ≅ Φ (b) − Φ (a) nσ nσ P( Yn − nm nσ ≥ b ) ≅ 1 − Φ ( b) Przykład 10.1 Zmienne losowe X 1 , X 2 , …. X100 są niezaleŜne i mają rozkład Poissona z parametrem λ=4. Niech 100 Y100 = ∑ X k k =1 Obliczymy P(360 < Yn ≤ 460). Rozwiązanie W rozkładzie Poissona wartość oczekiwana i wariancja są równe λ, więc w naszym przykładzie σ n = 20 m = EX k = 4 , σ = DX k = 4 = 2 , nm = 400, 360 − 400 Yn − nm 460 − 400 ≤ < ) ≈ Φ(3) − Φ (−2) = 20 20 σ n = Φ (3) + Φ (2) − 1 = 0,99865 + 0,97725 − 1 = 0,97590 P(360 ≤ Yn < 460) = P( 10.2.3. Integralne twierdzenie Moivre’a – Laplace’a Dla duŜych n zmienna losowa X o rozkładzie dwumianowym z parametrami n i p ma rozkład w przybliŜeniu normalny N(np, np(1 − p ) ). stąd X − np P < a ≅ Φ(a) , np(1 − p) P a ≤ < b ≅ Φ(b) − Φ(a) np(1 − p) X − np X − np P ≥ b ≅ 1 − Φ(b) np(1 − p) Przykład 10.2 1 . Obliczymy 4 prawdopodobieństwo, Ŝe w ciągu tego czasu spośród 192 Ŝarówek przepalą się co najmniej 42 Ŝarówki i mniej niŜ 60 Ŝarówek. Prawdopodobieństwo, Ŝe Ŝarówka przepali się w ciągu pewnego czasu T wynosi 106 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Rozwiązanie Niech X będzie zmienną losową oznaczającą liczbę przepalonych Ŝarówek spośród 192 Ŝarówek. NaleŜy obliczyć P (42 ≤ X < 60) . Do obliczenia szukanego prawdopodobieństwa zastosujemy wniosek z integralnego twierdzenia Moivre’a – Laplace’a. 42 − 48 X − np 60 − 48 X − np P(42 ≤ X < 60) = P( ≤ < ) = P(−1 ≤ < 3) ≈ 6 6 npq npq ≈ Φ (3) + Φ (−1) = Φ (3) + Φ (1) − 1 = 0,99865 + 0,84134 − 1 = 0,83999 10.2.5. Związek pomiędzy twierdzeniami granicznymi integralnymi Twierdzenie LindebergaLevy’ego Twierdzenie Moivre’aLaplace’a Rys. 10.1 10.2.6. Uwagi końcowe o twierdzeniach integralnych Twierdzenia graniczne Moivre’a-Laplace'a i Lindeberga-Levy’ego wskazują na wyjątkową rolę rozkładu normalnego. Przyjmując dość ogólne załoŜenia na zmienne losowe X1, X2, …, Xn n stwierdzamy na podstawie tych twierdzeń, Ŝe zmienna losowa Yn = ∑ X k ma dla duŜych n rozkład k =1 w przybliŜeniu normalny. W tych więc zagadnieniach praktycznych, w których obserwujemy wartości pewnej zmiennej losowej Y będącej sumą duŜej liczby zmiennych losowych niezaleŜnych, z których Ŝadna nie ma decydującego wpływu na wielkość tej sumy, naleŜy oczekiwać, Ŝe zmienna Y będzie miała w przybliŜeniu rozkład normalny. Przykład 10.3 Pomiar wielkości fizycznej. Na wyniki pomiarów wpływa wiele drobnych, wzajemnie niezaleŜnych i nie dających się wyeliminować czynników, takich jak niewielkie zmiany temperatury, oświetlenia, wilgotności powietrza, zmiany w mechanizmie przyrządu, w psychice mierzącego itp. KaŜdy z tych czynników powoduje niewielki błąd elementarny, który jest zmienną losową. W rezultacie łącznego działania tych czynników pomiary są obarczone błędami, które nazywamy błędami przypadkowymi. Błąd przypadkowy jest więc zmienną losową będącą sumą duŜej liczby błędów elementarnych. MoŜna więc oczekiwać, Ŝe ma on rozkład normalny. 10.3. Twierdzenia lokalne 10.3.1. Twierdzenie Poissona Twierdzenie Poissona orzeka, Ŝe dla duŜych n i małych p prawdopodobieństwa rozkładu dwumianowego mogą być obliczone przy pomocy prawdopodobieństwa rozkładu Poissona z parametrem λ = np . n λk −λ P(Xn = k) = p n k (1 − p n ) n − k ≈ e dla k=0,1,2,…,n k! k 107 RACHUNEK PRAWDOPODOBIEŃSTWA 10.3.2. Lokalne twierdzenie Moivre’a – Laplace’a Dla duŜych n prawdopodobieństwa rozkładu dwumianowego mogą być obliczone przy pomocy funkcji gęstości rozkładu normalnego n k n−k p q ≅ k k − np f npq npq 1 gdzie f oznacza gęstość rozkładu N(0, 1). Przykład 10.4 1 . Obliczymy 4 prawdopodobieństwo, Ŝe w ciągu tego czasu spośród 192 Ŝarówek przepalą się 42 Ŝarówki. Prawdopodobieństwo, Ŝe Ŝarówka przepali się w ciągu pewnego czasu T wynosi Rozwiązanie Niech X będzie zmienną losową oznaczającą liczbę przepalonych Ŝarówek spośród 192. NaleŜy obliczyć P(X = 42). Zmienna losowa X ma rozkład dwumianowy, więc: 42 150 192 1 3 P(X = 42 ) = 42 4 4 PoniewaŜ iloczyn np= 48 jest duŜy, więc do obliczenia szukanego prawdopodobieństwa stosujemy przybliŜenie lokalne Moivre’a – Laplace’a. 42 192 1 3 P(X = 42) = 42 4 4 150 ≈ 1 42 − 48 1 1 1 f = f (−1) = f (1) = 0,24197 = 0,0405 6 6 6 6 6 Wartość f(1) odczytaliśmy w tablicy gęstości rozkładu normalnego N(0, 1) (tablica 3 - część VII). 10.4. Prawa wielkich liczb 10.4.1. ZbieŜność według prawdopodobieństwa. Prawa wielkich liczb są to twierdzenia graniczne, w których bada się zbieŜność ciągów zmiennych losowych w sensie zbieŜności według prawdopodobieństwa (słabe prawa) lub w sensie zbieŜności z prawdopodobieństwem 1 (mocne prawa). W tym podręczniku ograniczymy się do rozwaŜenia jedynie słabych praw wielkich liczb. Niech (Yn ) będzie ciągiem zmiennych losowych określonych na zbiorze zdarzeń elementarnych Ω i niech kaŜda ze zmiennych losowych Yn ma wartość oczekiwaną EYn = m dla n ∈ N Mówimy, Ŝe ciąg (Yn ) jest zbieŜny według prawdopodobieństwa do wartości oczekiwanej m, jeśli dla dowolnej dodatniej liczby ε lim P( Yn − m < ε) = 1 n →∞ Mówimy wówczas, Ŝe dla ciągu (Yn ) zachodzi prawo wielkich liczb. Oznacza to, Ŝe gdy n jest duŜe, to prawdopodobieństwo, iŜ zmienna losowa Yn przyjmie wartość z dowolnie małego (ale ustalonego) otoczenia wartości oczekiwanej jest bliskie jedności, czyli Yn ma rozkład silnie skupiony przy wartości oczekiwanej m. Tę interpretację zbieŜności według prawdopodobieństwa potwierdza poniŜsze twierdzenie: Prawa wielkich liczb są szczególnym przypadkiem twierdzeń integralnych (ale nie są twierdzeniami centralnymi). 108 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 10.4.2. Prawo wielkich liczb Bernoulliego X n − liczba sukcesów w n doświadczeniach Bernoulliego, X Yn = n - częstość sukcesu (liczba sukcesów na jedno doświadczenie), n p - prawdopodobieństwo sukcesu w jednym doświadczeniu. Prawo wielkich liczb Bernolulliego orzeka, Ŝe dla ciągu Yn zachodzi prawo wielkich liczb, co oznacza, Ŝe jeśli liczba doświadczeń Bernoulliego jest duŜa, to z prawdopodobieństwem bliskim jedności, częstość sukcesu Yn przyjmuje wartości mało róŜniące się od prawdopodobieństwa sukcesu p X Yn = n ≈ p n Prawo wielkich liczb Bernoulliego moŜna zapisać w postaci poniŜej zaleŜności lim P( n →∞ Xn − p < ε) = 1 n Z prawa wielkich liczb Bernoulliego wynika, Ŝe prawdopodobieństwo zdarzenia moŜe być oceniane przez częstość tego zdarzenia w długim ciągu powtórzeń doświadczenia, w którym to zdarzenie występuje. Z powyŜszych faktów wynika, Ŝe uprawniona jest interpretacja prawdopodobieństwa zdarzenia za pomocą częstości tego zdarzenia. Na podstawie twierdzenia integralnego Moivre’a – Laplace’a moŜna wykazać, Ŝe dla duŜych n zachodzi zaleŜność: X n −1 P n − p < ε ≈ 2Φ ε n pq (ε > 0) (10.1) Przykład 10.5 Wadliwość partii towaru wynosi 0,2. Z partii tej pobrano losowo ze zwracaniem próbę liczącą 400 sztuk. Obliczymy prawdopodobieństwo, Ŝe wadliwość w tej próbie będzie odchylać się od wadliwości partii towaru o mniej niŜ o 0,05. Rozwiązanie X 400 jest 400 wadliwością w tej próbie. Wadliwość partii wynosi p = 0,2, naleŜy zatem obliczyć X P 400 − 0,2 < 0,05 . Na podstawie wzoru (10.1) otrzymujemy: 400 Niech X 400 oznacza liczbę sztuk wadliwych w próbie liczącej 400 sztuk, wtedy X 400 − 1 = 2Φ (2,5) − 1 = P 400 − 0,2 < 0,05 ≈ 2Φ 0,05 0,2 ⋅ 0,8 400 = 2 ⋅ 0,9938 − 1 = 0,9876 10.4.3. Prawo wielkich liczb Chinczyna Niech X1, …, Xn będą zmiennymi losowymi niezaleŜnymi o jednakowym rozkładzie o wartości oczekiwanej m. Prawo wielkich liczb Chinczyna orzeka, Ŝe dla ciągu X n zachodzi prawo wielkich liczb, to znaczy, Ŝe średnia arytmetyczna duŜej liczby zmiennych losowych niezaleŜnych o jednakowym rozkładzie o wartości oczekiwanej m przyjmuje przyjmuje wartości mało róŜniące się od m Xn ≈ m 109 RACHUNEK PRAWDOPODOBIEŃSTWA Prawo wielkich liczb Chinczyna moŜna zapisać w postaci poniŜej zaleŜności lim P( Yn − m < ε) = 1 n →∞ PowyŜsza interpretacja ma liczne zastosowania np. w teorii błędów przypadkowych. Dokonujemy duŜej liczby pomiarów pewnej wielkości m. Zakładamy, Ŝe pomiary są niezaleŜne, jednakowo dokładne i pozbawione systematycznego błędu. Otrzymane wyniki pomiarów moŜna traktować jako wartości zmiennych losowych niezaleŜnych o jednakowym rozkładzie o wartości oczekiwanej m. Z interpretacji prawa wielkich liczb Chinczyna wynika, Ŝe średnia arytmetyczna otrzymanych wyników pomiarów z praktyczną pewnością mało róŜni się od wielkości mierzonej m. W prawie wielkich liczb Chinczyna, w odróŜnieniu od twierdzenia Lindeberga-Levy'ego, nie zakłada się, Ŝe zmienne losowe X k mają wariancję. Jeśli jednak załoŜyć, Ŝe zmienne te mają wariancję σ2 > 0 , to z twierdzenia Lindeberga-Levy'ego moŜna wyprowadzić zaleŜność (dla duŜych n) ε n (10.2) P(| X n − m |< ε) ≈ 2Φ − 1 , (ε > 0), δ Przykład 10.6 Dokonano 100 pomiarów pewnej wielkości fizycznej. Obliczyć prawdopodobieństwo, Ŝe średnia arytmetyczna tych pomiarów będzie odchylać się od wielkości mierzonej o mniej niŜ 0,05 cm, jeśli wiadomo, Ŝe odchylenie standardowe poszczególnego pomiaru wynosi 0,5 cm. Rozwiązanie. Niech X100 oznacza średnią ze stu pomiarów. Na podstawie wzoru (10.2) i danych zadania otrzymujemy: 0, 05 ⋅ 100 P(| X100 − m |) < 0, 05) ≈ 2Φ − 1 = 2Φ (1) − 1 = 2 ⋅ 0,84134 − 1 ≈ 0, 68 0, 5 110