Marek Cieciura, Janusz Zacharski PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE CZĘŚĆ VI WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Na prawach rękopisu Warszawa, październik 2011 Data ostatniej aktualizacji: piątek, 2 grudnia 2011, godzina 16:41 Statystyka jest bardziej sposobem myślenia lub wnioskowania niŜ pęczkiem recept na młócenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao Podręcznik: PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE publikowany jest w częściach podanych poniŜej Nr Tytuł I. Wprowadzenie II. Statystyka opisowa III. Rachunek prawdopodobieństwa IV. Statystyka matematyczna V. Przykłady zastosowań w informatyce VI. Wybrane twierdzenia z dowodami VII. Tablice statystyczne Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu http://cieciura.net/mp/ Publikowane części będą na bieŜąco poprawiane, w kaŜdej będzie podawana data ostatniej aktualizacji. Podręcznik udostępnia się na warunku licencji Creative Commons (CC): Uznanie Autorstwa – UŜycie Niekomercyjne – Bez Utworów ZaleŜnych (CC-BY-NC-ND),co oznacza: • Uznanie Autorstwa (ang. Attribution - BY): zezwala się na kopiowanie, dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych pod warunkiem umieszczenia informacji o twórcy. • UŜycie Niekomercyjne (ang. Noncommercial - NC): zezwala się na kopiowanie, dystrybucję, wyświetlanie i uŜytkowanie dzieła i wszelkich jego pochodnych tylko w celach niekomercyjnych.. • Bez Utworów ZaleŜnych (ang. No Derivative Works - ND): zezwala się na kopiowanie, dystrybucję, wyświetlanie tylko dokładnych (dosłownych) kopii dzieła, niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych. Podręcznik i skorelowany z nim portal, są w pełni i powszechnie dostępne, stanowią więc Otwarte Zasoby Edukacyjne - OZE (ang. Open Educational Resources – OER). PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE SPIS TREŚCI 23. STATYSTYKA OPISOWA ...........................................................................................5 23.1. WŁASNOŚĆ ŚREDNIEJ ARYTMETYCZNEJ ELEMENTÓW PRÓBY ........................................5 23.1.1. Własność 1..........................................................................................................5 23.1.2. Własność 2..........................................................................................................5 23.1.3. Własność 3..........................................................................................................5 23.1.4. Własność 4 średniej arytmetycznej elementów próby...........................................6 23.2. RELACJE POMIĘDZY ŚREDNIMI .....................................................................................6 23.3. WYZNACZANIE WARIANCJI Z PRÓBY ............................................................................7 23.4. WSPÓŁCZYNNIK KORELACJI SPEARMANA ....................................................................8 23.5. WYZNACZANIE WSPÓŁCZYNNIKÓW REGRESJI METODĄ NAJMNIEJSZYCH KWADRATÓW 12 23.6. WŁASNOŚCI FUNKCJI REGRESJI ..................................................................................14 23.6.1. Własność 1........................................................................................................14 23.6.2. Własność 2........................................................................................................15 24. RACHUNEK PRAWDOPODOBIEŃSTWA ..............................................................16 24.1. PRAWA DE MORGANA ...............................................................................................16 24.1.1. Zdarzenie przeciwne do sumy zdarzeń – 1 prawo de Morgana...........................16 24.1.2. Zdarzenie przeciwne do iloczynu zdarzeń – 2 prawo de Morgana......................16 24.2. WŁASNOŚCI PRAWDOPODOBIEŃSTWA ........................................................................16 24.2.1. Prawdopodobieństwo zdarzenia niemoŜliwego ..................................................16 24.2.2. Monotoniczność prawdopodobieństwa ..............................................................17 24.2.3. Prawdopodobieństwo sumy dwóch zdarzeń .......................................................17 24.2.4. Prawdopodobieństwo zdarzenia przeciwnego....................................................17 24.2.5. NiezaleŜność zdarzeń przeciwnych ....................................................................18 24.3. PRAWDOPODOBIEŃSTWO CAŁKOWITE ........................................................................18 24.4. WZÓR BAYESA .........................................................................................................18 24.5. WŁASNOŚCI WARTOŚCI OCZEKIWANEJ I WARIANCJI ....................................................19 24.5.1. Wartość oczekiwana i wariancja iloczynu stałej i zmiennej losowej – jednorodność ................................................................................................................19 24.5.2. Wartość oczekiwana sumy zmiennych losowych - addytywność .........................20 24.5.3. Wartość oczekiwana iloczynu zmiennych losowych............................................20 24.5.4. Wariancja sumy niezaleŜnych zmiennych losowych ...........................................21 24.5.5. Parametry rozkładu standaryzowanej zmiennej losowej ....................................21 24.6. PARAMETRY WYBRANYCH ROZKŁADÓW ....................................................................22 24.6.1. Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie dwumianowym 22 24.6.2. Wartość oczekiwana rozkładu równomiernego ..................................................23 24.6.3. Współczynniki asymetrii i spłaszczenia rozkładu normalnego............................23 24.7. ROZKŁADY PRZYKŁADOWYCH FUNKCJI ZMIENNYCH LOSOWYCH ................................25 24.7.1. Rozkład zmiennej losowej będącej liniowym przekształceniem zmiennej losowej o rozkładzie normalnym...................................................................................................25 24.7.2. Rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych.......26 24.8. ANALIZA KORELACJI I REGRESJI .................................................................................27 24.8.1. Własności współczynnika korelacji....................................................................27 24.8.2. Funkcja regresji drugiego rodzaju ....................................................................29 3 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 25. STATYSTYKA MATEMATYCZNA..........................................................................31 25.1. ROZKŁADY WYBRANYCH STATYSTYK ........................................................................31 25.1.1. Rozkład średniej z próby o rozkładzie normalnym .............................................31 25.1.2. Rozkład unormowanej średniej cechy o rozkładzie normalnym..........................31 25.1.3. Rozkład róŜnicy średnich niezaleŜnych cech o rozkładach normalnych..............32 25.1.4. Rozkład ilorazu wariancji z prób.......................................................................34 25.1.5. Rozkład wskaźnika struktury..............................................................................34 25.2. OBCIĄśONOŚĆ WARIANCJI Z PRÓBY ...........................................................................35 25.3. WYZNACZANIE ESTYMATORÓW METODĄ NAJWIĘKSZEJ WIAROGODNOŚCI ...................36 25.3.1. Estymator parametru p rozkładu zero-jedynkowego ..........................................36 25.3.2. Estymator parametru Θ rozkładu wykładniczego...............................................37 25.3.3. Estymator parametru rozkładu Poissona ...........................................................38 25.4. WYZNACZANIE WSPÓŁCZYNNIKÓW REGRESJI METODĄ NAJWIĘKSZEJ WIAROGODNOŚCI .........................................................................................................................................38 4 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 23. STATYSTYKA OPISOWA 23.1. Własność średniej arytmetycznej elementów próby 23.1.1. Własność 1 Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność: (23-1.1) x min ≤ x n ≤ x max Dowód ∧ x min ≤ x i ≤ x max i n n n ∑ x min ≤∑ x i ≤∑ x max i =1 i =1 n i =1 n 1 1 1 n x min ≤ ∑ x i ≤ ∑ x max ∑ n i =1 n i =1 n i =1 1 1 n 1 ⋅ n ⋅ x min ≤ ∑ x i ≤ ⋅ n ⋅ x max n n i =1 n x min ≤ 1 n ∑ x i ≤ x max n i =1 x min ≤ x ≤ x max cbdu 23.1.2. Własność 2 Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność: n ∑ (x i (23-1.2) − xn ) = 0 i =1 Dowód n ∑ (x i n n n n i =1 i =1 i =1 i =1 − x n ) = ∑ x i − x n ∑ 1 =∑ x i − n ⋅ x n = ∑ x i − n ⋅ i =1 n n 1 n x i = ∑ x i − ∑ x i = 0 cbdu ∑ n i =1 i =1 i =1 23.1.3. Własność 3 Średnia arytmetyczna elementów próby (x1 , x 2 ,..., x n ) spełnia zaleŜność ∑ (x i − xn ) = xi > x n ∑ (x n − xi ) xi < x n Dowód n ∑ (x i ∑ (x ∑ (x − xn ) = i =1 i − xn ) + xi < x n ∑ (x ∑ (x − x n ) + ∑ (x i − x n ) ∑ (x xi > x n i − x n ) = 0 zgodnie z własnością 2 średniej arytmetycznej xi >x n i − x n ) = − ∑ (x i − x in) xi > x n xi > x n i xi < x n xi < x n i − xn ) = ∑ (x n − x i ) cbdu xi < x n 5 (23-1.3) WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 23.1.4. Własność 4 średniej arytmetycznej elementów próby Dla elementów próby (x1 , x 2 ,..., x n ) wyraŜenie n ∑ (x i − c)2 (23-1.4) i =1 ma wartość najmniejszą gdy c= x n Dowód Obliczamy pierwszą pochodną wyraŜenia i przyrównujemy ją do zera n n d n (x i − c)2 = 2∑ (x i − c) ⋅ (−1) = −2∑ ( x i − n ⋅ c ) = 0 ∑ dc i =1 i =1 i =1 n ∑x i = n ⋅c i =1 1 n ∑ xi = x n n i =1 Druga pochodna jest równa d2 n ∑ (x i − c)2 = 2n 2 > 0 dc 2 i =1 c= Zatem wyraŜenie n ∑ (x i − c)2 ma wartość najmniejszą gdy c= x n cbdu i =1 23.2. Relacje pomiędzy średnimi Wykazać prawdziwość zaleŜności pomiędzy elementami próby (x1 , x 2 ,..., x n ) : 1 1 n 2 n n 1 n ≤ x ≤ x ≤ xi ∑ i n∑ i 1 n 1 ∏ n i =1 i =1 i =1 ∑ n i =1 x i 1 (23-2.1) dla n=2 Dowód Zwraca się uwagę, Ŝe elementy powyŜszej zaleŜności liczone od lewej to: średnia harmoniczna, średnia geometryczna, średnia arytmetyczna i średnia kwadratowa. Zapisujemy zaleŜność (23-2.1) dla n=2 w postaci 1 1 1 2 ≤ a ⋅ b ≤ (a + b) ≤ (a + b 2 ) 11 1 2 2 + 2a b 6 (23-2.2) PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Część 1 Udowodnimy, Ŝe 1 ≤ a ⋅b 11 1 + 2a b (a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 + 2ab ; a 2 + b 2 ≥ 2ab : ab ; a b + >2 b a ab ab ab ab ab ab 1 1 2 + 2 > 2 ; 2 + 2 > 2 + 2 ; 2 + 2 + 2 > 4 ; ab( 2 + 2 + ) ≥ 4 2 b a b a b a a b ab 1 1 1 1 4 ab( + )2 ≥ 4 : ( + )2 ; ab ≥ 2 a b a b 1 1 + a b ; ab ≥ 2 ; 1 1 + a b ab ≥ 1 cbdu 11 1 + 2a b Część 2 Udowodnimy, Ŝe a ⋅b ≤ 1 (a + b) 2 (a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 + 4ab ; a 2 + 2ab + b 2 ≥ 4ab ; (a + b)2 > 4ab : 4 ; (a + b)2 ≥ ab 4 ; a+b ≥ ab cbdu 2 Część 3 Udowodnimy, Ŝe 1 1 2 (a + b) ≤ (a + b 2 ) 2 2 (a − b)2 ≥ 0 ; a 2 − 2ab + b 2 ≥ 0 ; a 2 + b 2 ≥ 2ab + (a 2 + b 2 ) ; 2(a 2 + b 2 ) ≥ a 2 + 2ab + b 2 : 4 ; a 2 + b 2 (a + b) 2 ≥ 2 4 a 2 + b2 a + b ≥ cbdu 2 2 ; 23.3. Wyznaczanie wariancji z próby Wykazać, Ŝe wariancję z próby (x1 , x 2 ,..., x n ) moŜna wyznaczyć ze wzoru s 2n = 1 n 1 n 1 n (x i − x n ) 2 = ∑ x i2 − ( ∑ x i ) 2 ∑ n i =1 n i =1 n i =1 s 2n = 1 n 1 n (x i − x n ) 2 = ∑ x i2 − 2x i ⋅ x n + (x n )2 ∑ n i =1 n i =1 Dowód s 2n = 1 n 2 1 n 1 n 1 n 1 x i − 2x n ∑ x i + ∑ (x n )2 = ∑ x i2 − 2(x n ) 2 + n(x n )2 ∑ n i =1 n i =1 n i =1 n i =1 n 2 1 n 1 n 1 n s = ∑ x i2 −(x n )2 = ∑ x i2 − ∑ x i cbdu n i =1 n i =1 n i =1 2 n 7 (23-3.1) WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 23.4. Współczynnik korelacji Spearmana Uzasadnić postać wzoru na współczynnik korelacji Spearmana n 6 ∑ (ci − di )2 rS = 1 − i =1 n(n 2 − 1) (23-2.1) i dokonać jego analizy. Dowód Podstawą rozwaŜań jest współczynnik korelacji Pearsona: 1 n ∑ (x − x)(yi − y) n i =1 i rP = sxsy (23-2.2) 1 n ∑ x i (23-2.3) n i =1 1 n y = ∑ yi (23-2.4) n i =1 1 n s x = ∑ (x i − x) 2 (23-2.5) n i =1 1 n s y = ∑ (yi − y)2 (23-2.6) n i=1 Przy obliczaniu współczynnika Spearmana w powyŜszym wzorze zamiast wyników x i oraz gdzie: x = yi wykorzystuje się ich rangi ci oraz di , przy czym ci ∈ {1,..., n} , di ∈ {1,..., n} Wykorzystamy wzory na sumy szeregów i wynikające z nich wartości średnich arytmetycznych: n n(n + 1) 2 i =1 1 n n +1 i = ∑i = n i=1 2 n n(n + 1)(2n + 1) ∑ i2 = 6 i =1 1 n n(n + 1)(2n + 1) i2 = ∑ i2 = n i =1 6 ∑i = (23-2.7) (23-2.8) (23-2.9) (23-2.10) 1) Obliczamy licznik wzoru na współczynnik korelacji Pearsona obliczany na podstawie rang L= 1 n 1 n 1 n 1 n ∑ ci di − d ∑ ci − c ∑ di + ∑ cd n i=1 n i=1 n i =1 n i =1 8 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Wykorzystując określenia (23-2.3) i (23-2.4) dla rang otrzymujemy L= 1 n 1 1 n 1 n ∑ ci di − cd − cd + ncd = ∑ ci di − 2cd + cd = ∑ x i yi − cd n i=1 n n i=1 n i=1 Wykorzystując wzór (23-2.8) otrzymujemy L= 1 n (n + 1)2 ∑ ci d i − n i=1 4 Przekształcimy teraz pierwszy składnik powyŜszego wzoru. Uwzględniając, Ŝe (ci − d i )2 = ci2 − 2ci d i + d i2 otrzymujemy ci di = ci2 + d i2 − (ci − d i )2 2 Zatem n n n ∑ ci2 + ∑ di2 i =1 2 ∑ ci di = i=1 i =1 1 n − ∑ (ci − d i )2 2 i =1 Wykorzystując wzór (23-2.9) otrzymujemy n ∑ ci d i = i =1 n(n + 1)(2n + 1) 1 n − ∑ (ci − d i )2 6 2 i =1 Uwzględnimy teraz powyŜszy wynik do dalszego przekształcenia licznika wzoru na współczynnik Perarsona obliczanego na podstawie rang L= (n + 1)(2n + 1) (n + 1)2 1 n − − ∑ (ci − di )2 6 4 2n i =1 RóŜnica pierwszych dwóch składników w powyŜszym wzorze jest równa (2n 2 + n + 2n + 1) − 3(n 2 + 2n + 1+ ) 4n 2 + 6n + 2 − 3n 2 − 6n − 3 n 2 − 1 = = 12 12 12 Czyli ostatecznie licznik wzoru na współczynnik Pearsona obliczany na podstawie rang jest równy L= n2 +1 1 n − ∑ (ci − di )2 12 2n i =1 2) Obliczymy teraz mianownik wzoru na współczynnik korelacji Pearsona obliczany na podstawie rang. W pierwszej kolejności obliczymy sc2 określony analogicznym wzorem jak (23-2.5) sc2 = n 1 n 1 n 1 1 n ∑ (ci − c) 2 = ∑ ci2 − 2c ∑ ci + ∑ (c) 2 n i=1 n i=1 n i=1 n i=1 Wykorzystując wzór (23-2.10) i oznaczenie (23-2.3) dla rang otrzymujemy sc2 = (n + 1)(2n + 1) (n + 1)(2n + 1) − 2c 2 + c 2 = − c2 6 6 9 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Po uwzględnieniu wzoru (23-2.8) mamy sc2 = = (n + 1)(2n + 1) (n + 1)2 n + 1 2n + 1 n + 1 n + 1 4n + 2 − 3n − 3 − = − = = 6 2 2 3 2 2 6 n +1 n −1 n 2 −1 = 2 6 12 Tyle samo wynosi sd2 . Czyli mianownik wzoru na współczynnik korelacji Pearsona obliczany na podstawie rang jest równy M = sc2sd2 = n2 −1 12 3) Uwzględniając otrzymane postacie licznika i mianownika obliczamy postać wzoru na współczynnik korelacji Perarsona w przypadku gdy wyniki mają postać rang. n n2 −1 1 n − 6 ∑ (ci − di )2 ∑ (ci − di ) 2 n L 12 1 12 2n i=1 rP' = = = 1− 2 ∑ (ci − di )2 = 1 − i=1 2 2 M n −1 n − 1 2n i =1 n(n − 1) 12 Otrzymany wzór określa współczynnik korelacji Spearmana n 6 ∑ (ci − di )2 rS = 1 − i =1 n(n 2 − 1) cbdu 4) Na zakończenie określimy zaleŜność współczynnika korelacji Spearmana od sumy n kwadratów róŜnic pomiędzy rangami S= ∑ (ci − di ) 2 ≥0. i =1 rS = 1 − 6S 2 n(n − 1) = 1 − cS c = 6S n(n 2 − 1) >0 • ZaleŜność współczynnika korelacji rS od sumy S jest liniowa, przy czym wartość współczynnika korelacji maleje ze wzrostem wartości tej sumy. • Współczynnik korelacji przyjmuje wartość maksymalną, jeŜeli S=0, wartość ta jest równa jeden. Sytuacja ta występuje wtedy, jeŜeli rangi są parami równe ∧ ci = d i . 1≤i≤ n W tym przypadku uporządkowanie wyników obu prób jest takie samo. • Wykorzystując to spostrzeŜenie obliczymy wartość współczynnika korelacji dla przypadku, kiedy uporządkowania elementów pierwszej próby jest odwrotne do uporządkowania elementów drugiej próby. W poniŜszej tabeli podano rangi dla takiego przypadku. 10 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Nr elementu Rangi Kwadrat róŜnicy rang 1 próba 2 próba Postać 1 składnik 2 składnik 3 składnik 1 1 n (1-n)2 1 -2n n2 2 2 n-1 (3-n)2 9 -6n n2 3 3 n-2 (5-n)2 25 -10n n2 … … … … … … … 25 -10b n2 2 n-2 n-2 3 (n-5) n-1 n-1 2 (n-3)2 9 -6n n2 n N 1 (n-1)2 1 -2n n2 Sumy S1 S2 S3 SUMA S Dla obliczenia sumy S naleŜy obliczyć sumy poszczególnych składników. ZałóŜmy, Ŝe liczność próby n jest parzysta – dowód dla nieparzystej liczności próby przebiega w sposób analogiczny. W takim przypadku w powyŜszej tabeli występują takie same dwie części, górna i dolna – zawierające po n/2 wierszy, w których sumy trzech składników są takie same. Dla obliczenia sumy pierwszych składników w górnej części tabeli wykorzystamy wzór na sumę kwadratów pierwszych n liczb nieparzystych: n ∑ (2i − 1)2 = i =1 n(4n 2 − 1) 3 Tak więc suma pierwszych składników górnej części tabeli jest równa: n n 2 4( ) − 1 n(n 2 − 1) 2 2 ' 2 S1 = ∑ (2i − 1) = = 3 6 i =1 n/2 Drugie składniki moŜna zapisać w postaci -2n(2i-1), i=1,2,…,n/20. A więc ich suma jest równa: n n ( + 1) n n3 n S'2 = ∑ [ −2n(2i − 1)] = − 4n ∑ i + 2n = −4n 2 2 + n 2 = −n 2 + 1 + n 2 = − 2 2 2 2 i =1 i =1 Suma trzecich składników jest równa: n/2 n/2 S3' = n 2 n3 n = 2 2 ZauwaŜmy, Ŝe S'2 +S3' =0, czyli S' =S1' . Zatem suma kwadratów róŜnic rang jest równa podwojonej sumie pierwszych składników (naleŜy zsumować składniki w górnej i dolnej części tabeli) i wynosi S = 2S1' = 2 n(n 2 − 1) n(n 2 − 1) = 6 3 11 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI W tym przypadku współczynnik korelacji Spearmana jest równy: n(n 2 − 1) 3 rS = 1 − = 1 − 2 = −1 2 n(n − 1) 6 • Współczynnik korelacji Spearmana przyjmuje wartość zero, jeŜeli S spełnia warunek 6S n(n 2 − 1) = 1 , tzn, kiedy S = , a więc jest równe połowie wartości 6 n(n 2 − 1) maksymalnej. • Zatem wykres wartości współczynnika korelacji Spearmana w zaleŜności od sumy S kwadratów róŜnic pomiędzy rangami ma postać następującą: rS 1 S 0 n(n201)/3 n(n201)/6 -1 23.5. Wyznaczanie współczynników regresji metodą najmniejszych kwadratów Wykazać, Ŝe metodą najmniejszych kwadratów na podstawie elementów próby (x1 , x 2 ,..., x n ) uzyskuje się następujące współczynniki w równaniu regresji jednej zmiennej y = a⋅x +b s s (23-5.1) â = r y b̂ = y n − r y x n sx sx Dowód Metodą najmniejszych kwadratów współczynniki regresji wyznacza się z warunku n F(a, b) = ∑ (yi − a ⋅ x i − b) 2 → min a,b i =1 W dowodzie wykorzystamy dodatek 1. Pochodne cząstkowego powyŜszego wyraŜenia względem a i b są równe n ∂F(a, b) = −2∑ (yi − ax i − b)x i ∂a i =1 12 (19-8.2) PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE n ∂F(a, b) = −2∑ (yi − ax i − b) ∂b i =1 Po przyrównaniu ich do zera otrzymujemy układ równań n n n ∂F(a, b) n 2 ˆ ˆ ˆ i − b)x ˆ = ∑ (yi − ax i = ∑ x i yi − a ∑ x i − b ∑ x i = 0 ∂a i =1 i =1 i =1 i =1 n n n ∂F(a, b) ˆ = y − aˆ x − n ⋅ bˆ = 0 ˆ i − b) = ∑ (yi − ax ∑ ∑ i i ∂b i =1 i =1 i =1 (22-8.3) Z drugiego równania otrzymujemy po wprowadzeniu oznaczenia średniej otrzymujemy ˆ n bˆ = y n − ax (23-5.4) Wstawiając do pierwszego z równań mamy n n n n n n n n 2 2 ˆ ˆ ˆ x y − a x − y x + ax x = x y + y x − a x − x ∑ ∑ ∑ i i i n∑ i n∑ i i i n∑ i n ∑ xi = 0 ∑ i i =1 i =1 i =1 i =1 i =1 i =1 i =1 i =1 Zatem pierwszy z współczynników regresji jest równy â = n ∑ x i yi + y n ∑ x i n ∑x y i =1 n i =1 n i =1 ∑x i =1 2 i − xn ∑ xi n i = i =1 n ∑x i + nx n y n (23-5.5) 2 i − nx 2 n i =1 Wprowadzając oznaczenie (wzór nosi nazwę współczynnika korelacji Pearsona) 1 n ∑ (x i − x n )(yi − yn ) n i =1 r= sx ⋅ sy 1 n 1 n (x i − x n ) 2 s y = (yi − y n ) 2 ∑ ∑ n i =1 n i =1 otrzymujemy ostateczną postać pierwszego z współczynników regresji sy â = r sx PoniŜej sprawdzimy, ze tak faktycznie jest (23-5.6) gdzie: s x = (23-5.7) 1 n 1 n (x − x )(y − y ) (x i − x n )(yi − y n ) i n i n sy n ∑ sy n ∑ i =1 i =1 â = r = = = sx sx ⋅ sy sx s 2x 1 n 1 n 1 n 1 n 1 n 1 n x i yi − y n ∑ x i − x n ∑ yi + ∑ x n y n x i yi − 2x n y n + x n y n ∑ ∑ ∑ x i yi − x n y n n n i =1 n i =1 n i =1 n i =1 n i =1 = i =1 = = s 2x s 2x s 2x Uwzględniając, Ŝe zgodnie z (23-6.1) mianownik jest równy n ∑x i =1 prawdziwość (23-5.7). 13 2 i − nx n2 = n ⋅ s 2x wykazaliśmy WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Drugi ze współczynników regresji wyznaczamy ze wzoru (23-5.4) podstawiając (23-5.7) b̂ = y n − r sy sx xn (23-5.8) Obliczamy teraz drugie pochodne funkcji F(a,b) – patrz (23-5. 1) i (23-5.2) n n ∂2F ∂ = [ − 2 (y − ax − b)x ] = 2 x i2 ∑ ∑ i i i ∂a 2 ∂a i =1 i =1 2 n n ∂ F ∂ = [ −2∑ (yi − ax i − b)] = 2∑ x i ∂a∂b ∂a i =1 i =1 n ∂2F ∂ = [ − 2 (yi − ax i − b)] =2n ∑ ∂b 2 ∂b i =1 Wyznaczamy teraz wartość wyznacznika ∂2F ∂a 2 W= 2 ∂F ∂a∂b n ∂2F x i2 ∑ ∂a∂b = 2 i =n1 2 ∂F xi ∑ ∂b 2 i =1 n ∑x i =1 n i 2 n 2 1 n 2 n 2 n 2 1 = 2 n ∑ x i − ∑ x i = 2n ∑ x i − 2 ∑ x i = n i =1 i =1 i =1 n i =1 1 n 2 1 n 2 = 2n ∑ x i − ∑ x i n i =1 n i =1 2 Wykorzystując (23-6.1) otrzymujemy n 1 n (x i − x n )2 = 2n ∑ (x i − x n ) 2 >0 ∑ n i =1 i =1 W = 2n 2 ⋅ s n2 = 2n 2 PoniewaŜ n ∂2F = 2 x i2 > 0 wykazaliśmy, Ŝe wyznaczone współczynniki regresji zapewniają ∑ ∂a 2 i =1 n minimum wyraŜenia F(a, b) = ∑ (yi − a ⋅ x i − b) 2 cbdu i =1 23.6. Własności funkcji regresji 23.6.1. Własność 1 Suma róŜnic pomiędzy wartościami zmiennej zaleŜnej i wartościami funkcji regresji jest równa zeru n K = ∑ (yi − yˆ i ) = 0 (23-6.1) i =1 gdzie: ŷi = a y ⋅ x i + y − a y x = a y (x i − x) + y Dowód n n n i =1 i =1 i =1 Obliczymy wartość K = ∑ (yi − yˆ i ) = ∑ yi − ∑ yˆ i Uwzględniając (*) obliczymy wartość drugiej sumy 14 (*) PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE n n ∑ ŷ =∑ a i i =1 y i =1 n n n i =1 i =1 i =1 (x i − x) + y = a y ∑ x i − a y ∑ x + ∑ y = a y nx − a y nx + ny = ny Zatem n n n i =1 i =1 i =1 K = ∑ (yi − yˆ i ) = ∑ yi − ny =∑ yi − n n n 1 n y = y − ∑ i ∑ i ∑ y i = 0 cbdu n i =1 i =1 i =1 23.6.2. Własność 2 Suma odchyleń dodatnich od funkcji regresji jest równa sumie odchyleń ujemnych ∑ (y i − yˆ i ) = ∑ (yˆ i − yi ) yi > yˆ i yi < yˆ i Dowód n ∑ (y i − yˆ i ) = n ∑ (y i − yˆ i ) = ∑ (y i yi > yˆ i ∑ (y ∑ (y yi > yˆ i i =1 yi > yˆ i ∑ (y i yi > yˆ i i =1 − yˆ i ) + ∑ (yi − yˆ i ) yi < yˆ i i − yˆ i ) + ∑ (yi − yˆ i ) = 0 zgodnie z powyŜej wykazaną własnością yi < yˆ i − yˆ i ) = − ∑ (yi − yˆ i ) yi < yˆ i i − yˆ i ) = − ∑ (yˆ i − yi ) cbdu yi < yˆ i 15 (23-6.2) WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 24. RACHUNEK PRAWDOPODOBIEŃSTWA 24.1. Prawa de Morgana 24.1.1. Zdarzenie przeciwne do sumy zdarzeń – 1 prawo de Morgana Zdarzenie przeciwne do sumy zdarzeń jest równe iloczynowi zdarzeń przeciwnych (A ∪ B)' = A ' ∩ B' Dowód (24-1.1) Na podstawie definicji zbiorów równych, wystarczy udowodnić równowaŜność: x ∈ (A ∪ B)' ⇔ x ∈ A ' ∩ B' Weźmy dowolne zdarzenie elementarne x: x ∈ (A ∪ B)' ⇔ x ∉ (A ∪ B) ⇔∼ (x ∈ (A ∪ B) ⇔∼ (x ∈ A ∨ x ∈ ∩B) ⇔∼ (x ∈ A)∧ ∼ (x ∈ B) ⇔ ⇔ (x ∉ A) ∧ (x ∉ B) ⇔ x ∈ A ' ∧ x ∈ B' ⇔ x ∈ (A ' ∩ B' ) cbdu 24.1.2. Zdarzenie przeciwne do iloczynu zdarzeń – 2 prawo de Morgana Zdarzenie przeciwne do iloczynu zdarzeń jest równe sumie zdarzeń przeciwnych (A ∩ B)' = A ' ∪ B' Dowód (24-1.2) Na podstawie definicji zbiorów równych, wystarczy udowodnić równowaŜność: x ∈ (A ∩ B)' ⇔ x ∈ A ' ∪ B' Weźmy dowolne zdarzenie elementarne x: x ∈ (A ∩ B)' ⇔ x ∉ (A ∩ B) ⇔∼ (x ∈ A ∩ B) ⇔∼ (x ∈ A ∧ x ∈ B) ⇔∼ (x ∈ A)∨ ∼ x ∈ B) ⇔ ⇔ x ∉ A ∨ x ∉ B ⇔ x ∈ A ' ∨ x ∈ B' ⇔ x ∈ (A ' ∪ B' ) 24.2. Własności prawdopodobieństwa 24.2.1. Prawdopodobieństwo zdarzenia niemoŜliwego Prawdopodobieństwo zdarzenia niemoŜliwego jest równe zeru P(∅) = 0 Dowód ∅∪A = A P(∅ ∪ A) = P(A) P(∅ ) + P(A) = P(A) zgodnie z aksjomatyczną definicją prawdopodobieństwa i uwzględnieniem, Ŝe ∅ ∩ A = ∅ P(∅ ) = P(A) − P(A) P(∅ ) = 0 cbdu 16 (24-2.1) PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 24.2.2. Monotoniczność prawdopodobieństwa JeŜeli zdarzenie A pociąga zdarzenie B, to prawdopodobieństwo zdarzenia A jest nie większe niŜ prawdopodobieństwo zdarzenia B A ⊂ B ⇒ P(A) ≤ P(B) (24-2.2) Dowód A ∪ (B − A) = B P [ A ∪ (B − A) ] = P(B) P(A) + P(B − A) = P(B) zgodnie z aksjomatyczną definicją prawdopodobieństwa i uwzględnieniem, Ŝe A ∩ (B − A) = ∅ P(A) = P(B) − P(B − A) P(A) ≤ P(B) bo P(B − A) ≥ 0 zgodnie z aksjomatyczną definicją prawdopodobieństwa cbdu 24.2.3. Prawdopodobieństwo sumy dwóch zdarzeń Wykazać, Ŝe prawdopodobieństwo sumy dwóch zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń zmniejszonej o prawdopodobieństwo ich iloczynu (24-2.3) P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Dowód 1) B = {[B − (A ∩ B)] ∪ (A ∩ B)} = [(B − A) ∪ (A ∩ B)] P(B) = P {[B − (A ∩ B)] ∪ (A ∩ B)} = P[(B − A) ∪ (A ∩ B)] P(B) = P(B − A) + P(A ∩ B) poniewaŜ zdarzenia B-A oraz (A∩B) wzajemnie się wykluczają P(B − A) = P(B) − P(A ∩ B) 2) A ∪ B = A ∪ (B − A) P(A ∪ B) = P[A ∪ (B − A)] P(A ∪ B) = P(A) + P(B − A) poniewaŜ zdarzenia A oraz (B-A) wzajemnie się wykluczają P(B − A) = P(A ∪ B) − P(A) 3) P(B) − P(A ∩ B) = P(A ∪ B) − P(A) z porównania wyników w 1) i 2) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) cbdu 24.2.4. Prawdopodobieństwo zdarzenia przeciwnego Wykazać, Ŝe prawdopodobieństwa zdarzenia przeciwnego A ' jest równe róŜnicy 1 i prawdopodobieństwa zdarzenia A P(A ' ) = 1 − P(A) (24-2.4) Dowód A ∪ A' = Ω P(A ∪ A ' ) = P(Ω) P(A) + P(A ' ) = P(Ω) zgodnie z ' i z uwzględnieniem, Ŝe A ∩ A = ∅ aksjomatyczną definicją prawdopodobieństwa P(A) + P(A ' ) = 1 bo P(Ω) = 1 zgodnie z aksjomatyczną definicją prawdopodobieństwa cbdu 17 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 24.2.5. NiezaleŜność zdarzeń przeciwnych Wykazać, Ŝe jeŜeli zdarzenia A1 i A2 są niezaleŜne, to a) A1 i A '2 są parami zdarzeń niezaleŜnych. b) A1' i A2 c) A1' i A '2 Dowód a) Uwzględniając, Ŝe zdarzenie przeciwne A '2 = Ω – A2 oraz korzystając z prawa rozdzielności mnoŜenia ∩ względem odejmowania 1 - otrzymuje się P(A1∩ A '2 ) = P(A1 ∩ (Ω – A2)) = P((A1 ∩ Ω) – (A1∩ A2)) = P(A1 – (A1∩ A2)). PoniewaŜ A1∩ A2 ⊂ A2 to P(A1 – (A1∩ A2)) = P(A1) – P(A1∩ A2) 2 oraz P(A1∩ A '2 ) = P(A1) – P(A1∩ A2) zdarzenia A1 i A2 są z załoŜenia niezaleŜne, czyli P(A1∩A2) = P(A1)·P(A2). Zatem uwzględniając, Ŝe dla zdarzenia przeciwnego P( A '2 ) = 1 – P(A2) otrzymuje się P(A1∩ A '2 ) = P(A1) – P(A1) * P(A2) = P(A1) (1 – P(A2)) = P(A1) * P( A '2 ) b) Z a) wynika, Ŝe A1' i (A '2 ) ' są niezaleŜne, czyli A1' i A2 takŜe są niezaleŜne. c) A1, A2 niezaleŜne ⇒ A1 i A '2 niezaleŜne ⇒ A1' i A2 niezaleŜne ⇒ A1' i A '2 niezaleŜne. cbdu 24.3. Prawdopodobieństwo całkowite JeŜeli zdarzenia A1, A2,..., Ak o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, to dla dowolnego zdarzenia B zachodzi wzór P(B) = P(A1)P(B/A1) + P(A2)P(B/A2) + … + P(Ak)P(B/Ak)= k ∑ P(B / A ) ⋅ P(A ) (24-3.1) i i i =1 Dowód B = B ∩ Ω = B ∩ (A1 ∪ A 2 ∪ ... ∪ A k ) = (B ∩ A1 ) ∪ (B ∩ A 2 ) ∪ ... ∪ (B ∩ A k ) k P(B) = P(B ∩ A1 ) + P(B ∩ A 2 ) + ... + P(B ∩ A k ) = ∑ P(B ∩ A i ) bo zdarzenia wzajemnie I =1 wykluczają się k P(B) = ∑ P(B / A i ) ⋅ P(A i ) wykorzystanie wzoru na prawdopodobieństwo iloczynu zdarzeń i =1 cbdu 24.4. Wzór Bayesa Wykazać, Ŝe jeŜeli zdarzenia A1,A2,...,Ak o dodatnich prawdopodobieństwach wykluczają się parami i suma ich jest zdarzeniem pewnym, zaś B jest dowolnym zdarzeniem o dodatnim prawdopodobieństwie, to zachodzi wzór 1 2 A ∩ (B \ C) = (A ∩ B) \ (A ∩ C) JeŜeli A ⊂ B to zdarzenie B moŜna przedstawić jako wynik operacji B = A ∪ (B – A), której prawdziwość wynika bezpośrednio z ilustracji graficznej przypadku A ⊂ B, zatem P(B) = P(A ∪ (B – A)). Z ilustracji tej wynika takŜe, Ŝe składniki tej sumy są rozłączne, czego konsekwencją jest, Ŝe prawdopodobieństwo sumy zdarzeń jest równe sumie prawdopodobieństw P(B) = P(A) + P(B – A) 18 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE P(A j / B) = P(A i ) ⋅ P(B / A i ) k ∑ P(B / Ai ) ⋅ P(Ai ) dla j=1, ... , k (24-3.2) i =1 Dowód P(A j / B) = P(A j / B) = P(A j ∩ B) P(B) P(A j ∩ B) P(B) z definicji prawdopodobieństwa warunkowego = P(A i ) ⋅ P(B / A i ) k ∑ P(B / A ) ⋅ P(A ) i wykorzystanie wzoru na prawdopodobieństwo i i =1 całkowite (24-3.1) cbdu 24.5. Własności wartości oczekiwanej i wariancji 24.5.1. Wartość oczekiwana i wariancja iloczynu stałej i zmiennej losowej – jednorodność Wykazać, Ŝe E(aX) = aEX 2 2 (24-5.1) 2 D (aX) = a D X (24-5.2) gdzie a – stała Dowód Rozpatrzmy zmienna losową ciągłą. Ze wzoru na wartość oczekiwaną funkcji zmiennej losowej ∞ E(aX) = ∞ ∫ a ⋅ x ⋅ f (x)dx = a ∫ x ⋅ f (x)dx = a ⋅ EX −∞ ∞ D 2 (aX) = 2 ∫ [a ⋅ x − EaX] ⋅ f (x)dx = −∞ −∞ ∞ 2 ∫ [a ⋅ x − aEX] ⋅ f (x)dx = −∞ ∞ ∫ [a(x − EX)] 2 ⋅ f (x)dx = −∞ ∞ = a 2 ∫ (x − EX) 2 ⋅ f (x)dx = a 2 ⋅ D 2 X −∞ cbdu W analogiczny sposób przebiega dowód dla zmiennej losowej skokowej. Przy okazji udowadnia się, Ŝe dla dowolnej stałej Ec=c 2 (24-5.3) D c=0 (24-5.4) W dowodzie przyjmuje się najpierw, Ŝe stała c jest realizacją dyskretnej zmiennej losowej o rozkładzie jednopunktowym w punkcie c, zwanym takŜe rozkładem Diraca, dla którego funkcja prawdopodobieństwa jest równa P(X=c)=1, czyli P(X≠c)=0. Zatem Ec = EX = ∑ P(X = x i ) ⋅ x i = P(X = c) ⋅ c = 1 ⋅ c = c i D c= D X = ∑ P(X = x i ) ⋅ [x i − EX]2 = P(X = c) ⋅ (c −c) = 1 ⋅ 0 = 0 cbdu 2 2 i 19 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 24.5.2. Wartość oczekiwana sumy zmiennych losowych - addytywność Wykazać, Ŝe jeśli X i Y są zmiennymi losowymi o wartościach oczekiwanych EX i EY wówczas wartość oczekiwana sumy X + Y jest równa sumie ich wartości oczekiwanych E(X + Y) = EX +EY (24-5.5) Dowód Dowód opiera się o określenie wartości oczekiwanej funkcji zmiennej losowej h(X,Y): • zmienne ciągłe ∞ ∞ E[h(X, Y)] = ∫ ∫ h(x, y) ⋅ f (x, y)dxdy (24-5.6) −∞ −∞ • zmienne skokowe E[h(X, Y)] = ∑ i ∑ h(x , y ) ⋅p(x , y ) i j i (24-5.7) j j E(X+Y) moŜna zapisać w przypadku zmiennych skokowych, opierając się o określenie (24-5.7) E(X + Y) = ∑ ∑ (x i + y j ) ⋅ p(x i , y j ) i j Grupując odpowiednio składniki sumy w powyŜszym wzorze dostajemy E(X + Y) = ∑ x i ∑ p(x i , y j ) + ∑ y j ∑ p(x i , y j ) = i j j i = ∑ x i ⋅ p1 (x i ) + ∑ y j ⋅ p 2 (y j ) = E(X) + E(Y) i j gdzie p1 (x i ) i p 2 (y j ) są rozkładami brzegowymi odpowiednio zmiennej X i Y, cbdu. W sposób analogiczny uzasadnia się słuszność (24-5.5) w przypadku zmiennych ciągłych. Przekształcenia są podobne, tyle Ŝe zamiast sum występują całki, a zamiast funkcji prawdopodobieństwa, funkcja gęstości. 24.5.3. Wartość oczekiwana iloczynu zmiennych losowych Wykazać, Ŝe jeśli X i Y są niezaleŜnymi zmiennymi losowymi o wartościach oczekiwanych EX i EY wówczas wartość oczekiwana ich iloczynu jest równa iloczynowi ich wartości oczekiwanych (24-5.8) E(X ⋅ Y) = EX ⋅ EY Dowód Słuszność powyŜszego wzoru wykaŜemy na przykładzie zmiennych ciągłych. Wychodząc z określenia (24-5.6), mamy w naszym przypadku ∞ ∞ E(X ⋅ Y)] = ∫∫ ∞ ∞ x ⋅ y ⋅ f (x, y)dxdy = −∞ −∞ ∞ = ∫ −∞ ∫ ∫ x ⋅ y ⋅ f (x) ⋅ f (y)dxdy = 1 2 −∞ −∞ ∞ x ⋅ f1 (x) ⋅ dx ∫ y ⋅ f 2 (y) ⋅ dy =EX ⋅ EY −∞ cbdu Analogicznie moŜna wykazać poprawność wzoru (24-123.1) w przypadku zmiennych skokowych. 20 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 24.5.4. Wariancja sumy niezaleŜnych zmiennych losowych Wykazać, Ŝe jeŜeli zmienne losowe są niezaleŜne, to wariancja ich sumy jest równa sumie ich wariancji (24-5.9) D 2 (X + Y) = D 2 X + D 2 Y Dowód W dowodzie skorzystamy z zaleŜności D 2 X = EX 2 − (EX) 2 której prawdziwość wykazuje się następująco (24-5.10) D 2 X = E(X − EX)2 = E[X 2 − 2X ⋅ EX + (EX)2 ] = EX 2 − 2(EX)2 + (EX) 2 = EX 2 − (EX)2 Podstawiając we wzorze (24-5.10) pod X sumę X+Y oraz uwzględniając, Ŝe wartość oczekiwana sumy zmiennych równa jest sumie wartości oczekiwanych (24-5.5) otrzymuje się D 2 (X + Y) = E(X + Y) 2 − [E(X + Y)]2 = E(X + Y)2 − (EX + EY)2 A oto dalsze przekształcenia D 2 (X + Y) = E(X + Y)2 − (EX + EY)2 = = E(X) 2 + 2E(X ⋅ Y) + E(Y)2 − (EX) 2 − 2EXEY − (EY)2 Dla niezaleŜnych zmiennych losowych E(X ⋅ Y) = EX ⋅ EY - patrz (24-5.8) – zatem D 2 (X + Y) = E(X) 2 − (EX)2 + E(Y)2 − (EY) 2 Korzystając z (24-5.10) otrzymujemy D 2 (X + Y) = D 2 X + D 2 Y cbdu 24.5.5. Parametry rozkładu standaryzowanej zmiennej losowej Wykazać, Ŝe jeŜeli zmienna losowa X ma wartość oczekiwaną EX=m i odchylenie standardowe DX=σ > 0 , to zmienna standaryzowana Y X−m Y= σ ma wartość oczekiwaną równą zeru i odchylenie standardowe równe jeden EY=0, DY=1 (24-5.11) Dowód Wartość oczekiwana zmiennej Y jest równa 1 1 X−m 1 EY = E = E(X − m) = (EX − m) = ⋅ (m − m) = 0 σ σ σ σ Wariancja zmiennej Y jest równa 2 1 1 X−m 2 2 2 2 D Y = E(Y − 0) = EY = E = 2 E(X − 2mX + m ) = 2 (EX − m ) σ σ σ Ale m to przecieŜ EX, a σ2 to D2X - czyli ostatecznie 2 2 D2 Y = 2 1 1 1 EX 2 − (EX) 2 ) = 2 D 2 X = 2 D 2 X = 1 cbdu 2 ( σ σ D X 21 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 24.6. Parametry wybranych rozkładów 24.6.1. Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie dwumianowym Wartość oczekiwana zmiennej losowej X n podlegającej rozkładowi dwumianowemu n P(X n = k) = p k q n −k z parametrem p jest równa EX n = np k WykaŜemy to najpierw korzystając z definicji wartości oczekiwanej n n n EX n = ∑ k ⋅ P(X n = k) = ∑ k p k q n −k k =0 k =0 k n n! Uwzględniając, Ŝe = otrzymujemy k k!(n − k)! n EX n = ∑ k k =0 n! p k q n −k k!(n − k)! k Uwzględniając, Ŝe n!=n(n-1)! oraz p = p ⋅ p k −1 otrzymujemy n k(n − 1)! n (n − 1)! EX n = np ∑ p k −1q n − k = np ∑ p k −1q n −k k!(n k)! (n k)!(k 1)! − − − k =0 k =0 Podstawmy k-1 = r n −1 (n − 1)! (n − 1)! p k −1q n −k = np ∑ p r q n −r −1 (n k)!(k 1)! (n r 1)!(r)! − − − − k =0 r =0 n − 1 (n − 1)! Ale = czyli (n − r − 1)!(r)! r n −1 n − 1 r n − r −1 EX n = np ∑ p q r =0 r n EX n = np ∑ (*) n −1 n − 1 Dla obliczenia ∑ p r q n −r −1 podstawmy m=n-1, otrzymamy wtedy r =0 r n −1 n − 1 m m r n − r −1 r m −r p q = ∑ ∑ p q r =0 r r =0 r n n Zgodnie ze wzorem Newtona (x + y)n = ∑ x n −k y k otrzymujemy k =0 k m m r m −r = (p + q)m ∑ p q r =0 r n −1 n − 1 Ale p + q =1, czyli ∑ p r q n −r −1 = 1 r =0 r Wykorzystując powyŜszy wynik w (*) mamy ostatecznie EX n = np cbdu PowyŜszą równość moŜna udowodnić w prostszy sposób uwzględniając, Ŝe zmienna losowa o rozkładzie dwumianowym Xn jest sumą n niezaleŜnych zmiennych losowych o rozkładzie dwupunktowym, których wartość oczekiwana jest równa p natomiast wariancja p(1-p). 22 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Uwzględniając, Ŝe wartość oczekiwana sumy X + Y jest równa sumie ich wartości oczekiwanych (24.5.5) otrzymujemy EX n = np . Korzystając z własności wariancji: zmienne losowe są niezaleŜne, to wariancja ich sumy jest równa sumie ich wariancji (24.5.9) otrzymujemy, Ŝe D 2 X n = np(1 − p) 24.6.2. Wartość oczekiwana rozkładu równomiernego Dla przykładowej gęstości rozkładu normalnego, przedstawionej na poniŜszym rysunku f(x) 1 b−a a b x x Wartość oczekiwana jest równa średniej arytmetycznej końców przedziału x = a+b 2 Intuicyjnie wartość oczekiwana „leŜy” pośrodku odcinka [a,b], jego połowa jest równa Zatem b−a . 2 b − a 2a + b − a a + b = = 2 2 2 Wartość oczekiwaną moŜemy obliczyć korzystając z jej definicji b 1 1 x2 b 1 b 2 − a 2 (b − a)(b + a) a + b EX = ∫ x dx = = = = b−a 2 a b−a 2 2(b − a) 2 a b−a x=a+ 2 2 2 Wariancję obliczymy z zaleŜności D X = EX − (EX) korzystając z obliczonej EX b 1 1 b 2 1 x 3 b b3 − a 3 (b − a)(a 2 + 2ab + b 2 ) a 2 + 2ab + b 2 EX 2 = ∫ x 2 dx = x dx = = = = ∫ b−a b−a a b − a 3 a 3(b − a) 3(b − a) 3 a Zatem D2X = 2 a 2 + 2ab + b 2 a + b 4a 2 + 8ab + 4b 2 − 3a 2 − 6ab − 3b 2 a 2 + 2ab + b 2 (a + b) 2 − = = = 3 12 12 12 2 24.6.3. Współczynniki asymetrii i spłaszczenia rozkładu normalnego WykaŜemy najpierw, Ŝe współczynnik asymetrii rozkładu normalnego jest równy zeru E(X − m)3 γ= =0 σ3 W tym celu przedstawimy wzór na współczynnik w postaci E(X − m)3 E(X3 − 3X 2 m + 3Xm 2 − m3 ) EX3 − 3mEX 2 + 3m 2 EX − m3 γ= = = σ3 σ3 σ3 W przykładzie zamieszczonym w punkcie 24.2 obliczyliśmy juŜ m1 = EX = m x m 2 = EX 2 = m 2x + σ 2x σ = σx 23 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Zatem naleŜy jeszcze obliczyć moment trzeciego rzędu. W tym celu korzystając z wyników przykładu z punktu 24.2 wyznaczymy trzecią pochodną funkcji M X (t) d3 d M X (t) = [a(t)b 2 (t) + a(t)σ x2 ] = a '(t)b 2 (t) + a(t)2b(t)b '(t) + a '(t)σ2x 3 dt dt Wykorzystując wartości pochodnych a’(t)=a(t)b(t) i b’(t)= σ 2x otrzymujemy d3 M X (t) = a(t)b3 (t) + 2a(t)b(t)σ 2x + a(t)b(t)σ2x = a(t)b3 (t) + 3a(t)b(t)σ2x dt 3 Czyli uwzględniając, Ŝe a(0)=1 b(0)=mx d3 m 3 = EX 3 = 3 M X (t) t =o = a(0)b3 (0) + 3a(0)b(0)σ x2 = m3x + 3m x σ2x dt Zatem współczynnik asymetrii rozkładu normalnego jest równy m3x + 3m x σ2x − 3m x (m 2x + σ2x ) + 3m x 2 m x − m x 3 0 = 0 cbdu σ3x W drugiej kolejności wykaŜemy, Ŝe współczynnik spłaszczenia rozkładu normalnego zmiennej losowej jest równy zeru E(X − m) 4 kurt = − 3 =0 σ4 W tym celu obliczmy najpierw wartość sumy E(X − m) 4 E(X − m)(X − m)3 E(X − m)(X 3 − 3X 2 m + 3Xm 2 − m3 ) = = = σ4 σ4 σ4 γ= = σ3x = E(X 4 − 3X3m + 3X 2 m 2 − Xm3 − X 3m + 3X 2 m 2 − 3Xm3 + m 4 ) = σ4 E(X 4 − 4X3m + 6X 2 m 2 − 4Xm3 + m 4 ) EX 4 − 4mEX3 + 6m 2 EX 2 − 4m3EX + Em4 = = σ4 σ4 Do obliczenia tego współczynnika brakuje tylko momentu czwartego rzędu. W tym celu korzystając z obliczonego powyŜej momentu trzeciego rzędu wyznaczymy czwartą pochodną funkcji M X (t) d2 d M X (t) = [a(t)b3 (t) + 3a(t)b(t)σ x2 ] = a '(t)b3 (t) + a(t)3b 2 (t)b '(t) + 3a '(t)b(t)σ 2x + 3a(t)b '(t)σ x2 2 dt dt Wykorzystując wartości pochodnych a’(t) i b’(t) otrzymujemy d2 M X (t) = a(t)b 4 (t) + a(t)3b 2 (t)σ 2x + 3a(t)b 2 (t)σ2x + 3a(t)σ4x dt 2 Czyli m 4 = EX 4 = d4 M X (t) t =o = a(0)b 4 (0) + a(0)3b 2 (0)σ x2 + 3a(0)b 2 (0)σ 2x + 3a(0)σ 4x = 4 dt = m4x + 6m 2x σ2x + 3σ4x 24 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Zatem wartość sumy jest równa kurt = = EX 4 − 4mEX 3 + 6m 2 EX 2 − 4m3EX + Em 4 = σ4 m 4x + 6m 2x σ 2x + 3σ4x − 4m x (m3x + 3m x σ2x ) + 6m 2x (m 2x + σ2x ) − 4m3x m x + m 4x σ4 m 4x + 6m 2x σ 2x + 3σ4x − 4m 4x − 12m 2x σ2x + 6m 4x + 6m 2x σ2x − 4m 4x + m 4x = 3σ 4x =3 σ4 σ4x Uwzględniając otrzymany wynik w definicji współczynnika spłaszczenia dla rozkładu normalnego mamy E(X − m)4 kurt = − 3 =3-3=0 cbdu σ4 = = 24.7. Rozkłady przykładowych funkcji zmiennych losowych 24.7.1. Rozkład zmiennej losowej będącej liniowym przekształceniem zmiennej losowej o rozkładzie normalnym Wykazać, Ŝe jeŜeli zmienna losowa X ma rozkład normalny X: N(mx, σx) to zmienna losowa Y = aX + b ma takŜe rozkład normalny: X: N(amx+b, a σx) X : N(m x , σ x ) ⇒ Y = aX + b : N(am x + b, a σ x ) (24-7.1) Dowód 1. Obliczymy funkcję tworzącą momenty (24-2.1) dla zmiennej X o rozkładzie normalnym N(mx, σx) ∞ M X (t) = ∫ e tx −∞ − 1 e 2Πσ x (x − m x ) 2 2σ2x ∞ tx − 1 dx = ∫e 2Πσ x −∞ (x − m x ) 2 2σ 2x dx Wprowadźmy nową zmienną: v= x − mx σx skąd x = vσx+ mx oraz dx = dvσx Zatem v2 v2 tm x ∞ tvσ − ∞ t(vσ x + m x ) − x σx 2 dv = e 2 dv M X (t) = ∫e ∫e 2Πσ x −∞ 2Π −∞ MoŜna łatwo sprawdzić, Ŝe wykładnik w wyraŜeniu podcałkowym moŜna zapisać w postaci: v2 1 2 2 1 tvσ x − = t σ x − (v − tσ x ) 2 2 2 2 Zatem tm ∞ e M X (t) = ∫ 2Π −∞ t 2 σ2x (v − tσ x ) 2 − 2 e 2 dv 25 = e tm x + t 2σ x2 2 ∞ 2Π ∫e −∞ − (v − tσ x ) 2 2 dv WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Wprowadźmy nową zmienną a = v – tσx, przy której dv= da. Zatem M X (t) = e tm x + t 2σ 2x 2 ∞ ∫e 2Π ∫e − a2 2 da a2 2 da −∞ PoniewaŜ moŜna udowodnić, Ŝe ∞ − = 2Π −∞ funkcja tworząca momenty dla zmiennej X o rozkładzie normalnym ma postać tm x + M X (t) = e Wykorzystując zaleŜność (24-2.3) otrzymujemy t 2 σ2x 2 (24-7.2) M Y (t) = M aX + b (t) = e bt M X (at) A po wykorzystaniu (24-15.2) mamy bt bt M Y (t) = M aX + b (t) = e M X (at) = e e atm x + a 2 t 2 σ2x 2 =e t (am x + b) e t 2 (a 2 σ2x ) 2 Porównując postać MY(t) z MX(t) moŜna zauwaŜyć, Ŝe MY(t) jest funkcją tworzącą momenty zmiennej losowej Y = aX + b o rozkładzie: N(amx+b, a σx) a poniewaŜ funkcja tworząca momenty zmiennej losowej wyznacza jednoznacznie jej rozkład, więc rzeczywiście rozkład funkcji liniowej Y = aX +b zmiennej losowej X o rozkładzie normalnym jest rozkładem normalnym o w/w parametrach. cbdu Na podstawie powyŜszego twierdzenia moŜna łatwo udowodnić, Ŝe: X−m X : N(m, σ) ⇒ Y = : N(0,1) σ Dowód: X−m 1 m 1 m Y= = X + (− ) = a 'X + b ' gdzie: a ' = X oraz b ' = − σ σ σ σ σ m m 1 m y = a '⋅ m + b ' = − = 0 σ y = a ' σ = σ = 1 cbdu σ σ σ 24.7.2. Rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych Wykazać, Ŝe jeŜeli X i Y są niezaleŜnymi zmiennymi losowymi, przy czym X: N(mx, σx) i Y: N(my, σy) to ich suma Z = X + Y ma rozkład N(mx+my, σ2x + σ2y ). X : N(m x , σ x ) Y : N(m y , σ y ), f3 (x, y) = f1 (x) ⋅ f 2 (y) ⇒ X + Y : N(m x + m y , σ2x + σ2y ) (24-7.3) Dowód Uwzględniając postać funkcji tworzącej momenty zmiennej losowej o rozkładzie normalnym (24-7.2) i jej własność (24-2.4) obliczymy funkcję tworzącą zmiennej losowej będącą sumą niezaleŜnych zmiennych losowych o rozkładach normalnych M X + Y (t) = e tm x + t 2 σ2 t 2σ 2x tm y + y 2 e 2 26 =e t(m x + m y ) t 2 ( σ2x +σ 2y ) e 2 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Porównując postać MX+Y(t) z MX(t) moŜna zauwaŜyć, Ŝe MX+Y(t) jest funkcją tworzącą momenty zmiennej losowej N(mx+my, σ 2x + σ2y ) , a poniewaŜ tworząca momenty zmiennej losowej o danym rozkładzie wyznacza jednoznacznie rozkład tej zmiennej więc rzeczywiście rozkład sumy niezaleŜnych zmiennych losowych o rozkładach normalnych jest rozkładem normalnym N(mx+my, σ 2x + σ2y ) . cbdu Własność powyŜszą często nazywa się własnością addytywności rozkładu normalnego. Rozkład normalny ma takŜe inną ciekawą własność: JeŜeli Z = X + Y, przy czym: • zmienna Z ma rozkład normalny • zmienne X i Y są niezaleŜne to kaŜda ze zmiennych X i Y musi mieć rozkład normalny. Własność tą określa twierdzenie Cramera, które moŜna wypowiedzieć takŜe w sposób następujący: Jeśli suma dwóch zmiennych losowych niezaleŜnych ma rozkład normalny, to kaŜda zmienna losowa będąca składnikiem sumy ma teŜ rozkład normalny. 24.8. Analiza korelacji i regresji 24.8.1. Własności współczynnika korelacji 1) Współczynnik korelacji spełnia podwójną nierówność: −1 ≤ ρ ≤ 1 (24-8.1) 2) Warunkiem koniecznym i wystarczającym na to, aby P(Y = a ⋅ X + b) = 1 gdzie a ≠ 0 (24-8.2) jest ρ2 = 1 (24-8.3) co moŜna zapisać w postaci ρ2 = 1 ⇔ P(Y = a ⋅ X + b) = 1 gdzie a ≠ 0 (24-8.4) Dowód Ad 1) Podstawą jest zmienna losowa Z(t) = [t ⋅ (X − m x ) (Y − m y ) 2 + ] σx σy (24-8.5) gdzie t dowolna stała Obliczamy jej wartość oczekiwaną korzystając z (24-8.5) t2 1 1 EZ(t) = 2 E(X − m x )2 + 2 E(Y − m y ) 2 + 2t E (X − m x )(Y − m y ) = σx σy σx σy t2 2 1 2 1 = 2 σ x + 2 σ y + 2t µ11 = t 2 + 1 + 2tρ σx σy σx σy (24-8.6) Z przyjmuje tylko wartości nieujemne (funkcja kwadratowa), stąd jej wartość oczekiwana przyjmuje takŜe tylko nieujemne wartości t 2 + 1 + 2tρ ≥ 0 (24-8.7) 27 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Aby warunek ten zachodził dla dowolnego t musi być ρ2 − 1 ≤ 0 (jest to warunek na to, aby dla równania (24-8.6) ∆ = b 2 − 4ac = 4ρ2 − 4 = 4(ρ2 − 1) ≤ 0 ), z czego bezpośrednio wynika (24-8.1) cbdu Ad 2) ZałóŜmy, ze warunek (24-8.3) jest spełniony. Wtedy m y = EY = E(a ⋅ X + b) = a ⋅ m x µ11 = E(X − m x )(Y − m y ) = E[(X − m x )(aX + b − am x − b)] = E[(X − m x )(aX − am x )] = = a ⋅ E[(X − m x )(X − m x )] = a ⋅ E[(X − m x )2 ] = a ⋅ σ 2x σ2y = E(Y − m y ) 2 = E(aX + b − m y ) 2 = E(aX + b − am x − b) 2 = E(aX − am x )2 = a 2 E(X − m x ) 2 = a 2 σ2x Uwzględniając w definicji współczynnika korelacji powyŜsze wyniki otrzymujemy, Ŝe jego kwadrat jest równy µ2 σ2 σ2 ρ2 = 2 11 2 = a 2 2x = a 2 2 x 2 = 1 σx σy σy a σx co naleŜało wykazać. WykaŜemy teraz, Ŝe z załoŜenia (24-8.3) wynika (24-18.2). PowyŜej udowodniono, Ŝe wartość oczekiwana zmiennej losowej Z(t) określonej (24-8.5) jest równa EZ(t) = t 2 + 2tρ + 1 WyróŜnik trójmianu kwadratowego t 2 + 2tρ + 1 jest określony zaleŜnością ∆ = 4(ρ2 − 1) i przy załoŜeniu (24-8.3) przyjmuje wartość 0. Więc trójmian ma jedno miejsce zerowe równe t0 = − Dla tego miejsca zerowego b 2ρ =− = −ρ 2a 2 EZ(−ρ) = 0 czyli zmienna losowa Z(t) ma rozkład zero-jedynkowy, a wartość –ρ występuje z prawdopodobieństwem 1. JeŜeli EZ(−ρ) = 0 to takŜe Z(−ρ) = 0 . RozwiąŜemy teraz równanie Uwzględniając (24-8.5) otrzymujemy [−ρ ⋅ (X − m x ) (Y − m y ) 2 + ] =0 σx σy i w konsekwencji (X − m x ) (Y − m y ) + =0 σx σy RozwiąŜemy to równanie względem Y (Y − m y ) (X − m x ) = ρ⋅ σy σx −ρ⋅ Y − my = σy σx ρ ⋅ (X − m x ) 28 Z(−ρ) = 0 . PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Y= σy σx ρ⋅X − σy σx ρ ⋅ mx + my (*) Wprowadzając oznaczenia a= σy σx ρ oraz b = − σy σx ρ ⋅ mx + my moŜemy zapisać (*) w postaci Y = a ⋅ X + b , która przy ρ2 = 1 występuje z prawdopodobieństwem równym 1. Zatem wykazaliśmy prawdziwość (24-8.4) cbdu Uwaga: PoniewaŜ ρ2 = 1 więc ρ = 1 lub ρ = -1. JeŜeli ρ = 1 to a = a= σy σx σy σx ρ >0 czyli zaleŜność Y = a ⋅ X + b jest rosnąca. JeŜeli ρ = -1 to ρ < 0 czyli zaleŜność Y = a ⋅ X + b jest malejąca. 24.8.2. Funkcja regresji drugiego rodzaju Wykazać, Ŝe funkcja Y = aX + b jest funkcją regresji 2 rodzaju, tzn. zapewnia minimum wyraŜenia F(a,b)= E[Y − (aX − b)]2 → min (24-8.11) jeŜeli jej współczynniki są równe σ σ â = ρ x oraz b̂ = m x − ρ x m y σy σy tzn. ma postać σ σ Y = ρ x X + mx − ρ x my (24-8.12) σy σy Dowód W dowodzie wykorzystamy dodatek 1. WyraŜenie będące podstawą wyznaczenia funkcji regresji moŜna przekształcić w sposób następujący [Y − (aX + b)]2 = [Y − (aX + b) + (m y − m y + a ⋅ m x − a ⋅ m x )]2 = = [(Y − m y ) − a 2 (X − m x ) + (m y − a ⋅ m x − b)]2 Korzystając z (24-5.3) i (24-5.5) oraz wprowadzając znane oznaczenia otrzymujemy funkcję kryterium (24-8.11) w postaci F(a, b) = E(Y − m y ) 2 + a 2 E(X − m x )2 + (m y − a ⋅ m x − b) 2 − 2aE(X − m x )(Y − m y ) = = σ 2y + a 2 σ2x + (m y − a ⋅ m x − b)2 − 2aµ11 29 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Dla znalezienia minimum powyŜszego wyraŜenia obliczamy jego pochodne względem a i b oraz przyrównujemy je do zera otrzymując ∂F(a, b) ˆ − 2µ = 0 = 2aˆσ 2x − 2m x (m y − aˆ ⋅ m x − b) 11 ∂a (20-18.13) ∂F(a, b) ˆ =0 = −2(m y − aˆ ⋅ m x − b) ∂b Z drugiego równania otrzymujemy bˆ = m y − aˆ ⋅ m x (24-18.14) i wstawiamy do pierwszego równania 2aˆσ 2x − 2m x (m y − aˆ ⋅ m x − m y + aˆ ⋅ m x ) − 2µ11 = 2aˆσ2x − 2µ11 = 0 Stąd otrzymujmy, Ŝe pierwszy ze współczynników regresji jest równy µ (24-18.15) â = 112 σx Wstawiając (24-8.15) do (24-8.14) mamy zaleŜność do wyznaczenia drugiego współczynnika µ (24-18.16) b̂ = m y − 112 ⋅ m x σx Uwzględniając, Ŝe współczynnik korelacji jest równy µ ρ = 11 σx σ y otrzymujemy ostatecznie σ σ â = ρ x b̂ = m y − ρ x m x (24-18.17) σy σy Sprawdzimy teraz wykorzystując drugie pochodne, czy wyznaczone współczynniki minimalizują funkcję kryterium F(a, b) . ∂ 2 F(a, b) ∂ ∂F(a, b) ∂ = = [2aσ2x − 2m x (m y − a ⋅ m x − b) − 2µ11 ] = 2σ 2x + 2m 2x ∂a 2 ∂a ∂a ∂a 2 ∂ F(a, b) ∂ ∂F(a, b) ∂ = = [−2(m y − a ⋅ m x − b)] = 2m x ∂a∂b ∂a ∂b ∂a 2 ∂ F(a, b) ∂ ∂F(a, b) ∂ = = [−2(m y − a ⋅ m x − b)] = 2 ∂b 2 ∂b ∂b ∂b Wyznaczamy teraz wartość wyznacznika ∂2F ∂a 2 W= 2 ∂ F ∂a∂b ∂2F 2 2 ∂a∂b 2σ x + 2m x = 2m x ∂2F 2 ∂b 2m x 2 =2 m 2x + σ2x mx mx 1 = 2(m 2x + σ 2x − m 2x ) = 2σ2x > 0 ∂2F = 2σ2x + 2m 2x > 0 wykazaliśmy, Ŝe wyznaczone współczynniki regresji 2 ∂a zapewniają minimum wyraŜenia F(a,b)= E[Y − (aX − b)]2 cbdu PoniewaŜ 30 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 25. STATYSTYKA MATEMATYCZNA 25.1. Rozkłady wybranych statystyk 25.1.1. Rozkład średniej z próby o rozkładzie normalnym Średnia arytmetyczna niezaleŜnych elementów próby X n = rozkład X n : N(m, 1 n ∑ Xi gdy Xi: N(m,σ) ma n i =1 σ ) n X i : N ( m, σ ) ⇒ X n = σ 1 n X i : N(m, ) ∑ n i =1 n (25-1.1) Dowód Dowód przebiega podobnie jak dla twierdzenia (23-7.2) z rachunku prawdopodobieństwa. Wykorzystamy funkcję tworzącą momenty (23-2.1) Zgodnie z twierdzeniem (23-7.2) zmienna losowa n ∑X i ma rozkład N(n ⋅ m, n ⋅ σ) i zgodnie i =1 z (23-7.2) funkcja tworząca momenty ma postać: M n (t) = e ∑ Xi tnm + t 2 nσ 2 2 i=1 Zgodnie z (23-2.2) otrzymujemy MX n tm + t = M 1 n (t) = M n ( ) = e ∑ Xi n ∑ Xi n i =1 t 2σ 2 1 ⋅ 2 n i=1 Porównując otrzymany wynik z z funkcją tworzącą rozkładu normalnego (23-15.3) widać, Ŝe istotnie otrzymana funkcja tworząca zmiennej X n jest funkcją tworzącą rozkładu normalnego z wartością oczekiwana m i wariancją σ2 σ , co moŜna zapisać X n : N(m, ) cbdu n n 25.1.2. Rozkład unormowanej średniej cechy o rozkładzie normalnym W podpunkcie 6.2.6. podaliśmy definicję rozkładu Studenta z n stopniami swobody jako rozkładu zmiennej losowej X Tn = Yn /n gdzie X jest zmienną losową o rozkładzie normalnym N(0,1), Yn zmienną losową o rozkładzie χ 2 z n stopniami swobody, X i Yn są zmiennymi losowymi niezaleŜnymi. Jeśli cecha X populacji ma rozkład normalny N(m, σ) , to statystyka X -m Un = n n-1 Sn ma rozkład Studenta z n - 1 stopniami swobody. 31 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Rzeczywiście, zmienna losowa X n -m ma rozkład normalny N(0,1), zaś zmienna losowa σ/ n nS2n ma rozkład χ 2 z n-1 stopniami swobody oraz jak moŜna udowodnić obie zmienne σ2 losowe są niezaleŜne, więc statystyka X n -m nS2 : 2 n σ/ n σ (n-1) ma rozkład Studenta z n-1 stopniami swobody. Ale X -m σ n-1 X n -m Un = n n = n-1 σ Sn nSn Un = 25.1.3. Rozkład róŜnicy średnich niezaleŜnych cech o rozkładach normalnych Badane są dwie populacje: pierwsza ze względu na cechę X druga ze względu na cechę Y. Oznaczenia n1 - liczebność próby pobranej z pierwszej populacji X n1 - średnia z próby pobranej z pierwszej populacji S2n1 - wariancja z próby pobranej z pierwszej populacji n2 - liczebność próby pobranej z drugiej populacji Yn 2 - średnia z próby pobranej z drugiej populacji S2n 2 - wariancja z próby pobranej z drugiej populacji Jeśli cechy X i Y są niezaleŜne i mają rozkłady normalne odpowiednio N(m, σ1 ) i N(m, σ 2 ) , to statystyka X n1 -Yn 2 U n1n 2 = σ12 σ 22 + n1 n 2 ma rozkład normalny N(0,1). Twierdzenie to wynika z twierdzenia o rozkładzie róŜnicy zmiennych losowych niezaleŜnych o rozkładach normalnych. Jeśli cechy X i Y są niezaleŜne i mają jednakowe rozkłady normalne N(m, σ ), to statystyka X n1 -Yn2 n1 n 2 U n1n 2 = (n1 +n 2 -2) 2 2 n1Sn +n 2Sn n1 +n 2 1 2 ma rozkład Studenta z n1+n2-2 stopniami swobody. Rzeczywiście, statystyka X n1 ma rozkład normalny N m, statystyka Yn 2 ma rozkład normalny N m, σ n 2 σ n1 32 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 1 1 statystyka X n1 - Yn 2 ma rozkład normalny N 0,σ + n1 n 2 X n1 -Yn 2 n1n 2 więc statystyka ma rozkład normalny N(0,1) σ n1 +n 2 n1S2n1 ma rozkład χ 2 z n1-1stopniami swobody σ2 n 2 S2n 2 zaś statystyka ma rozkład χ 2 z n2-1stopniami swobody σ2 n1S2n1 +n 2 S2n 2 zatem statystyka ma rozkład χ 2 z n1 +n 2 -2 stopniami swobody 2 σ zatem zgodnie z definicją rozkładu Studenta, statystyka statystyka X n1 -Yn 2 σ n1S2n1 +n 2 S2n 2 n1 n 2 : 2 n1 +n 2 σ (n1 +n 2 -2) czyli statystyka X n1 -Yn 2 n1Sn21 +n 2 Sn2 2 n1 n 2 (n1 +n 2 -2) n1 +n 2 ma rozkład Studenta z n1 +n 2 -2 stopniami swobody. Jeśli cechy X i Y są niezaleŜne i mają dowolne rozkłady o tej samej wartości oczekiwanej m i o odchyleniach standardowych dodatnich (niekoniecznie równych), to statystyka X n1 -Yn2 U n1n 2 = S2n1 S2n 2 + n1 n 2 ma rozkład w przybliŜeniu normalny N(0,1) , dla duŜych n1 i n2. Rzeczywiście, na podstawie twierdzenia o rozkładzie asymptotycznym średniej z próby (ppkt σ 14.2.2) statystyki X n1 i Yn 2 mają rozkłady w przybliŜeniu normalne N m, 1 i n1 σ N m, 2 , n 2 więc statystyka X n1 -Yn 2 σ12 σ 22 + n1 n 2 ma rozkład w przybliŜeniu normalny N(0,1). Rozkład nadal pozostanie rozkładem w przybliŜeniu normalnym N(0,1), gdy wariancje populacji σ12 i σ22 zastąpimy wariacjami z próby S2n1 i S2n 2 . 33 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 25.1.4. Rozkład ilorazu wariancji z prób Wcześniej zdefiniowaliśmy rozkład Snedecora z parą stopni swobody (r1, r2) jako rozkład Y/r zmiennej losowej3 F= 1 , gdzie Y i Z są niezaleŜnymi zmiennymi losowymi o rozkładach Z/r2 χ 2 odpowiednio z r1 i r2 stopniami swobody. Jeśli cechy X i Y populacji mają rozkłady normalne odpowiednio N(m1, σ ) i N(m2, σ ) i są niezaleŜne, to statystyka U n1n 2 = n1Sn1 /(n1 -1) n 2Sn2 /(n 2 -1) , czyli statystyka U n1n 2 = Ŝ2n1 Ŝ2n 2 ma rozkład Snedecora o parze (n1 − 1, n 2 − 1) stopni swobody. Rzeczywiście statystyka n 2S2n 2 σ 2 n1S2n1 σ 2 ma rozkład χ 2 z n1 - 1stopniami swobody, zaś statystyka ma rozkład χ 2 z n2 – 1 stopniami swobody, zatem statystyka n1S2n1 σ2 n 2S2n 2 :(n1 -1) = :(n 2 -1) n1S2n1 /(n1 -1) n 2S2n 2 /(n 2 -1) σ2 ma rozkład Snedecora z parą (n1 – 1, n2 – 1) stopni swobody. 25.1.5. Rozkład wskaźnika struktury Oznaczenia Yn - zmienna losowa oznaczająca liczbę sukcesów w n doświadczeniach Bernoulliego4, p - prawdopodobieństwo sukcesu w jednym doświadczeniu, Yn - wskaźnik struktury (częstość sukcesu). n PoniewaŜ zmienna losowa Yn ma rozkład dwumianowy z parametrami n i p, więc zgodnie z integralnym tw. Moivre’a-Laplace’a ma ona rozkład asymptotycznie normalny Yn ma rozkład asymptotycznie normalny N np, np(1-p) , zatem częstość sukcesu n p(1-p) N p, , co zapiszemy w poniŜszej postaci. n ( ) Yn p(1-p) ma rozkład asymptotycznie normalny N p, , gdzie p jest n n prawdopodobieństwem sukcesu w jednym doświadczeniu. Częstość sukcesu 3 4 Patrz pkt 6.2.7. jw. ppkt 6.1.3. 34 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE 25.2. ObciąŜoność wariancji z próby Wykazać, Ŝe wariancja z próby S2n jest estymatorem obciąŜonym wariancji σ2 cechy populacji. (25-2.1) ES2n = σ 2 Dowód Obliczymy wartość oczekiwaną wariancji E(S2n ) . Korzystając z (23-6.1) S2n = 1 n 2 1 n Xi − ∑ Xi ∑ n i =1 n i =1 2 otrzymujemy E(S2n ) = 1 n 1 n 2 E(X ) − E Xi ∑ ∑ i n i =1 n i =1 2 Zmienne Xi (i=1,2,…,n) mają identyczne rozkłady, zatem E(X i2 ) przyjmuje taką samą wartość dla wszystkich i, wartość tą oznaczamy przez E(X2), czyli 1 n ∑ E(Xi2 ) =E(X 2 ) n i =1 Z kolei 2 1 n 2 1 1 n 1 1 n E ∑ X i = E 2 ∑ X i + 2 ∑ X jX k = 2 ∑ E(X i2 ) + 2 ∑ E(X j )E(X k ) n j,k n j,k n i =1 n i =1 n i =1 j≠ k j≠ k PoniewaŜ E(X j ) = E(X k ) = m dla j,k=1,2,…,n oraz uwzględniając oznaczenie E(X2). 2 1 1 n E ∑ Xi = 2 n n i =1 n 1 ∑ E(X ) + n ∑ m ⋅ m i =1 2 2 j,k j≠ k Liczba par (j,k) j,k=1,…,n jest równa n ⋅ n , a liczba par (j,k) w których j=k jest równa n. Zatem liczba par w drugiej z powyŜszych sum jest równa n ⋅ n - n = n ⋅ (n − 1) . Zatem 2 1 1 n 1 E ∑ X i = E(X 2 ) + 2 n(n − 1)m 2 n n i =1 n Zatem wartość oczekiwana wariancji z próby 1 n −1 2 1 n −1 2 E(S2n ) = E(X 2 ) − E(X 2 ) − m = E(X 2 )(1 − ) − m = n n n n n −1 n −1 2 n −1 E(X 2 ) − m 2 = E(X 2 ) − m = n n n 2 2 2 Ale E(X ) − m = σ , czyli ostatecznie n −1 2 E(S2n ) = σ n Otrzymany wynik wskazuje, ze wariancja z próby S2n jest obciąŜonym estymatorem wariancji σ2 gdyŜ E(S2n ) ≠ σ2 . Cbdu 35 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI 25.3. Wyznaczanie estymatorów metodą największej wiarogodności 25.3.1. Estymator parametru p rozkładu zero-jedynkowego Wykazać, Ŝe metodą największej wiarogodności na podstawie próby (x1 , x 2 ,..., x n ) której elementy xi są równe 0 lub 1, otrzymuje się estymator wartości parametru p rozkładu zerojedynkowego w postaci p̂ = 1 n ∑ xi = xn n i =1 (25-3.1) Dowód Funkcja prawdopodobieństwa rozkładu zero-jedynkowego ma postać dla x = 1 p P(X = x) = 1 − p dla x = 0 (25.3.2) Jeśli wystąpienie w próbie 1 oznacza sukces, to p jest częstością sukcesu. Niech kn oznacza liczbę 1 w próbie. Wtedy wzór (25-3.1) przyjmuje postać kn n Po uwzględnieniu (3.5.2) funkcja wiarogodności ma postać p̂ = (25-3.3) L(p) = P(X1 = x1 )...P(X n = x n ) = p k n (1 − p) n − k n Przy poszukiwaniu maksimum funkcji L(p) wygodniej posługiwać się logarytmem tej funkcji, gdyŜ funkcja L(p) przyjmuje maksimum w tym samym punkcie, co funkcja ln L(p), a na ogół łatwiej jest znaleźć maksimum lnL(p), aniŜeli maksimum L(p). Logarytm funkcji L(p) jest równy ln L(p) = k n ln p + (n − k n ) ln(1 − p) Po zróŜniczkowaniu względem parametru p otrzymujemy d ln L(p) k n − kn =− n + dp p 1− p Po przyrównaniu pochodnej do zera otrzymujemy − kn n − kn + =0 p 1− p Przekształcamy powyŜsze równanie kn n − kn = pˆ 1 − pˆ ˆ = (n − k n )pˆ k n (1 − p) k n − k n pˆ = npˆ − k n pˆ k n = npˆ Czyli ostatecznie p̂ = kn 1 n = ∑ xi = xn n n i =1 36 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Druga pochodna logarytmu funkcji wiarogodności jest równa k n − kn k n − kn d 2 ln L(p) d = [− n + ] = 2n + 2 dp dp p 1− p p (1 − p) 2 kn otrzymujemy n d 2 ln L(p) k n n − kn n 2k n n − kn n2 n2 = + = + = + = 2 2 k n (1 − k n ) 2 dp 2 k 2n kn n − kn n − kn n n2 n Podstawiając do powyŜszego równania p = 1 1 n3 2 n − kn + kn = n2 + = >0 =n k n (n − k n ) k n (n − k n ) kn n − kn Zatem wyznaczone p̂ zapewnia minimum funkcji wiarogodności. cbdu 25.3.2. Estymator parametru Θ rozkładu wykładniczego Wykazać, Ŝe metodą największej wiarogodności na podstawie próby (x1 , x 2 ,..., x n ) otrzymuje się estymator parametru Θ cechy X o rozkładzie wykładniczym w postaci ˆ = n = 1 (25-3.4) Θ n xn ∑ xi i =1 Dowód Uwzględniając, Ŝe gęstość rozkładu wykładniczego ma postać f (x) = Θe−Θx otrzymuje się funkcję wiarogodności w postaci n L(Θ) = f (x1 )...f (x n ) = Θe −Θx1 ...Θe −Θx n = Θn e Θ ∑ xi i=1 Przy poszukiwaniu maksimum funkcji L(Θ) wygodniej posługiwać się logarytmem tej funkcji, gdyŜ funkcja L(Θ) przyjmuje maksimum w tym samym punkcie, co funkcja ln L(Θ) , a na ogół łatwiej jest znaleźć maksimum ln L(Θ) , aniŜeli maksimum L(Θ) . Logarytm funkcji L(Θ) jest równy n ln L(Θ) = n ln Θ − Θ∑ x i i =1 Po zróŜniczkowaniu względem parametru p otrzymujemy d ln L(Θ) 1 n = n − ∑ xi dΘ Θ i =1 Po przyrównaniu pochodnej do zera otrzymujemy n 1 n − x i = 0 =0 ˆ ∑ Θ i =1 37 WYBRANE TWIERDZENIA WRAZ Z DOWODAMI Czyli ostatecznie ˆ = Θ n = n ∑x i 1 xn i =1 Druga pochodna funkcji wiarogodności jest równa d 2 ln L(Θ) 1 = −n 2 < 0 2 dΘ Θ Zatem wyznaczone Θ̂ zapewnia minimum funkcji wiarogodności. cbdu 25.3.3. Estymator parametru rozkładu Poissona Cecha populacji ma rozkład Poissona z parametrem λ. Wyznaczmy ENW tego parametru Rozwiązanie (x1, ... , xn) - realizacja próby. Funkcja wiarygodności rozkładu Poissona λ x1 - λ λ xn -λ λ x1 +...+x n -nλ e ⋅ ... ⋅ e = e x1 ! xn ! x1 ! ... x n ! PoniewaŜ funkcja L(λ) jest dodatnia, więc istnieje funkcja S(λ) = lnL(λ) i obie mają ekstrema w tych samych punktach, ale łatwiej je wyznaczyć dla funkcji S(λ) L(λ) = P(X1=x1, … , Xn=xn)= P(X1=x1) … P(Xn=xn) = S(λ)=(x1 + ... +x n )lnλ - nλ - ln(x1! ... x n!) 1 S'(λ) = nx n - n λ nx S''(λ) = - 2n < 0 λ 1 S'(λ)=0 ⇔ nx n -n=0 ⇔ λˆ =x n λ PoniewaŜ dla λ̂=x n mamy S' (λˆ )=0 oraz S'' (λˆ )<0 , więc funkcja S, a takŜe funkcja wiarygodności L ma maksimum w tym punkcie. Zatem ENW dla parametru λ rozkładu 1 n Poissona jest statystyka X n = ∑ X k n k=1 25.4. Wyznaczanie współczynników regresji metodą największej wiarogodności Wykazać, Ŝe metodą największej wiarogodności. gdy dla kaŜdego x cecha Y ma rozkład normalny N(ax+b,σ), tzn. gęstość zmiennej losowej przy ustalonej wartości x ma postać ( y − ax − b)2 1 2 f x (y) = e 2σ σ 2π uzyskuje się następujące współczynniki w równaniu regresji jednej zmiennej y = a ⋅ x + b s s â = r y b̂ = y n − r y x n (25-4.1) sx sx 38 PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE Dowód Funkcja wiarogodności ma postać: − 1 L(a, b) = e σ 2π ( y1 − ax − b) 2 2σ 2 − 1 ... e σ 2π ( y n − ax − b) 2 2σ 2 1 n n ( yi − ax − b) 2 1 − 2 σ2 ∑ i=1 = e σ 2π Przy poszukiwaniu maksimum funkcji L(a,b) wygodniej posługiwać się logarytmem tej funkcji, gdyŜ funkcja L(a,b) przyjmuje maksimum w tym samym punkcie, co funkcja ln L(a,b), a na ogół łatwiej jest znaleźć maksimum ln L(a,b), aniŜeli maksimum L(a,b). Logarytm funkcji L(a.b) jest równy 1 1 1 n + n ln − 2 ∑ (yi − ax i − b) 2 σ 2π 2σ i =1 Po obliczeniu pochodnych powyŜszego wyraŜenia względem a i b oraz przyrównaniu ich do zera otrzymujemy układ równań: ln L(a, b) = n ln n ∑ (y i ˆ ˆ i − b)x − ax i =0 i =1 n ∑ (y i (24-4.2) ˆ =0 ˆ i − b) − ax i =1 Jest to analogiczny układ równań jak (23-8.2), ma on więc analogiczne rozwiązania w postaci (25-4.1). cbdu 39