1 Kombinatoryka W tej serii zadań można znaleźć pojawiające się na egzaminach zadania dotyczące problemu wyznaczania prostych parametrów rozkładu w przypadku zgadnień kombinatorycznych. Zadania te wymagają podstawowej wiedzy kombinatorycznej oraz dyskretnych zmiennych losowych. 1. (Eg 48/4) W urnie znajduje się 16 kul, z których 8 jest białych i 8 czarnych. Losujemy bez zwracania 6 kul, a następnie 5 z pozostałych kul. Niech S2 oznacza liczbę kul białych uzyskaną w drugim losowaniu. Oblicz VarS2 . Odp: B-> 11 12 . Rozwiązanie. Stosujemy zmienne włączeniowe, Xi ∈ {0, 1}, i ∈ {1, 2, ..., 11}, gdzie Xi = 1 jeśli w P11 i-tym losowaniu wyciągnięto białą kulę i 0 w przeciwnym przypadku. Oczywiście S2 = i=7 Xi . 7 7 = 30 , Zachodzi EXi = P(Xi = 1) = 21 , i ∈ {1, 2, ..., 11} oraz EXi Xj = P(Xi = 1, Xj = 1) = 21 15 i 6= j, i, j ∈ {1, 2, ..., 12}. Zatem ES2 = 5 · 1 5 14 43 = 3, ES22 = 5P(X1 = 1) + 5 · 4P(X1 = 1, X2 = 1) = + = . 2 2 3 6 Czyli VarS22 14 − = 3 2 5 11 86 75 − = . = 2 12 12 12 2. (Eg 49/6) Dysponujemy dwiema urnami: A i B. W urnie A są 2 kule białe i 3 czarne, w urnie B są 4 kule białe i 1 czarna. Wykonujemy trzy etapowe losowanie: (a) losujemy urnę; (b) z wylosowanej urny ciągniemy 2 kule bez zwracania, a następnie wrzucamy do tej urny 2 kule białe i 2 czarne; (c) z urny, do której wrzuciliśmy kule, losujemy jedną kulę. Okazało się, że wylosowana w trzecim etapie kula jest biała. Obliczyć p-stwo, że w drugim wylosowano 2 kule tego samego koloru. Odp: C-> 0, 5. Rozwiązanie. Mamy drzewo prawdopodobieństw przejścia do poszczególnych stanów Stan1 (2, 3) (2, 3) (2, 3) (4, 1) (4, 1) P-p 1 2 1 2 1 2 1 2 1 2 Stan2 (2, 5) (3, 4) (4, 3) (4, 3) (5, 2) P-p 1 10 6 10 3 10 6 10 4 10 Stan3 biała biała biała biała biała P-p 2 7 3 7 4 7 4 7 5 7. Niech P(3, b) będzie prawdopodobieństwem uzyskania białej kuli w 3 losowaniu, P(3, b) = 1 1 2 1 6 3 1 3 4 1 6 4 1 4 5 76 · · + · · + · · + · · + · · = . 2 10 7 2 10 7 2 10 7 2 10 7 2 10 7 140 Z drugiej strony prawdopodobieństwo, że w drugim losowaniu pojawiły się kule biała i czarna, a w trzecim losowaniu biała P(2, (b, c); 3, b) wynosi P(2, (b, c); 3, b) = 1 6 3 1 4 5 38 · · + · · = . 2 10 7 2 10 7 140 Zatem P(2, (b, c)|3, b) = P(2, (b, c); 3, b)/P(3, b) = 38 76 · 12 . 1 3. (Eg 50/7) W urnie znajduje się 20 kul białych, 20 kul czarnych i 20 kul niebieskich. Losujemy bez zwracania 24 kule. Niech (a) X oznacza liczbę wylosowanych kul białych; (b) Y oznacza liczbę wylosowanych kul czarnych; (c) Z oznacza liczbę wylosowanych kul niebieskich. Współczynnik korelacji zmiennych losowych X + 2Y i Z, Corr(X + 2Y, Z) jest równy? √ Odp: B-> − 23 . Rozwiązanie. Przypomnijmy, że Corr(X + 2Y, Z) = √ Cov(X+2Y,Z) √ Var(X+2Y ) Var(Z) . Łatwo zauważyć, że Cov(X, Z) = Cov(Y, Z), Var(X) = Var(Y ) = Var(Z), zatem Cov(X + 2Y, Z) = Cov(X, Z) + 2Cov(Y, Z) = 3Cov(X, Z). Podobnie Var(X + 2Y ) = Cov(X + 2Y, X + 2Y ) = 5Var(X, X) + 4Cov(X, Y ). P24 Korzystamy zmiennych włączeniowych, żeby obliczyć Cov(X, Z). Niech X = i=1 1Xi =1 , gdzie Xi = 1 jeśli w i tym losowaniu pojawiła się biała kula. Analogicznie definiujemy Yi , Zi , i ∈ {1, 2, ..., 24}. Zachodzi EX = 24P(X1 = 1) = 24 = 8, 3 EX 2 = 24P(X1 = 1) + 24 · 23P(X1 = 1, X2 = 1) = 8 + 24 · 23 · 19 496 =8· . 3 · 59 59 Wreszcie 23 · 20 24 · 23 3 · 59 = 8 · . EXY = 24 · 23P(X1 = 1, Y2 = 1) = 3 · 20 59 472 496 472 czyli Cov(X, Y ) = 8 460 = −8 · 12 = 8· 59 − 59 59 oraz Var(X) = 8 59 − 59 a = 8 · 12 , mamy 59 24 59 . Niech zatem Cov(X + 2Y, Z) = −3a, Var(X + 2Y ) = 10a − 4a = 6a, Var(Z) = 2a. Ostatecznie √ −3a 3 3 . Corr(X + 2Y, Z) = √ √ = − √ = − 2 6a 2a 2 3 4. (Eg 51/10) Pan A przeznaczył 5 zł na pewną grę. W pojedynczej kolejce gry pan A wygrywa 1 zł z p-stwem 1/3 przegrywa 1 zł z p-stwem 2/3. Pan A kończy grę, gdy wszystko przegra lub gdy będzie miał 10 zł. P-stwo, że A wszystko przegra jest równe? Odp: D-> 0, 97. Rozwiązanie. Zadanie dotyczy prawdopodobieństwa ruiny. W celu rozwiązania budujemy niezależne zmienne losowe Xk , k > 1 takie, że Xk = 1 jeśli A wygrywa oraz Xk = −1 jeśli A przegrywa. Definiujemy Sn = X1 + ... + Xn , n > 1 oraz S0 = 0. Okazuje się, że zmienne Mn = 2Sn , n > 0 tworzą martyngał względem naturalnej filtracji. Rzeczywiście 21 1 E(Mn |Fn−1 ) = Mn−1 E2Xn = Mn−1 ·2+ = Mn−1 . 3 32 Zauważmy, że gracz kończy grę w momencie τ = inf{n > 0 : Sn ∈ {−5, 5}}. Zatem z twierdzenia Dooba (moment τ nie jest ograniczony ale nietrudno pokazać, że w tym przypadku również to 2 twierdzenie działa) wynika, że 1 = EMτ . Niech teraz a = P(Sτ = 5), b = P(Sτ =−5 ). Ponieważ jak łatwo sprawdzić P(τ < ∞) = 1, więc a + b = 1, nadto 1 = EMτ = a25 + b2−5 . Mamy zatem układ równań Stąd a = 25 −1 210 −1 , b= 210 −25 210 −1 . a+b a25 + b2−5 = = 1 1 Szukana wartość to b ' 0, 97. 5. (Eg 52/2) W urnie znajduje się 100 ponumerowanych kul o numerach 1, 2..., 100. Losujemy bez zwracania 10 kul, zapisujemy numery, kule zwracamy do urny. Czynność te powtarzamy 10 razy. Oblicz wartość oczekiwaną liczby kul, które zostały wylosowane dokładnie dwa razy. Odp: D-> 19, 37. Rozwiązanie. Zadanie staje się proste jeśli zastosujemy zmienne włączeniowe, 1Xi =1 , i ∈ {1, 2, ..., 100}, gdzie Xi = 1 jeśli dokładnie dwa razy kula z numerem i została wylosowana. Należy wyznaczyć P100 E i=1 1Xi =1 = 100P(X1 = 1), gdyż P(Xi = 1) są identyczne. Pozostaje zauważyć, że 2 8 9 1 10 . P(Xi = 1) = 10 10 2 P100 9 8 Stąd E i=1 1Xi =1 = 45 · 10 ' 19, 37. 6. (Eg 53/10) Z urny, w której jest 6 kul czarnych i 4 białe losujemy kolejno bez zwracania po jednej kuli, tak długo aż wylosujemy kulę czarną. Wartość oczekiwana liczby wylosowanych kul białych jest równa? Odp: B-> 47 . P∞ Rozwiązanie. Przypomnijmy wzór EX = k=0 P(X > k), dla zmiennych X o watotściach całkowitych dodatnich. Sprawdzamy, że 2 4·3 2 4 = , P(X > 2) = = , 10 5 10 · 9 15 4·3·2 1 4·3·2·1 1 P(X > 3) = = , P(X > 4) = = , 10 · 9 · 8 30 10 · 9 · 8 · 7 210 P(X > 0) = 1, P(X > 1) = nadto P(X > k) = 0 dla k > 4. Stąd EX = 2 5 + 2 15 + 1 30 + 1 210 = 120 210 = 74 . 7. (Eg 54/7) mamy dwie urny: I i II. Na początku doświadczenia w każdej z urn znajdują się 2 kule białe i 2 czarne. Losujemy po jednej kuli z każdej urny - po czym kulę wylosowaną z urny I wrzucamy do urny II, a te wylosowana z urny II wrzucamy do urny I. Czynność tę powtarzamy wielokrotnie. Granica (przy n → ∞) p-stwa, iż obie kule wylosowane w n-tym kroku są jednakowego koloru, wynosi:? Odp: C-> 73 . Rozwiązanie. Zadanie rozwiązuje się metoda łańcuchów Markowa. Jest możliwych 5 stanów na liczbę kul białych w urnie I. Należy znaleźć prawdopodobieństwa przejścia w jednym kroku. Mamy S 0 1 2 3 4 0 0 1 0 0 0 6 9 1 1 0 0 16 16 16 P = 1 1 1 2 0 0 4 2 4 9 6 1 3 0 0 16 16 16 4 0 0 0 1 0 3 P4 należy wyznaczyć rozkład stabilny z równania πM = π oraz warunku, że k=0 πk = 1. Nietrudno zauważyć symetrię macierzy skąd wynika, że π0 = π4 , π1 = π3 . Nadto natychmiast zauważamy, że 1 π0 = 16 π1 . Wystarczą zatem 2 równania (w terminach π1 i π2 ) 7 π1 + 14 π2 π1 = 16 1 1 = 8 π1 + 2π1 + π2 1 8 Skąd wynika, że π0 = π4 = 70 , π1 = π3 = 35 , π2 = 18 35 . Obliczamy prawdopodobieństwa warunkowe wylosowania kul różnego koloru w zależności od stanu liczby kul białych w I urnie 5 1 , P((b, c)|2) = . 8 2 Dostajemy ze wzoru Bayesa dla stanów rozłożonych według π (czyli w granicy n → ∞) P((b, c)|0) = P((b, c)|4) = 1, P((b, c)|1) = P((b, c)|3) = P((b, c)) = 2 · 5 8 1 18 4 1 +2· · + = . 70 8 35 2 35 7 Zatem prawdopodobieństwo zdarzenia przeciwnego wynosi 37 . 8. (Eg 55/3) Wylosowano niezależnie 15 liczb z rozkładu symetrycznego ciągłego i ustawiono je w ciąg według kolejności losowania. Otrzymano 8 liczb dodatnich (każda z nich oznaczamy symbolem a) i 7 ujemnych (każdą z nich oznaczamy symbolem b). Obliczyć p-stwo, że otrzymano 6 serii, gdzie serią nazywamy ciąg elementów jednego typu, przed i za którym występuje element drugiego typu, na przykład w ciągu: aaabbbbaabbbbba jest 5 serii (3 serie elementów typu a i 2 serie elementów typu b). 14 Odp: C-> 143 Rozwiązanie. Należy zauważyć, że zbiór Ω złożony ze wszystkich możliwych podzbiorów 8 ele mentowych w zbiorze 15 elementowym ma 15 elementów. Teraz należy zauważyć, że seria będzie 8 jednoznacznie wyznaczonym podzbiorem jeśli podamy od jakiego symbolu zaczynamy, a następnie długości ścieżek k1 , k2 , k3 dla serii symbolu a oraz l1 , l2 , l3 dla serii symbolu b. Oczywiście ścieżki muszą mieć długość dodatnią nadto k1 + k2 + k3 = 8, l1 + l2 + l3 = 7. Ogólnie liczba rozwiązań równania x1 + ... + xk = n w liczbach naturalnych (bez zera) wynosi n−1 . Zatem liczność zbioru k−1 A6 złożonego z serii długości 6 wynosi 7 6 |A6 | = 2 · . 2 2 Ostatecznie P(A6 ) = 14 |A6 | = . ||Ω| 143 9. (Eg 56/4) Dysponujemy 5 identycznymi urnami. Każda z nich zawiera 4 kule. Liczba kul białych w i-tej urnie jest równa i − 1, gdzie i = 1, 2, ..., 5, pozostałe kule są czarne. Losujemy urnę, a następnie ciągniemy z niej jedną kulę i okazuje się, że otrzymana kula jest biała. Oblicz p-stwo, że ciągnąc drugą kule z tej samej urny (bez zwracania pierwszej) również otrzymamy kulę białą. Odp: D-> 32 . Rozwiązanie. Ze symetrii zadania jest jasne, że szansa wylosowania białej kuli w pierwszej rundzie wynosi 12 . Aby obliczyć szansę wyciągnięcia dwóch kul białych stosujemy wzór Bayesa 5 i−1 X 1 2 . P((b, b)) = 4 5 2 i=1 P5 i−1 Zachodzi wzór kombinatoryczny = 53 (trójkąt Pascala). Nadto 53 / 42 = 53 , stąd i=1 2 P((b, b)) = 31 . To oznacza, że P((b, b)|b) = 23 . 4 10. (Eg 57/1) Urna zawiera 5 kul o numerach: 0, 1, 2, 3, 4. Z urny ciągniemy kulę, zapisujemy numer i kulę wrzucamy z powrotem do urny. Czynność tę powtarzamy, aż kula z każdym numerem zostanie wyciągnięta co najmniej raz. Oblicz wartość oczekiwaną liczby powtórzeń. 5 . Odp: C-> 11 12 Rozwiązanie. Tutaj łatwo zauważyć, że jeśli T1 , ..., T5 będą czasami oczekiwania na kolejny nowy symbol, to T1 = 1 nadto Tk+1 − Tk , k ∈ {1, 2, 3, 4} ma rozkład geometryczny z prawdopodobieństwem sukcesu pk = 5−k 5 (i wartości oczekiwanej 1/pk ). Zatem ET5 = 1 + 4 X E(Tk+1 − Tk ) = 1 + k=1 4 X k=1 5 5 = 11 . 5−k 12 11. (Eg 58/7) W urnie znajduje się 20 kul: 10 białych i 10 czerwonych. Losujemy bez zwracania 8 kul, a następnie z pozostałych w urnie kul losujemy kolejne 6 kul. Niech S8 oznacza liczbę wylosowanych kul białych wśród pierwszych 8 wylosowanych kul, a S6 liczbę kul białych wśród następnych 6 kul. Oblicz Cov(S8 , S8 + S6 ). Odp: C-> 12 19 . Rozwiązanie. Oczywiście skorzystamy ze zmiennych włączeniowych. Niech Xi , i ∈ {1, ..., 14} oznacza 1 jeśli w i tej rundzie pojawiła się biała kula i 0 w przeciwnym przypadku. Mamy S8 = P8 P16 X oraz S = i 6 i=1 i=9 Xi . Zachodzi ES8 = 8P(X1 = 1) = 4, E(S6 ) = 6P(X1 = 1) = 3. Teraz ES82 = 8P(X1 = 1) + 8 · 7P(X1 = 1, X2 = 1) = 4 + 56 · 328 1 9 · = . 2 19 19 Stąd VarS8 = 328 304 24 − = . 19 19 19 Z drugiej strony ES8 S6 = 48P(X1 = 1, X2 = 1) = 48 · 1 9 · . 2 19 Co daje Cov(S8 , S6 ) = 216 228 12 − =− . 19 19 19 Ostatecznie Cov(S8 , S8 + S6 ) = VarS8 + Cov(S8 , S6 ) = 24 12 12 − = . 19 19 19 12. (Eg 60/9) W urnie znajduje się 30 kul, na każdej narysowana jest litera i cyfra. Mamy: (a) 10 kul oznaczonych X1; (b) 6 kul oznaczonych Y 1; (c) 8 kul oznaczonych X2; (d) 6 kul oznaczone Y 2. Losujemy bez zwracania 15 kul. Niech NX1 oznacza liczbę kul oznaczonych literą X1 wśród kul wylosowanych,a N2 liczbę kul z cyfrą 2 wśród kul wylosowanych. Obliczyć Var(NX1 |N2 = 5). 15 Odp: A-> 16 . Rozwiązanie. Dokonujemy uproszczenia, mamy pięć kul wylosowanych z cyfrą 2. Zatem de facto losujemy 10 typu X1 lub X2, czyli ze zbioru 18 elementowego. W tym modelu probabilistycznym 5 musimy policzyć wariancję zmiennej N̄X1 co robimy przez zmienne włączeniowe. Niech Xi , i ∈ {1, ..., 10} będzie zmienną przyjmującą 1 jeśli na i-tej pozycji stoi X1 oraz 0 jeśli X2. Oczywiście P10 N̄X1 = i=1 1Xi =1 . Wyznaczamy EN̄X1 = 10P(X1 = 1) = 10 · 5 25 = . 8 4 Nadto 2 EN̄X1 = 10P(X1 = 1) + 90P(X1 = 1, X2 = 1) = 10 · 5 5 9 320 + 90 · · = = 40. 8 8 15 8 Stąd VarN̄X1 = 15 640 625 − = . 16 16 16 13. (Eg 61/5) W urnie znajduje się 100 kul ponumerowanych od 1 do 100. Losujemy bez zwracania 25 kul i zapisujemy numery, a następnie wrzucamy kule z powrotem do urny. Czynność powtarzamy 5 razy. Oblicz wartość oczekiwaną liczby kul, które zostały wylosowane co najmniej 2 razy. Odp: D-> 36, 7. Rozwiązanie. Zadanie rozwiązujemy przez zmienne włączeniowe. Niech Xi , i ∈ {1, ..., 100} przyjmuje wartość 1 jeśli kula z numerem i pojawiła się co najmniej 2 razy w losowaniu i 0 w przeciwnym przypadku. Oczywiście szukana odpowiedź to E 100 X Xi = 100P(X1 = 1). i=1 Żeby policzyć P(X1 = 1) zauważmy, że w każdym z 5 losowań kula i miała prawdopodobieństwo 1 4 , że się pojawi. Zatem P(X1 = 1) = 5 k 5−k X 5 1 3 k=2 Czyli wynik to 100 · 47 128 k 4 4 5 4 3 1 3 47 =1− −5· = . 4 4 4 128 ' 36, 7. 14. (Eg 62/6) Z urny, w której są 2 kule białe i 3 czarne, wylosowane jedną kulę a następnie wrzucono ja z powrotem dorzucając kulę w tym samym kolorze co wylosowana. Następnie z urny wylosowano 2 kule, wrzucono je z powrotem dorzucając 2 kule identyczne jak wylosowane. Następnie wylosowano 3 kule. Okazało się, że są to 3 kule białe. Oblicz p-stwo, że w drugim losowaniu wylosowane kule różnych kolorów. Odp: A-> 15 29 . Rozwiązanie. Potrzebujemy struktury drzewa aby opisać kolejne losowania Stan1 (3, 3) (3, 3) (3, 3) (2, 4) (2, 4) P-p 2 5 2 5 2 5 3 5 3 5 Stan2 (5, 3) (4, 4) (3, 5) (4, 4) (3, 5) P-p 1 5 3 5 1 5 1 15 8 15 Stan3 (b, b, b) (b, b, b) (b, b, b) (b, b, b) (b, b, b) P-p 5 28 1 14 1 56 1 14 1 56 Wyznaczamy 2 1 5 2 3 1 · · + · · + 5 5 28 5 5 14 2 1 1 3 1 1 3 8 1 29 + · · + · · = . + · · 5 5 56 5 15 14 5 15 56 25 · 28 P(3, (b, b, b)) = 6 Teraz wyznaczamy P(2, (b, c); 3, (b, b, b)) = 2 3 1 3 8 1 16 · · + · · = . 5 5 14 5 15 56 25 · 28 Stąd P(2, (b, c); 3, (b, b, b)) = 16 . 29 15. (Eg 63/1)W urnie znajdują się kule, z których każda jest oznaczona jedną z liter alfabetu: • 10 kul oznaczonych literą A. • 20 kul oznaczonych literą B. • 30 kul oznaczonych literą C. • x kul oznaczonych innymi literami alfabetu. Losujemy bez zwracania 9 kul z urny. Zmienne losowe NA , NB , NC oznaczają, odpowiednio, liczbę wylosowanych kul z literami A, B, C. Jakie musi być x , aby zmienne losowe NA +NB oraz NB +NC były nieskorelowane. Odp: C-> x = 15. Rozwiązanie. Korzystamy ze zmiennych Ai , Bi , Ci , Xi , 1 6 i 6 9 gdzie zmienne przyjmują wartości 0 lub 1, przy czym 1P jeśli na pozycji wPi-tym losowaniu odpowiednio A, B, C oraz inną Pwybrano 9 9 9 literę. Zachodzi NA = i=1 Ai , NB = i=1 Bi NC = i=1 Ci . Należy wyliczyć Cov(NA , NB ), Cov(NB , NC ), Cov(NC , NA ). Zachodzi ENA = 9 20 30 10 , ENB = 9 , ENC = 9 , 60 + x 60 + x 60 + x nadto 10 20 , 60 + x 59 + x 20 30 ENB NC = 72EB1 C2 = 72 , 60 + x 59 + x 10 30 , ENC NA = 72EC1 A2 = 72 60 + x 59 + x 20 19 20 ENB2 = 72EB1 B2 + 9EB12 = 72 +9 . 60 + x 59 + x 60 + x ENA NB = 72EA1 B2 = 72 Stąd 9 · 10 · 20 8 9 9 · 10c2̇0(−x − 51) ( − )= , 60 + x 59 + x 60 + x (60 + x)2 (59 + x) 9 · 20 · 30 8 9 9 · 20 · 30(−x − 51) Cov(NB , NC ) = ( − )= , 60 + x 59 + x 60 + x (60 + x)2 (59 + x) 9 · 30 · 10 8 9 9 · 30 · 10(−x − 51) Cov(NB , NC ) = ( − )= , 60 + x 59 + x 60 + x (60 + x)2 (59 + x) 9 · 20 8 · 19 9 · 20 9 · 20(x2 + 91x + 34 · 60) Cov(NB , NB ) = ( +1− )= . 60 + x 59 + x 60 + x (60 + x)2 (59 + x) Cov(NA , NB ) = Zatem NA + NB i NB + NC są nieskorelowane jeśli 0 = Cov(NA + NB , NB + NC ) = Cov(NA , NB ) + Cov(NC , NA ) + Cov(NB , NB ) + Cov(NB , NC ) 7 co jest równoważne −1100(x + 51) + 20(x2 + 91x + 34 · 60) = 0. Przekształcając to równanie x2 + 36x − 765 = 0. Rozwiązaniami tego równanie są x = rozwiązania dodatnie zatem x = 15. −36±66 , 2 czyli x1 = 15 i x = −51. Interesują nas wyłącznie 8 1 Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych. 1. (Eg 48/6) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi o identycznym rozkła1 1 dzie o gęstości f (x) = 2√ 1 (x). Niech Un = (X1 ...Xn ) n . Wtedy: (asymptotyka Un − e−2 )? x (0,1) √ Odp: B-> limn→∞ P((Un − e−2 ) n < 4e−2 ) = 0, 977. Rozwiązanie. Zadanie polega na umiejętnym zastosowaniu CTG. Zauważmy, że Yi = − log Xi , i ∈ {1, ..., n} oraz t P(Yi > t) = P(Xi < e−t ) = e− 2 , t > 0. Czyli Yi ma rozkład Exp( 12 ), w szczególności EYi = 2, VarYi = 4. Zatem n √ √ 1X (Un − e−2 ) n = e−2 (exp( (Yi − 2) − 1) n. n i=1 Z mocnego prawa wielkich liczb wynika, że limn→∞ Pn i=1 (Yi − 2) = 0. Zatem n n (exp( 1 n n √ 1X 1X 1 X (Yi − 2)(1 + O( (Yi − 2) − 1) n = √ (Yi − 2)). n i=1 n i=1 n i=1 Czyli w sensie rozkładu n √ 1 X lim (Un − e−2 ) n = e−2 lim √ (Yi − 2) = 2e−2 Z, n→∞ n→∞ n i=1 gdzie Z ma rozkład N (0, 1). Stąd √ lim P((Un − e−2 ) n < 4e−2 ) = P(Z < 2) ' 0, 977. n→∞ 2. (Eg 50/6) Rozważmy następujące zagadnienie testowania hipotez statystycznych. Dysponujemy próbką X1 , ..., Xn z rozkładu normalnego o nieznanej średniej µ i znanej wariancji równej 4. Przeprowadzamy najmocniejszy test hipotezy H0 : µ = 0 przeciwko alternatywie H1 : µ = −1 na poziomie istotności α = 1/2. Niech βn oznacza prawdopodobieństwo błędu drugiego rodzaju, dla rozmiaru próbki n. Wybierz poprawne stwierdzenie: (asymptotyka βn ) Odp: D-> limn→∞ βn e √ √ πn 2 n 8 = 1. Rozwiązanie. Najpierw znajdujemy błąd drugiego rodzaju czyli akceptacja hipotezy H0 w sytuacji gdy zachodzi H1 . Test najmocniejszy oparty jest na konstrukcji obszaru krytycznego wynikającej z Twierdzenia Neymana-Pearsona (o porównywaniu gęstości). Niech µ0 = 0, µ1 = −1 oraz niech fµ0 , fµ1 będą gęstościami rozkładu wektora (X1 , ..., Xn ) niezależnych zmiennych losowych o tym samym rozkładzie co zmienna X, odpowiednio X ∼ N (µ0 , 4), X ∼ N (µ1 , 4). W metodzie Neymana-Pearsona badamy iloraz wiarygodności, to znaczy fµ1 (x1 , ..., xn )/fµ0 (x1 , ..., Xn ). W przypadku rozkładów ciągłych nie potrzeba randomizacji, a obszar krytyczny ma postać K = {(x1 , ..., xn ) ∈ Rn : fµ1 (x1 , ..., xn )/fµ0 (x1 , ..., xn ) > C} dla stałej C dobranej tak aby Pµ0 ((X1 , ..., Xn ) ∈ K) = α. W naszym przypadku oznacza to konieczność znalezienia stałej C̄ takiej, że Pµ0 (X1 + ... + Xn < C̄) = 1 1 . 2 Oczywiście C̄ = 0. Błąd drugiego rodzaju wynosi √ βn = Pµ1 (X1 + ... + Xn > C̄) = P(−n + 2 nZ > 0), gdzie Z ma rozkład N (0, 1). Zatem zostaje zbadać asymptmpotykę √ n βn = P(Z > ). 2 Oczywiście P(Z > t) ' √1 e 2πt −t2 2 stąd √ πn n lim βn √ e 8 = 1. n→∞ 2 3. (Eg 51/4) Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach normalnych, przy tym EX = EY = 0, VarX = 3 i VarY = 1. Oblicz P(|X| < |Y |). Odp: A-> P(|X| < |Y |) = 0, 3333. Rozwiązanie. To zadanie ma czysto geometryczne rozwiązanie. Wystarczy wykorzystać rotacyjną √ niezmienniczość standardowego rozkładu normalnego nadto zauważyć, że X = 3X̄, gdzie X̄ ma rozkład N (0, 1). Zatem (X̄, Y ) ma standardowy rozkład normalny na R2 oraz √ 1 P(|X| < |Y |) = P( 3|X̄| < |Y |) = µS 1 ({α ∈ S 1 : | tg α| < √ }), 3 gdzie µS 1 jest miarą Lebesgue’a na okręgu jednostkowym unormowaną do 1. Oczywiście {α ∈ S 1 : | tg α| < √13 } = {α ∈ S 1 : |α| 6 π6 lub |π − α| 6 π6 } Zatem 1 1 µS 1 ({α ∈ S 1 : | tg α| < √ }) = . 3 3 4. (Eg 52/5) Załóżmy, że X, Y są zmiennymi o łącznym rozkładzie normalnym, EX = EY = 0, VarX = 2, VarY = 4 i Cov(X, Y ) = 1. Oblicz E(XY |X − Y = t), 3 2 Odp: C-> 47 − 16 t . Rozwiązanie. Potrzebujemy metody znajdowania bazy niezależnych liniowych funkcji od X, Y zawierającej X − Y . Szukamy α takiego, że X − αY będzie niezależne od X − Y . Wystarczy sprawdzić kowariancję Cov(X − Y, X − αY ) = 2 − α − 1 + 4α = 1 + 3α. Stąd α = − 13 . Wystarczy teraz rozpisać X, Y w znalezionej bazie. Mamy X = 14 [(X − Y ) + 3(X + 31 Y )] Y = 34 [−(X − Y ) + (X + 31 Y )] Niech Z = (X + 13 Y ), zmienną X − Y możemy traktować jako parametr t przy wyliczaniu warunkowej wartości oczekiwanej (bo jest niezależna od Z). Zatem 1 3 3 E(XY |X − Y = t) = E( (t + 3Z) (−t + Z)) = (−t2 + 3tEZ + 3EZ 2 ). 4 4 16 Oczywiście EZ = 0. Natomiast z dwuliniowości kowariancji i EZ 2 = VarZ = 2 + 2 4 28 + = . 3 9 9 3 2 Czyli E(XY |X − Y = t) = − 16 t + 74 . 2 5. (Eg 53/9) Mamy próbą prostą ((X1 , Y1 ), (X2 , Y2 ), ..., (X10 , Y10 )) z rozkładu normalnego dwuwymiarowego o nieznanych parametrach EXi = EYi = µ, VarXi = VarYi = σ 2 , Cov(Xi , Yi ) = σ 2 ρ. Niech 10 Zi = Xi + Yi , Ri = Xi − Yi , SZ2 = 10 1X 1X 2 (Zi − Z̄)2 , SR = (Ri − R̄)2 , 9 i=1 9 i=1 gdzie Z̄ oraz R̄ to odpowiednie średnie z próbki. Do testowania hipotezy H0 : ρ = alternatywie H1 : ρ 6= 13 możemy użyć testu o obszarze krytycznym postaci: 1 3 przeciwko SZ2 SZ2 < k , lub 1 2 2 > k2 , SR SR przy czym liczby k1 i k2 dobrane są tak, aby przy założeniu, że H0 jest prawdziwa P( SZ2 S2 < k1 ) = P( Z2 > k2 ) = 0, 05. 2 SR SR Liczby k1 i k2 są równe: ? Odp: D-> k1 = 0, 629 i k2 = 6, 358. Rozwiązanie. Zauważmy, że (Xi + Yi ) jest niezależne od (Xi − Yi ), istotnie Cov(Xi + Yi , Xi − Yi ) = VarXi − Cov(Xi , Yi ) + Cov(Yi , Xi ) − Var(Yi ) = 0. 2 To oznacza, że SZ2 i SR są niezależne. Wystarczy wyznaczyć ich rozkłady. Mamy Var(Xi + Yi ) = 2σ 2 + 2ρσ 2 = 2(1 + ρ)σ 2 . Analogicznie Var(Xi − Yi ) = 2σ 2 − 2ρσ 2 = 2(1 − ρ)σ 2 . 1 1 To oznacza, że Zi = [2(1 + ρ)] 2 σ Ẑi , Ri = [2(1 − ρ)] 2 R̂i , gdzie Ẑi , R̂i są niezależne z rozkładu N (0, 1). Zatem SZ2 1 + ρ ŜZ2 = . 2 2 SR 1 − ρ ŜR To oznacza, że aby wyznaczyć k1 , k2 należy wziąć wartości dla F9,9 i pomnożyć je przez przy H0 wynosi 2. Czyli k2 = 2 · 3, 1789 ' 6, 358 oraz k1 = 2 · (1/3, 1789) ' 0, 629 1+ρ 1−ρ , które 6. (Eg 54/9) Zmienne losowe X i Y są niezależne i zmienna X ma rozkład logarytmiczno-normalny LN (µ, σ 2 ), gdzie µ = 1 i σ = 2, a zmienna Y ma rozkład wykładniczy o wartości oczekiwanej 2. Niech S = X + Y . Wtedy E(S|X > e) jest równa? Odp: E-> 41, 26. Rozwiązanie. Przypomnijmy definicję E(S|X > e) = ES1X>e . P(X > e) Teraz zauważmy, że X = eY , gdzie Y ma rozkład N (1, 4), czyli Y = 1 + 2Z, gdzie Z ∼ N (0, 1). Zatem 1 P(X > e) = P(1 + 2Z > 1) = P(Z > 0) = . 2 3 Obliczamy 1 ES1X>e = EX1X>e + P(X > e)EY = Ee1+2Z 1Z>0 + 2 = 1 + eEe2Z 1Z>0 . 2 Należy obliczyć Ee2Z 1Z>0 = Z 0 ∞ x2 1 e2x √ e− 2 dx = e2 2π Zatem Ee 2Z 2 Z ∞ 1Z>0 = e −2 Z ∞ 0 2 1 1 √ e− 2 (x−2) . 2π x2 1 √ e− 2 dx = e2 P(Z > −2). 2π Ostatecznie E(S|X > e) = 2 + 2e3 P(Z > −2) ' 41, 26. 7. (Eg 55/4) Załóżmy, że zmienne losowe X, Y mają łączny rozkład normalny taki, że EX = 1, EY = 0, Var(X) = 2, Var(Y ) = 9, i Cov(X, Y ) = 3. Oblicz Cov(X 2 , Y 2 ). Odp: D-> 18. Rozwiązanie. Przypomnijmy, że ogólny wzór na k-ty moment zmiennej V rozkładzie N (0, σ 2 ) ma postać EV 2k = σ 2k (2k − 1)(2k − 3)...3 · 1, 2k+1 EV = 0 Aby obliczyć Cov(X 2 , Y 2 ) potrzebujemy policzyć EX 2 Y 2 . Po raz kolejny należy posłużyć się bazą złożoną z liniowych względem X, Y zmiennych niezależnych. Ściślej szukamy α takiego, że X − αY jest nieskorelowane z Y , a przez to niezależne bo (X, Y ) tworzą wektor gaussowski. Mamy Cov(Y, X − αY ) = 3 − 9α, stąd α = 31 . Niech Z = X − 31 Y , zachodzi EZ = 1, VarZ = 2 − 23 3 + 19 9 = 1. Dalej mamy rozkład X = Z + 13 Y , stąd 1 2 1 EX 2 Y 2 = E(Z + Y )2 Y 2 = EZ 2 EY 2 + EZEY 3 + EY 4 . 3 3 9 Drugi składnik powyżej jest zerem bo EY = 0, a stąd EY 3 = 0. Zauważmy jeszcze, że podobnie 1 EX 2 EY 2 = (EZ 2 + EY 2 )EY 2 . 9 Dlatego Cov(X 2 , Y 2 ) = 1 (EY 4 − (EY 2 )2 ). 9 Pozostaje zauważyć, że EY 4 = 3 · 92 oraz EY 2 = 9. Zatem Cov(X 2 , Y 2 ) = 1 (3 · 92 − 92 ) = 2 · 9 = 18. 9 4 8. (Eg 57/3) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu normalnego o 2 wartości oczekiwanej Pn 0 i nieznanej wariancji σ . Rozważmy estymatory odchylenia standardowego σ postaci σ̂c = c i=1 |Xi |. Niech σ̂c̄ oznacza estymator o najmniejszym błędzie średniokwadratowym w klasie√rozważanych estymatorów. Wtedy c̄ jest równe ? 2π Odp: D-> π+2n−2 . Rozwiązanie. Niech X ma rozkład N (0, σ 2 ). Oczywiście E|X| = √ √ 2 σ, π zatem √ 2 f (c) = E(σ̂c̄ − σ) = Var(σ̂) + (Eσ̂ − σ) = nc Var(|X|) + (cn √ − 1)2 σ 2 = π √ 2 2 = nc2 (1 − )σ 2 + (cn √ − 1)2 . π π 2 2 2 Aby obliczyć punkt minimum znajdujemy z równania f 0 (c) = 0. Zachodzi √ 2 2 2 2 2 2 0 √ )σ . f (c) = 2nc(1 − )σ + 2(n c − n π π π stąd f 0 (c) = 0 dla √ √ 2 2π 2 . n( (n − 1) + 1)c = n √ czyli c = π π + 2n − 2 π 9. (Eg 58/4) Niech X1 , X2 , ..., Xn , ..., N będą zmiennymi losowymi. Zmienne X1 , X2 , ..., Xn , ... mają rozkład logarytmiczno-normalny LN (µ, σ 2 ), gdzie µ = 2, σ 2 = 4. Zmienna N ma rozkład Poissona PN o wartości oczekiwanej 2. Niech SN = i=1 Xi dla N > 0 oraz SN = 0 dla N = 0. Wtedy współczynnik asymetrii Odp: D-> E(SN −ESN )3 (VarSN )3/2 jest równy? e6 √ . 2 Rozwiązanie. Niech X ma rozkład LN (µ, σ 2 ), najpierw zauważmy, że E(SN − ESN )3 = EE[(SN − ESN )3 |N ] = EE[(SN − N EX + (N − EN )EX)3 |N ] = = EN E(X − EX)3 + 3EN (N − EN )EXE(X − EX)2 + E(N − EN )3 (EX)3 . Zauważmy, że 2 = EN = VarN = E(N − EN )2 = EN (N − EN ) = E(N − EN )3 (scentrowane momenty drugi i trzeci dla rozkładu Poissona są równe wartości oczekiwanej). Zatem E(SN − ESN )3 = 2(E(X − EX)3 + 3EXE(X − EX)2 + (EX)3 ) = 2EX 3 . Z definicji X = exp(Y ), gdzie Y ma rozkład N (µ, σ 2 ), a dalej Y = σZ + µ, gdzie Z ma rozkład N (0, 1). Przypomnijmy wzór n transformatę Laplace’cea dla rozkładu N (0, 1) E exp(λZ) = exp( λ2 ). 2 Stąd EX 3 = E exp(3σZ + 3µ) = e 9σ 2 2 +3µ = e24 . Zatem E(SN − ESN )3 = 2e24 . Analogicznie pokazujemy VarSN = E(SN − ESN )2 = EN E(X − EX)2 + VarN (EX)2 = 2EX 2 . 5 Mamy EX 2 = E exp(2σZ + 2µ) = e2σ 2 +2µ = e12 . czyli VarSN = E(SN − ESN )2 = 2e12 . Obliczamy 2e24 E(SN − ESN )3 e6 √ = = . 3 (VarSN )3/2 2 (2e12 ) 2 10. (Eg 59/1) Zmienna losowa X rozkład logarytmiczno-normalny LN (µ, σ 2 ), gdzie µ = 1 i σ 2 = 4. Wyznacz E(X−e|X>e) . EX Odp: C-> 1, 82. Rozwiązanie. Zauważmy, że X = eY , gdzie Y ma rozkład N (µ, σ 2 ), nadto Y = σZ + µ = 2Z + 1, gdzie Z pochodzi z rozkładu N (0, 1). Z definicji E(X − e|X > e) = E1X>e (X − e) . P(X > e) Obliczamy P(X > e) = P(2Z + 1 > 1) = P(Z > 0) = Zatem 1 . 2 1 E1X>e (X − e) = eE1Z>0 (e2Z − 1) = e(E1Z>0 e2Z − ). 2 Nadto E1Z>0 e2Z = Z ∞ e2x e− x2 2 0 a stąd E1Z>0 e2Z = e2 Z 1 √ dx = e2 2π ∞ e− −2 x2 2 Z ∞ e− (x−2)2 2 0 1 √ dx 2π 1 √ dx = e2 P(Z > −2). 2π Otrzymujemy E(X − e|X > e) = 2e3 P(Z > −2) − e z drugiej strony z transformaty Laplace’a EX = E exp(2Z + 1) = e3 . Czyli E(X − e|X > e) = 2P(Z > −2) − e−2 ' 1, 82. EX 11. (Eg 60/6) Zmienne losowe X1 , X2 , ..., X20 są niezależne o jednakowym rozkładzie normalnym o P5 wartości oczekiwanej 1 i wariancji 4. Niech S5 = i=1 Xi i E(S52 |S20 = 24) jest równa ? Odp: D-> 51. P20 Rozwiązanie. Niech S15 = i=6 Xi . Z jednej strony S20 = S5 + S15 nadto szukamy α takiego, że 0 = Cov(S5 + S15 , S5 − αS15 ) = Var(S5 ) − αVar(S15 ) = 5 · 4 − α15 · 4 = 20(1 − α3). Stąd α = 3. Oczywiście S5 = 1 1 1 1 [(S5 + S15 ) + 3(S5 − S15 )] = [S20 + 3(S5 − S15 )]. 4 3 4 3 6 Zatem E(S52 |S20 = ! 2 1 1 S20 + 3(S5 − S15 ) |S20 = 16 3 = 24) = E 1 2 1 9 1 3 S + S20 E(S5 − S15 ) + E(S5 − S15 )2 . 16 20 8 3 16 3 Sprawdzamy 1 15 80 1 ·4= . E(S5 − S15 ) = 0, E(S5 − S15 )2 = 5 · 4 + 3 3 9 3 Zatem E(S52 |S20 = 24) = 1 2 9 80 S20 + = 36 + 15 = 51. 16 16 3 12. (Eg 61/6) Rozważmy następujące zagadnienie testowania hipotez statystycznych. Dysponujemy próbką X1 , ..., Xn z rozkładu normalnego o nieznanej średniej µ i znanej wariancji równej 2. Przeprowadzamy najmocniejszy test hipotezy H0 : µ = 0 przeciwko alternatywie H1 : µ = 2 na poziomie istotności α = 21 . Niech βn oznacza prawdopodobieństwo błędu drugiego rodzaju, dla rozmiaru próbki n. Wybierz poprawne stwierdzenie: (asymptotyka βn ). n Odp: E-> limn→∞ e−n /β√ = 1. 4πn Rozwiązanie. Niech f0 , f2 będą gęstościami odpowiednio N (0, 2), N (2, 2). Przypomnijmy, że test najmocniejszy Neymana Pearsona polega na porównaniu gęstości, czyli zbiór krytyczny ma postać f2 (x1 , ..., xn ) > C}, f0 (x1 , ..., xn ) K = {(x1 , ..., xn ) ∈ Rn : gdzie C jest stałą taką, że Pµ=0 ((X1 , ..., Xn ) ∈ K) = 1 . 2 Łatwo zauważyć, że K = {(x1 , ..., xn ) : n X xi > C̄}. i=1 Stąd szukamy stałej C̄ takiej, że Pµ=0 (X1 + ... + Xn > C̄) = 1 2 stąd C̄ = 0. Błąd drugiego rodzaju to akceptacja hipotezy H0 podczas, gdy zachodzi H1 . Oznacza to, że βn = Pµ=2 (X1 + ... + Xn 6 0). √ Przy µ = 2 zachodzi Xi = 2Zi + 2, gdzie Z, Zi , i = 1, 2, . . . będą niezależne z rozkładu N (0, 1). Stąd √ √ √ βn = P( 2(Z1 + ... + Zn ) 6 −2n) = P( 2nZ 6 −2n) = P(Z 6 − 2n). Ponieważ P(Z > t) ' 2 t √ 1 e− 2 2πt , więc lim n→∞ βn √ e−n / 4πn = 1. 7 13. (Eg 62/2) Niech X1 , X2 , X3 , ... będą niezależnymi zmiennymi losowymi o tym samym rozkładzie logarytmiczno normalnym parametrami µ ∈ R i σ > 0. Niech Tn oznacza estymator największej wiarygodności wariancji V 2 w tym modelu w oparciu o próbę X1 , X2 , ..., Xn . Niech µ = −0, 5 i σ = 1. Wtedy √ P(|Tn − V 2 | n > 10, 73) =? Odp: A-> 0, 134. Rozwiązanie. Zachodzi Xi = eYi , i = 1, 2, ..., n, gdzie Y, Y1 , Y2 , ..., Yn są niezależne i pochodzą z rozkładu N (µ, σ 2 ). Trzeba przypomnieć estymatory największej wiarygodności dla rozkładu normalnego n 1X 1 (Yi − Ȳ )2 . µ̄n = Ȳ = (Y1 + ... + Yn ), σ̄n2 = Y¯2 − (Ȳ )2 = n n i=1 Powyższe estymatory wykorzystujemy aby znaleźć estymator wariancji V 2 . Mamy V 2 = VarY = EY 2 − (EY )2 = e2σ 2 +2µ − eσ 2 +2µ = e − 1. Nadto z powyższego wzory wynika, że 2 2 Tn = e2µ̄n (e2σ̄n − eσ̄n ). Należy pamiętać, że µ̄n i σ̄n2 są niezależne. Mamy 2 2 Tn − V 2 = (e2µ̄n − e−1 )(e2σ̄n − eσ̄n )+ 2 2 + e−1 (e2σ̄n − e2 − eσ̄n − e). Z mocnego prawa wielkich liczb wynika, że µ̄n → µ, σ̄n2 → σ 2 prawie na pewno. Nadto √ √ √ 2µ̄n n(e − e−1 ) = ne−1 (e2µ̄n +1 − 1) = ne−1 (2µ̄n + 1)(1 + O(2µ̄n + 1)). Oczywiście w sensie słabej zbieżności lim √ n→∞ Stąd lim √ n→∞ n(2µ̄n + 1) = N (0, 4). 2 2 n(e2µ̄n − e−1 )(e2σ̄n − eσ̄n ) = A ' N (0, [2(e − 1)]2 ) Ściślej korzystając z σ̄n2 → σ 2 √ √ 2 2 lim n(e2µ̄n − e−1 )(e2σ̄n − eσ̄n ) = lim n(e2µ̄n − e−1 )(e2 − e) = A. n→∞ Analogicznie n→∞ √ 2 2 e2σ̄n − e2 + eσn − e = (2e2 − e) n(σ̄n2 − 1)(1 + O(σ̄n2 − 1)). W sensie słabej zbieżności lim n→∞ Zatem 2 √ n(σ̄n2 − 1) = N (0, 2). 2 lim e−1 (e2σ̄n − e2 − eσ̄n − e) = B ' N (0, 2[2e − 1]2 ). n→∞ Ostatecznie korzystając z niezależności µ̄n oraz σ̄n2 dostajemy dla niezależnych A i B √ lim n(Tn − V 2 ) = A + B ' N (0, [2(e − 1)2 ] + 2[2e − 1)]2 ). n→∞ Niech Z będzie z N (0, 1) otrzymujemy √ lim P(|Tn − V 2 | n > 10, 73) = P(|Z| > p n→∞ 10, 73 [2(e − 1)2 ] + 2[2(e − 2)]2 ) = 0, 134. Przedstawiona metoda ma swoją nazwę jako metoda delta. Powyższy przypadek szczególny można zebrać w ogólne twierdzenie. 8 Twierdzenie 1 (Metoda delta) Jeżeli dla ciągu zmiennych Tn mamy przy n → ∞ i h : R → R jest funkcją różniczkowalną w punkcie µ, to √ n(h(Tn ) − h(µ)) → N (0, σ 2 (h0 (µ))2 ), √ n(Tn − µ) → N (0, σ 2 ) w sensie zbieżności według rozkładu. 14. (Eg 63/7) Zmienna losowa (X, Y, Z) ma rozkład normalny z wartością oczekiwaną EX = 0, EY = EZ = 1 i macierzą kowariancji 1 1 0 1 4 2 . 0 2 4 Obliczyć Var(X(Y + Z)). Odp: D-> 17. Rozwiązanie. Stosujemy metodę z uniezależnianiem zmiennych. Z założenia wynika, że Cov(X, Y ) = 1 oraz Cov(X, Z) = 0, Cov(Y, Z) = 2. Zatem zmienne X i Z są niezależne, Wystarczy dobrać α i β tak aby Y − αX − βZ było niezależne (czyli równoważnie nieskorelowane) ze zmiennymi X i Z. Sprawdzamy, że Cov(Y − αX − βZ, X) = 1 − α, czyli α = 1 nadto Cov(Y − αX − βZ, Z) = 2 − 4β, czyli β = 1 . 2 Zatem baza liniowa składa się ze zmiennych niezależnych X, Ȳ = Y − X − 12 Z, Z, gdzie X ma rozkład N (0, 1), zmienna Ȳ ma rozkład N ( 12 , 2), a zmienna Z rozkład N (1, 4). Obliczamy Var(X(Y + Z)) = Var(XY ) + 2Cov(XY, XZ) + Var(XZ) = 1 1 = Var(X Ȳ ) + 2Cov(X Ȳ , X(X + Z)) + Var(X(X + Z))+ 2 2 1 + 2Cov(X Ȳ , XZ) + 2Cov(X(X + Z), XZ) + Var(XZ) = 2 1 = EX 2 EȲ 2 + EX 2 EȲ EZ + EX 4 − (EX 2 )2 + EX 2 EZ 2 + 4 1 1 5 + 2EX 2 EȲ EZ + 2EX 2 EZ 2 = (2 + ) + + 2 + + 1 + 10 = 17. 4 2 4 15. (Eg 64/9) Niech Y1 , Y2 , ..., Yn będą niezależnymi zmiennymi losowymi, przy czym zmienna Yi , i = 1, 2, ..., n, ma rozkład logarytmiczno-normalny LN i , 1), gdzie x1 , x2 , ..., xn są znanymi P(bx n liczbami, a b jest nieznanym parametrem. Załóżmy, że i=1 x2i = 4. Niech b̄ będzie estymatorem największej wiarogodności parametru b, a ḡ = exp(2b) estymatorem funkcji g(b) = exp(2b). Wtedy obciążenie estymatora ḡ Eb ḡ − g(b) jest równe √ Odp: B-> e2b ( e − 1). Rozwiązanie. Najpierw obliczamy wiarygodność dla zmiennych Z1 , Z2 , ..., Zn , gdzie Zi = ln Yi , czyli Zi ma postać N (bxi , 1). Obliczamy wiarygodność dla Z1 , ..., Zn n n L(b, z) = (2π)− 2 exp(− 9 1X (zi − bxi )2 ). 2 i=1 Rozwiązujemy równanie f 0 (b) = 0 dla f (b) = ln L(b, z). Wówczas n X hx, zi 1 (zi − bxi )xi = 0, czyli b = = hx, zi. hx, xi 4 i=1 Stąd n b̄ = 1X xi Z i . 4 i=1 Pozostaje zauważyć, że b̄ ma rozkład N (b, 41 ). Stąd 1 Eb ḡ − g(b) = Eb exp(2b̄) − e2b = e2b (e 2 − 1). 10 1 Parametry rozkładów W tej serii będziemy obliczać różne parametry zmiennych losowych. Wymagana jest znajomość własności rozkładów probabilistycznych oraz umiejętne korzystanie z niezależności zmiennych losowych. 1. (Eg 48/7) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie wykładniczym o gęstości f (x) = 2e−2x gdyx > 0 oraz f (x) = 0 gdy x 6 0. Niech N będzie zmienną losową, niezależną od X1 , X2 , ..., Xn , ..., o rozkładzie ujemnym dwumiar n nowym P(N = n) = Γ(r+n) Γ(r)n! p (1 − p) dla n = 0, 1, 2, ..., gdzie r > 0 i p ∈ (0, 1) są ustalonymi parametrami. Niech ZN = min(X1 , X2 , ..., XN ), gdy N > 0 oraz ZN = 0, gdy N = 0. Oblicz E(N ZN ) i Var(N ZN ). 2r r i Var(N ZN ) = 1−p Odp: C-> E(N ZN ) = 1−p 2 4 . Rozwiązanie. Dla zmiennej Z z rozkładu wykładniczego Exp(λ) zachodzi EZ = λk!k , k = 0, 1, 2, . . .. Przypomnijmy, ze minimum z niezależnych zmiennych wykładniczych ma rozkład wykładniczy o parametrze będącym sumą parametrów dodawanych zmiennych. To znaczy rozkład Z 1 oraz EZn2 = 2n1 2 oraz EZ0 = EZ02 = 0. Obliczamy ma postać Exp(2n). W szczególności EZn = 2n E(N ZN ) = ∞ X P(N = n)nEZn = n=0 ∞ X E(N ZN )2 = ∞ 1X 1 P(N = n) = (1 − pr ), 2 n=1 2 P(N = n)n2 EZn2 = n=0 ∞ X n=1 = ∞ 1X 1 P(N = n) = (1 − pr ). 2 n=1 2 Stąd Var(N ZN ) = 1 1 (2 − 2pr − 1 + 2pr − p2r ) = (1 − p2r ). 4 4 2. (Eg 49/3) Niech X1 , X2 , ..., Xn , ... I1 , I2 , ..., In , ..., N będą niezależnymi zmiennymi losowymi. Zmienne X1 , X2 , ..., Xn , ... mają rozkład o wartości oczekiwanej 2 i wariancji 1. Zmienne I1 , I2 , ..., In , ... mają rozkład jednostajny na przedziale (0, 1). Zmienna N ma rozkład ujemny dwumianowy PN P(N = n) Γ(2+n) ( 43 )2 ( 14 )n dla n = 0, 1, 2, ... Niech SN = 0, gdy N = 0 oraz SN = i=1 Ii Xi , n! gdy N > 0. Wtedy Var(SN ) jest równa: ? Odp: C-> VarSN = 34 . Rozwiązanie. Przypomnijmy własności rozkładu ujemnego dwumianowego EN = 2( 34 )−1 ( 41 ) = 23 oraz VarN = 2( 34 )−2 14 = 89 i EN 2 = 43 . Niech X ma rozkład taki jak X1 , X2 , . . . nadto I ma rozkład taki jak I1 , I2 , . . . Mamy ESN = ∞ X P(N = n)ESn = n=0 ∞ X P(N = n)nEIEX = n=0 ∞ X P(N = n)n = EN. n=1 Nadto 2 ESN = ∞ X n=0 = P(N = n)ESn2 = ∞ X P(N = n)(nEX 2 EI 2 + n(n − 1)(EXEI)2 ) = n=0 ∞ X 2 2 P(N = n)(n(n + )) = EN (N + ). 3 3 n=0 Czyli 2 4 4 4 4 VarSN = EN 2 + EN − (EN )2 = + − = . 3 3 9 9 3 1 3. (Eg 50/1) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi z rozkładu gamma o gęstości p(x) = 16xe−4x , gdy x > 0, oraz p(x) = 0 gdyx 6 0. Niech N będzie zmienną losową niezależna od zmiennych X1 , X2 , ..., Xn , ... spełniającą 1 1 , i P(N = 1) = P(N = 2) = P(N = 3) = . 2 6 PN Niech S = 0, gdy N = 0 oraz S = i=1 Xi , gdy N > 0. Wtedy E(S − ES)3 jest równe ?. 7 Odp: B-> 16 . P(N = 0) = Rozwiązanie. Przypomnijmy momenty dla zmiennej Z z rozkładu Gamma(α, β) zachodzi EZ = 2α α α , E(Z − EZ)2 = 2 , E(Z − EZ)3 = 3 . β β β W przypadku zadania α = 2, β = 4, stąd EX = 1 1 1 , E(X − EX)2 = , E(X − EX)3 = . 2 8 16 Podobnie wyznaczamy EN = 1, E(N − EN )2 = 4 , E(N − EN )3 = 1. 3 Zatem E(S − ES)3 = E(S − N EX + N EX − ES)3 = EE[(S − N EX + N EX − ES)3 |N ] = = EN E(X − EX)3 + 3E(N − EN )2 EXE(X − EX)2 + E(N − EN )3 (EX)3 = 4 1 1 1 7 1 +3· · · + = . = 16 3 2 8 8 16 4. (Eg 51/7) Załóżmy, że X1 , X2 , ..., Xn , ... są niezależnymi zmiennymi losowymi o jednakowym rozkładzie wykładniczym o gęstości f (x) = exp(−x) dla x > 0. Zmienna losowa N jest niezależna od X1 , X2 , ..., Xn , ... i ma rozkład Poissona o wartości oczekiwanej λ. Niech Yi = min(Xi , 2), Zi = Xi − Yi , S (Y ) = N X Yi , S (Z) = i=1 N X Zi . i=1 Oblicz Cov(S (Y ) , S (Z) ). Odp: A-> Cov(S (Y ) , S (Z) ) = 2λe−2 . Rozwiązanie. Niech Y, Z będą miały rozkład odpowiednio jak X1 , X2 , . . ., Y1 , Y2 , . . .. Wyznaczamy ES (Y ) = EN EY = λEY oraz ES (Z) = EN (EX − EY ) = λEZ. 2 Wyznaczamy ES (Y ) S (Z) = ∞ X n n ∞ X X X P(N = n)E( Yi , Zi ) = P(N = n)(nE(Y Z) + n(n − 1)EY EZ) = n=0 i=1 n=0 i=1 = EN E(Y Z) + E(N (N − 1))EY EZ = λE(Y Z) + λ2 EY EZ. Mamy Z ∞ P(X > 2 + t)dt = 2e−2 . E(Y Z) = 2E(X − 2)+ = 2 t=0 Stąd Cov(S (Y ) , S (Z) ) = 2λe−2 5. (Eg 52/8) Załóżmy, że X1 , X2 , ..., Xn , ... są niezależnymi zmiennymi losowymi o tym samym rozkładzie jednostajnym na przedziale [0, 1], zaś N jest zmienną losową o rozkładzie ujemnym dwumianowym: n+2 3 P(N = n) = p (1 − p)n dla n = 0, 1, 2, ... n niezależną od zmiennych losowych X1 , X2 , ..., Xn , ... Niech MN = max{X1 , X2 , ..., XN }, gdy N > 0 oraz MN = 0, gdy N = 0. Statystyk otrzymał trzy niezależne obserwacje zmiennej losowej MN równe 1 0, 0, . 2 Wartość estymatora największej wiarogodności dla parametru p otrzymana na podstawie tych danych jest równa ? Odp: B-> 0, 877. Rozwiązanie. Zadanie należy rozwiązać przez wyznaczenie wiarygodności, skoro wśród obserwacji pojawiły się dwa zera to znaczy, że dwukrotnie pojawiło się zdarzenie o prawdopodobieństwie p3 . Z drugiej strony szansa otrzymania wartości 0 < t 6 1 wynosi ∞ X P(N = n)P(max(X1 , ..., Xn ) 6 t) = ∞ X P(N = n)tn = n=1 n=1 p3 , (1 − t(1 − p))3 gdzie ostatnia równość bierze się ze zmiany parametru w rozkładzie ujemnym dwumianowym. Zatem warunkowo na N > 0 zmienna MN ma rozkład ciągły o gęstości 3p3 (1 − p) . (1 − t(1 − p))4 Stąd wiarygodność będzie miała postać 1 48p9 (1 − p) L(p, (0, 0, ))) = . 2 (1 + p)4 Znajdujemy maksimum f (p) = log L(p, (0, 0, 12 )), 1 1 1 0 = f 0 (p) = 9 − −4 . p 1−p 1+p Stąd równanie √ −5 + 406 6p + 5p + 9 = 0, p = ' 0, 877. 12 2 3 6. (Eg 53/2) Niech X0 , X1 , ..., Xn , ... będą niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale (0, 2). Niech zmienna losowa N oznacza numer pierwszej ze zmiennych losowych X1 , ..., Xn , ... o wartości większej niż X0 , zatem N = inf{n > 1 : Xn > X0 }. Wtedy EXN jest równa? Odp: C-> 32 . Rozwiązanie. Dla ustalonego X0 = x ∈ (0, 2) rozkład Nx = inf{n >: Xn > x} jest rozkładem geometrycznym z prawdopodobieństwem sukcesu (1 − x). Dalej rozkład XN dla ustalonego N i X0 ma rozkład jednostajny na (x, 2) ze średnią x+2 2 . Zatem EXN = EE(XN |X0 , N ) = E X0 + 2 3 = . 2 2 7. (Eg 54/4) Zmienna losowa N ma rozkład geometryczny postaci 1 3 P(N = k) = ( )k dla k = 0, 1, 2, ... 4 4 Rozważamy losową liczbę zmiennych losowych X1 , X2 , ..., XN przy czym zmienne losowe X1 , X2 , ..., XN są niezależne wzajemnie i niezależne od zmiennej losowej N . Każda ze zmiennych Xi ma ten sam rozkład o parametrach EX = 1, E(X 2 ) = 2, E(X 3 ) = 3. 3 PN Niech SN = i=1 Xi , gdy N > 0 oraz SN = 0, gdy N = 0. Współczynnik skośności E(SN −ESN3 ) (VarSN ) 2 Odp: B-> 2, 538. Rozwiązanie. Przypomnijmy, że E(S − ES)3 = E(S − N EX + N EX − ES)3 = EE[(S − N EX + N EX − ES)3 |N ] = = EN E(X − EX)3 + 3E(N − EN )2 EXE(X − EX)2 + E(N − EN )3 (EX)3 . Dla rozkładu geometrycznego (startującego z 0) z parametrem p EN = 1−p (1 − p) (1 − p)(2 − p) , E(N − EN )2 = , E(N − EN )3 = . p p2 p3 Stad EN = 1 4 20 , E(N − EN )2 = , E(N − EN )3 = . 3 9 27 Dalej EX = 1, E(X − EX)2 = 1, E(X − EX)3 = −1. Dostajemy 1 4 20 E(S − ES)3 = − + + 3 3 27 Podobnie E(S − ES)2 = EN E(X − EX)2 + E(N − EN )2 (EX)2 = 1 4 7 + = . 3 9 9 Współczynnik skośności E(SN − ESN )3 (VarSN ) 3 2 = 47 3 (7) 2 ' 2, 538. 4 8. (Eg 55/7) Zmienna losowa N ma rozkład geometryczny P(N = n) = pn (1 − p), dla n = 0, 1, 2, ..., gdzie p ∈ (0, 1) jest nieznanym parametrem. Rozważamy losową liczbę zmiennych losowych X1 , X2 , ..., XN , przy czym zmienne losowe X1 , X2 , ..., XN są niezależne wzajemnie i niezależne od zmiennej losowej N . Każda ze zmiennych Xi ma rozkład jednostajny o gęstości danej wzorem: fθ (x) = 1/θ, dla 0 6 x 6 θ oraz 0 w przeciwnym przypadku, gdzie θ > 0 jest nieznanym parametrem. Obserwujemy tylko te spośród zmiennych X1 , X2 , ..., XN , które są większe od 5. Nie wiemy ile jest pozostałych zmiennych ani jakie są ich wartości. Przypuśćmy, że zaobserwowaliśmy następujące wartości 8.5, 10, 6, 7.4, 9, 5.2. Na podstawie tych danych wyznacz wartości estymatorów największej wiarogodności parametrów θ i p. 12 . Odp: C-> θ̂ = 10 i p̂ = 13 Rozwiązanie. Niech X ma rozkład taki jak X1 , X2 , . . .. Znajdujemy wiarygodność, szansa że wylosujemy 6 zmiennych większych niż 5 wynosi ∞ X n + 6 5p n (P(X > 5)) P(X 6 5) P(N = n + 6) = (P(X > 5)) (1 − p)p ( ) . 6 θ n=0 n=0 6 ∞ X n 6 6 Warunkowo względem wymagania, że 6 zmiennych przekroczyło 5 ma gęstość postaci 6 5 Y 1x <θ . (P(X > 5))−6 ( )6 θ i=1 i Nadto z własności rozkładu ujemnego dwumianowego ∞ X n + 6 5p n 5p ( ) = (1 − )−7 6 θ θ n=0 Stąd wiarygodność ma postać 6 5p 6 Y 5p L(θ, p; x1 , x2 , x3 , x4 , x5 , x6 ) = (1 − p)( ) 1x <θ (1 − )−7 . θ i=1 i θ Najpierw zauważamy, że θ > 10 (w przeciwnym razie dostajemy 0) nadto dla θ > 0 funkcja L jest malejąca czyli zatem θ̂ = 10. Wówczas wystarczy znaleźć p dla którego maksimum osiąga funkcja L(10, p; x1 , x2 , x3 , x4 , x5 , x6 ). To oznacza, że trzeba znaleźć punkt maksimum funkcji 1 f (p) = (1 − p)p6 (1 − p)−7 . 2 Warunek f 0 (p) = 0 jest równoważny 1 7 7 (6p5 − 7p6 )(1 − p) + p6 − p7 . 2 2 2 Stąd p̄ = 12 13 . 5 9. (Eg 56/6) Załóżmy, że X1 , X2 , ..., Xn , ... są niezależnymi zmiennymi losowymi o tym samym rozkładzie jednostajnym na przedziale [0, 1], zaś N jest zmienną losową o rozkładzie geometrycznym, P(N = k) = p(1 − p)k , gdy k = 0, 1, 2, ... niezależną od zmiennych losowych X1 , X2 , ..., Xn , ... Liczba p ∈ (0, 1) jest ustalona. Niech YN = min{X1 , ..., XN }, gdy N > 0 oraz YN = 0, gdy N = 0 i ZN = max{X1 , ..., XN }, gdy N = 0. Obliczyć P(ZN − YN > 21 ). 4p Odp: B-> 1 − (1+p) 2. Rozwiązanie. Zacznijmy od prostszego zadania, rozkład (Yn , Zn ) ma gęstość n(n−1)(z−y)n−2 10<y<z<1 . Zatem Z 1 Z z− 12 Z 1 1 1 1 1 n−2 P(Zn − Yn > ) = n(n − 1)(z − y) n(z n−1 − ( )n−1 )dz = 1 − n − n n . dydz = 1 1 2 2 2 2 0 2 2 Stąd 1 1 1 1 ) = EP(ZN − YN > |N ) = E(1 − N − N N ) = 2 2 2 2 ∞ X 4p 2p 2p(1 − p) 1− (1 + k)p[(1 − p)2−1 ]k = 1 − − =1 . 1+p (1 + p)2 (1 + p)2 P(ZN − YN > k=0 10. (Eg 57/4) Niech X1 , X2 , ..., Xn , ... I1 , I2 , ..., In , ..., N będą niezależnymi zmiennymi losowymi. Zmienne X1 , X2 , ..., Xn , ... mają rozkład wykładniczy o wartości oczekiwanej 1. Zmienne I1 , I2 , ..., In , ... mają rozkład dwupunktowy P(Ii = 1) = 1 − P(Ii = 0) = 21 . Zmienna N ma rozkład ujemny 3 2 1 n Niech SN = 0, gdy N = 0 oraz dwumianowy P(N = n) = n+1 n ( 4 ) ( 4 ) dla n = 0, 1, 2, .... √ PN Var(SN ) SN = i=1 Ii Xi , gdy N > 0. Wtedy współczynnik zmienności jest równy: ? ESN q 13 Odp: C-> 2 . Rozwiązanie. Niech X, I mają rozkład taki jak odpowiednio X1 , X2 , . . ., I1 , I2 , . . .. Obliczamy EN = 2/3, VarN = 8/9 (rozkład ujemny dwumianowy B− (α, p) ma wartość oczekiwana α 1−p p 1 i wariancję α 1−p ), EI = , EX = 1, VarX = 1 (rozkład wykładniczy Exp(λ) ma wartość p2 2 oczekiwaną λ i wariancję 1/λ2 ). Zatem 1 3 1 1 ESN = EN EIEX = 2( / ) = . 4 4 2 3 Z drugiej strony VarSN = EN Var(IX) + VarN (EIX)2 = EN (EI 2 EX 2 − (EIEX)2 ) + VarN (EIEX)2 = 2 1 1 8 1 1 2 13 = ( · 2 − ( )2 ) + ( )2 = + = . 3 2 2 9 2 2 9 18 Czyli p √ Var(SN ) 13 = √ . ESN 2 11. (Eg 59/8) Załóżmy, że X1 , X2 , ..., Xn , ... są dodatnimi niezależnymi zmiennymi losowymi o jednakowym ciągłym rozkładzie prawdopodobieństwa. Niech R0 = 0 i Rn = max{X1 , ..., Xn }, gdy n > 0. Niech N i M będą niezależnymi zmiennymi losowymi o rozkładach Poissona, przy czym 6 EN = 1 i EM = 2. Wtedy P(RN +M > RN ) jest równe? Odp: C-> 23 (1 − e−3 ). Rozwiązanie. Zauważmy, że dla n + m > 0 P(Rn+m > Rn ) = m , n+m bo szanse, że któraś ze zmiennych jest największa są równe a szansa, że dwie zmienne przyjmują tę samą wartość jest zerowa. Zatem P(RN +M > RN ) = EP(RN +M > RN |N, M ) = E M 1N +M >0 . N +M Przypomnijmy, że rozkład warunkowy M pod warunkiem N + M ma postać B( ENEM +EM , N + M ) nadto N + M ma rozkład P oiss(EN + EM ). Czyli E M 1 2 2 1N +M >0 = E 1N +M >0 E(M |N + M ) = E1N +M >0 = (1 − e−3 ). N +M N +M 3 2 12. (Eg 60/2) Zmienne losowe X1 , X2 , ..., Xn są warunkowo niezależne przy znanej wartości zmiennej losowej θ i mają rozkłady o wartości oczekiwanej E(Xi |θ) = 10θ i wariancji Var(Xi |θ) = 100θ2 . Niech N będzie zmienną losową warunkowo niezależną od X1 , X2 , ..., Xn przy znanym θ i o warunkowym rozkładzie P(N = n|θ) = n(1 − θ)n−1 θ2 , dla n = 1, 2, 3, ... Zmienna losowa θ ma rozkład Beta o gęstości p(θ) = 6θ(1−θ), gdy θ ∈ (0, 1). Niech SN = Wtedy wariancja Var( SNN ) jest równa? Odp: C-> 25. P∞ Rozwiązanie. Zauważmy, że E(N −1 |θ) = θ2 n=1 (1 − θ)n−1 = θ, zatem PN i=1 Xi . SN 2 SN − N E(X|θ) SN 2 SN −E ) = EE[( + E(X|θ) − E ) |θ] = N N N N = E[E(N −1 |θ)Var(X|θ)] + Var(E(X|θ)) = 100Eθ3 + 100Var(θ) = E( R1 R1 R1 3 Dalej Eθ3 = 6 0 θ4 (1 − θ)dθ = 15 , Eθ2 = 6 0 θ3 (1 − θ)dθ = 10 , Eθ = 6 0 θ2 (1 − θ) = 21 , stąd 1 α VarX = 20 . Ogólnie można pamiętać wzór że dla rozkładu Beta(α, β), EX = α+β , VarX = αβ (α+β)2 (α+β+1) , w zadaniu α = 2, β = 2. Czyli Var SN = 20 + 5 = 25 N 13. (Eg 61/10) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi o rozkładzie wykładniczym o wartości oczekiwanej 4. Niech N będzie zmienną losową o rozkładzie geometrycznym o funkcji p-stwa 4 1 P(N = k) = · ( )k dla k = 0, 1, 2, ..., 5 5 PN niezależną od zmiennych X1 , X2 , ..., Xn , ... Niech Sn = i=1 Xi , gdy N > 0 oraz SN = 0 gdy N = 0. Wtedy P(SN < 5) jest równe: ? Odp: C-> 1 − 0, 2e−1 . 7 Rozwiązanie. Przypomnijmy, że Sn , n > 1 ma rozkład Gamma(n, 41 ) Obliczamy P(SN > 5) = EP(SN > 5|N ) = ∞ X P(Sn > 5)P(N = n) = n=1 = 4 5 Z ∞ ( 5 ∞ X n−1 ∞ Z X n=1 1 1 x )e− 4 x dx = n (n − 1)!(20) 25 n=1 ∞ Z 1 1 e( 20 − 4 )x dx = n=5 ∞ 5 1 1 xn−1 e− 4 x dx = (n − 1)!4n 1 −1 e . 5 Stąd P(SN < 5) = 1 − 0, 2e−1 . 14. (Eg 62/9) Niech X1 , ..., Xn , ... będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale [0, 1]. Niech N będzie zmienną losową o rozkładzie ujemnym dwumianowym niezależną od zmiennych X1 , ..., Xn , ... o funkcji p-stwa P(N = n) = (n + 2)(n + 1) 3 p (1 − p)n , dla n = 0, 1, 2, ... 2 Niech YN = min{X1 , ..., XN }, gdy N > 0 oraz YN = 0, gdy N = 0 i ZN = max{X1 , ..., XN }, oraz ZN = 0 gdy N = 0. Wyznacz E(YN ZN ). 2 ) . Odp: E-> p(1−p 2 Rozwiązanie. Przypomnijmy, że (Yn , Zn ) ma rozkład o gęstości n(n − 1)(z − y)n−2 106y<z61 . R1 Nadto z rozkładu beta wiemy, że 0 xα−1 (1 − x)β−1 dx = Γ(a)Γ(b) Γ(a+b) Zatem podstawiając y = zw 1 Z Z z n−2 n(n − 1)yz(z − y) EYn Zn = 0 Z dydz = n(n − 1) 0 1 z n+1 Z 1 dz 0 w(1 − w)n−2 dw = 0 1 . n+2 Stąd ∞ X (n + 1) 3 1 1N >0 = p (1 − p)n . N +2 2 n=1 P∞ Z ujemnego rozkładu dwumianowego wiemy, że n=0 (n + 1)p2 (1 − p)n = 1. Zatem E(YN ZN ) = EE(YN ZN |N ) = E E(YN ZN ) = − p3 p p(1 − p2 ) + = . 2 2 2 15. (Eg 63/6) Niech X1 będzie zmienną losową o rozkładzie jednostajnym na przedziale (0, 1), X2 zmienną losową o rozkładzie jednostajnym na przedziale (0, X1 ), X3 zmienną losową o rozkładzie jednostajnym na przedziale (0, X2 ) i tak dalej. Niech N oznacza zmienną losową, taką że P(N = n) = λn , gdy n = 1, 2, 3, ..., n!(eλ − 1) gdzie λ > 0 jest ustaloną liczbą. Zmienna N jest niezależna od zmiennych X1 , X2 , X3 , .... Wtedy E(N !X1 · X2 · ... · XN ) jest równa eλ −λ−1 Odp: D-> λ(e λ −1) . Rozwiązanie. Zaważmy, że E(X1 ...Xn ) = E(X1 ...Xn−1 )E(Xn |X1 , ..., Xn−1 ) = E(X1 ...Xn−2 ) = E(X1 ...Xn−2 )E( 2 Xn−1 1 |X1 , ..., Xn−2 ) = ... = . 2 (n + 1)! 8 2 Xn−1 = 2 Zatem EN !(X1 ...XN ) = = ∞ X λn 1 = λ − 1) n + 1 n!(e n=0 ∞ X eλ − λ − 1 λn = . (n + 1)!(eλ − 1) λ(eλ − 1) n=1 9 1 Testowanie hipotez W tej części rozwiązane zostaną zadania dotyczące testowania hipotez. Wymagana jest wiedza z zakresu najmocniejszych testów, ilorazu wiarygodności, parametrów testów statystycznych. 1. (Eg 52/1) Niech X1 , X2 , ..., X8 będzie próbką z rozkładu prawdopodobieństwa Pareto o dystrybuancie 1 Fθ (x) = 1 − θ dla x 6 1 oraz Fθ (x) = 0 dla x < 1, x gdzie θ > 0 jest nieznanym parametrem. Rozpatrzmy zadanie testowania hipotezy H0 : θ = 2 przeciwko alternatywie H1 : θ = 4. Zbudowano taki test, dla którego suma prawdopodobieństw błędów I i II rodzaju, oznaczanych odpowiednio przez α i β, jest najmniejsza. Oblicz tę najmniejszą wartość α + β. Odp: B-> 0, 3336. Rozwiązanie. Niech fθ (x) = θxθ+1 będzie gęstością rozkładu Pareto. Testem który dla ustalonego błędu pierwszego rodzaju (równego α) minimalizuje błąd drugiego rodzaju jest test NeymanaPearsona, którego obszar krytyczny ma postać Q8 f4 (xi ) > C}, K = {(x1 , .., x8 ) : Q8i=1 i=1 f2 (xi ) gdzie C jest dobrane tak aby Pθ=2 (X ∈ K) = α. Nietrudno zauważyć, że K = {(x1 , .., x8 ) : P8 P8 i=1 log xi < C̄} dla pewnego C̄. Zauważmy, że log Xi ma rozkład Exp(θ) zatem i=1 log Xi ma rozkład Gamma(8, θ). Stąd C̄ musi być tak dobrane, że Z 8 X Pθ=2 ( log Xi < C̄) = C̄ 28 7 −2x x e dx = α(C̄). 7! ∞ 48 7 −4x x e dx = β(C̄). 7! 0 i=1 Z kolei błąd drugiego rodzaju to Z 8 X log Xi 6 C̄) = Pθ=4 ( C̄ i=1 Wystarczy znaleźć punkt minimum funkcji α(C̄) + β(C̄). Zauważmy, że α0 (C̄) + β 0 (C̄) = 0 jeśli −28 e−2C̄ + 48 e−4C̄ = 0 stąd C̄ = 4 log 2. Pozostaje albo skorzystać z tablic rozkładu χ2 , wtedy dostajemy 0, 3336. Z przybliżenia rozkładem normalnym. Niech Z będzie z rozkładu N (0, 1) α(C̄) = Pθ=2 ( oraz β(C̄) = Pθ=4 ( P8 log Xi − 4 C̄ − 4 (4 log 2) − 4 √ √ < √ ) ' P(Z < ) ' 0, 1927. 2 2 2 P8 log Xi − 2 C̄ − 2 (8 log 2) − 4 p √ ) ' 0, 1373. 6 p ) ' P(Z > 2 1/2 1/2 i=1 i=1 Zatem α(C̄) + β(C̄) ' 0, 330. 2. (Eg 53/3) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu normalnego N (m + θ, 1), Y1 , Y2 , ..., Yn będą niezależnymi zmiennymi losowymi z rozkładu normalnego N (m − θ, 1). Wszystkie zmienne są niezależne. Parametry m i θ są nieznane. Weryfikujemy hipotezę H0 : θ = 0 przy alternatywie H1 : θ = 0, 5 za pomocą testu opartego na ilorazie wiarogodności na 1 poziomie istotności 0, 05. Moc tego testu przy n = 18 jest równa: ? Odp: C-> 0, 913. Rozwiązanie. Testy oparte na ilorazie i wiarygodności polegają na tym, że porównuje się LK (x) = supθ∈ΘK L(θ, x z LH (x) = supθ∈ΘH L(θ, x). Obszar krytyczny ma zatem postać K = {x ∈ Rn : LK (x) > λ0 } LH (x) dla pewnego λ0 > 1 spełniającego warunek Pθ ( LK (X) > λ0 ) 6 α, gdy θ ∈ ΘH , LH (X) dla zadanej istotności α. W przypadku tego zadania są tylko dwie hipotezy i dlatego test oparty na ilorazie wiarygodności redukuje się do testu Neymana Pearsona. Najlepiej zapamiętać, że w przypadku rozwiązywanego zadania obszar krytyczny będzie miał postać K = {(x, y) ∈ Rn × Rn : Pn i=1 (xi − yi ) > C}. Oczywiście wynik ten można potwierdzić rachunkiem zauważmy, że Pn exp(− 21 ( i=1 [(xi − m − 21 ))2 + (yi − m + 21 )2 ]) LK (x, y) Pn = = LH (x, y) exp(− 21 ( i=1 [(xi − m))2 + (yi − m)2 ]) n 1 1 X = exp( ( [(xi − yi ) − ])). 2 i=1 2 Stąd natychmiast szukana postać obszaru krytycznego. Znajdujemy właściwe C ze wzoru n X Pθ=0 (K) = P( (Xi − Yi ) > C) = 0, 05. i=1 Pn Niech Z będzie z √ rozkładu N (0, 1) oczywiście w sensie rozkładu i=1 (Xi − Yi ) (przy założeniu Pn θ = 0) ma postać 2nZ. Stad C = 6 · 1, 64 nadto dla θ = 21 w sensie rozkładu i=1 (Xi − Yi ) ma √ postać n + 2nZ √ √ n Pθ= 21 (K) = P(n + 2nZ > 2n1, 64) = P(Z > 1, 64 − √ ). 2n Dla n = 18 dostajemy P(Z > 1, 64 − 3) = P(Z > −1, 36) ' 0, 913. 3. (Eg 54/10) Niech X1 , X2 , X3 , X4 , X5 będą niezależnymi zmiennymi losowymi z rozkładu o gęstości pλ (x) = λe−λx , gdy x > 0, oraz pλ (x) = 0 gdyx < 0, gdzie λ > 0 jest nieznanym parametrem. Niestety nie obserwujemy zmiennych X1 , X2 , X3 , X4 , X5 ale zmienne Yi = [Xi ], i = 1, 2, 3, 4, 5, gdzie symbol [x] oznacza część całkowitą liczby x. Dysponując próbą Y1 , Y2 , Y3 , Y4 , Y5 weryfikujemy hipotezę H0 : λ = 1, przy alternatywie H1 : λ = 3 za pomocą testu o obszarze krytycznym K = {λ̂ > 1, 79}, gdzie λ̂ oznacza estymator największej wiarygodności parametru λ otrzymany na podstawie próby losowej Y1 , Y2 , Y3 , Y4 , Y5 . Rozmiar tego testu jest równy (wybierz najlepsze przybliżenie). Odp: C-> 0, 286. Rozwiązanie. Rozkład zmiennych Yk ma postać Pλ (Yk = n) = Pλ (Xk ∈ [k, k + 1)) = e−λk − e−λ(k+1) = (1 − e−λ )e−λk , dla k > 0, 2 czyli jest rozkładem geometrycznym z prawdopodobieństwem sukcesu p = (1−e−λ ). Wiarygodność dla rozkładów geometrycznych o prawdopodobieństwie sukcesu p ma postać L(p, k) = 5 Y p(1 − p)ki = p5 (1 − p)k1 +...+k5 , gdzie k = (k1 , ..., k5 ). i=1 Dla ustalonego k niech f (p) = log L(p, k). Szukamy p takiego, że f 0 (p) = 0, czyli f 0 (p) = 5 1 − (k1 + ... + k5 ) = 0. p 1−p 5 Czyli p̂ = 5+k1 +...+k . Stąd natychmiast λ̂ = − log(1 − p̂). Ponieważ jest to rosnąca funkcja p̂, więc 5 5 > 1 − exp(−1, 79)}. Obliczamy rozmiar obszar krytyczny ma postać K = {k ∈ N5 : 5+k1 +...+k 5 testu 5 Pλ=1 ( > 1 − exp(−1, 79)). 5 + Y1 + ... + Y5 Oczywiście przy założeniu λ = 1 zmienna Y1 + ...Y5 ma rozkład B− (5, p), gdzie p = 1 − e−1 . Zatem Pλ=1 (Y1 + ... + Y5 < 5[(1 − exp(−1, 79))−1 − 1]) = Pλ=1 (Y1 + ... + Y5 6 1) Przypomnijmy, że p = 1 − e−λ . Otrzymujemy Pλ=1 (Y1 + ... + Y5 = 0) = p5 , Pλ=1 (Y1 + ... + Y5 = 1) = 5p5 (1 − p). Zatem odpowiedź to p5 + 5p5 (1 − p), gdzie p = 1 − e−1 , która w przybliżeniu wynosi 0, 286. 4. (Eg 55/5) Niech X będzie pojedynczą obserwacją z rozkładu o gęstości pθ (x) = 2 θ θ θ (θ − 2|x|) gdy x ∈ [− , ] oraz pθ (x) = 0 gdy |x| > , θ2 2 2 2 gdzie θ > 0 jest nieznanym parametrem. Weryfikujemy hipotezę H0 : θ = 1 przy alternatywie H1 : θ 6= 1 za pomocą testu opartego na ilorazie wiarogodności na poziomie istotności 0.2. Moc tego testu przy alternatywie θ = 6 jest równa: ? Odp: B-> 0, 76. Rozwiązanie. Ponownie należy skorzystać z testu opartego na ilorazie wiarygodności. Zauważmy, że w tym przypadku LK (x) supθ pθ (x) = . LH (x) p2 (x) Zauważmy, że x musi należeć do przedziału [− 21 , 12 ] w przeciwnym przypadku iloraz będzie nieθ (x) skończony. Zatem supθ pθ (x) = supθ θ22 (θ − 2|x|) przyjmuje maksimum dla ∂p∂θ = 0 czyli − 4 2 (θ − 2|x|) + 2 = 0 3 θ θ stąd θ = 4|x|. Zatem LK (x) = 1 . 4|x| To oznacza, że LH (x) 1 = . LK (x) 8|x|(1 − 2|x|) Obliczamy C takie, że Pθ=1 ( 1 > C) = 0, 2. 8|x|(1 − 2|x|) 3 Warunek jest równoważny temu, że |x|(1−2|x|) 6 (8C)−1 . Niech d = lub |x| > 1+d 4 = b. Zauważmy, że Pθ (X 6 t) = 1 − 12 [θ − 2|x|]2 1 2 2 [θ − 2|x|] √ 1 − C −1 czyli |x| 6 1−d 4 =a 0 < t 6 θ2 . − θ2 < t 6 0 2 , jeśli |a| 6 θ2 , a w przeciwnym razie 1 nadto Pθ (|X| > b) = Stąd Pθ (|X| 6 a) = 1− [θ−2|a|] θ2 jeśli |b| 6 θ2 , a w przeciwnym razie 0. Zatem [θ−2|b|]2 θ2 Pθ=1 (X ∈ K) = 1 − [1 − 2|b|]2 + [1 − 2|a|]2 = 1 + 2d − 2d(1/2) = 0, 2. √ √ √ 1−8C̄ 1−8C̄ 2 2 Pozostaje zauważyć, że b − a = nadto b − a = . Niech d = 1 − 8C̄. Zachodzi 2 4 Pθ=1 (X ∈ K) = 1 − [1 − 2|a|]2 + [1 − 2|b|]2 = 1 − 2d + d = 1 − d Stąd d = 4 5 a dalej a = 1 20 , b= 9 20 . Obliczamy moc testu dla θ = 6 Pθ=6 (|x| 6 a, |x| > b) = 1 − 9 2 1 2 (6 − 10 (6 − 10 ) ) + ' 0, 76. 36 36 5. (Eg 56/5) Obserwujemy niezależne zmienne losowe X1 , X2 , X3 , X4 , Y1 , Y2 , Y3 , Y4 , Y5 . Zmienne losowe X1 , X2 , X3 , X4 mają ten sam rozkład o dystrybuancie Fµ1 . Dystrybuanta Fµ spełnia warunek Fµ (x) = F (x − µ) dla pewnej ustalonej, nieznanej, ciągłej, ściśle rosnącej dystrybuanty F . Weryfikujemy hipotezę H0 : µ1 = µ2 przy alternatywie H1 : µ1 < µ2 stosując test o obszarze krytycznym K = {S : S < 16}, gdzie S jest sumą rang zmiennych losowych X1 , X2 , X3 , X4 w próbce złożonej ze wszystkich obserwacji ustawionych w ciąg rosnący. Wyznaczyć rozmiar testu. 18 Odp: A-> 126 . Rozwiązanie. Test rangi oparty jest o spostrzeżenie, że gdyby µ1 = µ2 wtedy zmienne X i Y powinny być losowo wymieszane. W związku z tym wystarczy obliczyć prawdopodobieństwo wszystkich układów sprzyjających temu że S < 16 przy założeniu losowego położenia zmiennych X1 , ..., X4 po ustawieniu w ciąg rosnący w całej próbce. Sprawdzamy, że jest dokładnie 18 moż liwych układów nadto wyborów zbiorów 4 elementowych w 9 elementowym jest 94 = 126. Stąd 18 rozmiar testu wynosi 126 . 6. (Eg 56/10) Niech X1 , X2 , X3 , X4 będą niezależnymi zmiennymi losowymi o identycznym rozkładzie geometrycznym postaci P(X = k) = p(1 − p)k gdy k = 0, 1, 2, ..., gdzie p ∈ (0, 1) jest nieznanym parametrem. Hipotezę H0 : p = 21 przy alternatywie H1 : p > 21 weryfikujemy testem jednostajnie najmocniejszym na poziomie istotności 0, 1875. Moc tego testu przy alternatywie p = 54 jest równa:? Odp: E-> 0, 73728. Rozwiązanie. Test jednostajnie najmocniejszy oparty jest o statystykę T (x) przy której dla 0 ,k) dowolnego p0 > p funkcja L(p L(p,k) jest rosnącą funkcją T (k). Obliczamy L(p0 , k) (1 − p0 )k1 +...+k4 = = L(p, k) (1 − p)k1 +...+k4 4 1 − p0 1−p k1 +...+k4 . Zatem szukaną statystyką jest T (k) = −(k1 + ... + k4 ). W przypadku rozkładów zawsze trzeba liczyć się z problemem randomizacji testu. To znaczy test ma postać 1 gdy T (k) > C γ gdy T (k) = C ϕ(k) = 0 gdy T (k) < C Stałe C i γ wyznacza się z warunku Ep= 12 ϕ(X) = 0, 1875. Zauważmy, że przy p = 21 , X1 + ... + X4 ma rozkład ujemny dwumianowy B− (4, 21 ). Należy znaleźć C ∈ N takie, że Pp= 12 (X1 + ... + X4 < C) 6 0, 1875 oraz P(X1 + ... + X4 ) > 0, 1875. Okazuje się, że C = 2, a test szczęśliwie nie jest zrandomizowany. Obliczamy moc testu dla p = 45 . Pp= 45 (X1 + ... + X4 < 2) = 0, 7328. 7. (Eg 57/6) Niech X1 , X2 , ..., X8 będzie próbką z rozkładu prawdopodobieństwa Pareto o dystrybuancie 1 Fθ (x) = 1 − θ dla x 6 1 oraz Fθ (x) = 0 dla x < 1, x gdzie θ > 0 jest nieznanym parametrem. Rozpatrzmy zadanie testowania hipotezy H0 : θ = 4 przeciwko alternatywie H1 : θ = 2. Zbudowano taki test, dla którego suma prawdopodobieństw błędów I i II rodzaju, oznaczanych odpowiednio przez α i β, jest najmniejsza. Oblicz tę najmniejszą wartość α + β. Odp: B-> 0, 3336. Q8 θ+1 Rozwiązanie. Zauważmy, że gęstość ma postać fθ (x) = θ8 i=1 x1i . Stosujemy test Neymana Pearsona, w tym obliczy iloraz wiarygodności 8 8 Y X L(2, x) = 2−8 x2i = 2−8 exp(2 log xi ). L(4, x) i=1 i=1 Zatem obszar krytyczny K = {x ∈ R8 : L(2,x) L(4,x) > C} można zapisać jako K = {x ∈ R8 : 8 X log xi > C̄} i=1 Należy zauważyć, że log Xi ma rozkład Exp(θ) stąd Γ(8, θ). Stąd P8 i=1 log Xi ma przy zadanym θ rozkład α(C̄) + β(C̄) = Pθ=4 (K) + 1 − Pθ=2 (K) = Z C̄ 8 Z ∞ 8 2 4 exp(−4x)dx + exp(−2x)dx = f (C̄). = 7! 7! 0 C̄ Poszukujemy C̄ takiego, że f 0 (C̄) = 0 Równanie f 0 (C̄) = 0 jest równoważna e−2C̄ = 28 e−4C̄ . Czyli C̄ = 4 log 2. Pozostaje obliczyć α(C̄)+β(C̄). Można skorzystać z tablic rozkładu chi-kwadrat, wtedy odpowiedzią jest 0, 3336. Alternatywnie korzystając z rozkładu normalnego dla zmiennej Z z rozkładu N (0, 1) P8 α(C̄) = Pθ=4 ( log Xi − 2 C̄ − 2 (8 log 2) − 4 p √ 6 p ) ' P(Z > ) ' 0, 1373 2 1/2 1/2 i=1 5 oraz P8 i=1 β(C̄) = Pθ=2 ( log Xi − 4 C̄ − 4 (4 log 2) − 4 √ √ < √ ) ' P(Z < ) ' 0, 1927, 2 2 2 a stąd α(C̄) + β(C̄) ' 0, 330. 8. (Eg 57/8) Niech X będzie zmienną losową o rozkładzie Weibulla o gęstości fθ (x) = 3θx2 exp(−θx3 ), gdy x > 0 oraz fθ (x) = 0 gdy x 6 0. gdzie θ > 0 jest nieznanym parametrem. Niestety nie obserwujemy zmiennej X, ale zmienną Y równą X−1, gdy X > 1. W wyniku tych obserwacji otrzymujemy prostą próbę losową Y1 , Y2 , ..., Y10 (nie wiemy ile razy pojawiły się wartości zmiennej X z przedziału (0, 1]) i na jej podstawie wyznaczamy estymator największej wiarogodności θ̂ parametru θ. Dobierz stałą c tak, aby zachodziła równość Pθ (θ < cθ̂) = 0, 95. Odp: D-> 1, 57. Rozwiązanie. W zadaniu musimy przejść do zmiennych Yi które mają gęstość fθ (xi |xi > 1). Jest jasne, że p = P(Xi > 1) ma postać Z ∞ Z ∞ p= 3θx2 exp(−θx3 )dx = θ exp(−θx)dx = e−θ . 0 1 Zatem zmienne Yi mają gęstość eθ fθ (yi + 1)1yi >0 , stąd wiarygodność ma postać L(θ, y) = e10θ 10 Y fθ (yi + 1)1yi >0 . i=1 Aby obliczyć estymator największej wiarygodności rozważmy funkcję f (θ) = log L(θ, y), której pochodna ma postać jest równa 10 1 X (yi + 1)3 . f 0 (θ) = 10 + 10 − θ i=1 Stąd θ̂ = P10 ((Y10+1)3 −1) . Zauważmy, że dla przechodząc do zmiennych obserwowanych Yi ten i i=1 estymator ma postać 10 θ̂ = P10 3 i=1 ((1 + Yi ) − 1) Pozostaje sprawdzić dla jakiego c zachodzi 10c Pθ (θ 6 P10 i=1 (1 + Yi )3 − 1 ) = 0, 95. P10 Oczywiście (1 + Yi )3 ma rozkład wykładniczy Exp(θ) przesunięty o 1. Stąd też i=1 (1 + Yi )3 ma P10 rozkład Γ(10, θ) przesunięty o 10. Ściślej i=1 (1 + Yi )3 ma ten sam rozkład co 10 + Y , gdzie Y ma rozkład Γ(10, θ). Stąd Pθ (θ 6 P10 10c i=1 (1 + Yi )3 −1 ) = Pθ (θ 6 10c ) = 0, 95. Y 1 2 Łatwo zauważyć, że Y ma ten sam rozkład co Z/(2θ), gdzie Z ma rozkład Γ( 20 2 , 2 ) czyli χ z 20 stopniami swobody. Zatem 0, 95 = P(Z 6 20c) Z tablic rozkładu χ2 dostajemy 20c ' 31, 410, czyli c ' 1, 57. 6 9. (Eg 58/3) Niech X1 , X2 , ..., X10 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie. Weryfikowano hipotezę H0 : VarX = 4 przy alternatywie H1 : VarX > 4. Zakładając, że zmienne losowe X, mają rozkład normalny o wartości oczekiwanej 0 wykorzystano test jednostajnie najmocniejszy na poziomie 0, 05. W rzeczywistości zmienne losowe X, mają rozkład o gęstości fc (x) = c|x| exp(−cx2 ), gdzie c > 0 jest nieznanym parametrem. Wyznacz rzeczywisty rozmiar wykorzystanego testu (wybierz najlepsze przybliżenie). Odp: B-> 0, 013. Rozwiązanie. Korzystamy z testu Neymana Pearsona dla gaussowskich zmiennych losowych. Iloraz wiarygodności dla θ > 4 ma postać 10 1 1 1 X 2 (2π4)5 L(θ, x) exp(− = ( − ) x ) L(4, x) (2πθ)5 2 θ 4 i=1 i co jest rosnącą funkcją P10 i=1 x2i . Zatem obszar krytyczny ma postać K = {x ∈ R10 : 10 X x2i > C} i=1 P10 P10 dla C takiego, że PVarX=4 ( i=1 Xi2 > C) = 0, 05. Oczywiście przy VarX = 4 rozkład i=1 Xi2 to rozkład zmiennej 4Z, gdzie Z ma rozkład χ2 z 10 stopniami swobody. Z tablic otrzymujemy, że C/4 = 18, 307. Pozostaje obliczyć α(c) = Pc ( 10 X Xi2 > C) i=1 dla Xi o rozkładzie z gęstością fc (x). Zauważmy najpierw, że Xi2 ma rozkład o dystrybuancie √ P(Xi2 6 t) = 2P(0 6 Xi 6 t) skąd wyznaczamy gęstość c exp(−ct)1t>0 , czyli Xi2 ma rozkład wykładniczy z parametrem c PaP10 rametr c obliczamy z warunku, że EXi2 = VarXi = 4. Stąd c = 1/4. Zatem i=1 Xi2 ma rozkład P10 1 Γ(10, 41 ). Ostatecznie i=1 Xi2 ma rozkład jak 2Z, gdzie Z pochodzi z rozkładu Γ( 20 2 , 2 ) czyli 2 χ (20). Z tablic odczytujemy, że P(Z > C/2) ' 0, 013. 10. (Eg 59/9) Zakładając, że zmienne losowe X1 , X2 , ..., X5 , Y1 , Y2 , , ..., Y5 są niezależnymi zmiennymi losowymi, przy czym Xi , i = 1, 2, ..., 5 mają rozkłady normalne N (µX , 1), a zmienne Yi , i = 1, 2, ..., 5 mają rozkłady normalne N (µY , 22 ), zbudowano test najmocniejszy dla weryfikacji hipotezy : H0 : µX = µY = 0 przy alternatywie H1 : µX = 1 i µY = −1 na poziomie istotności 0, 05. W rzeczywistości zmienne losowe (Xi , Yi ), i = 1, 2, ..., 5 są niezależne i mają rozkłady normalne o parametrach EXi = µX , EYi = µY , VarXi = 1, VarYi = 4, współczynnik korelacji ρ(Xi , Yi ) = 0, 5. Przy tych warunkach moc zbudowanego testu jest równa: ? Odp: E-> 0, 87. Rozwiązanie. Stosujemy test Neymana-Pearsona, obliczamy iloraz wiarygodności 5 X yi 25 L((1, −1), (x, y)) = exp( (xi − ) + ) L((0, 0), (x, y)) 4 8 i=1 7 P5 Zatem obszar krytyczny ma postać K = {(x, y) ∈ R5 × R5 : i=1 (xi − y4i ) > C; }, gdzie C jest tak dobrane aby 5 X Yi P(µX ,µY )=(0,0) ( (Xi − ) > C). 4 i=1 P5 Niech Z będzie z rozkładu N (0, 1). Przy założeniu µX = µY = 0 rozkład i=1 (Xi − Y4i ) ma postać P5 Yi 2 5 2 Z. Stąd 5 C ' 1, 64. Należy więc sprawdzić rozkład P i=1 (Xi − 4 ) przy założeniu korelacji oraz 5 µX = 1, µY = −1. Obliczamy wartość oczekiwaną E i=1 (Xi − Y4i ) = 25 4 . Obliczamy kowariancję Cov(Xi , Yi ) = 1 i wreszcie wariancję Var( Zatem P5 Yi 4 ) 5 X Yi 25 5 15 − = . (Xi − )) = 4 4 2 4 i=1 25 4 √ 15 2 Z, gdzie Z ma rozkład N (0, 1). Stąd √ 5 X 15 Yi 25 5 P(µX ,µY )=(1,−1) ( (Xi − ) 6 C) = P( + Z > · 1, 64) ' 0, 866. 4 4 2 2 i=1 i=1 (Xi − ma rozkład + 11. (Eg 60/5) Obserwujemy niezależne zmienne losowe X1 , X2 , X3 , Y1 , Y2 , Y3 , Y4 , Y5 . Zmienne losowe X1 , X2 , X3 mają ten sam rozkład o dystrybuancie Fµ1 , a zmienne Y1 , Y2 , Y3 , Y4 , Y5 mają ten sam rozkład o dystrybuancie Fµ2 . Dystrybuanta Fµ warunek Fµ (x) = F (x − µ) dla pewnej ustalonej, nieznanej, ciągłej, ściśle rosnącej dystrybuanty F . Weryfikujemy hipotezę H0 : µ1 = µ2 przy alternatywie H1 : µ1 6= µ2 stosując test o obszarze krytycznym K = {S : S < 10 ∨ S > 17}, gdzie S jest sumą rang zmiennych losowych X1 , X2 , X3 w próbce złożonej ze wszystkich obserwacji ustawionych w ciąg rosnący. Wyznaczyć rozmiar testu. Odp: B-> 0, 250. Rozwiązanie. Korzystamy z testu rangi. Wszystkich możliwych rozmieszczeń 3 elementów wśród 8 jest 83 = 56. Obliczamy teraz liczbę rozmieszczeń dla zbioru krytycznego to znaczy spełniającą warunki S < 10 lub S > 17. Dla S < 10 jest ich tyle samo co dla S > 17 czyli 7. Zatem rozmiar 14 = 0, 25. testu wynosi 56 12. (Eg 60/8) Zakładając, że zmienne losowe X1 , X2 , X3 są niezależne i mają jednakowy rozkład jednostajny na przedziale (−θ, θ), gdzie θ > 0 jest nieznanym parametrem, weryfikujemy hipotezę H0 : θ = 1 przy alternatywie H1 : θ 6= 1 za pomocą testu jednostajnie najmocniejszego na poziomie istotności 0, 2. W rzeczywistości zmienne losowe X1 , X2 , X3 są niezależne o tym samym rozkładzie o gęstości 1 p(x) = |x|, gdy x ∈ (−2, 2), oraz p(x) = 0 gdy |x| > 2. 4 Prawdopodobieństwo zbioru krytycznego rozważanego testu przy tym rozkładzie zmiennych X1 , X2 , X3 jest równe: ? Odp: B-> 0, 9850. Rozwiązanie. Zazwyczaj testy najmocniejsze są jednostronne. Znajdźmy strukturę testu Neymana Pearsona dla θ > 1 opartą o iloraz wiarygodności Q3 L(θ, x) i=1 1|xi |6θ = Q 3 L(1, x) θ3 i=1 1|xi |61 8 jest stale równy 1/θ3 na zbiorze T = max16i63 |xi | 6 1 i może być nieskończony dla T > 1. To oznacza, że w zbiorze krytycznym znajduje się zbiór {x ∈ R3 : T > 1}. Dla θ < 1 Q3 L(θ, x) i=1 1|xi |6θ = Q3 L(1, x) θ3 i=1 1|xi |61 co daje 1 gdy T 6 θ oraz 0 gdy T > θ na zbiorze T 6 1, czyli jest rosnącą funkcją statystyki 1/T . To oznacza, że w zbiorze krytycznym znajduje się zbiór {x ∈ R3 : T (x) 6 C}. Pozostaje sprawdzić, że dla C dobranego tak, że Pθ=1 (T (X) ∈ K) = 0, 2 obszar krytyczny spełnia warunki dostateczne testu Neymana-Persona dla dowolnego θ. Obliczamy Pθ=1 ({T (X) 6 C} ∪ {T (X) > 1}) = 0, 2. Stąd C 3 = 0, 2. Przy poprawionej funkcji gęstości dostajemy 1 1 Pθ=1 ({T (X) 6 C} ∪ {T (X) > 1}) = ( C 2 )3 + 1 − ( )3 = 0, 985. 4 4 13. (Eg 61/1) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale (0, θ1 ), a Y1 , Y2 , ..., Y6 niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale (0, θ2 ) , gdzie θ1 , θ2 są nieznanymi parametrami dodatnimi. Wszystkie zmienne są niezależne. Weryfikujemy hipotezę H0 : θ1 = θ2 przy alternatywie H1 : θ1 = 2θ2 testem o obszarze krytycznym max(X1 , X2 , ..., X6 ) > c}, K={ max(Y1 , Y2 , ..., Y6 ) gdzie c jest stałą dobraną tak, aby test miał rozmiar 0, 1. Moc tego testu jest równa Odp: B-> 0, 961. Rozwiązanie. W tym zadaniu dysponujemy obszarem krytycznym zatem wystarczy przeprowadzić odpowiedni rachunek. Najpierw zauważmy, że (max16i66 Xi , max16i66 Yi ) ma rozkład na R2 o gęstości 6t5 6s5 1 106s6θ2 . 06t6θ 1 θ16 θ26 Zatem Z θ1 Z θ2 max16i66 Xi 36x5 y 5 > c) = 1 xy >c 6 6 dydx = max16i66 Yi θ1 θ2 0 0 Z θ1 5 Z θ1 Z θ2 ∧ xc 5 5 6x (θ2 ∧ xc )6 36x y = dydx = dx = θ16 θ26 θ16 θ26 0 0 (θ1 ∧ cθ2 )12 (θ1 ∧ cθ2 )6 = + 1 − . 2c6 θ16 θ26 θ16 Pθ1 ,θ2 ( Dla θ1 = θ2 zatem rozmiar testu wynosi α(c) = (1 ∧ c)12 + 1 − (1 ∧ c)6 . 2c6 Czyli c6 /2 = 1 − 0, 1, c6 = 1, 8. Dla θ1 = 2θ2 dostajemy β(c) = c6 1.8 c12 + 1 − 6 = 1 − 7 ' 0, 986. 7 6 2 c 2 2 9 14. (Eg 62/1) Każda ze zmiennych losowych X1 , X2 , ..., X9 ma rozkład normalny z nieznaną wartością oczekiwaną m1 i wariancją 1, a każda ze zmiennych losowych Y1 , Y2 , ..., Y9 rozkład normalny z nieznaną wartością oczekiwaną m2 i wariancją 4. Założono, że wszystkie zmienne losowe są niezależne i wyznaczono, przy tych założeniach, test oparty na ilorazie wiarogodności dla testowania hipotezy H0 : m1 = m2 przy alternatywie H1 : m1 6= m2 na poziomie istotności 0, 05. W rzeczywistości założenie to nie jest spełnione: • co prawda pary zmiennych (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) są niezależne i mają rozkłady normalne, ale • dla i = 1, 2, ..., 6, Xi , Yi są zależne i współczynnik korelacji Corr(Xi , Yi ) = − 21 . Moc testu przy alternatywie m1 = m2 + 1 jest równa:? Odp: B-> 0, 293. Rozwiązanie. Stosujemy test oparty na ilorazie wiarygodności sup(m1 ,m2 )∈K L((m1 , m2 ), x) LK (x) = . LH (x) supθ∈H L((m1 , m2 ), x) Obliczamy 9 X (yi − m2 )2 (xi − m1 )2 sup L((m1 , m2 ), x) = sup (2π) (8π) exp(− + ]) = [ 2 8 (µ1 ,µ2 )∈K (m1 ,m2 ) i=1 9 2 9 9 = sup (2π) 2 (8π) 2 exp(− m1 ,m2 9 X (yi − ȳ)2 (xi − x̄)2 + ]), [ 2 8 i=1 gdyż maksimum jest osiągane dla m1 = x̄ = strony sup 9 2 1 n (x1 9 + ... + xn ), m2 = ȳ = 9 L((m1 , m2 ), x) = sup(2π) 2 (8π) 2 exp(− m1 (m1 ,m2 )∈H 9 9 = sup(2π) 2 (8π) 2 exp(− m1 9 X i=1 [ 1 n (y1 + ... + yn ). Z drugiej 9 X (xi − m1 )2 (yi − m1 )2 [ + ]) = 2 8 i=1 y2 2 ȳ x2i + i − n(x̄ + )2 ]). 2 8 5 4 Stąd exp(− 9 X i=1 [n( 9 X x̄2 ȳ 2 2 ȳ (x̄ − ȳ)2 + − (x̄ + )2 )]) = exp(n ). 2 8 5 4 10 i=1 Zatem obszar krytyczny ma postać K = {(x, y) : |x̄ − ȳ| > C} co warto zapamiętać jako fakt pomocniczy. Obliczamy wartość C Pm1 =m2 (|X̄ − Ȳ | > C) = 0, 05. Przy założeniu X̄ − Ȳ ma rozkład N (0, 59 ) czyli dla Z z rozkładu N (0, 1) √ 5 Pm1 =m2 (|X̄ − Ȳ | > C) = P( |Z| > C) = 0, 05. 3 √ Zatem √35 C = 1, 96, C = 35 · 1, 96. Dla m1 = m2 + 1 rozkład X̄ − Ȳ ma wartość średnią 1. Nadto przy założeniach o korelacji dla i = 1, 2, ..., 6 zachodzi Cov(Xi , Yi ) = −1. Zatem Var(X̄ − Ȳ ) = 10 11 . 27 Obliczamy √ 11 Pm1 =m2 +1 (|X̄ − Ȳ | > C) = P(|1 + √ Z| > C) ' 0, 293. 27 15. (Eg 62/3) Załóżmy, że dysponujemy pojedynczą obserwacją X z rozkładu Laplace’a o gęstości fµ,λ (x) = λ −λ|x−µ| e , 2 gdzie λ > 0 i µ ∈ R są parametrami. Rozważamy zadanie testowania hipotezy H0 : µ = −1 i λ = 0, 5 przy alternatywie H1 : µ = 0 i λ = 1. Obszar krytyczny najmocniejszego testu na poziomie istotności α jest postaci K = {x : x ∈ (b, 2)}. Moc testu jest równa Odp: C-> 0, 676. Rozwiązanie. Najmocniejszy test ma konstrukcję testu Neymana-Pearsona czyli powinniśmy wyznaczyć iloraz wiarygodności L((−1, 21 ), x) 1 = 2 exp(−|x| + |x + 1|). L((0, 1), x) 2 Zatem obszar krytyczny ma postać K = {x ∈ R : −|x| + 12 |x + 1| > C}. Stąd C = − 21 oraz b = − 23 . Pozostaje obliczyć moc testu Z 2 1 −|x| Pµ=0,λ=1 (X ∈ K) = e dx = − 32 2 = 2 1 1 (1 − e−2 ) + (1 − e− 3 ) ' 0, 676. 2 2 11 1 Warunkowe wartości oczekiwane W tej serii zadań rozwiążemy różne zadania związane z problemem warunkowania. 1. (Eg 48/1) Załóżmy, że X1 , X2 , X3 , X4 są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć ν = Var(X3 + X4 |X1 + X2 + X3 = 9) Odp: C-> ν = 12. Rozwiązanie. Przypomnijmy, że rozkład X3 pod warunkiem X1 + X2 + X3 = 9 ma postać Bernoulliego B(9, 21 ). Warto zauważyć, że 1 2 Var(X3 +X4 |X1 +X2 +X3 = 9) = VarX4 +Var(X3 |X1 +X2 +X3 = 9) = λ+9· · = 10+2 = 12. 3 3 2. (Eg 49/7) Niech X0 , X1 , X2 , ..., Xn , n > 2, będą niezależnymi zmiennymi losowymi z rozkładu 3 Pareto o gęstości f (x) = (1+x) 4 1x>0 . Niech U = min{X0 , X1 , X2 , ..., Xn }. Wtedy E(U |X0 = 1) jest równa 1 1 (1 − 23n−1 ). Odp: E-> 3n−1 Rozwiązanie. Obliczamy E(U |X0 = 1) = E min{1, X1 , X2 , ..., Xn } = Z 1 = P(min{X1 , ..., Xn } > 1) + P(t < min{X1 , ..., Xn } 6 1)dt = 0 Z =( Z ∞ 1 1 = 0 n Z f (x)dx) + 0 1 Z ( 1 n −3n f (x)dx) dt = 2 Z + t 1 [(1 + t)−3n − 2−3n ]dt = 0 1 (1 − 2−3n+1 ). (1 + t)−3n dt = 3n − 1 3. (Eg 50/2) Niech X i Y będą niezależnymi zmiennymi losowymi każda z rozkładu wykładniczego o wartości oczekiwanej 1. Niech U = 2X + Y i V = X − Y . Wtedy prawdopodobieństwo P(U ∈ (0, 6) i V ∈ (0, 6)) jest równe Odp: C-> 12 (1 − 4e−3 + 3e−4 ). Rozwiązanie. Mamy do policzenia prawdopodobieństwo, że (U, V ) ∈ (0, 6)2 . Jest jasne, że (U, V ) jest przekształceniem liniowym T (X, Y ). Zatem (U, V ) ∈ (0, 6)2 tłumaczy się na (X, Y ) ∈ T −1 (0, 6)2 . Wystarczy sprawdzić na co przekształcane są punkty (0, 0), (6, 0), (0, 6), (6, 6), dostajemy (0, 0), (2, 2), (2, −4), (4, −2) czyli wierzchołki równoległoboku R. Mamy Z 2Z x Z 3 Z 6−2x 2 −y P((U, V ) ∈ (0, 6) ) = P((X, Y ) ∈ R) = e dydx + e−y dye−x dx = 0 Z = 2 (e−x − e−2x )dx + 0 Z 2 3 0 2 0 1 (e−x − e−6+x )dx = 1 − e−2 − (1 − e−4 ) + e−2 − e−3 − e−3 + e−4 = 2 1 = (1 − 4e−3 + 3e−4 . 2 4. (Eg 51/1) Niech będzie dwuwymiarową zmienną losową o funkcji gęstości f (x, y) = 2x2 + 43 xy10<x<1 10<y<1 Niech S = X + Y i V = Y − X. Wyznacz E(V |S = 1). Odp: C-> − 83 . Rozwiązanie. W tym zadaniu należy wyznaczyć trzeba wyznaczyć rozkład (S, V ) mamy fS,V (s, v) = 1 1 1 1 1 f ( (s − v), (s + v)) = [ (s − v)2 + (s2 − v 2 )]1|v|<min(s,2−s) . 2 2 2 4 6 1 Pozostaje zatem wyznaczyć rozkład warunkowy [ 1 (1 − v)2 + 16 (1 − v 2 )]1|v|<1 fS,V (v|s = 1) = R41 = 1 (1 − v)2 + 16 (1 − v 2 )dv −1 4 1 9 1 = [ (1 − v)2 + (1 − v 2 )]1|v|61 . 8 4 6 Obliczamy Z 1 E(V |S = 1) = −1 9 3 3 v(1 − v)2 + (v − v 3 )dv = − . 32 16 8 5. (Eg 52/7) Niech (X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości f (x, y) = e−x 1x>0 10<y<1 . Niech Z = X + 2Y . Wtedy łączny rozkład zmiennych Z, X jest taki, że Odp: D-> jego funkcja gęstości na zbiorze {(z, x) : 0 < x < z < 2 + x} wyraża się wzorem g(z, x) = 12 e−x . Rozwiązanie. Mamy przekształcenie (Z, X) = T (X, Y ), gdzie T jest przekształceniem liniowym T (X, Y ) = (X +2Y, X). Zatem T −1 (Z, X) = (X, 21 (Z −X)), nadto moduł z wyznacznika |DT −1 | = 1 2 . Obliczamy fZ,X (z, x) = 1 1 1 1 f (x, (z − x)) = e−x 1x>0 10< 21 (z−x)<1 = e−x 10<x6z62+x . 2 2 2 2 6. (Eg 53/1) Zmienna losowa X ma rozkład wykładniczy o wartości oczekiwanej 1, a zmienna losowa Y rozkład wykładniczy o wartości oczekiwanej 2. Obie zmienne są niezależne. Oblicz E(Y |X +Y = 3) Odp: A-> 1, 86. Rozwiązanie. Należy wyznaczyć wspólny rozkład (Y, X + Y ) = T (X, Y ). Zatem T −1 (U, V ) = (V − U, U ) oraz |DT −1 | = 1 co oznacza, że 1 1 1 1 fY,X+Y (u, v) = e−(v−u) e− 2 u 1v−u>0 1u>0 = e−v+ 2 u 1v>u>0 . 2 2 Stąd 1 e 2 u 1v>u>0 fY,X+Y (u|v) = . 1 2(e 2 v − 1) Zatem Z 3 3 4 + 2 · e2 ' 1, 86. E(Y |X + Y = 3) = (1 − e−3 )−1 ue−u du = 3 2(e 2 − 1) 0 7. (Eg 54/2) Załóżmy, że niezależne zmienne losowe X1 , X2 , ..., Xn mają rozkłady wykładnicze o wartościach oczekiwanych równych EXi = 1i , i = 1, 2, ..., n. Wtedy prawdopodobieństwo P(X1 = min{X1 , X2 , ..., Xn }) jest równe Odp: D-> n22+n . Rozwiązanie. Przypomnijmy, że min(X2 , ..., Xn ) ma rozkład wykładniczy którego parametr jest sumą parametrów poszczególnych zmiennych to znaczy Exp(2 + 3 + ... + n) = Exp( (n+1)n − 1). 2 2 Nadto jeśli X, Y są niezależne z rozkładu Exp(1), to X1 ∼ X, min(X2 , ..., Xn ) ∼ n2 +n−2 Y . Zatem 2 2 P(X1 = min{X1 , X2 , ..., Xn }) = P(X 6 2 Y ) = EP(X 6 2 Y |X) = n +n−2 n +n−2 Z ∞ n2 +n−2 2 = e− 2 x e−x dx = 2 . n +n 0 2 8. (Eg 56/3) Niech (X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości f (x, y) = 2 1x>1 116y62 . x3 Niech S = X + Y i V = X − Y . Wtedy P(V < 1|S = 4) jest równe 81 Odp: C-> 125 . Rozwiązanie. Należy wyznaczyć rozkład (V, S) = (X −Y, X +Y ) = T (X, Y ). Mamy T −1 (V, S) = ( 21 (S + V ), 12 (S − V )), |DT −1 | = 12 , stąd fV,S (v, s) = 1 s+v s−v 8 1s+v>2 126s−v64 f( , )= 2 2 2 (s + v)3 Zatem 288 106v62 . 5(4 + v)3 fS,V (v|s = 2) = Pozostaje obliczyć Z P(V < 1|S = 4) = 0 1 288 81 dv = . 3 5(4 + v) 125 9. (Eg 57/5) Niech X i Y będą niezależnymi zmiennymi losowymi z rozkładów o gęstościach fX (x) = 32x2 e−4x 1x>0 , fY (x) = 16xe−4x 1x>0 . Wtedy E(X − Y |X + Y = s) jest równa Odp: C-> 51 s. Rozwiązanie. W tym zadaniu szczęśliwie mamy te same parametry przy rozkładach gamma. Rozkład zmiennej X ma postać Γ(3, 4) rozkład Y ma postać Γ(2, 4). Możemy skorzystać z wiedzy, że rozkład X pod warunkiem X + Y ma rozkład Beta(3, 2) (niezależny od X + Y ), natomiast rozkład Y ma rozkład Beta(2, 3) (niezależny od X +Y ). Przypomnijmy, że dla rozkładu Beta(α, β) α wartość oczekiwana wynosi α+β . Zatem E(X − Y |X + Y = s) = sE X Y 3 2 s − sE = s( − ) = . X +Y X +Y 5 5 5 10. (Eg 58/10) Niech Z1 , Z2 , ..., Zn będą niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale (−1, 1). Wyznaczyć E(Z1 +Z2 +...+Zn | max(Z1 , Z2 , ..., Zn ) = t), gdzie t jest ustaloną liczba z przedziału (−1, 1)) Odp: E-> (n+1)t−n+1 . 2 Rozwiązanie. Problem najpierw redukujemy do zmiennych X1 , X2 , ..., Xn z rozkładu jednostajnego na (0, 1) podstawieniem Zi = −1 + 2Xi . Stąd E(Z1 + ... + Zn | max(Z1 , ..., Zn ) = t) = −n + 2E(X1 + ... + Xn | max(X1 , ..., Xn ) = 1+t ). 2 Zauważmy, że max(X1 , ..., Xn ) ma rozkład o gęstości g(t) = ntn−1 Zatem szukamy funkcji borelowskiej F : R → R takiej, że Z EX1 + ... + Xn 1max(X1 ,...,Xn )∈A = EF (max(X1 , ..., Zn ))1max(X1 ,...,Xn )∈A = F (t)g(t)dt. A Statystyki pozycyjne Xn:1 , ..., Xn:n mają rozkład jednostajny na sympleksie 4n = {x ∈ Rn : 0 6 x1 6 x2 ... 6 xn 6 1} o gęstości n!106x1 6...6xn 61 . Obliczamy EX1 + ... + Xn 1max(X1 ,...,Xn )∈A = E(Xn:1 + ... + Xn:n )1Xn:n ∈A = Z Z Z xn Z x2 X n n X xi )1xn ∈A dx1 ...dxn = n! ( ... xi dx1 ...dxn−1 )dxn . = n! ( 4n i=1 A 3 0 0 i=1 Pozostaje zauważyć, że Z x2 X Z n (n − 1)! xn n−1 n+1 ... xi dx1 ...dxn−1 = (xn + ( )xn ) = xn . n−1 2 2 xn 0 0 i=1 Stąd Z EX1 + ... + Xn 1max(X1 ,...,Xn )∈A = A Czyli F (s) = n+1 2 s. Podstawiając s = 1+t 2 n(n + 1) n xn dxn = 2 Z A (n + 1) tg(t)dt. 2 otrzymujemy E(Z1 + ... + Zn | max(Z1 , ..., Zn ) = t) = −n + 2 n+11+t (n + 1)t − n + 1 = . 2 2 2 11. (Eg 59/3) Zmienne losowe Xj , gdzie j = 1, 2, 3, ... są warunkowo niezależne pod warunkiem zmiennej Θ i mają rozkłady warunkowe o wartości oczekiwanej Θ i wariancji 4Θ2 . Zmienna losowa N pod warunkiem zmiennej losowej Λ = λ ma rozkład Poissona o wartości oczekiwanej λ. Zmienne (X1 , X2 , ...), N są niezależne. Zmienna Θ ma rozkład Gamma z parametrami (100, 2), a zmienna Λ ma rozkład Gamma z parametrami (2, 4). Zmienne Λ i Θ są niezależne. Wariancja zmiennej losowej N X SN = Xi , dla N > 0 S = 0 dla N = 0 i=1 jest równa Odp: E-> 6634, 375. Rozwiązanie. Mamy do policzenia wariancje SN . Najpierw wyznaczamy wartość oczekiwaną ESN = ∞ X P(N = n)ESn = n=0 ∞ X P(N = n)EE(Sn |θ) = n=0 = EN EΘ = EE(N Λ)EΘ = EΛEΘ = 1 · 50 = 25. 2 Obliczamy 2 ESN = ∞ X P(N = n)ESn2 = n=0 = ∞ X P(N = n)EE(Sn2 |θ) = n=0 ∞ X P(N = n)ESn2 = n=0 ∞ X P(N = n)EnVar(X|Θ) + n2 (E(X|Θ))2 = n=0 2 2 2 = 4EN EΘ + EN EΘ = 4EE(N Λ)EΘ2 + EE(N 2 |Λ)EΘ2 = = E(Λ2 + 5Λ)EΘ2 = 7259, 375. Stąd VarSn = 6634, 375. 12. (Eg 59/6) Niech A, B, C będą zdarzeniami losowymi spełniającymi warunki P(C\B) > 0 i P(B\C) > 0 i P(B ∩ C) > 0 i P(A|C\B) > P(A|B). Wtedy Odp: B-> P(A|B ∪ C) > P(A|B). Rozwiązanie. Mamy P(A ∩ (B ∪ C)) P(A ∩ B) + P(A ∩ (C\B)) = = P(B ∪ C) P(B) + P(C\B) P(A|B)P(B) + P(A|C\B)P(C\B) P(A|B)P(B) + P(A|B)P(C\B) > = P(A|B). P(B) + P(C\B) P(B) + P(B\C) P(A|B ∪ B) = 4 13. (Eg 60/7) Wybieramy losowo i niezależnie dwa punkty z odcinka [0, 2π] Traktując te dwa punkty jako punkty na okręgu o promieniu 1, obliczyć wartość oczekiwaną odległości między nimi (odległość mierzymy wzdłuż cięciwy). Odp: B-> π4 . Rozwiązanie. Jeden z punktów możemy ustalić. Wtedy wybór drugiego punktu to wybór kąta α tworzonego przez środek okręgu i dwa punktu. Długość cięciwy liczymy ze wzoru 2 sin α/2 gdzie α pochodzi z rozkładu jednostajnego na [0, 2π]. Zatem wartość oczekiwana ma postać Z 2π α 1 4 2 sin dα = . 2π 0 2 π 14. (Eg 61/8) Niech U i V będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale (0, 1). Niech 1 U2 , Z= 1 U2 +V4 1 wtedy E(Z|U 2 + V 4 < 1) jest równe ? Odp: B-> 89 . Rozwiązanie. Zadanie polega na umiejętnym wykorzystaniu rozkładu beta. Zauważmy najpierw, 1 że zmienne (X, Y ) = ( U2 U 1 2 ) powstają przez przekształcenie T : (0, 1)2 → (0, 1) × (0, 2) któ- +V 4 −1 1 rego odwrotne ma postać T (X, Y ) = ((XY )2 , ((1 − X)Y ) 4 ), a którego jakobian ma postać 3 |DT −1 (x, y)| = 12 xy 5 (1 − x)− 4 . Stąd gęstość rozkładu (X, Y ) ma postać 3 1 5 xy 4 (1 − x)− 4 (10<x<1 10<y<1 + 11− y1 <x< y1 116y<2 ). 2 Pozostaje obliczyć z rozkładu beta Z 1Z P(Y < 1) = 0 0 Nadto ponownie z rozkładu beta Z 1Z EX1Y <1 = 0 0 1 1 3 2 Γ(2)Γ( 14 ) 32 1 5 xy 4 (1 − x)− 4 dxdy = = . 2 9 Γ(2 + 14 ) 45 3 5 2 Γ(3)Γ( 14 ) 256 1 2 x (1 − x)− 4 y 4 dxdy = . = 1 2 9 Γ(3 + 4 ) 405 Stąd E(X|Y < 1) = 45 256 8 · = . 32 405 9 15. (Eg 62/5) Zmienna losowa (X, Y ) ma rozkład prawdopodobieństwa o funkcji gęstości f (x, y) = 8xy10<y<x<1 . Niech U = X + Y i V = X − Y . Wtedy E(V |U = 43 ) jest równa ? 7 Odp: D-> 22 . Rozwiązanie. Obliczamy wspólny rozkład (V, U ) = T (X, Y ). Przekształcenie odwrotne ma postać T −1 (V, U ) = ( 21 (U + V ), 12 (U − V )), którego jakobian ma postać |DT −1 | = 12 . Zatem fV,U (v, u) = 1 u+v u−v f( , ) = 2(u2 − v 2 )10<v<min(u,2−u) 10<u<2 . 2 2 2 Pozostaje wyznaczyć gęstość warunkową fV,U (v|u = 4 81 16 )= ( − v 2 )10<v< 23 . 3 88 9 5 Obliczamy 4 E(V |U = ) = 3 Z 2 30 81 16 7 v( − v 2 )dv = . 88 9 22 6 1 Przedziały ufności W tym rozdziale będziemy zajmować się przede wszystkim zadaniami związanymi z przedziałami ufności. Będą nas również interesować statystki pozycyjne oraz estymatory największej wiarygodności. 1. (Eg 48/10) Niech X1 , X2 , ..., Xn , n > 5 będą niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale (0, θ), gdzie θ > 0 jest nieznanym parametrem. Wyznaczamy przedział ufności dla parametru θ postaci [2X3,n , 2Xn−2,n ], gdzie Xk,n oznacza k-tą statystykę pozycyjną z próby X1 , X2 , ..., Xn . Dla jakiej najmniejszej liczebności próby losowej n zachodzi Pθ (θ ∈ [2X2,n , 2Xn−2,n ]) > 0, 9. Odp: D-> 11. Rozwiązanie. Należy pamiętać, że dla ustalonej wartości t zdarzenie Xk,n 6 t jest osiągnięciem co najmniej k sukcesów w doświadczeniu Bernoulliego z prawdopodobieństwem sukcesu F (t) = t/θ dla 0 < t < θ, gdzie F jest dystrybuantą rozkładu jednostajnego na (0, θ). Zatem z prawdopodobieństwem sukcesu F (t) = t/θ dla 0 < t < θ, gdzie F jest dystrybuantą rozkładu jednostajnego na (0, θ). Zatem θ Pθ (X2,n 6 6 Xn−2,n ) = P(2 6 S 6 n − 2), 2 gdzie S pochodzi z rozkładu B(n, 21 ). Obliczamy P(2 6 S 6 n−2) = 1−P(S 6 2)−P(S > n−2) = 1−2( n −n 2 +n2−n +2−n ) = 1−(n2 +n+2)2−n . 2 Dla n = 11 otrzymujemy po raz pierwszy wartość (n2 + n + 2)2−n mniejszą od 0, 1. 333333 2. (Eg 49/10) Niech X1 , X2 , ..., X10 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie o gęstości fθ (x) = θxθ−1 1x∈(0,1) , gdzie θ > 0 jest nieznanym parametrem. Wyznaczamy przedział ufności dla parametru θ postaci [cθ̂, dθ̂], gdzie θ̄ = θ̄(X1 , X2 ..., X10 ) jest estymatorem największej wiarogodności, a stałe c i d są dobrane tak, aby Pθ (θ < cθ̂) = Pθ (θ > dθ̂) = 0, 05. Wyznaczyć c i d. Odp: A-> c = 0, 54 i d = 1, 57. Rozwiązanie. Obliczamy wiarygodność L(θ, x) = θ10 10 Y xθ−1 1xi ∈(0,1) . i i=1 Zatem dla ustalonego x funkcja f (θ) = ln L(θ, x) osiąga maksimum dla θ spełniającego f 0 (θ) = 0, czyli 10 1 X 10 + ln xi = 0. θ i=1 Stąd 10 θ̄ = − P10 . i=1 ln xi 1 Pozostaje znaleźć c i d takie, że Pθ (θ < cθ̄) = Pθ (θ > dθ̄) = 0, 05. P10 Nietrudno sprawdzić, że − ln Xi ma rozkład wykładniczy z parametrem θ. Stąd − i=1 ln Xi ma rozkład Gamma(10, θ). Zatem θ/θ̄ ma rozkład Gamma(10, 10), który dalej jest tym samym co 1 20 1 1 2 20 Gamma( 2 , 2 ) czyli 20 χ (20). To oznacza, że 20c będzie dolnym a 20d górnym kwantylem dla 2 rozkładu χ (20) dla wartości 0, 05. Korzystając z tablica znajdujemy c ' 0, 54, d ' 1, 57. 3. (Eg 50/5) Niech X1 , ..., Xn , n > 1 będzie próbką z rozkładu jednostajnego o gęstości danej wzorem: fθ (x) = 1 1x∈(0,θ) , θ gdzie θ jest nieznanym parametrem. Zmienne losowe X1 , ..., Xn nie są w pełni obserwowalne. Obserwujemy zmienne losowe Yi = min(Xi , M ), gdzie M jest ustaloną liczbą dodatnią. Oblicz estymator największej wiarogodności θ̂ parametru θ jeśli wiadomo, że w próbce Y1 , ..., Yn , jest K obserwacji o wartościach mniejszych niż M i K ∈ {1, ..., n − 1} Odp: B-> M n/K. Rozwiązanie. Z danych zadania dostajemy, że θ > M . Szansa, że dokładnie K zmiennych będzie mniejszych niż M wynosi n M K θ − M n−K ) . ( ) ( θ θ K Warto zauważyć, że przy okazji jest to funkcja wiarygodności. Poszukujemy wartości θ dla której funkcja f (θ) = ln L(θ, x) przyjmuje maksimum czyli punktu θ takiego, że f 0 (θ) = 0. Zachodzi 1 1 −n + (n − K) = 0. θ θ−M Zatem θ̄ = M n/K. 4. (Eg 51/2) Załóżmy, że X1 , X2 , ..., Xn ,P n > 2 są niezależnymi zmiennymi losowymi o jednakowym n rozkładzie wykładniczym. Niech S = i=1 Xi . Oblicz p = P(X1 6 S/2, ..., Xn 6 S/2). Odp: D-> 1 − n 2n−1 . Rozwiązanie. Kluczowe to aby zauważyć, że zdarzeniem przeciwnym do X1 6 S/2, ..., Xn 6 S/2 Sn jest i=1 {Xi > S/2}. Zatem P(X1 6 S/2, ..., Xn 6 S/2) = 1 − nP(X1 > S/2). Rozkład X1 /S jest postaci Beta(1, n − 1). Stąd Z P(X1 6 S/2) = 1 (n − 1)(1 − y)n−2 dy = 1 2 1 2n−1 . Stąd p = 1 − n2−n+1 . 5. (Eg 52/9) Załóżmy, że X1 , X2 , ..., Xn , ... jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie wykładniczym o gęstości f (x) = 1 exp(−x/µ) dla x > 0. µ 2 Zmienna losowa N jest niezależna od X1 , X2 , ..., Xn , ... i ma rozkład geometryczny dany wzorem: P(N = n) = p(1 − p)n dla n = 0, 1, 2, ... PN Niech SN = i=1 (przy tym S0 = 0, zgodnie z konwencją). Oblicz E(N |SN = s), dla s > 0. Odp: D-> s(1 − p)/µ + 1. Rozwiązanie. Stosujemy ogólny wzór Bayesa. Najpierw wyznaczamy gęstość (N, S) względem µ ⊗ λ, gdzie µ jest miarą liczącą na Z, a λ miarą Lebesgue’a na R. Przypomnijmy, że Sn ma rozkład Gamma(n, µ1 ) fN,SN (n, s) = p(1 − p)n s sn−1 e− µ 1s>0 1N =0 . (n − 1)!µn Rozkład (N, SN ) ma też atom w (0, 0) który osiąga z prawdopodobieństwem p. Obliczamy gęstość warunkową dla s > 0 [(1 − p)s]n−1 (1−p)s fN,SN (n|s) = e µ 1n>0 . (n − 1)!µn−1 Zatem ∞ X n[(1 − p)s]n−1 − (1−p)s s(1 − p) µ e =1+ . n−1 (n − 1)!µ µ n=1 E(N |Sn = s) = 6. (Eg 53/6) Rozważmy zmienne losowe N, X, Y . Wiadomo, że rozkład warunkowy zmiennej losowej N , gdy X = x i Y = y jest rozkładem Poissona o wartości oczekiwanej x. Rozkład warunkowy zmiennej losowej X, gdy Y = y jest rozkładem Gamma(2, y), a rozkład zmiennej Y jest rozkładem Gamma(4, 3), gdzie rozkład Gamma(α, β) ma gęstość pα,β = β α α−1 −βx x e 1x>0 . Γ(α) Wtedy wariancja VarN jest równa Odp: B-> 7. Rozwiązanie. Obliczamy VarN = EN 2 − (EN )2 = EE(N 2 |X, Y ) − (EE(N, X, Y ))2 = E(X 2 + X) − (EX)2 = 6 2 2 = EE(X 2 + X|Y ) − (EE(X|Y ))2 = E 2 + − (E )2 . Y Y Y Dla zmiennej Z z rozkładu Gamma(α, β) jeśli α > 2, to EZ −2 = EZ −1 = β α−1 . Zatem EY −2 = 3 2, EY −1 = 3 3 β2 (α−1)(α−2) oraz jeśli α > 1, to = 1. Czyli VarN = 9 + 2 − 4 = 7. 7. (Eg 54/8) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi o tym samym rozkładzie o gęstości pa,b = be−b(x−a) 1x>a gdzie a ∈ R i b > 0 są nieznanymi parametrami. Rozważmy estymator największej wiarygodności (Ta , Tb ) wektora parametrów (a, b). Wartości oczekiwane ETa i ETb są równe 1 n Odp: D-> ETa = a + nb , ETb = n−2 b. 3 Rozwiązanie. Obliczamy wiarygodność L((a, b), x) = bn exp(−b n X (xi − a))1min(xi )>a . i=1 Szukamy punktu (a, b) maksymalizującego wiarygodność. Oczywiście Ta = min(x1 , ..., xn ) natomiast b wyznaczamy korzystając z funkcji f (b) = ln L((Ta , b), x), rozwiązując równanie f 0 (b) = 0 czyli n n X n . = (xi − Ta ), zatem Tb = Pn b i=1 (xi − Ta ) i=1 Obliczamy Z ∞ n Z P(Xi − a > t) dt = ETa − a = ∞ e−nbx dx = 0 0 1 , nb Pn 1 czyli ETa = a + nb . Z powodu braku pamięci rozkładu wykładniczego rozkład i=1 (xi − Ta ) będzie rozkładem (n − 1) zmiennych niezależnych o rozkładzie wykładniczym z parametrem b czyli Gamma(n − 1, b). Obliczamy Z ∞ n−1 b n ETb = n xn−2 e−bx dx = b. (n − 2)! n−2 0 8. (Eg 55/6) Niech N oraz X1 , X2 , ... będą niezależnymi zmiennymi losowymi, przy czym N ma rozkład Poissona z wartością oczekiwaną λ = 1, zaś rozkład każdej ze zmiennych Xn podaje następująca tabelka: x 1 2 3 . P(Xn = x) 21 14 14 PN Niech S = i=1 Xi dla N > 0 i S = 0 dla N = 0. Oblicz warunkową wartość oczekiwaną E(N |S = 3). 27 . Odp: A-> 19 Rozwiązanie. Mamy klasyczny wzór Bayesa E(N |S = 3) = ∞ X nP(N = n|S = 3) = n=0 ∞ X P(S = 3|N = n)P(N = n) n P∞ . m=0 P(S = 3|N = m)P(N = m) n=0 Nadto ∞ X nP(S = 3|N = n)P(N = n) = P(X1 = 3)P(N = 1) + 2(P(X1 = 2, X2 = 1)+ n=0 + P(X1 = 1, X2 = 2))P(N = 2) + 2P(X1 = X2 = X3 = 1)P (N = 3) = 1 1 1 = e−1 ( + + ) 4 4 16 oraz ∞ X P(S = 3|N = m)P(N = m) = P(X1 = 3)P(N = 1)+ m=0 + (P(X1 = 2, X2 = 1) + P(X1 = 1, X2 = 2))P (N = 2) + P(X1 = X2 = X3 = 1) = 1 1 1 = e−1 ( + + ) 4 8 48 Stąd E(N |S = 3) = 27 19 . 4 9. (Eg 56/9) Niech X1 , X2 , ..., Xn będą zmiennymi losowymi o rozkładzie P areto(1, a1 ) a Y1 , Y2 , ..., Ym będą zmiennymi losowymi o rozkładzie P areto(1, a2 ), gdzie a1 , a2 > 0 są nieznanymi parametrami. Wszystkie zmienne są niezależne. Na poziomie ufności 1 − α budujemy przedział ufności [dT, cT ] dla parametru aa12 na podstawie estymatora największej wiarogodności T tegoż parametru w ten sposób, że a1 a1 α Pa1 ,a2 (cT < ) = Pa1 ,a2 (dT > ) = . a2 a2 2 Jeśli α = 0, 1 i m = 4 i n = 5, to przedział ufności ma długość Odp: E-> 3, 02T . Rozwiązanie. Jeśli m = 4 i n = 5, to funkcja wiarygodności ma postać L((a1 , a2 ), (x, y)) = α15 α24 5 Y (xi )−α1 −1 1xi >1 i=1 4 Y (yj )−α2 −1 1yj >1 . j=1 Zatem estymatorem EN W (α1 , α2 ) jest punkt minimum funkcji f (α1 , α2 ) = ln L((a1 , a2 ), (x, y)), ∂f ∂f = ∂α = 0. Obliczamy czyli rozwiązanie równania ∂α 1 2 5 4 X X 5 4 ln xi , ln yi . = = α1 α2 i=1 i=1 Stąd α̂1 = P5 5 , i=1 ln Xi α̂2 = P4 4 i=1 ln Yi . Zatem P4 α̂1 5 i=1 ln Yi T = = P5 . α̂2 4 i=1 ln Xi P5 P4 Oczywiście i=1 ln Xi ma rozkład Gamma(5, α1 ), a i=1 ln Yi rozkład Gamma(4, α2 ) nadto te P4 P5 1 2 zmienne są niezależne. Stąd 2α1 i=1 ln Xi ma rozkład Gamma( 10 i=1 ln Yi 2 , 2 ) = χ (10), a 2α2 ma rozkład Gamma( 82 , 12 ) = χ2 (8). Zatem aa12 T ma rozkład Fishera-Snedecora F (10, 8). Odczytujemy z tablic c = 3, 347, d = 0, 326. Stąd długość [dT, cT ] wynosi w przybliżeniu 3, 021T . 10. (Eg 57/7) Niech X1 , X2 , ..., X10 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie o nieznanej medianie m. Budujemy przedział ufności dla parametru m postaci [X3:10 , X7:10 ], gdzie Xk:10 oznacza k-tą statystykę pozycyjną z próby X1 , X2 , ..., X10 . Prawdopodobieństwo P(m ∈ [X3:10 , X7:10 ]) jest równe 114 Odp: A-> 128 . Rozwiązanie. Należy zauważyć, że dla ustalonego t szansa, że Xk:10 6 t jest równe prawdopodobieństwu uzyskania co najmniej k sukcesów w doświadczeniu Bernoulliego z prawdopodobieństwem F (t), gdzie F jest dystrybuantą wspólnego rozkładu zmiennych X1 , ..., X10 . Przyjmujemy, że rozkład jest ciągły (ściślej, że F (m) = 21 ), w przeciwnym razie zadanie nie daje się rozwiązać. Wówczas przyjmując, że zmienna S ma rozkład B(10, 12 ) zachodzi równość P(m ∈ [X3:10 , X7:10 ]) = P(3 6 S < 7) = 1 − 2(1 + 10 + 45) + 120 23 (14 + 15) 99 = 1 − = . 210 29 128 11. (Eg 58/2) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu Pareto o gęstości θλθ 1x>0 , fθ (x) = (λ + x)θ+1 gdzie θ, λ > 0 są nieznanymi parametrami. Rozważmy estymatory największej wiarygodności θ̄n , λ̄n parametrów θ i λ. Chcemy dobrać stałą t tak aby przy n dążącym do nieskończoności 5 √ prawdopodobieństwo zdarzenia |θ̄n − θ| n > t było równe 0, 1. Jeżeli θ = 3 i λ = 1, to stała t jest równa Odp: A -> 19, 7. Rozwiązanie. W tym zadaniu najprościej skorzystać z twierdzeń o asymptotycznej zbieżności. Twierdzenia te bazują na analizie wiarygodności L((θ, λ), x) = n X θλθ , ln L((θ, λ), x) = n(ln θ + θ ln λ) − (θ + 1) ln(λ + xi ). (λ + xi )θ+1 i=1 i=1 n Y Aby zachodziła asymptotyczna normalność po pierwsze musi być spełniony warunek zgodności. To znaczy, że (θ̄n , λ̄n ) → (θ, λ) przynajmniej według prawdopodobieństwa. Okazuje się, że przy różniczkowalnej funkcji wiarygodności wystarczy aby ∂ ln L = 0, czyli równanie ∂ ln L((θ, λ), x) ∂ ln L((θ, λ), x) = 0, =0 ∂θ ∂λ miało dokładnie jedno rozwiązanie dla dowolnego n. Sprawdzamy warunek n X ∂ ln L((θ, λ), x) 1 = n( + ln λ) − ln(λ + xi ) = 0, ∂θ θ i=1 n X θ 1 ∂ ln L((θ, λ), x) = n − (θ + 1) = 0. ∂λ λ λ + xi i=1 Zatem w rozwiązaniu tego równania parametr θ można wyrazić jako funkcję λ to znaczy Pn λ θ= n− i=1 λ+xi λ i=1 λ+xi Pn . Natomiast powstała po podstawieniu wyliczonego θ funkcja od λ czyli n( Pn n λ i=1 λ+xi − 1) + n n X ln i=1 λ λ + xi jest malejąca i zmienia się od +∞ dla λ = 0 do −n dla λ = ∞ zatem ma tylko jedno miejsce zerowe. Jeśli teraz skończone są również drugie pochodne funkcji ln L to rozkłady (λ̄n , θ̄n ) mają asymptotycznie rozkład normalny N ((λ, θ), Cn ), gdzie macierz kowariancji Cn = −(E∂ 2 ln L)−1 . Obliczamy zatem drugie pochodne " # Pn 1 n − nλ + i=1 λ+x 2 θ2 i Pn Pn −∂ ln L(θ, λ) = . 1 1 nθ − nλ + i=1 λ+x i=1 (λ+xi )2 λ2 − (θ + 1) i Pozostaje obliczyć odpowiednie parametry dla θ = 3 i λ = 1 n n = , θ2 9 n n X 1 3 n E− + = −n + n = − , λ i=1 λ + Xi 4 4 E gdzie korzystamy z faktu E(λ + Xi )k = Cn = n 9 − n4 3 3+k , − n4 E n X nθ 1 3 3n − (θ + 1) = 3n − 4n = , 2 λ2 (λ + X ) 5 5 i i=1 dla k > 0. Stąd wynika, że −1 3n 5 6 15 · 16 = n2 3n 5 n 4 n 4 n 9 . √ n W szczególności oznacza to, że (θ̄n −3) zbiega według rozkładu do Z z rozkładu N (0, 1). Obli12 czamy √ √ |θ̄n − 3| n t t lim P(|θ̄n − θ| n > t) = lim P( > ) = P(|Z| > ) = 0, 1. n→∞ n→∞ 12 12 12 t Z tablic dostajemy 12 ' 1, 64. Stąd t ' 19, 68. 12. (Eg 59/10) Niech X1 , X2 , ..., X10 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie Pareto o gęstości 2θ θ 1x>0 , fθ (x) = (2 + x)θ+1 gdzie θ > 0jest nieznanym parametrem. W oparciu o estymator największej wiarogodności T parametru θ zbudowano przedział ufności dla θ na poziomie ufności 0, 95 postaci [cT, dT ], gdzie liczby c i d dobrano tak, aby Pθ (θ < cT ) = Pθ (θ > dT ) = 0, 025. Liczby c i d są równe Odp: A-> c = 0, 48 i d = 1, 71. Rozwiązanie. Obliczamy estymator EN W (θ), wiarygodność ma postać 10 Y 2θ θ , (2 + xi )θ+1 i=1 L(θ, x) = stąd ln L(θ, x) = 10θ ln 2 + 10 ln θ − (θ + 1) 10 X ln(2 + xi ). i=1 Należy znaleźć rozwiązanie równania ∂ ln L(θ,x) ∂θ = 0, czyli 10 10 ln 2 + 10 X − ln(2 + xi ) = 0. θ i=1 To znaczy 10 θ = P10 i=1 (ln(2 + xi ) − ln 2) . Wyznaczmy rozkład ln(2 + Xi ) − ln 2. Dla t > 0 P(ln(2 + Xi ) − ln 2 > t) = P(Xi > 2et − 2) = 2θ (2et )−θ = e−θt , P10 czyli rozkładem ln(2+Xi )−ln 2 jest rozkład wykładniczy z parametrem θ. Stąd i=1 (ln(2+Xi )− 1 ln 2) ma rozkład Gamma(10, θ). Zatem 1/T ma rozkład 10−1 Gamma(10, θ) = 20−1 θ−1 Gamma( 20 2 , 2) −1 −1 2 2 czyli 20 θ χ (20). Niech Z będzie z rozkładu χ (20), zachodzi Pθ (θ < cT ) = P(Z < 20c) = 0, 025, Pθ (θ > dT ) = P(Z > 20d) = 0, 025. Z tablic rozkładu χ2 otrzymujemy 20c ' 9, 591, 20d ' 34, 170, czyli c ' 0, 48, d ' 1, 71. 13. (Eg 60/1) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu o gęstości fθ (x) = 1 − 1 −1 x θ 1x>1 , θ gdzie θ ∈ (0, 1) jest nieznanym parametrem. Rozważamy nieobciążony estymator parametru θ postaci Tn = aY , gdzie Y = min(ln X1 , ln X2 ..., ln Xn ) i a jest odpowiednio dobraną stałą (być może zależną od liczebności próby n). Dla θ = 31 i ε = 61 zachodzi 1 3 Odp: C-> Pθ (|Tn − θ| > ε) = 1 − e− 2 + e 2 . 7 Rozwiązanie. Jak nietrudno stwierdzić ln Xi ma rozkład wykładniczy Exp( θ1 ). Dalej rozkład Y n ). Stąd a = n, niech teraz Z będzie z rozkładu ma postać Exp( nθ ) i w końcu aY ma rozkład Exp( aθ Exp(1), zachodzi Pθ (|Tn − θ| > ε) = P(|θZ − θ| > ε) = P(|Z − 1| > 1 ). 2 Czyli 3 1 1 3 lim Pθ (|Tn − θ| > ε) = 1 − P(Z ∈ [ , ]) = 1 − e− 2 + e− 2 . n→∞ 2 2 14. (Eg 61/7) Zmienna losowa X ma rozkład o gęstości fθ (x) = θ 1x>1 , xθ+1 gdzie θ > 0 jest nieznanym parametrem. Nie obserwujemy zmiennej X ale zmienną Y równą X, gdy X jest większe od 2. Nie wiemy, ile było obserwacji zmiennej X nie większych niż 2 ani jakie były ich wartości. W wyniku tego eksperymentu otrzymujemy próbkę losową Y1 , Y2 , ..., Y8 Na podstawie próbki budujemy przedział ufności dla parametru θ postaci [c1 T, c2 T ], gdzie T jest estymatorem największej wiarogodności parametru θ, a stałe c1 i c2 dobrane są tak, by P(θ < c1 T ) = P(θ > c2 T ) = 0, 05 Wtedy długość przedziału ufności jest równa Odp: C-> 1, 146T . Rozwiązanie. Interesuje nas rozkład warunkowy X pod warunkiem, że X > 2 który ma gęstość gθ (x) = θ2θ 1x>2 . xθ+1 Dalej zadanie jest standardowe, wyznaczamy estymator EN W (θ) z równania ∂ ln L(x,θ) ∂θ = 0, czyli 8 8 ln 2 + 8 X ln xi = 0. − θ i=1 Stąd 8 T = P8 . − ln 2) P8 Dalej zauważamy, że ln Xi −ln 2 ma rozkład Exp(θ). Stąd i=1 (ln Xi −ln 2) ma rozkład Gamma(8, θ) 1 −1 −1 2 i wreszcie T −1 ma rozkład 16−1 θ−1 Gamma( 16 θ χ (16). To pozwala obliczyć stałe c1 2 , 2 ) = 16 2 i c2 z tablic rozkładu χ . Istotnie niech Z będzie z rozkładu χ2 (16), zachodzi i=1 (ln Xi P(θ < c1 T ) = P(Z < 16c1 ) = 0, 05, P(θ > c2 T ) = P(Z > 16c2 ). Zatem 16c1 ' 7, 962, 16c2 ' 26, 296, czyli c1 ' 0, 498, c2 = 1, 644. Długość przedziału ufności wynosi w przybliżeniu 1, 146T . 15. (Eg 62/7) Niech X1 , ..., X10 , ..., X30 będzie próbką losową z rozkładu normalnego N (µ, σ 2 ), z nieznanymi parametrami µ i σ 2 . Niech 10 X̄10 = 1 X Xi , 10 i=1 10 2 S 2 = S10 = 30 X̄30 = 1 X Xi , 30 i=1 1X (Xi − X̄10 )2 . 9 i=1 8 Skonstruowano przedział [X̄10 − aS, X̄10 + aS] taki, że P(X̄30 ∈ [X̄10 − aS, X̄10 + aS]) = 0, 95. Liczba a jest równa Odp: E-> 0, 584. Rozwiązanie. W tym zadaniu do rozkładu t-Studenta. Mamy P30istotne jest aby umiejętnie przejść 1 1 2 niezależność X̄10 , X̄20 = 20 i=11 Xi oraz S. Nadto X̄30 = 3 X̄10 + 3 X̄20 . Stąd P(X̄30 ∈ [X̄10 − aS, X̄10 + aS]) = P(|X̄20 − X̄10 | < 2 Teraz X̄20 − X̄10 ma rozkład N (0, 3σ 20 ). Natomiast Z= √ √20 (X̄20 3 − X̄10 ) S P10 i=1 (Xi 3 aS) 2 − X̄10 ma rozkład σ 2 χ2 (n − 1). Stąd , ma rozkład t-Studenta a 9 stopniami swobody. Zatem P(X̄30 ∈ [X̄10 − aS, X̄10 + aS]) = P(|Z| > Zatem √ √ 15a) = 0, 95. 15a = 2, 262, czyli a ' 0, 584 16. (Eg 63/9) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi o tym samym rozkładzie Laplace’a o gęstości fθ (x) = exp(−2|x − θ|) dla x ∈ R, gdzie θ jest nieznanym parametrem rzeczywistym. Rozważamy estymator θ̄ parametru θ równy medianie z próby X1 , X2 , ..., Xn θ̄ = X[0,5n]:n . W oparciu o ten estymator budujemy przedział ufności dla parametru θ postaci (θ̄ − a, θ̄ + a), gdzie a dobrane jest tak, aby dla każdego θ ∈ R lim Pθ (θ ∈ (θ̄ − a, θ̄ + a)) = 0, 95. n→∞ Wtedy a jest równe √ . Odp: C-> 0,98 n Rozwiązanie. Niech Fθ będzie dystrybuantą rozkładu fθ , czyli 1 − 12 exp(−2|t − θ|) t > θ Fθ (t) = 1 t 6 θ. 2 exp(−2|t − θ|) Przypomnijmy, że rozkład X[0,5n]:n można wyznaczyć korzystając ze zmiennej Borelowskiej Sn (t) z rozkładu B(n, Fθ (t)) to znaczy Pθ (X[0,5n]:n 6 t) = P(Sn (t) > [0, 5n]). Z warunków zadania Pθ (θ ∈ (θ̄ − a, θ̄ + a)) = Pθ (θ − a < θ̄ < θ + a) = = P(Sn (θ − a) > [0, 5n]) − P(Sn (θ + a) > [0, 5n]), 9 gdzie korzystamy z tego, że X[0,5n]:n ma rozkład ciągły. Będziemy tak dobierać ciąg a aby zachodziło CTG. Niech Z będzie z rozkładu N (0, 1), wówczas jeśli a = √cn wtedy na mocy CTG lim P(Sn (θ − a) > [0, 5n]) = P(Z > −2c), n→∞ gdzie korzystamy z równości [0, 5n] − Fθ (θ − a) lim p ) = −2c. nFθ (θ − a)(1 − Fθ (a − θ)) n→∞ Istotnie zauważmy, że lim p n→∞ Fθ (θ − a)(1 − Fθ (a − θ)) = 1 2 nadto na mocy przybliżenia e−x ' 1 − x dla małych x otrzymujemy lim n→∞ 2([0, 5n] − Fθ (θ − a)) √ = −2c n Analogicznie lim P(Sn (θ + a) > [0, 5n]) = P(Z > 2c). n→∞ Dobieramy zatem 2c tak aby P(Z ∈ (−2c, 2c)) = 0, 95. Zatem 2c = 1, 96, czyli c = 0, 98. 10 1 Zadania różne W tym rozdziale znajdują się zadania nietypowe, często dotyczące łańcuchów Markowa oraz własności zmiennych losowych. Pojawią się także zadania z estymacji Bayesowskiej. 1. (Eg 48/3) Rozważamy łańcuch Markowa X1 , X2 , ..., na przestrzeni stanów {1, 2, 3} o macierzy przejścia 1 1 0 2 2 P = 14 0 43 , 0 1 0 gdzie Pi,j = P(Xn+1 = j|Xn = i) dla i, j = 1, 2, 3. Załóżmy, że rozkład początkowy łańcucha jest wektorem 2 4 1 π = ( , , ), 9 9 3 gdzie πi = P(X1 = i) dla i = 1, 2, 3. Oblicz p = P(X1 = 1|X2 6= 1 ∨ X3 6= 1) Odp: B-> 81 . Rozwiązanie. Najpierw zauważmy, że rozkład π jest rozkładem stacjonarnym. Obliczamy P(X1 = 1|X2 6= 1 ∨ X3 6= 1) = P(X3 6= 1 ∨ X2 6= 1|X1 = 1)P(X1 = 1) . P(X3 6= 1 ∨ X2 6= 1) Oczywiście P(X1 = 1) = π1 = 29 , nadto P(X3 6= 1 ∨ X2 6= 1|X1 = 1) = P(X3 = 3, X2 = 2|X1 = 1) = P (3, 2)P (2, 1) = 3 1 3 · = . 4 2 8 Obliczamy P(X3 6= 1 ∨ X2 = 6 1) = P(X3 = 3, X2 = 2) + P(X3 = 2, X2 = 3) = P (3, 2)π2 + P (2, 3)π3 = 3 4 1 2 = · +1· = 4 9 3 3 Stąd 1 P(X1 = 1|X2 6= 1 ∨ X3 6= 1) = . 8 2. (Eg 50/9) Rozważamy łańcuch Markowa X1 , X2 , ..., na przestrzeni stanów {0, 1, 2} o macierzy przejścia 1 1 0 2 2 P = 14 0 43 , 1 3 1 3 1 3 gdzie Pi,j = P(Xn+1 = j|Xn = i) dla i, j = 0, 1, 2. Niech Z1 , Z2 , ..., Zn , ... będzie ciągiem zmiennych losowych o wartościach w zbiorze {0, 1} niezależnych od siebie nawzajem i od zmiennych X1 , X2 , ..., Xn , ... o jednakowym rozkładzie prawdopodobieństwa: 3 1 i P(Zi = 0) = . 4 4 Niech Yi = Zi Xi . Wtedy limn→∞ P(Yn > Yn+1 ) jest równa 41 Odp: E-> 144 . P(Zi = 1) = 8 9 Rozwiązanie. Wyznaczamy rozkład stacjonarny łańcucha X1 , X2 , ..., dostajemy π = ( 10 27 , 27 , 27 ). Przechodząc do granicy otrzymamy lim P(Yn > Yn+1 ) = P(Z1 · 0 > Z2 X2 |X1 = 0)π0 + P(Z1 · 1 > Z2 X2 |X1 = 1)π1 + n→∞ + P(Z1 · 2 > Z2 X2 |X1 = 2)π2 = P(Z1 = 1)P(Z2 = 1)P(X2 = 0|X1 = 1)π1 + P(Z1 = 1)P(Z2 = 0)π1 + + P(Z1 = 1)P(Z2 = 1)P(X2 ∈ {0, 1}|X1 = 2)π2 + P(Z1 = 1)P(Z2 = 0)π2 = 1 = 9 1 · 16 4 3. (Eg 51/6) Załóżmy, że X1 , X2 , ...Xn są niezależnymi zmiennymi losowymi o jednakowym, ciągłym rozkładzie prawdopodobieństwa, mającymi momenty rzędu 1, 2 i 3. Znamy µ = E(Xi ) i σ 2 = Var(Xi ). Niech f (x) oznacza gęstość rozkładu pojedynczej zmiennej Xi . Wiemy, że rozkład jest symetryczny w tym sensie, że f (µ + x) = f (µ − x) dla każdego x. Oblicz trzeci moment sumy E(Sn3 ), gdzie Sn = X1 + ... + Xn . Odp: C-> n2 µ(nµ2 + 3σ 2 ). Rozwiązanie. Z faktu symetrii wynika, że EXi = µ, E(Xi − µ)2 = σ 2 , E(Xi − µ)3 = 0. Stąd również E(Sn − nµ) = 0, E(Sn − nµ)2 = nσ 2 , E(Sn − nµ)3 = 0. Pozostaje obliczyć E(Sn3 ) = E(Sn − nµ + nµ)3 = 3n2 µσ 2 + n3 µ3 = n2 µ(nµ2 + 3σ 2 ). 4. (Eg 52/3) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu o gęstości fθ (x) = exp(−2|x − θ|). Niech Tn = X[0,5n]:n , gdzie [x] oznacza część całkowitą liczby x. Które z poniższych stwierdzeń jest prawdziwe? √ Odp: A-> limn→∞ P(((Tn − θ) n > 1) = 0, 023. Rozwiązanie. Zmienne Xi mają rozkład o dystrybuancie 1 −2(t−θ) ) t>θ 2 (2 − e F (θ + t) = 1 −2(θ−t) e t<θ 2 Przypomnijmy, że P(Tn 6 t) jest takie same jak to, że zmienna Sn (t) z rozkładu Bernoulliego B(n, F (t)) będzie miała co najmniej [0, 5n] sukcesów. Obliczamy dla zmiennej Sn = Sn (θ + √1n ) √ 1 P(((Tn − θ) n > 1) = P(Tn > θ + √ ) = P(Sn < [0, 5n]) = n Sn − nF (θ + − √2 √1 ) n [0, 5n] − n2 (2 − e n ) = P( q <q ). 2 2 n 1 − √n − √n nF (θ + √1n )(1 − F (θ + √1n )) (1 − e )e 2 2 Pozostaje obliczyć − √2 [0, 5n] − n2 (2 − e n ) = −2. lim q 2 2 n→∞ n 1 − √n − √n (1 − e )e 2 2 Z drugiej strony z CTG wynika, że Sn − nF (θ + √1n ) q nF (θ + √1n )(1 − F (θ + √1 )) n → Z, gdzie Z ma rozkład N (0, 1). Otrzymujemy wynik P(Z < −2) ' 0, 23. 2 5. (Eg 53/7) Niech X1 , X2 , ..., X13 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym N (m, 1). Parametr m jest nieznany i jest realizacją zmiennej losowej o rozkładzie normalnym N (1, 3). Wyznaczamy estymator bayesowski parametru m przy funkcji straty LINEX danej wzorem L(m, a) = em−a − (m − a) − 1, gdzie a oznacza P13 wartość estymatora. Załóżmy, że w wyniku doświadczenia uzyskano próbkę losową taką, że i=1 Xi = 15. Wtedy estymator bayesowski przyjmuje wartość Odp: E-> 19 16 . Rozwiązanie. W teorii decyzji statystycznej mamy do czynienia z regułami decyzyjnymi δ : X → A, dalej z funkcjami starty L : Θ × A → R oraz funkcjami ryzyka R(θ, δ) = Eθ (θ, δ(X)). W przypadku reguł bayesowskich mamy zadany rozkład a priori ν na przestrzeni parametrów Θ. Dzięki temu można zdefiniować Z r(ν, δ) = R(θ, δ)ν(dθ). Dysponując powyższym funkcjonałem definiujemy optymalną regułę bayesowską δµ jako argument minimum funkcji r(µ, δ). Wyznaczenie optymalnej reguły bayesowskiej polega na skorzystaniu ze wzoru Fubiniego Z Z Z Z L(θ, δ(x))µθ (dx)ν(dθ) = L(θ, δ)νx (dθ)µ(dx), Θ X X Θ gdzie miara µθ jest rozkładem X na X przy prawdopodobieństwie Pθ , nadto miary µ i νx (θ) wyznacza się ze wzoru µθ (dx)ν(dθ) = νx (dθ)µ(dx). Rozkład µx nazywa się rozkładem a posteriori. Dla każdego x ∈ X wybieramy wartość δµ (x) jako argument minimum funkcji f : A → R Z f (δ) = L(θ, δ)νx (dθ). Θ Dla L(θ, a) = (θ − a)2 estymatorem bayesowski jest wartość oczekiwana względem νx , nadto dla L(θ, a) = |θ − a| tym estymatorem jest mediana νx . W przypadku funkcji LINEX L(m, a) = em−a − (m − a) − 1 obliczamy Z f 0 (δ) = em−δ νx (dm) − 1 Θ Czyli Z em νx (dm). δ(x) = log R Należy zatem wyznaczyć rozkład a posteriori νx . Mamy n n µm (dx) = (2π)− 2 exp(− 1X (xi − m)2 )dx1 ...dxn 2 i=1 dalej 1 1 ν(dm) = (2π3)− 2 exp(− (m − 1)2 ). 6 3 Stąd µm (dx)ν(dm) jest rozkładem Gaussowskim, a P zatem również νx ma rozkład Gaussowski, co 1+3 n 3 i=1 xi natychmiast pozwala wyznaczyć jego postać N ( 1+3n , 1+3n ). Rozkład µ też jest Gaussowski i można wyznaczyć jego postać, nie ma to jednak znaczenia dla tego zadania. Pozostaje wyznaczyć Pn Z 1 + 3 i=1 xi 3 m e νx (dm) = exp( + ). 1 + 3n 2(1 + 3n) R Stąd Pn Pn 1 + 3 i=1 xi 5 + 6 i=1 xi 3 δ(x) = + = . 1 + 3n 2(1 + 3n) 2(1 + 3n) P13 Podstawiając n = 13 oraz i=1 Xi = 13 dostajemy δ(X) = 19 . 16 6. (Eg 54/6) O zmiennych X1 , X2 , ..., Xn o tej samej wartości oczekiwanej równej µ oraz tej samej wariancji równej µ oraz tej samej wariancji równej σ 2 zakładamy, iż: Cov(Xi , Xj ) = ρσ 2 dla i 6= j. Zmienne losowe ε1 , ε2 , ..., εn są nawzajem niezależne oraz niezależne od zmiennych losowych X1 , X2 , ..., Xn i mają rozkłady prawdopodobieństwa postaci: P(ε1 = 1) = P(εi = 1 1 ) = P(εi = 0) = . 2 3 Pn Wariancja zmiennej losowej S = i=1 εi Xi jest równa. n Odp: A-> 12 (5σ 2 + 2µ2 + 3(n − 1)ρσ 2 ). Rozwiązanie. Obliczamy wariancję Var(S) = n X Var(εi Xi ) + i=1 = n[ = X Cov(εi Xi , εj Xj ) = i6=j 1 1 5 2 (µ + σ 2 ) − µ2 ] + n(n − 1)[ ρσ 2 ] = 12 4 4 n (5σ 2 + 2µ2 + 3(n − 1)ρσ 2 ). 12 7. (Eg 55/1) Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy Y . Wtedy czym EX = 4, EY = 6. Rozważmy zmienną Z = X+Y Odp: B-> mediana rozkładu Z jest równa 0, 4. Rozwiązanie. Poszukujemy C takiego, że P( Y 1 > C) = . X +Y 2 stąd 1 = P((1 − C)Y > CX) = EP((1 − C)Y > CX|X)) = 2 Z 0 ∞ Cx x 1 − 6(1−C) 1 e e− 4 dx = . 2C 4 1 + 3(1−C) Czyli 3(1 − C) = 2C, zatem C = 0, 6. 4 8. (Eg 56/8) Cyfry 1, 2, 3, ..., 9 ustawiamy losowo na miejscach o numerach 1, 2, 3, ..., 9. Niech Xbędzie zmienną losową równą liczbie cyfr stojących na miejscach o numerach równych cyfrom. Wariancja zmiennej X jest równa Odp: B-> 1. Rozwiązanie. Warto zapamiętać, że graniczna liczba koincydencji jest zmienną Poissona z parametrem 1, a więc i wariancję równą 1. W przypadku skończonym tego zadania korzystamy ze zmiennych włączeniowych X = X1 + ... + X9 , gdzie Xi przyjmuje wartość 1 jeśli i-ta cyfra stoi na swoim miejscu i 0 w przeciwnym przypadku. Jest jasne, że P(Xi = 1) = 19 oraz P(Xi = 1, Xj = 1) = 19 · 18 zatem VarXi = 8 1 , Cov(Xi , Xj ) = . 9·9 8·9·9 Stąd Var(X) = 9VarX1 + 9 · 8Cov(X1 , X2 ) = 8 1 + = 1. 9 9 9. (Eg 57/2) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale (0, θ), gdzie θ > 0 jest nieznanym parametrem. Rozważamy estymator parametru θ postaci Tn = (n + 1) min{X1 , X2 ..., Xn }. Jeśli θ = 1, to dla każdego ε ∈ (0, 1) granica limn→∞ P(|Tn − 1| > ε) jest równa Odp: B-> 1 − eε−1 − e−ε−1 . Rozwiązanie. Najpierw wyznaczamy rozkład Tn , dla 0 < t < n + 1 P(Tn > t) = (1 − t n ) → e−t . n+1 Stąd dla T o rozkładzie wykładniczym lim P(|Tn − 1| > ε) = P(|T − 1| > ε) = P(T > 1 + ε) + P(T < 1 − ε) = n→∞ −ε−1 =e + 1 − eε−1 . 10. (Eg 57/9) Zmienne losowe X1 , X2 , ..., Xn , ... są niezależnymi o jednakowym rozkładzie P(Xn = 1) = P(Xn = 2) = P(Xn = 3) = P(Xn = 4) = 1 . 4 Niech Y0 = 2 oraz niech dla n = 1, 2, 3, ... zachodzi 4 gdy Xn = 4 Yn = min(Yn−1 , Xn ) gdy Xn < 4 Oblicz limn→∞ P(Yn 6 3) Odp: B-> 34 . Rozwiązanie. Nietrudno zauważyć, że (Yn )∞ n=0 jest łańcuchem Markowa o macierzy przejścia 3 0 0 14 4 1 2 0 1 4 4 4 P = 1 1 1 1 4 1 4 5 4 1 4 4 1 4 4 1 4 1 1 Obliczamy rozkład graniczny ze wzoru π = πP , zachodzi π = ( 12 , 16 , 12 , 4 ). Zatem lim P(Yn 6 3) = π + 1 + π + π3 = n→∞ 3 . 4 11. (Eg 58/1) Niech X1 , X2 , ..., Xn , ... będą zmiennymi losowymi o tym samym rozkładzie ujemnym dwumianowym Pθ (Xi = k) = (k + 1)θ2 (1 − θ)k , k = 0, 1, 2, ..., i = 1, 2, ..., n + 1, gdzie θ ∈ (0, 1) jest nieznanym parametrem. Zmienne X1 , X2 , ..., Xn , Xn+1 są warunkowo niezależne przy danym θ. Załóżmy, że rozkład a priori parametru θ jest rozkładem o gęstości π(θ) = 12θ2 (1 − θ), gdy θ ∈ (0, 1). Na podstawie próby losowej X1 , X2 , ..., Xn wyznaczamy predyktor bayesowski. zmiennej Xn+1 przy kwadratowej funkcji straty. Wariancja tego predykatora jest równa 8n . Odp: D-> n+1 Rozwiązanie. Podstawową wiedzą z teorii warunkowych wartości oczekiwanych jest, że przy kwadratowej funkcji straty najlepszym estymatorem Xn+1 jest E(Xn+1 |X1 , ..., Xn ), gdzie wartość oczekiwana oznacza całkowanie względem miary Pθ µ(dθ). Oczywiście z warunkowej niezależności X1 , .., Xn pod warunkiem Θ = θ dostajemy E(Xn+1 |X1 , ...., Xn ) = E(E(Xn+1 |Θ, X1 , ..., Xn )|X1 , ..., Xn ) = 1−Θ = E(2 |X1 , ..., Xn ). Θ Musimy wyznaczyć rozkład warunkowy Θ pod warunkiem X1 = k1 , ..., Xn = kn . Najpierw wyprowadzamy gęstość rozkładu łącznego Pn f (θ, k) = 12θ2(n+1) (1 − θ)1+ i=1 ki n Y (ki + 1). i=1 Pn Pozostaje wyznaczyć, gęstość f (θ|k). Nietrudno zauważyć, że jest rozkład Beta(2n+3, 2+ i=1 ki ). −2 Dla zmiennej Z z rozkładu Beta(α, β) oraz α > 1 wartość EZ −1 = α+β−1 = (α+β−1)(α+β−2) . α−1 , EZ (α−1)(α−2) Stąd Pn 2 + i=1 Xi 1−Θ E(2 |X1 , ..., Xn ) = 2 · =: T. Θ 2(n + 1) Nadto X1 + ... + Xn pod warunkiem Θ = θ ma rozkład ujemny dwumianowy B− (2n, θ). Zatem VarT = EVar(T |Θ) + VarE(T |Θ). Z własności rozkładu ujemnego dwumianowego E(T |Θ) = 2n 1 2(n − 1) − n+1Θ n+1 oraz Var(T |Θ) = 8n 1−Θ · . 2 4(n + 1) Θ2 Korzystając z własności rozkładu Beta(3, 2) obliczamy VarE(T |Θ) = 8 6 n2 (n + 1)2 nadto EVar(T |Θ) = 8 Podsumowując VarT = n (n + 1)2 8n n+1 . 12. (Eg 58/8) Załóżmy, że W1 , W2 , ..., Wn , ... jest ciągiem zmiennych losowych takim, że • zmienna W1 ma rozkład jednostajny na przedziale (0, 1), • dla każdej liczby naturalnej n zmienna losowa Wn+1 warunkowo przy danych W1 , W2 , ..., Wn ma gęstość 1 gdy wn 6 0, 5 f (wn+1 |w1 , ..., wn ) = dla wn+1 ∈ (0, 1). 3x2 gdywn > 0, 5 Wtedy limn→∞ P(Wn > 0, 25) jest równa 15 . Odp: B-> 16 Rozwiązanie. Nietrudno zauważyć, że mamy do czynienia z jednorodnym łańcuchem Markowa zdanym przez funkcję przejścia Z P (x, A) = |A|1x6 21 + 3y 2 dy1x> 21 . A Poszukujemy rozkładu stacjonarnego π na [0, 1] takiego, że Z 1 1 π(A) = |A|π([0, ]) + 3y 2 dyπ(( , 1]) 2 2 A Stąd natychmiast wynika, że π jest absolutnie ciągłą względem miary Lebsegue’a której gęstość f spełnia warunek 1 1 f (x) = π([0, ])106x61 + π( , 1])3x2 106x61 . 2 2 Współczynniki a = π([0, 21 ]), b = π(( 12 , 1]) wyznaczamy ze wzorów a = a 12 + b 18 1 = a+b Stąd 4a = b oraz a = 15 , b = 45 . Obliczamy 1 1 ) = π(( , 1]) = n→∞ 4 4 13 4 1 3 63 75 15 = + (1 − ) = + = = . 54 5 64 20 80 80 16 lim P(Wn > 13. (Eg 59/4) Dysponujemy dwiema urnami. W urnie I mamy dwie kule białe i jedną czarną, w urnie II mamy trzy kule białe i trzy czarne. Powtarzamy n razy eksperyment polegający na tym, że losujemy jedną kulę z urny I, nie oglądając jej wkładamy ją do urny II, następnie losujemy jedną kulę z urny II i nie oglądając jej wkładamy ją do urny I. Niech Xn oznacza zmienną losową równą liczbie kul białych w urnie I po n doświadczeniach. Wtedy limn→∞ E(Xn Xn+1 ) jest równa 65 . Odp: C-> 21 Rozwiązanie. Ponownie korzystamy z teorii łańcuchów Markowa. Pod długim czasie rozkład kul będzie się stabilizował, aby wyznaczyć rozkład graniczny piszemy macierz przejścia dla liczby kul 7 w I urnie S 0 1 2 3 P = 0 1 2 7 2 21 5 7 11 21 6 21 0 0 0 2 0 8 21 12 21 4 7 3 0 0 3 21 3 7 Rozwiązujemy układ równań 2 = 72 π0 + 21 π1 11 6 5 π2 = 7 π0 + 21 π1 + 21 3 3 = 21 π2 + 7 π3 = π0 + π1 + π2 + π3 π0 π1 π3 1 którego rozwiązaniem jest π0 = 1 21 , π1 = 15 42 , π2 = 10 21 , π3 = lim E(Xn Xn+1 ) = Eπ (X0 X1 ) = n→∞ 5 42 . Zatem 3 X 3 X klP (k, l)πk . k=0 l=0 Czyli 8 15 6 10 11 15 · + +1 · 2 · +2·1· · + 21 42 21 42 21 21 3 10 4 5 3 5 65 12 10 · +2·3· · +3·2· · +3·3· = . +2·2· 21 21 21 21 7 42 7 42 21 lim E(Xn Xn+1 ) = 1 · 1 · n→∞ 14. (Eg 60/10) Niech X1 , X2 , ..., Xn , n > 2, będą niezależnymi zmiennymi losowymi z rozkładu Pareto o gęstości 3 f (x) = 1x>0 . (1 + x)4 Niech U = min{X0 , X1 , X2 , ..., Xn }. Wtedy Cov(U, X0 ) jest równa 3 Odp: C-> 2(3n+1)(3n+2) . Rozwiązanie. Niech X ma rozkład taki jak X0 , X1 , X2 , ..., Xn . Mamy P(X > t) = Stąd EX0 = R∞ 0 P(X > t)dt = 21 . Nadto P(U > t) = Zatem EU = 1 , t > 0. (1 + t)3 R∞ P(X > t)dt = 1 , t > 0. (1 + t)3n 1 3n+2 . Pozostaje obliczyć Z X0 1 EU X0 = EX0 E(U |X0 ) = EX0 dt = (1 + t)3n 0 Z ∞ 1 1 1 1 3t = EX0 (1 − ) = − dt. 3n−1 3n − 1 (1 + X0 ) 2(3n − 1) 3n − 1 0 (1 + t)3n+3 0 Do policzenia występujących powyżej wartości oczekiwanych najprościej użyć podstawienia x = 1 1+t Z ∞ t dt = (1 + t)3n+3 0 1 . (3n + 1)(3n + 2) Z 1 x3n (1 − x)dx = 0 8 Γ(3n + 1)Γ(2) = Γ(3n + 3) Zatem 3 1 1 1 ( − )− = 3n − 1 2 (3n + 1)(3n + 2) 2(3n + 2) 9n − 3 3 = = . 2(3n + 2)(9n2 − 1) 2(3n + 1)(3n + 2) Cov(U, X0 ) = 15. (Eg 61/2) Niech zmienna losowa Sn będzie liczbą sukcesów w n (n > 1) próbach Bernoulliego z prawdopodobieństwem sukcesu p. O zdarzeniu losowym A wiemy, że P(A|Sn = k) = a k dla k = 0, 1, 2, ..., n, n gdzie a jest znaną liczbą 0 < a 6 1. Oblicz E(Sn |A). Odp: A-> pn + 1 − p. Rozwiązanie. Obliczamy P(A) = n X P(A|Sn = k)P(Sn = k) = n X n k k p (1 − p)n−k = ap. a · n k k=0 k=0 Zatem korzystając z własności rozkładu Bernoulliego E(Sn |A) = P(A)−1 n X kP({Sn = k} ∩ A) = (ap)−1 k=0 −1 = (ap) n X kP(A|Sn = k)P(Sn = k) = k=0 n X k2 n k a p (1 − p)n−k = (1 − p) + np. n k k=0 9 1 Błąd średniokwadratowy W tej części zadań zajmiemy się błędem średniokwadratowym. 2 1. (Eg 48/9) Zmienne losowe X1 , X2 , ..., Xn , n > 2 są niezależne i EXi = m oraz VarXi = mi , i = 1, 2, ..., n, gdzie m jest nieznanym parametrem rzeczywistym. Niech m̄ będzie estymatorem parametru m minimalizującym błąd średniokwadratowy w klasie estymatorów postaci m̂ = n X ai Xi , i=1 gdzie ai , i = 1, 2, ...n, są liczbami rzeczywistymi. Wtedy współczynniki ai są równe 2i , i = 1, 2, ..., n. Odp: D-> ai = n2 +n+2 Rozwiązanie. Obliczamy błąd średniokwadratowy n n X X a2i E(m − m̂)2 = (Em̂ − m)2 + Varm̂ = m2 [( ]. ai − 1)2 + i i=1 i=1 Najlepsze ai wyznaczamy z warunku na pochodne ( n X ai − 1) = i=1 ai , ß = 1, 2, ..., n. i Stąd również n n X n(n + 1) X ( ai − 1) = ( ai ), 2 i=1 i=1 co dalej oznacza n X ai = i=1 n X n(n + 1) 2 , ai − 1 = 2 . n2 + n − 2 i=1 n +n−2 Otrzymujemy ai = 2i , i = 1, 2, ..., n. n2 + n − 2 2. (Eg 49/8) Niech X1 , X2 , ..., Xn , n > 2 będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym o wartości oczekiwanej 1 i nieznanej wariancji σ 2 . Rozważamy rodzinę esPn tymatorów parametru σ postaci Sa = a i=1 |Xi −1|, przy czym a jest liczbą dodatnią. Wyznaczyć a∗ , tak aby estymator Sa∗ był estymatorem o najmniejszym błędzie średniokwadratowym wśród estymatorów postaci Sa . √ 2π Odp: D-> a∗ = 2n+π−2 . Rozwiązanie. Niech X ma rozkład N (1, σ 2 ). Należy wyznaczyć błąd średniokwadratowy estymatorów Sa , to znaczy f (a) = E(Sa −σ)2 = E(a n X (|Xi −1|−E|Xi −1|)+anE|X−1|−σ)2 = a2 nVar|X−1|+(anE|X−1|−σ)2 . i=1 Oczywiście E|X − 1| = √ √2 σ π oraz Var|X − 1| = E(X − 1)2 − (E|X − 1|)2 = σ 2 − 1 2 2 σ . π Zatem √ 2 2 2 f (a) = a n(1 − )σ + (an √ − 1)2 σ 2 . π π 2 Znajdujemy punkt minimum tej funkcji, czyli a∗ z równania f 0 (a) = 0 czyli √ √ 2 2 2 2 0 f (a) = 2an(1 − )σ + 2(an √ − 1)n √ σ 2 = 0 π π π co jest równoważne Zatem a = √ 2 2 (1 + (n − 1) )a = √ . π π √ 2π 2n−2+π . 3. (Eg 50/4) Rozpatrzmy następujący model regresji liniowej bez wyrazu wolnego: Yi = β · xi + εi , (i = 1, 2, ..., 16), gdzie xi > 0 są znanymi liczbami, β jest nieznanym parametrem, zaś εi są błędami losowymi. Zakładamy, że εi są niezależnymi zmiennymi losowymi o rozkładach normalnych i E[εi ] = 0 i Var[εi ] = x2i , (i = 1, 2, ..., 16). Niech β̄ będzie estymatorem parametru β o następujących własnościach: P16 • β̄ jest liniową funkcją obserwacji, tzn. jest postaci β̄ = i=1 ci Yi • β̄ jest nieobciążony, • β̄ ma najmniejszą wariancję spośród estymatorów liniowych i nieobciążonych. Wyznaczyć stałą c taką, że spełniony jest warunek P(|β̄ − β| < c) = 0, 95. Odp: A-> c = 0, 49. Rozwiązanie. Zmienne Yi są niezależne o rozkładach N (β · xi , x2i ). Z postaci gęstości (albo po prostu ze wzoru na postać dla rozkładów wykładniczych) obliczamy statystyki dostateczne i zuPn Y 2 Pn Pn pełne i=1 Yxii , i=1 xi2 . Nietrudno zauważyć, że n−1 i=1 Yxii jest nieobciążonym estymatorem i β opartym na statystyce zupełnej i dostatecznej. Na mocy twierdzenia Rao-Blackwell’a spełnia on wszystkie postulaty wymienione w zadaniu. Obliczamy dla n = 16 P(| Oczywiście Pn εi i=1 xi 16 n X X Yi εi ( − β)| < 16c) = P(| | < 16c). xi x i=1 i=1 i ma rozkład taki sam jak 4Z, gdzie Z ∼ N (0, 1). Stąd P(| n X εi | < 16c) = P(|Z| < 4c) x i=1 i Obliczamy z tablic 4c = 1, 96, czyli c = 0, 49. 2 4. (Eg 51/9) Niech X1 , X2 , ...Xn , n > 1 będzie próbką z rozkładu Poissona z nieznanym parametrem λ (parametr jest wartością oczekiwaną pojedynczej obserwacji, λ = Eλ Xi > 0. Interesuje nas drugi moment obserwacji, czyli wielkość m2 (λ) = Eλ (Xi2 ). Estymator nieobciążony o minimalnej wariancji funkcji 2 (λ) jest równy P Pm n n Odp: E-> n12 (( i=1 Xi )2 + (n − 1) i=1 Xi ). Rozwiązanie. PnPonownie poszukujemy statystyki dostatecznej i zupełnej. którą jest w tym przypadku T = i=1 Xi . Estymator ENMW dla m2 (λ) jest funkcją T . Możemy go albo zwyczajnie zgadnąć (w przypadku tego zadania zauważając, że będzie to funkcja kwadratowa) albo obliczając ze wzoru E(Xi2 |T ). Zachodzi m2 (λ) = λ2 + λ, ET = nλ, ET 2 = (nλ)2 + nλ. Z tych danych znajdujemy, że właściwy estymator ma postać m̂2 (λ) = T2 T + (n − 1) 2 . 2 n n 5. (Eg 52/4) Zakładamy, że zależność czynnika Y od czynnika x (nielosowego) opisuje model regresji liniowej Yi = β0 +β1 xi +εi . Obserwujemy 2n elementową próbkę, w której x1 = x2 = ... = xn = −1 i xn+1 = xn+2 = ... = x2n = 1. Zmienne losowe Y1 , Y2 , ..., Y2n są niezależne i błędy mają rozkłady normalne o wartości oczekiwanej 0, przy czym Varεi = σ 2 , gdy i = 1, 2, ..., n i Varεi = 9σ 2 , gdy i = n + 1, ..., 2n. Wyznaczono estymatory β̂0 i β̂1 parametrów β0 i β1 wykorzystując ważoną 2 P2n 0 −β1 xi ) metodę najmniejszych kwadratów, to znaczy minimalizując sumę i=1 (Yi −βVarε . Wyznacz i stałą z1 tak aby √ P(|β̄1 − β1 | n < z1 σ) = 0, 95. Spośród podanych odpowiedzi wybierz odpowiedź będącą najlepszym przybliżeniem. Odp: E-> z1 = 3, 099. Rozwiązanie. Wyznaczamy β̂0 i β̂1 ( P2n Yi −β0 −β1 xi Varεi xi (Yi −β0 −β1 xi ) i=1 Varεi i=1 P2n Zatem = 0 = 0 2n n 2n X X 1 X 1 βˆ0 = ( Yi ), β̂1 = (− Yi + Yi ). 2n i=1 2n i=1 i=n+1 √ Znajdujemy rozkład (β̄1 − β1 )/ n jako √ 10σ 2 Z, gdzie Z ma rozkład normalny N (0, 1). Stąd √ 2z1 P(|β̄1 − β1 | n < z1 σ) = P(|Z| < √ ). 10 Czyli 2z1 √ 10 = 1, 96 ' 3, 099. 6. (Eg 53/8) W pewnej populacji prawdopodobieństwo tego, że osobnik przeżyje pierwszy rok jest równe (1 − θ2 ). Jeżeli osobnik przeżył pierwszy rok, to prawdopodobieństwo warunkowe tego, 2θ że przeżyje następny rok jest równe 1+θ . W próbce losowej liczącej n osobników z tej populacji zanotowano: • n0 przypadków, kiedy osobnik nie przeżył pierwszego roku • n1 przypadków, kiedy osobnik przeżył pierwszy rok, ale nie przeżył drugiego roku, • n2 przypadków, kiedy osobnik przeżył dwa lata. 3 Błąd średniokwadratowy estymatora największej wiarogodności parametru θ wyraża się wzorem: Odp: C-> θ(1−θ) 2n . 2 ) 41 2 , 45 σ ) Rozwiązanie. Obliczamy rozkłady. Dla i = 1, ..., 10, zmienna Xi −X̄ ma rozkład N ( (µ1 −µ 3 σ2 3σ 2 oraz N (− 2(µ13−µ2 ) , 122 ). Nadto X̄ ma rozkład N (µ , ), a X̄ rozkład N (µ , ) stąd też X̄1 − 1 1 10 2 2 45 5 7 2 X̄2 ma rozkład N (µ1 − µ2 , 10 σ ). Zatem 1 44 4 122 2 Eσ̄ 2 = 10a( (µ1 − µ2 )2 + σ 2 ) + 5a( (µ1 − µ2 )2 + σ )+ 9 45 9 45 9 + b((µ1 − µ2 )+ σ 2 ). 10 Co oznacza, że b = − 10 3 a, nadto 70 3 a − 7 10 b = 1, czyli a = 3 63 = 1 21 . 7. (Eg 54/5) Przeprowadzamy wśród wylosowanych osób ankietę na delikatny temat. Ankietowana osoba rzuca kostką do gry, i w zależności od wyniku rzutu kostką (wyniku tego nie zna ankieter) podaje odpowiednio zakodowaną odpowiedź na pytanie: ’Czy zdarzyło się Panu/Pani w roku 2009 dać łapówką w klasycznej formie pieniężnej przekraczającą 100 zł’ • X = 1 jeśli odpowiedź brzmi ’TAK’, • X = 0 jeśli odpowiedź brzmi ’NIE’, Pierwszych 200 osób udziela odpowiedzi Z1 , ..., Z200 zgodnie z regułą: • jeśli wyniku rzutu kostką to liczba oczek równa 1, 2, 3 lub 4, to: Zi = Xi • jeśli wynik rzutu kostką to liczba oczek równa 5 lub 6, to: Zi = 1 − Xi Następnych 200 osób udziela odpowiedzi Z201 , ..., Z400 zgodnie z regułą: • jeśli wyniku rzutu kostką to liczba oczek równa 1 lub 2, to: Zi = Xi • jeśli wynik rzutu kostką to liczba oczek równa 3, 4, 5 lub 6, to: Zi = 1 − Xi Dla uproszczenia zakładamy, że 400 ankietowanych osób to próba prosta z (hipotetycznej) populacji o nieskończonej liczebności, a podział na podpróby jest całkowicie losowy. Interesujący nas parametr tej populacji to oczywiście q = P(X = 1). Niech Z̄1 = 200 400 1 X 1 X Zi , Z̄2 = Zi . 200 i=1 200 i=201 Estymator parametru q uzyskany metodą największej wiarygodności jest równy Odp: D-> 21 + 32 Z̄1 − 32 Z̄2 . 4 Rozwiązanie. Oczywiście główne zadanie to ustalić rozkład Zi dla i = 1, 2, ..., 400. Zachodzi P(Zi = 1) P(Zi = 0) oraz P(Zi = 1) P(Zi = 0) (1−q) 2q 3 + 3 2(1−q) q + 3 3 = = 2(1−q) q 3 + 3 (1−q) 2q + 3 3 = = , dla i = 1, 2, ..., 200 , dla i = 201, 202, ..., 400. Możemy obliczyć wiarygodność L(q, k) = dla k̄1 = 1 200 P200 i=1 ki , k̄2 = 1 200 (1 + q) 3 P400 i=201 200(1+k̄1 −k¯2 ) 200(1−k̄1 +k̄2 ) , ki . Obliczamy pochodną funkcji f (q) = log L(q, k) f 0 (q) = 200(1 + k̄1 − k¯2 ) · Z warunku f 0 (q) = 0 odczytujemy q = 3 2 Z̄2 . 2−q 3 1 2 1 1 − 200(1 − k̄1 + k̄2 ) · . 1+q 2−q + 3k̄21 − 3k̄22 stąd ENW parametru q ma postać 1 2 + 32 Z̄1 − 8. (Eg 55/10) Niech X oznacza zmienną losową równą liczbie sukcesów w n (n > 2) niezależnych próbach Bernoulliego. Prawdopodobieństwo sukcesu θ, (θ ∈ (0, 1)) jest nieznane. Rozważamy estymator parametru θ postaci θ̄ = aX + b, o wartościach nieujemnych, którego błąd średniokwadratowy jest stały niezależny od wartości parametru θ. Błąd średniokwadratowy tego estymatora jest równy 1 Odp: D-> 4(√n+1) 2. Rozwiązanie. Obliczamy E(θ − aX − b)2 = Var(aX) + ((an − 1)θ + b)2 = na2 θ(1 − θ) + (an − 1)2 θ2 + 2(an − 1)bθ + b2 . √ 1 . Stąd Zatem na2 = (1 − an)2 , na2 = −2(an − 1)b, czyli − na = an − 1, a = n+1√n , b = 2(√n+1) E(θ − aX − b)2 = 1 √ . 4( n + 1)2 9. (Eg 56/1) Zakładamy, że X1 , X2 , ..., X10 , X11 , X12 ..., X15 są niezależnymi zmiennymi losowymi o rozkładach normalnych, przy czym EXi = µ1 i VarXi = σ 2 dla i = 1, 2, ..., 10, oraz EX i = µ2 P10 1 i VarXi = 3σ 2 dla i = 11, 12, ..., 15. Parametry µ1 , µ2 i σ są nieznane. Niech X̄1 = 10 i=1 Xi , P15 P15 1 X̄2 = 15 i=11 Xi , X̄ = 15 X . Dobrać stałe a i b tak, aby statystyka i=1 i 2 σ̄ = a 15 X (Xi − X̄)2 + b(X̄1 − X̄2 )2 i=1 była estymatorem nieobciążonym parametru σ 2 . 1 Odp: A-> a = 21 , b = − 10 63 . Rozwiązanie. Estymator nieobciążony oznacza, że niezależnie od µ1 i µ2 Eσ̂ 2 = σ 2 . 5 Zauważmy, że Xi = σ X̂i + µi , i ∈ {1, 2, ..., 15}. Nadto Yi = Zi dla i ∈ {1, 2, ..., 10} oraz Yi = i ∈ {11, ..., 15}, gdzie Zi są niezależne o rozkładzie N (0, 1). Stąd √ 3Zi , 15 15 X X 1 2 2 (Xi − X̄) = (σYi − σ Ȳ + µi − µ1 − µ2 )2 3 3 i=1 i=1 co daje E 15 15 X X 1 2 (Xi − X̄)2 = E(Yi − Ȳ )2 + 10( (µ1 − µ2 ))2 + 5( (µ1 − µ2 ))2 3 3 i=1 i=1 a stąd E 15 X 14 10 24 12 14 ) + 5(( )2 + ) + (µ1 − µ2 )2 . (Xi − X̄)2 = 10(( )2 + 2 2 15 (15) 15 (15) 3 i=1 Z drugiej strony X̄1 − X̄2 = σ(Z̄1 − czyli E(X̄1 − X̄2 )2 = σ 2 E(Z̄1 − √ √ 3Z̄2 ) − µ1 + µ2 , 3Z̄2 )2 + (µ1 − µ2 )2 = 7 2 σ + (µ1 − µ2 )2 . 10 Aby estymator σ̂ 2 był nieobciążony dostajemy równania 70 7 3 a + 10 b = 1 10 = 0 3 a+b Dostajemy a = 1 21 , 10 b = − 63 . 10. (Eg 57/10) Zakładamy, że zależność czynnika Y od czynnika x (nielosowego) opisuje model regresji liniowej Yi = β0 + β1 xi + εi , gdzie błędy εi są niezależne i mają rozkłady normalne o wartości oczekiwanej 0 i wariancji 1. Obserwujemy zmienne losowe Y1 , Y2 , ..., Yn przy danych wartościach x1 , x2 , ..., xn . Test najmocniejszy dla weryfikacji hipotezy H0 : β 0 = 0 i β 1 = 1 przy alternatywie H1 : β0 = −1 i β1 = 2 na poziomiePistotności 0, 05 odrzuca hipotezę H0 , gdy spełniona jest nierówność n i=1 (Yi −xi )(xi −1) Odp: A-> √ > 1, 645. Pn 2 i=1 (1−xi ) Rozwiązanie.Korzystamy z testu Neymana-Pearsona. Iloraz funkcji wiarygodności n X L((−1, 2, y)) 1 1 = exp( yi (xi − 1) − (1 − 2xi )2 + x2i ). L((0, 1, y) 2 2 i=1 Zatem obszar krytyczny ma postać n X K = {y ∈ Rn : yi (xi − 1) > C} i=1 dla C takiego, że P0,1 (Y ∈ K) = P0,1 ( n X i=1 6 Yi (xi − 1) > C) = 0, 05. Pn Pn Pn Łatwo zauważyć, że i=1 (xi −1)Yi ma rozkład N ( i=1 xi (xi −1), i=1 (1−xi )2 ). Stąd ostatecznie Pn i=1 (Yi −xi )(xi −1) √ ma rozkład zmiennej Z o rozkładzie N (0, 1). Zatem obszar krytyczny możemy Pn 2 i=1 (1−xi ) zapisać jako n X Pn (Yi − xi )(xi − 1) pPn P0,1 ( Yi (xi − 1) > C) = P0,1 ( i=1 > C̄) = P(Z > C̄) = 0, 05. 2 i=1 (1 − xi ) i=1 Stąd C ' 1, 645. 11. (Eg 58/9) Niech X1 , X2 , ..., Xn , ... będą niezależnymi zmiennymi losowymi takimi, że EX = im i VarXi = im2 dla i = 1, 2, P ..., n, gdzie m > 0 jest nieznanym parametrem. W klasie estymatorów n parametru m postaci m̄ = i=1 ci Xi (gdzie ci są liczbami rzeczywistymi) najmniejszy błąd średniokwadratowy ma estymator, dla którego ci są równe 2 Odp: C-> c1 = c2 = ... = cn = n(n+1)+2 . Rozwiązanie. Błąd średniokwadratowy ma postać f (c) = E(m − m̄)2 = (1 − n X ici )2 m2 + i=1 n X ic2i m2 . i=1 Minimalizacja polega na policzeniu pochodnych względem ci . n X ∂f = −2i(1 − ici )m2 + 2im2 ci . ∂ci i=1 Czyli ci = (1 − n X ici ). i=1 Stąd c1 = c2 = ... = cn = c. Nadto c = 1 − (n+1)n c, 2 czyli c = 2 n(n+1)+2 . 12. (Eg 59/7) Pobieramy próbkę niezależnych realizacji zmiennych losowych o rozkładzie Poissona z wartością oczekiwaną λ > 0. Niestety sposób obserwacji uniemożliwia odnotowanie realizacji o wartości 0. Pobieranie próbki kończymy w momencie, gdy liczebność odnotowanych realizacji wynosi n. Tak więc, każda z naszych kolejnych odnotowanych realizacji K1 , K2 , ..., Kn wynosi co najmniej 1 i nic nie wiemy o tym, ile w międzyczasie pojawiło się obserwacji o wartości 0. Estymujemy parametr λ za pomocą estymatora postaci ∞ λ̄ = 1X iNi , n i=2 gdzie Ni jest liczbą obserwacji o wartości i. Błąd średniokwadratowy estymatora λ̄ jest równy 2 −λ+λeλ Odp: E-> λn(e λ −1) . Rozwiązanie. Przy założeniach zadania przyjmujemy, że Ki mają rozkład P(Ki = k) = Nadto zauważmy, że λk , k = 1, 2, 3, ... k!(eλ − 1) ∞ n 1X 1 X iNi = ( Ki − N1 ). n i=2 n i=1 7 Dalej n E 1X λeλ 1 λ Ki = λ , E N1 = λ . n i=1 e −1 n e −1 co oznacza, że n 1 X E ( Ki − N1 ) = λ. n i=1 Pn czyli estymator λ̄ jest nieobciążony. Zauważmy, że N1 = i=1 1Ki =1 mamy n E n n 1X 1X 1 X (Ki − EKi ) (1Kj =1 − E1Kj =1 ) = 2 E (Ki − EKi )(1Ki =1 − E1Xi =1 ) = n i=1 n j=1 n i=1 = 1 1 1 λ λeλ (EK1 1K1 =1 − EK1 P(K1 = 1)) = P(K1 = 1)(1 − EK1 ) = (1 − ). n n n eλ − 1 eλ − 1 Obliczamy n E(λ̄ − λ)2 = Var n n n 1X 1X 1X 1X Ki + Var 1Ki =1 − 2Cov( Ki − EKi , 1K =1 − E1K1 =1 ) = n i=1 n i=1 n i=1 n i=1 1 1 1 2 1 (λ + λ2 )eλ λ2 e2λ VarK1 + Var1K1 − P(K1 = 1)(1 − EK1 ) = [ − λ ]+ λ n n n n e −1 (e − 1)2 1 λ λ 2 λ λeλ + (1 − λ )− (1 − λ )= λ λ ne −1 e −1 ne −1 e −1 λ = (λ − 1 + eλ ). n(eλ − 1) = 13. (Eg 60/3) Rozważamy model regresji liniowej postaci Yi √ = bxi + εi , i = 1, 2, ..., 5, gdzie b jest nieznanym parametrem rzeczywistym, x1 = x2 = 1, x3 = 5, x4 = x5 = 3, a εi są niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym o wartości oczekiwanej 0 i nieznanej wariancji σ 2 > 0. Hipotezę H0 : b = 0 przy alternatywie H1 : b 6= 0 weryfikujemy testem o obszarze krytycznym postaci {| σ̄b̄ | > c}, gdzie b̄ i σ̄ są estymatorami największej wiarogodności parametrów b i σ, a stała c dobrana jest tak, aby test miał rozmiar 0, 05. Stała c równa Odp: E-> 0, 62. Rozwiązanie. Należy wyznaczyć ENW b i σ 2 . Tradycyjnie obliczając pochodne sprawdzamy, że Pn Pn n xi Yi 1X j=1 xj Yj 2 2 b̄ = Pi=1 , σ̄ = (Y − x i i Pn n 2 2 ) . n i=1 i=1 xi j=1 xj Stąd dla b = 0 dostajemy Pn Pn n xi εi ¯2 1X j=1 xj εj 2 i=1 , σ = (εi − xi Pn b̄ = Pn 2 2 ) . n i=1 i=1 xi j=1 xj Czyli dla b = 0 zachodzi b̄ = σ kxk Z, hx,εi kxk2 , σ̄ 2 = 1 n Pn i=1 (εi − xi hx,εi ). kxk22 Łatwo zauważyć, że b̄ ma postać gdzie Z ma rozkład N (0, 1). Dalej z faktu braku korelacji wynika, że (εi − niezależne od hx,εi kxk2 dla każdego i = 1, 2, ..., n. Stąd niezależne są zmienne n X i=1 (εi − xi hx, εi 2 hx, εi2 2 ) = kεk − = Y. 2 kxk22 kxk2 8 hx,εi kxk2 oraz xi hx,εi ) kxk22 jest Pozostaje zauważyć, że zmienna Y ma rozkład χ2 (n − 1). Wynika z ogólnej reguły, że jeśli kεk22 2 hx,εi2 ma rozkład χ2 (n) oraz można rozłożyć kεk22 na niezależne zmienne = kεk22 − hx,εi kxk2 i kxk2 , gdzie druga zmienna ma rozkład Z 2 , Z ' N (0, 1), to pierwsza musi mieć rozkład χ2 (n − 1). Stąd √ √ b̄ n − 1Z n−1 Pb=0 (| | > c) = Pb=0 (| √ | > ckxk √ ) = 0, 05. σ̄ n Y Zmienna √ n−1Z √ ma Y √ rozkład t-Studenta z parametrem n − 1. Podstawiając n = 5 oraz kxk = 5 dostajemy, że 2 5c jest kwantylem symetrycznym wartości 0, 05 dla rozkładu t-Studenta z 4 stopniami swobody. Kwantyl ten wynosi 2, 776, stąd c ' 0, 62. 14. (Eg 61/3) Niech X1 , X2 , ..., Xn będą niezależnymi zmiennymi losowymi z rozkładu normalnego o nieznanej wartości oczekiwanej µ i nieznanej wariancji σ 2 . Niech T oznacza estymator nieobciążony o minimalnej wariancji parametru µ2 . Wtedy błąd średniokwadratowy tego estymatora, czyli Eµ,σ (T − µ2 )2 jest równa 2σ 2 + Odp: E-> n(n−1) 4µ2 σ 2 n . Rozwiązanie. Przypomnijmy regułę budowania estymatorów ENMW. Najpierw znajdujemy statystyki dostateczne i zupełne w tym przypadku n µ̄ = n 1X 1 X Xi , σ̄ 2 = (Xi − X̄)2 . n i=1 n − 1 i=1 Obliczamy σ2 , Eσ̄ 2 = σ 2 . n To oznacza, że ENMW jest postaci µ̄2 − n1 σ̄ 2 , gdyż jest nieobciążonym estymatorem µ2 będącym funkcją statystyk dostatecznych i zupełnych. Obliczamy jego wariancję pamiętając, że µ̄ i σ̄ 2 są 2 niezależne oraz z faktu, że µ̄ ma rozkład N (µ, σn ) a σ̄ 2 ma rozkład σ 2 χ2 (n − 1) Eµ̄2 = µ2 + 1 1 2 σ̄ ) = Var(µ̄2 ) + 2 Var(σ̄ 2 ) = n n 4µ2 σ 2 2(n − 1)σ 2 = + . n n2 Var(µ̄2 − 15. (Eg 63/2) Niech X1 , X2 , X3 , X4 będą niezależnymi zmiennymi losowymi, przy czym zmienna losowa Xi ma rozkład o wartości oczekiwanej m i wariancji im2 , i = 1, 2, 3, 4, gdzie m 6= 0 jest nieznanym parametrem. Niech m̄ oznacza estymator parametru m minimalizujący błąd średniokwadratowy w klasie estymatorów postaci a1 X1 + a2 X2 + a3 X3 + a4 X4 , gdzie współczynniki ai ∈ R, i = 1, 2, 3, 4. Wtedy E(m̄ − m)2 jest równe 12 2 m . Odp: E-> 37 P4 Rozwiązanie. Mamy do wyznaczenia min E( i=1 ai Xi − m)2 , po ai ∈ R. Prowadzi to do równań na zerowanie się kolejnych pochodnych cząstkowych EXi ( 4 X ai Xi − m) = 0, i = 1, 2, 3, 4. i=1 9 Korzystając z faktu, że EXi = m przekształcamy równania E(Xi − m)( 4 X ai (Xi − m)) = m2 (1 − i=1 4 X ai ), i = 1, 2, 3, 4. i=1 Z niezależności wynika zatem, że ai VarXi = m2 (1 − 4 X ai ), i = 1, 2, 3, 4. i=1 Ponieważ VarXi = im2 zatem ai jest postaci c/i. Stałą c wyznaczamy z równania c = 1 − c(1 + Stąd ai = 4 9i , 12 1 1 1 + + ), c = . 2 3 4 37 i = 1, 2, 3, 4. Obliczamy 4 X 12m 2 ) = E(m̄ − m)2 = E( ai (Xi − m) + 37 i=1 = 4 X a2i VarXi + i=1 = (12)3 m2 (12)3 m2 1 1 1 = ((1 + + + ) + 1) = (37)2 (37)2 2 3 4 12 2 m . 37 10