Część I Podstawy 11 Rozdział 1 Próbkowe odpowiedniki wielkości populacyjnych 1.1 Rozkład empiryczny Statystyka matematyczna opiera się na założeniu, że dane są wynikiem pewnego „doświadczenia losowego”. Przypuśćmy, że dane mają postać ciągu liczb x1 , x2 , . . . , xn . Zakładamy, że mamy do czynienia ze zmiennymi losowymi X1 , X2 , . . . , Xn określonymi na przestrzeni probabilistycznej (Ω, F, P) i dane są realizacjami (wartościami) tych zmiennych losowych, czyli x1 = X1 (ω), . . . , xn = Xn (ω) dla pewnego ω ∈ Ω. Nie znamy rozkładu prawdopodobieństwa P na przestrzeni Ω, który „rządzi” zachowaniem zmiennych losowych i chcemy się dowiedzieć czegoś o tym rozkładzie na podstawie obserwacji x1 , x2 , . . . , xn . Rozważmy najpierw prostą sytuację, kiedy obserwacje są realizacjami niezależnych zmiennych losowych o jednakowym rozkładzie. 1.1.1 DEFINICJA. Próbką z rozkładu prawdopodobieństwa o dystrybuancie F nazywamy ciąg niezależnych zmiennych losowych X1 , X2 , . . . , Xn o jednakowym rozkładzie, P(Xi 6 x) = F (x) dla i = 1, 2, . . . , n. Będziemy używali oznaczenia X1 , X2 , . . . , Xn ∼iid F. W powyższej definicji dystrybuanta jest tylko pewnym sposobem opisu rozkładu prawdopodobieństwa. Mówiąc na przykład o próbce z rozkładu normalnego, napiszemy X1 , . . . Xn ∼iid N(µ, σ 2 ). Mówi się także, że X1 , X2 , . . . , Xn jest próbką z rozkładu fikcyjnej zmiennej losowej X ∼ F. Uwaga. W statystycznych badaniach reprezentacyjnych stosuje się różne schematy losowania z populacji skończonej. W Definicji 1.1.1 żądamy niezależności, zatem ta definicja nie obejmuje próbki wylosowanej bez zwracania. 13 14 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH 1.1.2 DEFINICJA. Niech X1 , X1 , . . . , Xn będzie próbką z rozkładu o dystrybuancie F . Funkcję n 1X 1(Xi 6 x) F̂ (x) = n i=1 nazywamy dystrybuantą empiryczną. Gdy chcemy podkreślić, że próbka ma rozmiar n, to piszemy F̂n zamiast F̂ . Traktujemy F̂ jako „empiryczny odpowiednik” nieznanej dystrybuanty F . 1.1.3 Przykład (Waga noworodków). Powiedzmy, że wylosowano 114 noworodków1 w celu poznania cech fizycznych dzieci urodzonych w Warszawie w roku 2009. Waga noworodków była taka: 3080 3720 3280 2620 3310 3460 3200 3760 2900 3730 2470 2400 3650 3520 3960 3690 3770 3800 3530 3640 3750 3640 3620 2500 3250 3200 3300 3200 2580 3394 3330 2780 4010 3420 2740 2540 4000 3700 2490 3070 2700 3640 2680 2760 3230 4330 3800 3270 3180 3500 3260 4640 3740 2680 2700 3480 2570 3790 3440 3480 3790 3780 3760 2700 3490 3580 2420 3480 3120 3160 4140 3900 3600 3190 3760 3000 2500 2110 3340 3890 3620 3930 3760 3060 3180 3960 2900 2660 2930 3420 3070 3190 3950 3740 2850 3760 2800 4320 3600 3160 3330 3270 2380 2700 3200 3490 3670 3500 3450 3114 3012 2030 2750 3100 Dane traktujemy jako próbkę z rozkładu prawdopodobieństwa zmiennej losowej X = „waga noworodka losowo wybranego z populacji”. Rysunek 1.1 przedstawia dystrybuantę empiryczną F̂ odpowiadającą tej próbce. ♦ Dystrybuanta empiryczna jest funkcją pary argumentów (x, ω), czyli F̂ : R × Ω → [0, 1], ale wygodnie jest pomijać argument ω. Dla ustalonego ω ∈ Ω dystrybuanta empiryczna P jest funkcją R → [0, 1], która argumentowi x przyporządkowuje liczbę 1(Xi (ω) 6 x)/n. Dla ustalonego a ∈ R wartość dystrybuanty empirycznej jest zmienną losową, F̂ (a) : Ω → [0, 1]. Ciąg indykatorów odpowiada schematowi Bernoulliego z prawdopodobieństwem sukcesu F (a) i dlatego zmienna losowa F̂ (a) ma następujący rozkład prawdopodobieństwa: n P(F̂ (a) = k/n) = F (a)k (1 − F (a))n−k (k = 0, 1, . . . , n). k 1 W istocie, dane pochodzą z dwóch numerów „Gazety Wyborczej”, („Gazeta Stołeczna”, 29 sierpnia 2009 i 5 września 2009). 1.1. ROZKŁAD EMPIRYCZNY 15 1.0 noworodki 0.8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Fn(x) 0.6 ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 ● ● ● 0.0 ● ● ● ● ● ● ● ● ● 2000 ● ● ● ● ● ● ● ● ● ● 2500 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 3000 3500 4000 4500 x Rysunek 1.1: Dystrybuanta empiryczna wagi noworodków. Dane z Przykładu 1.1.3. 16 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH 1.1.4 DEFINICJA. Rozważmy próbkę X1 , X2 , . . . , Xn . Dla każdego ω ∈ Ω, niech X1:n (ω) 6 X2:n (ω) 6 · · · 6 Xn:n (ω) będzie ciągiem liczb X1 (ω), X2 (ω), . . . , Xn (ω) uporządkowanym w kolejności rosnącej. Określone w ten sposób zmienne losowe X1:n , X2:n , . . . , Xn:n nazywamy statystykami pozycyjnymi. W szczególności, X1:n = min(X1 , . . . , Xn ) i Xn:n = max(X1 , . . . , Xn ); pierwsza i ostatnia statystyka pozycyjna to, odpowiednio, najmniejsza i największa obserwacja w próbce. Dystrybuanta empiryczna F̂ jest funkcją „schodkową”: jest stała na każdym z przedziałów pomiędzy statystykami pozycyjnymi [Xi:n , Xi+1:n [. Widać, że dla x < X1:n mamy F̂ (x) = 0; dla Xi:n 6 x < Xi+1:n mamy F̂ (x) = i ; n dla x > Xn:n mamy F̂ (x) = 1. W punktach Xi:n funkcja F̂ ma nieciągłości (skacze w górę). Jeśli teoretyczna dystrybuanta F jest ciągła, to P(X1:n < X2:n < · · · < Xn:n ) = 1, a więc, z prawdopodobieństwem 1, mamy F̂ (Xi:n ) = i/n i każdy skok dystrybuanty empirycznej ma wielkość 1/n. Jeśli teoretyczna dystrybuanta jest dyskretna, to z niezerowym prawdopodobieństwem niektóre statystyki pozycyjne będą się pokrywać i dystrybuanta empiryczna będzie miała skoki wysokości 2/n lub 3/n i tak dalej. W poniższym stwierdzeniu będziemy mieli do czynienia z nieskończoną próbką, czyli z ciągiem zmiennych losowych X1 , X2 , . . . , Xn , . . ., które są niezależne i mają jednakowy rozkład prawdopodobieństwa. Możemy sobie wyobrazić, że wciąż dodajemy do próbki nowe zmienne losowe. Dystrybuanta empiryczna F̂n jest określona tak jak w Definicji 1.1.2, to znaczy, zależy od początkowych zmiennych X1 , . . . , Xn . Rozpatrujemy teraz ciąg dystrybuant empirycznych F̂1 , F̂2 , . . . , F̂n , . . .. 1.1.5 Stwierdzenie. Jeśli X1 , . . . , Xn , . . . jest próbką z rozkładu o dystrybuancie F , to dla każdego x ∈ R, F̂n (x) →p.n. F (x), (n → ∞). Dowód. Zmienne losowe 1(X1 6 x), . . . , 1(Xn 6 x), . . . są niezależne i mają jednakowy rozkład prawdopodobieństwa: 1(Xn 6 x) przyjmuje wartość 1 z prawdopodobieństwem F (x) lub wartość 0 z prawdopodobieństwem 1 − F (x). Oczywiście, E1(Xn 6 x) = F (x). Z Mocnego Prawa Wielkich Liczb (MPWL) dla schematu Bernoulliego wynika, że zdarzenie limn→∞ F̂n (x) = F (x) zachodzi z prawdopodobieństwem 1. To znaczy, że ciąg zmiennych losowych F̂n (x) jest zbieżny prawie na pewno do liczby F (x). Istnieje mocniejsza wersja poprzedniego stwierdzenia, którą przytoczymy bez dowodu. Można pokazać, że zbieżność F̂ → F zachodzi jednostajnie z prawdopodobieństwem 1. 1.1. ROZKŁAD EMPIRYCZNY 17 0.8 0.6 Fn(x) 0.4 0.2 0.0 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 n=25 1.0 n=10 −1 0 1 2 3 −3 −2 −1 0 x x n=100 n=500 1 2 3 1 2 3 0.8 0.6 Fn(x) 0.4 0.2 0.0 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 −2 1.0 −3 −3 −2 −1 0 x 1 2 3 −3 −2 −1 0 x Rysunek 1.2: Zbieżność dystrybuant empirycznych do dystrybuanty. 18 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH 1.1.6 TWIERDZENIE (Gliwienko-Cantelli). Jeżeli X1 , . . . , Xn , . . . jest próbką z rozkładu o dystrybuancie F to sup |F̂n (x) − F (x)| →p.n. 0 (n → ∞). −∞<x<∞ Jeśli mamy możliwość nieograniczonego powiększania próbki, to możemy poznać rozkład prawdopodobieństwa z dowolną dokładnością. Zamiast dowodu Twierdzenia Gliwienki-Cantelliego przytoczymy wyniki przykładowych symulacji komputerowych. Na Rysunku 1.2 widać dystrybuanty empiryczne F10 , F25 , F100 i F500 , dla próbki z rozkładu normalnego N(0, 1) – na tle teoretycznej dystrybuanty tego rozkładu (ciągła, niebieska krzywa). Skoncentrowaliśmy uwagę na dystrybuancie empirycznej, ale podobnie można zdefiniować o empiryczny rozkład prawdopodobieństwa. Rozważmy zbiór borelowski B ⊆ R i próbkę X1 , X2 , . . . , Xn z rozkładu zmiennej losowej X. Przybliżeniem nieznanej liczby P (B) = P(X ∈ B) jest prawdopodobieństwo empiryczne n 1X 1(Xi ∈ B). P̂ (B) = n i=1 Określone w ten sposób odwzorowanie P̂ : B × Ω → R, gdzie B oznacza rodzinę zbiorów borelowskich, nazywane jest empirycznym rozkładem prawdopodobieństwa. Dla ustalonego ω ∈ Ω jest to dyskretny rozkład prawdopodobieństwa; jeśli wartości x1 = X1 (ω), . . . , xn = Xn (ω) są różnymi liczbami to P̂ ({xi }) = 1/n dla i = 1, 2, . . . , n, czyli empiryczny rozkład prawdopodobieństwa jest rozkładem równomiernym na zbiorze {x1 , . . . , xn }. Z drugiej strony P̂ (B) jest, dla ustalonego zbioru B, zmienną losową (a nie liczbą). Oczywiście, P̂ (] − ∞, x]) = F̂ (x). 1.1.7 Przykład (Statystyczna kontrola jakości). Producent chce się dowiedzieć, jaki procent wytwarzanych przez niego wyrobów jest wadliwych. Sprawdza dokładnie pewną liczbę sztuk. Powiedzmy, że badaniu poddano 50 sztuk i wyniki są takie (zakodujemy „wyrób prawidłowy” jako liczbę „1” i „wadliwy” jako „0”): 1011111110111101111111111 1111110111111111011111111 Potraktujemy ten ciąg jako próbkę z pewnego rozkładu prawdopodobieństwa na zbiorze dwupunktowym {prawidłowy, wadliwy} = {1, 0}. Producenta interesuje liczba P (0) = P (wadliwy) = % sztuk wadliwych wśród wszystkich wyrobów. 1.2. MOMENTY I KWANTYLE Z PRÓBKI. 19 Na podstawie próbki możemy obliczyć prawdopodobieństwo empiryczne P̂ (0) = P̂ (wadliwy) = % sztuk wadliwych wśród 50 zbadanych wyrobów = 5 = 0.10. 50 Przykład jest trywialny. Chodzi tylko o to, żeby podkreślić różnicę między nieznaną, interesującą nas liczbą P (0) i znaną ale losową wielkością P̂ (0). ♦ 1.2 Momenty i kwantyle z próbki. Określimy teraz próbkowe odpowiedniki pewnych wielkości, związanych z rozkładem prawdopodobieństwa. Będziemy postępowali w podobnym duchu jak w definicji dystrybuanty empirycznej. Cały czas X1 , . . . , Xn jest próbką. Średnią z próbki nazywamy zmienną losową n 1X Xi . X̄ = n i=1 Widać, że X̄ jest wartością oczekiwaną rozkładu empirycznego. Podobnie, wariancja z próbki n 1X 2 S̃ = (Xi − X̄)2 n i=1 jest niczym innym, jak wariancją rozkładu empirycznego. Wyższego rzędu momenty z próbki (zwykłe i centralne) oznaczymy przez âk i m̂k : n 1X k X , âk = n i=1 i n 1X m̂k = (Xi − X̄)k . n i=1 Są to odpowiedniki momentów, czyli ak = EX k , mk = E(Xi − EX)k . Wielkości ak i mk zależą od „prawdziwego”, teoretycznego rozkładu zmiennej losowej X, podczas gdy âk i m̂k są obliczone dla rozkładu empirycznego. Oczywiście, â1 = X̄ i m̂2 = S̃ 2 , ale te dwa momenty spotykać będziemy tak często, że zasługują na specjalne oznaczenie. Zauważmy jeszcze oczywisty związek m̂2 = â2 − â21 (Zadanie 1.4). 20 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH Kwantyle próbkowe określamy zgodnie z tym samym schematem. Po prostu zastępujemy rozkład prawdopodobieństwa rozkładem empirycznym i obliczamy kwantyle. Przypomnijmy najpierw definicję kwantyla. Niech 0 < q < 1. Jeśli P(X < ξq ) = F (ξq −) 6 q 6 F (ξq ) = P(X 6 ξq ), to liczbę ξq nazywamy kwantylem rzędu q zmiennej losowej X. Taka liczba zawsze istnieje, ale nie musi być wyznaczona jednoznacznie. Jeśli istnieje dokładnie jedna liczba ξq taka, że P(X 6 ξq ) = F (ξq ) = q to oczywiście ξq jest q-tym kwantylem. Podobnie jest w przypadku gdy F (ξq −) < q < F (ξq ). Jeśli jednak F (a) = F (b) = q, to każda z liczb z przedziału [a, b] jest kwantylem. Liczbę ξˆq nazywamy kwantylem empirycznym rzędu q, jeśli F̂ (ξˆq −) 6 q 6 F̂ (ξˆq ). Statystyka pozycyjna Xdnpe:n jest kwantylem empirycznym rzędu p ale niekoniecznie jedynym. Najlepiej widać to na przykładzie mediany (kwantyla rzędu q = 1/2). Jeśli rozmiar próbki n jest liczbą nieparzystą, to statystyka pozycyjna o numerze (n + 1)/2 jest medianą z próbki. Jeśli rozmiar próbki jest liczbą parzystą, to każda z liczb z przedziału [Xn/2:n , Xn/2+1,n ] jest medianą rozkładu empirycznego. W R i innych pakietach statystycznych, dla uniknięcia niejednoznaczności, zwykle podaje się środek przedziału median: (Xn/2:n + Xn/2+1:n )/2. Przyjmiemy następujące oznaczenia na medianę i medianę z próbki: med(X) = ξ1/2 , ˆ = med(X ˆ ˆ med 1 , . . . , Xn ) = ξ1/2 . Kwantyle rzędu 1/4 i 3/4 noszą nazwę kwartyli i bywają oznaczane Q1 i Q3 1.2.1 Przykład (Waga noworodków, kontynuacja). Dla naszej „niemowlęcej” próbki z Przykładu 1.1.3 mamy X̄ = 3302.105, S̃ = 502.5677 ˆ = 3330. Kwartyle próbkowe, zgodnie z naszą definiJak już zauważyliśmy poprzednio, med cją, są równe Q1 = ξˆ1/4 = X29:114 = 2930 i Q3 = ξˆ3/4 = X86:114 = 3700 2 . ♦ Medianę, kwartyle, minimum i maksimum próbki przedstawia tak zwany „wykres pudełkowy” (ang. Box and Whiskers Plot, Rysunek 1.3). Boki prostokąta (na tym rysunku boki pionowe) odpowiadają kwartylom. Kreska wewnątrz prostokąta pokazuje medianę. „Wąsy” umieszcza się (w zasadzie) w miejscu minimum i maksimum z próbki. Wykres pudełkowy pozwala na graficzne porównanie kilku próbek. W tym przypadku na jednym obrazku widnieje kilka pudełek, a ich „grubość” może być związana z licznościami poszczególnych próbek. Na zakończenie naszych wstępnych rozważań wspomnimy o jeszcze jednym graficznym sposobie podsumowania danych. Na Rysunku 1.4 przedstawiony jest histogram danych z Przykładu 1.1.3. Wydaje się, że szczegółowe objaśnienia są zbędne, bo budowa histogramu jest 2 Określenie kwantyla próbkowego w pakietach statystycznych nieco różni się od naszego, ale nie ma to zasadniczego znaczenia, szczególnie jeśli próbka jest duża. W naszym przykładzie R podaje następujące wartości kwartyli: Q1 = ξˆ1/4 = 2947.5 i Q3 = ξˆ3/4 = 3697.5. 1.2. MOMENTY I KWANTYLE Z PRÓBKI. 21 noworodki 2000 2500 3000 3500 4000 4500 Rysunek 1.3: Wykres pudełkowy. Dane z Przykładu 1.1.3. 22 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH dość oczywista i dobrze znana czytelnikom prasy i telewidzom. Zwróćmy tylko uwagę na to, że skala osi pionowej zastała tak dobrana, aby pole pod histogramem było równe 1, podobnie jak pole pod wykresem gęstości prawdopodobieństwa. W istocie, histogram jest w pewnym sensie empirycznym odpowiednikiem gęstości. 4e−04 2e−04 0e+00 Density 6e−04 Histogram of noworodki 2000 2500 3000 3500 4000 4500 noworodki Rysunek 1.4: Histogram danych z Przykładu 1.1.3. 5000 1.3. ZADANIA 1.3 23 Zadania 1.1. Obliczyć EF̂ (x), Var F̂ (x). 1.2. Pokazać, że ciąg zmiennych losowych Zidentyfikować parametry tego rozkładu. √ n(F̂n (x) − F (x)) jest zbieżny do rozkładu normalnego. 1.3. Podać granicę limn→∞ P(F̂n (x) 6 F (x)) przy założeniu, że 0 < F (x) < 1. Dokładnie uzasadnić odpowiedź. 1.4. Wyprowadzić alternatywny wzór na wariancję próbkową: n S̃ 2 = 1X 2 Xi − X̄ 2 . n i=1 1.5. Niech X1 , .P . . , Xn będzie próbką z rozkładu normalnego N(µ, σ 2 ). Podać rozkład średniej próbkowej X̄ = Xi /n. 1.6. Obliczyć dystrybuantę i gęstość rozkładu zmiennej losowej Un:n = max(U1 , . . . , Un ), gdzie U1 , . . . , Un jest próbką z rozkładu jednostajnego U(0, 1). 1.7. (Ciąg dalszy). Obliczyć EUn:n , gdzie Un:n oznacza ostatnią statystykę pozycyjną (maksimum z próbki) z rozkładu jednostajnego U(0, 1). 1.8. (Ciąg dalszy). Obliczyć VarUn:n , gdzie Un:n oznacza maksimum z próbki z rozkładu jednostajnego U(0, 1). 1.9. (Ciąg dalszy). Zbadać zbieżność według rozkładu ciągu zmiennych losowych n(1 − Un:n ), gdzie Un:n oznacza ostatnią statystykę pozycyjną (maksimum z próbki) z rozkładu jednostajnego U(0, 1). 1.10. Niech X1 , . . . , Xn będzie próbką z rozkładu wykładniczego Ex(λ). Obliczyć rozkład prawdopodobieństwa X1:n , pierwszej statystyki pozycyjnej (minimum z próbki). Podać dystrybuantę, gęstość, nazwę tego rozkładu. 1.11. Rozważmy próbkę X1 , . . . , Xn z rozkładu o dystrybuancie F . Pokazać, że zmienna losowa Xk:n (k-ta statystyka pozycyjna) ma dystrybuantę P(Xk:n 6 x) = n X n i=k i F (x)i (1 − F (x))n−i . 1.12. Załóżmy, że dystrybuanta F jest funkcją ciągłą i ściśle rosnącą, a zatem istnieje funkcja odwrotna F −1 :]0, 1[→ R. Pokazać, że jeśli U ∼ U(0, 1) to zmienna losowa X = F −1 (U ) ma dystrybuantę F . 1.13. (Ciąg dalszy). Niech Uk:n oznacza statystykę pozycyjną z rozkładu U(0, 1). Pokazać, że Xk:n = F −1 (Uk:n ) ma rozkład taki jak statystyka pozycyjna z rozkładu o dystrybuancie F . 24 ROZDZIAŁ 1. PRÓBKOWE ODPOWIEDNIKI WIELKOŚCI POPULACYJNYCH Rozdział 2 Modele statystyczne 2.1 Przestrzenie statystyczne Zaczniemy od formalnej definicji, której sens postaramy się w dalszym ciągu wyjaśnić i zilustrować przykładami. 2.1.1 DEFINICJA. Przestrzeń statystyczna jest to trójka (X , F, {Pθ ; θ ∈ Θ}), gdzie X jest zbiorem, wyposażonym w σ-ciało F podzbiorów, zaś {Pθ ; θ ∈ Θ} jest rodziną rozkładów prawdopodobieństwa na przestrzeni (X , F). Zbiór X nazywamy przestrzenią obserwacji zaś Θ nazywamy przestrzenią parametrów. Widoczny jest związek z definicją znaną z rachunku prawdopodobieństwa. Dla każdego ustalonego θ ∈ Θ, trójka (X , F, Pθ ) jest przestrzenią probabilistyczną. Najważniejszą nowością w Definicji 2.1.1 jest to, że rozważamy rodzinę rozkładów prawdopodobieństwa, {Pθ ; θ ∈ Θ}. Jak już powiedzieliśmy w poprzednim rozdziale, w statystyce matematycznej traktujemy dane jako wynik doświadczenia losowego, ale nie wiemy, jaki rozkład „rządzi” badanym zjawiskiem. Wobec tego rozpatrujemy rodzinę wszystkich branych pod uwagę rozkładów prawdopodobieństwa. Zakładamy, że „prawdziwy” rozkład należy do tej rodziny, czyli jest to rozkład Pθ0 dla pewnego θ0 ∈ Θ, tylko nie umiemy wskazać θ0 . 2.1.2 Uwaga (Kanoniczna przestrzeń próbkowa). Powiedzmy, że wynikiem obserwacji są zmienne losowe X1 , . . . , Xn . Niech Ω będzie zbiorem wszystkich możliwych wyników doświadczenia losowego, a więc w naszym przypadku zbiorem ciągów ω = (x1 , . . . , xn ). Możemy przyjąć, że zmienne losowe Xi są funkcjami określonymi na przestrzeni próbkowej Ω wzorem Xi (ω) = xi . Wektor X = (X1 , . . . , Xn ) możemy traktować jako pojedynczą, wielowymiarową obserwację i napisać X(ω) = ω. Przy tej umowie, milcząco przyjętej w Definicji 2.1.1, rozkład prawdopodobieństwa na przestrzeni Ω = X jest tym samym, co rozkład prawdopodobieństwa obserwacji: Pθ (B) = Pθ (X ∈ B), dla B ∈ F. Jest to, co należy podkreślić, łączny rozkład wszystkich obserwowanych zmiennych losowych. Szczególny wybór przestrzeni Ω nie ma zasadniczego znaczenia, jest po prostu wygodny. 25 26 ROZDZIAŁ 2. MODELE STATYSTYCZNE 2.1.3 Uwaga (Ciągłe i dyskretne przestrzenie obserwacji). Skupimy uwagę na dwóch typach przestrzeni statystycznych, które najczęściej pojawiają się w zastosowaniach. Mówimy o modelu ciągłym, jeśli X jest borelowskim podzbiorem przestrzeni Rn , wyposażonym w σ-ciało B zbiorów borelowskich i n-wymiarową miarę Lebesgue’a. Model nazywamy dyskretnym, jeśli przestrzeń X jest skończona lub przeliczalna, wyposażona w σ-ciało 2X wszystkich podzbiorów i miarę liczącą. Rozkład prawdopodobieństwa obserwacji X najczęściej opisujemy przez gęstość fθ na przestrzeni X , zależną od parametru θ ∈ Θ. W zależności od kontekstu, posługujemy się gęstością względem odpowiedniej miary. W skrócie piszemy X ∼ fθ . Jeśli zmienna X ma skończony lub przeliczalny zbiór wartości X , to fθ (x) = Pθ (X = x). (jest to gęstość względem miary liczącej). Dla jednowymiarowej zmiennej losowej X o absolutnie ciągłym rozkładzie, fθ jest „gęstością w zwykłym sensie”, czyli względem miary Lebesgue’a. Mamy wówczas dla dowolnego przedziału [a, b], Z b fθ (x)dx. Pθ (a 6 X 6 b) = a Jeśli X = (X1 , . . . , Xn ) to rozumiemy, że fθ jest łączną gęstością prawdopodobieństwa na przestrzeni X = Rn . Dla dowolnego zbioru borelowskiego B ⊆ Rn , Z Z Z fθ (x)dx = · · · fθ (x1 , . . . , xn )dx1 · · · dxn . Pθ (X ∈ B) = B B W szczególnym przypadku, gdy zmienne X1 , . . . , Xn są niezależne i mają jednakowy rozkład, pozwolimy sobie na odrobinę nieścisłości, oznaczając tym samym symbolem fθ jednowymiarową gęstość pojedynczej obserwacji i n-wymiarową gęstość całej próbki: fθ (x1 , . . . , xn ) = fθ (x1 ) · · · fθ (xn ). Jeśli T : X → R, to wartość średnią (oczekiwaną) zmiennej losowej T (X) obliczamy zgodnie ze wzorem R w przypadku ciągłym; X T (x)fθ (x)dx Eθ T (X) = P w przypadku dyskretnym. x∈X T (x)fθ (x) R Jeśli X ⊆ Rn , to całka X jest n-wymiarowa, dx = dx1 · · · dxn . Podobnie, będziemy używać symboli Var θ , Covθ i podobnych. Jeśli rodzina rozkładów prawdopodobieństwa {Pθ ; θ ∈ Θ} jest zdefiniowana przez podanie rodziny gęstości {fθ ; θ ∈ Θ} względem pewnej (wspólnej dla wszystkich rozkładów) miary, to mówimy, że przestrzeń statystyczna jest zdominowana. Nasze rozważania będą niemal wyłącznie ograniczone do takich przestrzeni. 2.1. PRZESTRZENIE STATYSTYCZNE 27 Przejdziemy teraz do przykładów, które wyjaśnią sens (nieco abstrakcyjnej) Definicji 2.1.1. 2.1.4 Przykład (Statystyczna kontrola jakości, kontynuacja). Powróćmy do Przykładu 1.1.7. Przestrzenią obserwacji jest X = {0, 1}n . Obserwacje X1 , . . . , Xn są zmiennymi losowymi o łącznym rozkładzie prawdopodobieństwa Pp (X1 = x1 , . . . , Xn = xn ) = n Y pxi (1 − p)1−xi = pΣxi (1 − p)n−Σxi , i=1 P Pn gdzie xi ∈ {0, 1} dla i = 1, . . . , n i xi oznacza i=1 xi . Nieznanym parametrem jest prawdopodobieństwo „sukcesu”, θ = p. Przestrzenią parametrów jest Θ = [0, 1]. ♦ 2.1.5 Przykład (Badanie reprezentacyjne). Powiedzmy, że populacja składa się z r jednostek. Przedmiotem badania jest nieznana liczba m jednostek „wyróżnionych”. Na przykład może to być liczba „euroentuzjastów” w populacji wyborców albo liczba palących w populacji studentów. Interesują nas własności całej populacji, ale pełne badanie jest niemożliwe lub zbyt kosztowne. Wybieramy losowo n jednostek spośród r i obserwujemy, ile jednostek wyróżnionych znalazło się wśród wylosowanych. Załóżmy, że stosujemy schemat losowania bez zwracania 1 . Najlepiej wyobrazić sobie losowe wybranie n kul z urny zawierającej r kul, w tym m czerwonych i r − m białych. Liczby r i n są znane. Liczba X kul białych wśród wylosowanych jest obserwacją. Zmienną losowa X ma tak zwany hipergeometryczny rozkład prawdopodobieństwa: , m r−m r Pm (X = x) = , x n−x n zależny od parametru θ = m ze zbioru Θ = {0, 1, . . . , r}. Przestrzenią obserwacji jest zbiór X = {0, 1, . . . , n}. ♦ Parametr θ jest „etykietką” identyfikującą rozkład prawdopodobieństwa. Nie zawsze θ jest liczbą, może wektorem lub nawet funkcją. 2.1.6 Przykład (Model nieparametryczny). Zgodnie z Definicją 1.1.1, ciąg obserwowanych zmiennych losowych X1 , . . . , Xn stanowi próbkę z rozkładu o dystrybuancie F , jeśli PF (X1 6 x1 , . . . , Xn 6 xn ) = F (x1 ) · · · F (xn ). Symbol PF przypomina, że dystrybuanta F jest nieznana i odgrywa rolę „nieskończenie wymiarowego parametru”. Przestrzenią parametrów jest zbiór wszystkich dystrybuant. Przestrzenią obserwacji jest X = Rn 2 . ♦ 1 2 Próbka wylosowana w ten sposób nie jest próbką w sensie Definicji 1.1.1. Jest to jedyny w tym skrypcie przykład przestrzeni statystycznej, która nie jest zdominowana. 28 ROZDZIAŁ 2. MODELE STATYSTYCZNE 2.1.7 Przykład (Wypadki). Liczba wypadków drogowych w ciągu tygodnia ma, w dobrym przybliżeniu, rozkład Poissona. Niech X1 , . . . , Xn oznaczają liczby wypadków w kolejnych tygodniach. Jeśli nic specjalnie się nie zmienia (pogoda jest podobna i nie zaczyna się właśnie okres wakacyjny) to można przyjąć, że każda ze zmiennych Xi ma jednakowy rozkład. Mamy wtedy próbkę z rozkładu Poissona, czyli fθ (x1 , . . . , xn ) = Pθ (X1 = x1 , . . . , Xn = xn ) = e−θn θΣxi . x1 ! · · · xn ! Przestrzenią obserwacji jest X = {0, 1, 2, . . .}n , a przestrzenią parametrów Θ =]0, ∞[. Wiemy, że Eθ Xi = θ i Var θ Xi = θ. ♦ 2.1.8 Przykład (Czas życia żarówek). Rozpatrzmy jeszcze jeden przykład z dziedziny statystycznej kontroli jakości. Producent bada partię n żarówek. Interesuje go czas życia, to jest liczba godzin do przepalenia się żarówki. Załóżmy, że czasy życia X1 , . . . , Xn badanych żarówek stanowią próbkę z rozkładu wykładniczego Ex(θ), czyli fθ (x1 , . . . , xn ) = n Y (θe−θxi ) = θn e−θΣxi . i=1 Jest to typowe i dość realistyczne założenie. Mamy tutaj X = [0, ∞[n i Θ =]0, ∞[. Zauważmy, że Eθ Xi = 1/θ i Var θ Xi = 1/θ2 . ♦ 2.1.9 Przykład (Pomiar z błędem losowym). Powtarzamy niezależnie n razy pomiar pewnej wielkości fizycznej µ. Wyniki poszczególnych pomiarów X1 , . . . , Xn są zmiennymi losowymi bo przyrząd pomiarowy jest niedoskonały. Najczęściej zakłada się, że każdy z pomiarów ma jednakowy rozkład normalny N(µ, σ 2 ). Mamy zatem n 1 1 X 2 fµ,σ (x1 , . . . , xn ) = √ (xi − µ) . exp − 2 2σ 2πσ Tutaj rolę parametru θ gra para liczb (µ, σ), gdzie −∞ < µ < ∞ i σ > 0. Przestrzenią parametrów jest Θ = R×]0, ∞[. Oczywiście, przestrzenią obserwacji jest X = Rn . Wiemy, że Eµ,σ Xi = µ i Var µ,σ Xi = σ 2 . ♦ 2.2 Statystyki i rozkłady próbkowe Rozpatrujemy, jak zwykle, przetrzeń statystyczną (X , F, {Pθ ; θ ∈ Θ}). Niech (T , A) będzie przestrzenią mierzalną (znaczy to, że zbiór T jest wyposażony w σ-ciało podzbiorów A; zazwyczaj będzie to podzbiór przestrzeni Rd z σ-ciałem borelowskim). 2.2. STATYSTYKI I ROZKŁADY PRÓBKOWE 29 2.2.1 DEFINICJA. Mierzalną funkcję T : X → T określoną na przestrzeni obserwacji X nazywamy statystyką o wartościach w przestrzeni T . W Definicji 2.2.1 istotne jest to, że statystyka jest wielkością obliczoną na podstawie danych i nie zależy od nieznanego parametru θ. Będziemy w skrócie pisać T = T (X). Skupiamy uwagę na przypadkach, kiedy przestrzeń T ma wymiar znacznie mniejszy niż X : staramy się obliczyć taką statystykę T (X) która ma „streścić dane X”. 2.2.2 Przykład (Statystyki Pn i inne zmienne losowe). W Przykładzie 2.1.4 (Statystyczna kontrola jakości), S = i=1 Xi , a więc liczba prawidłowych wyrobów w próbce jest statystyką. Oczywiście, S : {0, 1}n → {0, 1, . . . , n}. Statystyka S ma dwumianowy rozkład prawdopodobieństwa: n s Pp (S = s) = p (1 − p)n−s . s p W skrócie napiszemy S ∼ Bin(n, p). Zmienna losowa (S − np)/ np(1 − p) nie jest statystyką, bo zależy od nieznanego parametru p. Ma w przybliżeniu normalny rozkład prawdopodobieństwa N(0, 1), jeśli n jest duże a p(1 − p) nie jest zbyt małe. P W Przykładzie 2.1.7 (Wypadki) sumaryczna liczba wypadków S = ni=1 Xi jest statystyką i ma rozkład Poiss(nθ). P W Przykładzie 2.1.8 (Żarówki) średnia X̄ = (1/n) ni=1 Xi jest statystyką i ma rozkład Gamma(n, nθ). ♦ Model normalny, wprowadzony w Przykładzie 2.1.9 zasługuje na więcej miejsca. Załóżmy, że X1 , . . . , Xn jest próbką z rozkładu N(µ, σ 2 ). Ważną rolę w dalszych rozważaniach odgrywać będą statystyki: n 1X Xi , X̄ = n i=1 n 1 X (Xi − X̄)2 , S = n − 1 i=1 2 S= √ S 2. Zauważmy, że S 2 różni się od wariancji z próbki S̃ 2 , o której mówiliśmy w poprzednim rozdziale: mnożnik 1/n zastąpiliśmy przez 1/(n − 1). Rozkład prawdopodobieństwa średniej z próbki jest w modelu normalnym niezwykle prosty: X̄ ∼ N(µ, σ 2 /n). Zajmiemy się teraz rozkładem statystyki S 2 . Rozkład chi-kwadrat z k stopniami swobody jest to, z definicji, rozkład zmiennej losowej Y = k X Zi2 , i=1 gdzie Z1 , . . . , Zk są niezależnymi zmiennymi losowymi o rozkładzie N(0, 1). Będziemy pisali symbolicznie Y ∼ χ2 (k). 30 ROZDZIAŁ 2. MODELE STATYSTYCZNE Uwaga. Rozkłady chi-kwadrat są szczególnej postaci rozkładami Gamma, mianowicie χ2 (k) = Gamma(k/2, 1/2) (Zadanie 2.5). Jeśli Y ∼ χ2 (k) to EY = k i VarY = 2k. Wykresy gęstości kilku rozkładów χ2 są pokazane na Rysunku 2.1. 2.2.3 Stwierdzenie (Twierdzenie Fishera). W modelu normalnym, X̄ i S 2 są niezależnymi zmiennymi losowymi, X̄ ∼ N(µ, σ 2 /n); n−1 2 S ∼ χ2 (n − 1). 2 σ Pominiemy dowód, bo w Rozdziale 9 udowodnimy twierdzenie znacznie ogólniejsze. Niezależność zmiennych losowych X̄ i S 2 nie jest oczywista. Zauważmy też, że pojawia się rozkład chi-kwadrat z n − 1 stopniami swobody, chociaż (n − 1)S 2 jest sumą n kwadratów zmiennych normalnych. 2.2.4 Wniosek. Eµ,σ S 2 = σ 2 i Var µ,σ S 2 = 2σ 4 /(n − 1). Rozkład t Studenta z k stopniami swobody jest to, z definicji, rozkład zmiennej losowej Z , T =p Y /k gdzie Z i Y są niezależnymi zmiennymi losowymi, Z ∼ N(0, 1) i Y ∼ χ2 (k). Będziemy pisali symbolicznie T ∼ t(k). Dwa rozkłady t oraz rozkład normalny są pokazane na Rysunku 2.2. 2.2.5 Wniosek. W modelu normalnym, zmienna losowa √ n(X̄ − µ)/S ma rozkład t(n − 1). Rozkład F Snedecora z k i m stopniami swobody jest to, z definicji, rozkład zmiennej losowej Y /k , R= U/m gdzie Y i U są niezależnymi zmiennymi losowymi, Y ∼ χ2 (k) i U ∼ χ2 (m). Będziemy pisali symbolicznie R ∼ F(k, m). 2.2.6 Przykład (Model dwóch próbek). Załóżmy, że obserwujemy niezależne zmienne lo2 sowe X1 , . . . , Xn i Y1 , . . . , Ym , przy tym Xi ∼ N(µX , σX ) i Yj ∼ N(µY , σY2 ) dla i = 1, . . . , n 2 i j = 1, . . . , m. Statystyki X̄ i SX są określone tak jak poprzednio, dla próbki X1 , . . . , Xn . Podobnie określamy statystyki Ȳ i SY2 , dla próbki Y1 , . . . , Ym . Z tego, co powiedzieliśmy wcześniej wynika, że 2 2 SX σY ∼ F(n − 1, m − 1). 2 2 SY σX 2 2 2 Zauważmy, że zmienna losowa SX σY /(SY2 σX ) nie jest statystyką, bo zależy nie tylko od 2 obserwacji, ale i od nieznanych paramerów σX i σY . Jeśli założymy, że σX = σY2 to statystyka 2 2 SX /SY ma rozkład F(n − 1, m − 1). 2.2. STATYSTYKI I ROZKŁADY PRÓBKOWE 31 chi2( 2 ) 0.3 density 0.2 2 0 0.0 0.1 1 density 3 0.4 4 0.5 chi2( 1 ) 0 2 4 6 χ 8 10 0 2 4 6 χ 2 10 chi2( 10 ) 0.06 density 0.04 0.00 0.00 0.02 0.05 density 0.10 0.08 0.15 0.10 chi2( 5 ) 8 2 0 5 10 χ 2 15 20 0 5 10 χ 15 20 2 Rysunek 2.1: Rozkłady χ2 dla różnej liczby stopni swobody. 32 ROZDZIAŁ 2. MODELE STATYSTYCZNE 0.4 t−Student t(1) 0.1 0.2 N(0,1) 0.0 density 0.3 t(3) −4 −2 0 2 4 t Rysunek 2.2: Rozkłady t Studenta i rozkład normalny. 2.3. DOSTATECZNOŚĆ 33 2 Podobnie, jeśli σX = σY2 = σ 2 to X̄ − Ȳ − (µX − µY ) p 2 (k − 1)SX + (m − 1)SY2 r km (k + m − 2) ∼ t(k + m − 2). k+m ♦ 2.3 Dostateczność Rozważmy przestrzeń statystyczną (X , F, {Pθ : θ ∈ Θ}) i statystykę T = T (X) o wartościach w przestrzeni (T , A). 2.3.1 DEFINICJA. Statystykę T = T (X) nazywamy dostateczną, jeśli warunkowy rozkład prawdopodobieństwa obserwacji X przy danej wartości statystyki T = t nie zależy od parametru θ, dla każdego t ∈ T . Uwaga. W pewnym uproszczeniu, statystyka jest dostateczna, jeśli prawdopodobieństwo warunkowe (*) Pθ (X ∈ B|T (X) = t) nie zależy od θ, dla dowolnego zbioru B ∈ F i (prawie) każdego t. Niestety, ścisłe sformułowanie Definicji 2.3.1 wymaga znajomości ogólnego pojęcia warunkowego rozkładu prawdopodobieństwa i teorii miary. Zwróćmy uwagę, że określenie warunkowego rozkładu poprzez gęstość tutaj się bezpośrednio nie stosuje, bo rozkład X przy danym T (X) = t jest zazwyczaj skupiony na „podprzestrzeni o niższym wymiarze”, patrz Zadanie 2.15. Jeśli jednak X jest przestrzenią dyskretną, to możemy się posłużyć elementarną definicją prawdopodobieństwa warunkowego. W tym przypadku warunek (∗) redukuje się do tego, że (**) Pθ (X = x|T (X) = t) nie zależy od θ, dla dowolnych t i x (to prawdopodobieństwo jest niezerowe tylko jeśli T (x) = t). Sens Definicji 2.3.1 wyjaśni „doświadczenie myślowe”. Wyobraźmy sobie, że statystyk zaobserwował X = x, obliczył i zapisał T (x) = t, po czym. . . zgubił dane, czyli stracił x. Może jednak wylosować „sztuczne dane” X 0 z rozkładu warunkowego obserwacji przy danym T = t, ponieważ ten rozkład nie wymaga znajomości θ. Skoro sztuczne dane X 0 mają ten sam rozkład prawdopodobieństwa co prawdziwe dane X, więc nasz statystyk nic nie stracił zapisując t i zapominając x. Stąd właśnie nazwa: statystyka dostateczna zawiera całość informacji o parametrze zawartych w obserwacji. Załóżmy teraz, że przestrzeń statystyczną (X , F, {Pθ : θ ∈ Θ}) jest zdominowana (Uwaga 2.1.3), to znaczy rozkłady Pθ mają gęstości fθ . Zwykle są to albo gęstości względem miary Lebesgue’a, albo „gęstości dyskretne” fθ (x) = Pθ (X = x). 34 ROZDZIAŁ 2. MODELE STATYSTYCZNE 2.3.2 TWIERDZENIE (Kryterum faktoryzacji). Statystyka T = T (X) jest dostateczna wtedy i tylko wtedy gdy gęstości obserwacji można przedstawić w postaci fθ (x) = gθ (T (x))h(x). Dowód. Żeby uniknąć trudności technicznych, ograniczymy się tylko do przypadku dyskretnej przestrzeni X . Jeśli T (x) = t to fθ (x) 0 x0 :T (x0 )=t fθ (x ) Pθ (X = x|T (X) = t) = P i oczywiście Pθ (X = x|T (X) = t) = 0 jeśli T (x) 6= t. Jeżeli spełniony jest warunek faktoryzacji to natychmiast otrzymujemy, w przypadku T (x) = t, h(x) gθ (t)h(x) P = . 0 0 x0 :T (x0 )=t gθ (t)h(x ) x0 :T (x0 )=t h(x ) Pθ (X = x|T (X) = t) = P Odwrotnie, jeśli Pθ (X = x|T (X) = t) P nie zależy od θ to własność faktoryzacji zachodzi dla h(x) = Pθ (X = x|T (X) = t) i gθ (t) = x0 :T (x0 )=t fθ (x0 ). 2.3.3 Przykład (Ile jest kul w urnie?). Kule w urnie są ponumerowane: U = {1, 2, . . . , r} ale r jest nieznane. Pobieramy próbkę n kul, bez zwracania. Niech S oznacza losowy zbiór numerów a max(S) – największy spośród nich. Prawdopodobieństwo wylosowania zbioru s ⊂ U jest równe ( 1 nr jeśli r > max(s), 1(r > max(s)) = Pr (S = s) = r 0 jeśli r < max(s). n Stąd widać, że max(S) jest statystyką dostateczną. W czasie II wojny światowej alianci notowali seryjne numery zdobytych czołgów niemieckich w celu oszacowania liczby produkowanych przez nieprzyjaciela czołgów. Rozważany schemat urnowy jest uproszczonym modelem takiej sytuacji. ♦ 2.3.4 Przykład (Statystyki dostateczne w poprzednich przykładach). W Przykładzie 2.1.4 Pn (Schemat Bernoulliego), liczba sukcesów S = i=1 Xi jest statystyką dostateczną. P W Przykładzie 2.1.7 (model Poissona) suma obserwacji S = ni=1 Xi jest statystyką dostateczną. P W Przykładzie 2.1.8 (model wykładniczy) średnia X̄ = (1/n) ni=1 Xi jest statystyką dostateczną. W Przykładzie 2.1.9 (model normalny z nieznanymi µ i σ) (X̄, S 2 ) jest dwuwymiarową statystyką dostateczną. ♦ 2.4. RODZINY WYKŁADNICZE 2.4 35 Rodziny wykładnicze Tak jak poprzednio, rozważamy model statystyczny, a więc rodzinę rozkładów prawdopodobieństwa na przestrzeni obserwacji X . 2.4.1 DEFINICJA. Rodzina rozkładów prawdopodobieństwa {Pθ : θ ∈ Θ} jest rodziną wykładniczą jeśli rozkłady Pθ mają, względem pewnej miary na X , gęstości fθ postaci: X k fθ (x) = exp Tj (x)ψj (θ) + ψ0 (θ) h(x), (θ ∈ Θ). j=1 Podkreślmy, że w tej definicji wymagamy, żeby istniały gęstości względem jednej miary wspólnej dla wszystkich θ. W większości zastosowań spotykamy, jak zwykle, albo gęstości względem miary Lebesgue’a, albo „gęstości dyskretne” fθ (x) = Pθ (X = x). Bez straty ogólności można zakładać, że funkcje T1 (x), . . . , Tk (x) są liniowo niezależne. To założenie będze w dalszym ciągu obowiązywać. Zauważmy prostą konsekwencję Definicji 2.4.1. Zbiór {x : fθ > 0}, który nazywamy nośnikiem rozkładu Pθ , 3 jest taki sam dla wszystkich θ. 2.4.2 Przykład. Rodzina rozkładów jednostajnych {U(0, θ) : θ > 0} nie jest rodziną wykładniczą. Ponieważ 1 fθ (x) = 1(0 6 x 6 θ), θ więc nośnikiem rozkładu U(0, θ) jest przedział [0, θ], który oczywiście zależy od θ. ♦ 2.4.3 Przykład. Rodzina rozkładów wykładniczych {Ex(θ) : θ > 0} jest rodziną wykładniczą, bo gęstości możemy napisać w następującej postaci: fθ (x) = θe−θx = exp(−θx + log θ). Nośnikiem każdego rozkładu wykładniczego jest ten sam przedział [0, ∞[. ♦ 2.4.4 Przykład. Rodzina rozkładów {Poiss(θ) : θ > 0} jest rodziną wykładniczą, bo 1 θx fθ (x) = e−θ = exp − θ + x log θ . x! x! Oczywiście, każdy rozkład Poissona ma nośnik {0, 1, 2, . . .}. ♦ 2.4.5 Przykład. Rodzina przesuniętych rozkładów Cauchy’ego o gęstościach fθ (x) = 1 , π(1 + (x − θ)2 ) 2 θ ∈] − ∞, ∞[, nie jest rodziną wykładniczą, bo funkcja Pk log fθ (x) = − log π − log(1 + (x − θ) ) nie da się przedstawić w postaci sumy iloczynów j=1 Tj (x)ψj (θ) + ψ0 (θ). ♦ 3 Pozwalamy tu sobie na drobne uproszczenie, bo gęstość rozkładu prawdopodobieństwa jest wyznaczona jednoznacznie tylko prawie wszędzie. 36 ROZDZIAŁ 2. MODELE STATYSTYCZNE 2.4.6 Przykład. Rodzina rozkładów {Gamma(α, λ) : α > 0, λ > 0} jest rodziną wykładniczą. λα λα α−1 −λx x e = exp − λx + (α − 1) log x + log fα,λ (x) = Γ(α) Γ(α) Oczywiście, wspólnym nośnikiem wszystkich rozkładów Gamma jest przedział ]0, ∞[. ♦ Inne przykłady rodzin wykładniczych to między innymi rodzina rozkładów normalnych {N(µ, σ) : −∞ < µ < ∞, λ > 0}, rozkładów {Beta(α, β) : α, β > 0}, rodzina rozkładów dwumianowych {Bin(n, θ) : 0 < θ < 1}, ujemnych dwumianowych i wiele innych. Przejdźmy do omówienia kilku ciekawych własnosci rodzin wykładniczych. 2.4.7 Stwierdzenie. Jeżeli X1 , . . . , Xn ∼iid fθ jest próbką z rozkładu należącego do rodziny wykładniczej, to k-wymiarowy wektor ! n n X X T1 (Xi ), . . . , Tk (Xi ) i=1 i=1 jest statystyką dostateczną. Dowód. Jeżeli fθ ma postać taką jak w Definicji 2.4.1, to łaczna gęstość wektora obserwacji jest następująca: X n k Y fθ (x1 , . . . , xn ) = exp Tj (xi )ψj (θ) + ψ0 (θ) h(xi ) i=1 = exp j=1 X k X n Y n Tj (xi )ψj (θ) + nψ0 (θ) h(xi ). j=1 i=1 i=1 Wystarczy teraz skorzystać z kryterium faktoryzacji (Twierdzenie 2.3.2). Zwróćmy uwagę, że dla wymiar statystyki dostatecznej w powyższym stwierdzeniu jest równy k, niezależnie od rozmiaru próbki n. Dla próbki z rodziny wykładniczej możliwa jest bardzo radykalna redukcja danych bez straty informacji. Zauważmy jeszcze, że k w Definicji 2.4.1 wydaje się być związane z wymiarem przestrzeni parametrów. W Przykładach 2.4.3 i 2.4.4 mieliśmy jednoparametrowe rodziny wykładnicze, w Przykładzie 2.4.6 – dwuparametrową rodzinę. Staje się to bardziej przejrzyste, jeśli posłużymy się tak zwaną naturalną parametryzacją rodzin wykładniczych. Przyjmijmy wektor ψ = (ψ1 , . . . , ψk ) = (ψ1 (θ), . . . , ψk (θ)) za nowy parametr, który identyfikuje rozkłady prawdopodobieństwa rozpatrywanej rodziny. Nieco nadużywając oznaczeń możemy napisać ! k X (2.4.8) fψ (x) = exp Tj (x)ψj − b(ψ) h(x), j=1 2.4. RODZINY WYKŁADNICZE 37 gdzie Z b(ψ) = log exp X k X ! Tj (x)ψj h(x)dx. j=1 Jeśli istnieje wzajemnie jednoznaczna odpowiedniość pomiędzy „starym parametrem” θ ∈ Θ i „nowym parametrem” ψ, to wybór jednej lub drugiej parametryzacji jest tylko kwestią wygody. 2.4.9 Przykład. Rozkłady dwumianowe Bin(θ, n) mają gęstości postaci n n x n−x fθ (x) = θ (1 − θ) = exp x log θ + (n − x) log(1 − θ) x x n θ + n log(1 − θ) . = exp x log x 1−θ Naturalnym parametrem jest ψ = log θ 1−θ zaś b(ψ) = n log(1 + eψ ). Zauważmy, że θ/(1 − θ) jest tak zwanym „ilorazem szans”: stosunkiem prawdopodobieństwa sukcesu do prawdopodobieństwa porażki. Funkcja Jeśli θ zmienia się w przedziale ]0, 1[ to ψ przebiega przedział ]∞, ∞[. Naturalną przestrzenią parametrów jest więc cała prosta rzeczywista. ♦ 2.4.10 Uwaga. Mówimy, że rodzina wykładnicza jest regularna, jeśli przestrzeń naturalnych parametrów {ψ(θ) : θ ∈ Θ}, traktowana jako podzbiór Rk , ma niepuste wnętrze. Ważną własnością regularnych rodzin wykładniczych jest dopuszczalność „różniczkowania pod znakiem całki”. Jeśli U : X → R jest statystyką to Z Z ∂ ∂ U (x)fψ (x)dx = U (x) fψ (x)dx, ∂ψj X ∂ψj X jeśli ψ jest punktem wewnętrznym naturalnej przestrzeni parametrów i całka po lewej stronie jest dobrze określona. Co więcej, podobna własność zachodzi dla pochodnych wyższych rzędów. Oczywiście, jeśli funkcje ψj (θ) są odpowiednio gładkie, to możemy bezpiecznie „różniczkować pod znakiem całki” również względem θ. W następnym rozdziale takie operacje rachunkowe będą odgrywały ważną rolę. 38 2.5 ROZDZIAŁ 2. MODELE STATYSTYCZNE Zadania 2.1. Rozpatrzmy proces statystycznej kontroli jakości przyjmując te same założenia co w Przykładzie 2.1.4 z tą różnicą, że obserwujemy kolejne wyroby do momentu gdy natrafimy na k wybrakowanych, gdzie k jest ustaloną z góry liczbą. Zbudować model statystyczny. 2.2. Uogólnić rozważania z Przykładu 2.1.5 (badanie reprezentacyjne), uwzględniając więcej niż jeden rodzaj jednostek „wyróżnionych”. Powiedzmy, że mamy w urnie m1 kul czerwonych, m2 zielonych i r − m1 − m2 białych, gdzie r jest znaną liczbą, a m1 i m2 są nieznane i są przedmiotem badania. Opisać dokładnie odpowiedni model statystyczny. 2.3. Obliczyć rozkład prawdopodobieństwa zmiennej losowej Z 2 , jeśli Z ∼ N(0, 1) (obliczyć bezpośrednio dystrybuantę i gęstość rozkładu χ2 (1)). 2.4. Obliczyć rozkład prawdopodobieństwa zmiennej losowej Z12 + Z22 , jeżeli Zi ∼ N(0, 1) są niezależne dla i = 1, 2 (obliczyć bezpośrednio dystrybuantę i gęstość rozkładu χ2 (2)). 2.5. Korzystając z Zadania 2.3 oraz z własności rozkładów gamma, udowodnić Uwagę 2.2: gęstość zmiennej losowej Y ∼ χ2 (k) ma postać fY (y) = 1 2k/2 Γ(k/2) y k/2−1 e−y/2 , (y > 0). 2.6. Udowodnić zbieżność rozkładów: t(k) →d N(0, 1) dla k → ∞. 2.7. Udowodnić wzór dotyczący rozkładu t-Studenta na końcu Przykładu 2.2.6. 2.8. Niech X1 , . . . , Xn będzie próbką z rozkładu (Weibulla) o gęstości ( 3 3θx2 e−θx dla x > 0; fθ (x) = 0 dla x 6 0, gdzie θ > 0 jest nieznanym parametrem. Znaleźć jednowymiarową statystykę dostateczną. 2.9. Niech X1 , . . . , Xn będzie próbką z rozkładu Gamma(α, λ). Znaleźć dwuwymiarową statystykę dostateczną, zakładając że θ = (α, λ) jest nieznanym parametrem. 2.10. Rozważamy rodzinę przesuniętych rozkładów wykładniczych o gęstości ( e−(x−µ) dla x > µ; fµ (x) = 0 dla x < µ. Niech X1 , . . . , Xn będzie próbką losową z takiego rozkładu. Znaleźć jednowymiarową statystykę dostateczną dla parametru µ. 2.11. Rozważamy rodzinę przesuniętych rozkładów wykładniczych z parametrem skali o gęstości ( λe−λ(x−µ) dla x > µ; fµ,λ (x) = 0 dla x < µ. Niech X1 , . . . , Xn będzie próbką losową z takiego rozkładu. Znaleźć dwuwymiarową statystykę dostateczną dla parametru (µ, λ). 2.5. ZADANIA 39 2.12. Rozważamy rodzinę rozkładów na przestrzeni {0, 1, 2, . . .}: ( θ dla x = 0; fθ (x) = Pθ (X = x) = (1 − θ)/2x dla x ∈ {1, 2, . . .}. gdzie θ ∈]0, 1[ jest nieznanym parametrem. Niech X1 , . . . , Xn będzie próbką losową z wyżej podanego rozkładu. Znaleźć jednowymiarową statystykę dostateczną. 2.13. Niech X1 , . . . , Xn będzie schematem Bernoulliego z prawdopodobieństwem sukcesu θ. Obliczyć warunkowy Pn rozkład prawdopodobieństwa zmiennych losowych X1 , . . . , Xn przy danym S = s, gdzie S = i=1 Xi jest liczbą sukcesów. Zinterpretować fakt, że statystyka S jest dostateczna. 2.14. Niech X1 , . . . , Xn będzie próbką z rozkładu Poiss(θ). Obliczyć warunkowy rozkład prawdopoP dobieństwa zmiennych losowych X1 , . . . , Xn przy danym S = s, gdzie S = ni=1 Xi . Zinterpretować fakt, że statystyka S jest dostateczna. P 2.15. Niech X1 , . . . , Xn będzie próbką z rozkładu Ex(θ). Niech S = ni=1 Xi . Pokazać, że rozkład warunkowy (X1 , . . . , Xn−1 ) przy danym S = s jest jednostajny na sympleksie {(x1 , . . . , xn−1 ) : xi > P x 6 s}. Zinterpretować fakt, że statystyka S jest dostateczna. 0, n−1 i=1 i 2.16. Znaleźć rozkład zmiennej losowej n 1 X (Xi − µ)2 σ2 i=1 w modelu normalnym. Porównać z twierdzeniem Fishera (Stwierdzenie 2.2.3). 2.17. (Ciąg dalszy). Wyprowadzić tożsamość n n 1 X 1 X n 2 (Xi − µ) = 2 (Xi − X̄)2 + 2 (X̄ − µ)2 . 2 σ σ σ i=1 i=1 Jaki jest rozkład prawdopodobieństwa pierwszego i drugiego składnika po prawej stronie? 2.18. Rozważmy jednoparametryczną wykładniczą rodzinę rozkładów z gęstościami danymi wzorem fψ (x) = exp T (x)ψ − b(ψ) h(x). Pokazać, że Eψ T (X) = ∂b(ψ) . ∂ψ 2.19. (Ciąg dalszy). Pokazać, że Var ψ T (X) = ∂ 2 b(ψ) . ∂ψ 2 2.20. (Ciąg dalszy). Pokazać, że Eψ exp rT (X) = exp b(ψ + r) − b(ψ) . 40 ROZDZIAŁ 2. MODELE STATYSTYCZNE