1 M. Beśka, Statystyka matematyczna, wykład 1 1 Przestrzenie statystyczne, statystyki 1.1 Rozkłady zmiennych losowych Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną, a X : Ω → IR zmienną losową na niej. Rozkładem zmiennej losowej X nazywamy miarę probabilistyczną µ = µX na (IR, B(IR)) daną wzorem µX (A) = P {X ∈ A} = P (X −1 (A)), A ∈ B(IR). Jeśli µ jest miarą probabilistyczną na (IR, B(IR)), to łatwo zauważyć, że na przestrzeni probabilistycznej (IR, B(IR), µ) zmienna losowa X(ω) = ω, ω ∈ IR ma rozkład µ. Zatem każda miara probabilistyczna na (IR, B(IR)) jest rozkładem pewnej zmiennej losowej. Stąd takie miary będziemy nazywać rozkładami. Przypomnijmy znane z wykładu z teorii miary twierdzenie Twierdzenie 1.1 (O rozkładzie Lebesgue’a) Niech ν i µ będą σ-skończonymi miarami na przestrzeni mierzalnej (X, A). Wtedy istnieją jedyne miary νac i νs takie, że ν = νac + νs oraz νac µ i νs ⊥ µ. Twierdzenie o rozkładzie Lebesgue’a zastosujemy do dowodu następującego wniosku. Wniosek 1.2 Niech µ będzie rozkładem na (IR, B(IR)). Wtedy istnieją jednoznacznie wyznaczone rozkłady µac , µd , µc na (IR, B(IR)) oraz liczby 0 ≤ αac , αd , αc ≤ 1, αac +αd +αc = 1 takie, że (i) µ = αac µac + αd µd + αc µc ; (ii) µac λ, λ - miara Lebesgue’a; (iii) Rozkład µd jest dyskretny tzn. istnieje co najwyżej przeliczalny zbiór S ⊂ IR (jest oczywiste, że S ∈ B(IR)) taki, że µd ({x}) > 0 dla x ∈ S oraz µd (S 0 ) = 0. (iv) Rozkład µc jest ciągły (tzn. µc ({x}) = 0 dla x ∈ IR) oraz µc ⊥ λ. Dowód. Na mocy twierdzenia 1.1 istnieją miary µ1 i µ2 na (IR, B(IR)) takie, że µ = µ1 + µ2 , µ1 λ, µ2 ⊥ λ. Oznaczmy S = {x ∈ IR : µ2 ({x}) 6= 0}. M. Beśka, Statystyka matematyczna, wykład 1 2 Ponieważ µ2 jest skończona, więc S jest co najwyżej przeliczalny. Określmy µ∗d (A) = µ2 (A ∩ S), A ∈ B(IR), µ∗c (A) A ∈ B(IR). 0 = µ2 (A ∩ S ), Wtedy µ = µ1 + µ∗d + µ∗c . Oznaczmy αac = µ1 (IR), αd = µ∗d (IR), αc = µ∗c (IR) oraz 1 µ1 oraz µac ≡ 0 gdy αac = 0; αac 1 ∗ µd = µ oraz µd ≡ 0 gdy αd = 0; αd d 1 ∗ µc = µ oraz µc ≡ 0 gdy αc = 0. αc c µac = Dowód wniosku został zakończony. 2 Powyższy wniosek pozwala nam wyróżnić pewne klasy rozkładów A) Rozkłady absolutnie ciągłe. To takie rozkłady µ na (IR, B(IR)), które są absolutnie ciągłe względem miary Lebesgue’a λ co zapisujemy µ λ. Przypomnijmy teraz twierdzenie Radona-Nikodyma (w ogólnej postaci). Twierdzenie 1.3 (Radona-Nikodyma) Niech (X, A) będzie przestrzenią mierzalną, a µ i ν miarami na niej. Załóżmy, że µ jest miarą σ-skończoną, a ν miarą absolutnie ciągłą względem µ tzn. ν µ. Wtedy istnieje nieujemna funkcja mierzalna h taka, że Z (1.1) ν(E) = h(x) µ(x), E ∈ A (lub krótko ν = hµ). E Jeśli istnieje druga nieujemna mierzalna funkcja g spełniająca (1.1) to h = g, µ - p.w. Ponadto h jest skończenie całkowalna wtedy i tylko wtedy, gdy ν jest miarą skończoną, a jest µ - p.w skończona wtedy i tylko wtedy, gdy ν jest σ-skończona. 2 Korzystając teraz w naszej sytuacji z twierdzenia Radona-Nikodyma wnioskujemy, że istnieje funkcja borelowska f : IR → [0, ∞) taka, że Z (1.2) µ(A) = f (x) dλ(x), A ∈ B(IR). A 3 M. Beśka, Statystyka matematyczna, wykład 1 Podstawiając w (1.2) A := IR otrzymujemy Z 1 = µ(IR) = (1.3) f (x) dλ(x). R Funkcję f nazywamy gęstością rozkładu µ. Tak więc każdemu rozkładowi µ na (IR, B(IR)) takiemu, że µ λ odpowiada nieujemna funkcja borelowska spełniająca warunek (unormowania) (1.3). Odwrotnie, mając niujemną funkcję borelowską spełniającą warunek (1.3) możemy przy pomocy (1.2) określić rozkład µ na (IR, B(IR)) taki, że µ λ. Widzimy więc, że istnieje wzajemnie jednoznacza odpowiedniość między rozkładami na (IR, B(IR)) absolutnie ciągłymi względem miary Lebesgue’a, a gęstościami. Do tej klasy rozkładów należą m.in. rozkład normalny, rozkład wykładniczy, rozkład gamma, rozkład beta, rozkład Cauchy’ego, rozkład jednostajny i inne. B) Rozkłady dyskretne. Przypominamy, że rozkład µ nazywamy dyskretnym jeśli istnieje co najwyżej przeliczalny zbiór S ⊂ IR taki, że µ({x}) > 0 dla x ∈ S oraz µ(S 0 ) = 0. Niech S = {xi }i∈I . Wtedy X µ= p i δ xi , i∈I gdzie pi = µ({xi }) > 0, i ∈ I. Zauważmy również, że (warunek unormowania) X 1 = µ(IR) = pi . i∈I Dla A ∈ B(IR) mamy µ(A) = X pi δxi (A) = X pi . xi ∈A i∈I Omawiane rozkłady dyskretne µ są absolutnie ciągłe względem miary liczącej na S. Dokładniej µ ν, gdzie X ν= δxi . i∈I Miara licząca ν jest tu σ - skończona, możemy więc zastosować twierdzenie RadonaNikodyma. Zatem Z f (x) dν(x), A ∈ B(IR), µ(A) = A gdzie f (x) = pi , gdy x = xi dla pewnego i ∈ I, 0 gdy x 6= xi dla każdego i ∈ I. Funkcję f nazywamy w tym przpadku gęstością rozkładu µ wzgledem miary liczącej ν lub funkcją prawdopodobieństwa. Do klasy tych rozkładów należą m.in. rozkład zerojedynkowy, rozkład dwumianowy, rozkład Poissona, rozkład geometryczny, rozkład równomierny i inne. 4 M. Beśka, Statystyka matematyczna, wykład 1 C) Rozkłady ciągłe i singularne względem miary Lebesgue’a. W zastosowaniach statystycznych rozkłady tego typu nie pojawiają się. Służą raczej do rozważań teoretycznych. Rzadko też pojawiają się rozkłady będące kombinacjami wypukłymi rozkładów z rozważanych klas. 1.2 Dystrybuanty, uogólniona dystrybuanta odwrotna Innym (równoważnym z rozkładem) obiektem związanym że zmienna losową X jest dystrybuanta tej zmiennej losowej (lub jej rozkładu µX ). Mianowicie funkcję F (x) = FX (x) = P {X ≤ x} = µX ((−∞, x]), x ∈ IR nazywamy dystrybuantą zmiennej losowej X. Dystrybuanta zmiennej losowej posiada następujące własności: (i) F : IR → [0, 1]; (ii) Dystrybuanta F jest funkcją niemalejącą; (iii) Dystrybuanta F jest funkcją co najmniej prawostronnie ciągłą; (iv) limx→+∞ F (x) = 1 tj. F (+∞) = 1 oraz limx→−∞ F (x) = 0 tj. F (−∞) = 0; (v) P {a < X ≤ b} = F (b) − F (a), a < b, a, b ∈ IR; (vi) P {X = x} = F (x) − F (x− ). Z własność (vi) wynika od razu, że P {X = x} = 0 wtedy i tylko wtedy, gdy F jest ciągła w punkcie x. Zauważmy też, że istnieje wzajemnie jednoznaczna odpowiedniość między dystrybuantami a rozkładami. Można też wykazać, że każda funkcja F , która spełnia warunki od (i) do (iv) jest dystrybuantą pewnej zmiennej losowej (pewnego rozkładu). Definicja 1.4 Niech F będzie dystrybuantą.Uogólniona dystrybuantą odwrotną nazywamy funjcję numeryczną F −1 : [0, 1] → [−∞, +∞] określoną wzorem F −1 (u) = inf{x ∈ IR : F (x) ≥ u}, u ∈ [0, 1]. Zauważmy, że zawsze F −1 (0) = −∞ oraz F −1 (1) = +∞ ⇐⇒ ^ F (x) < 1. x∈R Ponadto dla każdego u ∈ (0, 1) mamy −∞ < F −1 (u) < +∞. Dalsze własności uogólnionej dystrybuanty odwrotnej zostały zebrane w lemacie 5 M. Beśka, Statystyka matematyczna, wykład 1 Lemat 1.5 Niech F będzie dystrybuantą, a F −1 jej uogólnioną dystrybuantą odwrotną. Wtedy (i) Dla każdego x ∈ IR oraz każdego u ∈ [0, 1] zachodzi równoważność F (x) ≥ u ⇐⇒ x ≥ F −1 (u) lub równoważnie F (x) < u ⇐⇒ x < F −1 (u); (ii) F (F −1 (0)) = 0, F (F −1 (1)) = 1; (iii) Dla x ∈ IR mamy F −1 (F (x)) ≤ x; (iv) Dla u ∈ [0, 1] mamy F (F −1 (u)) ≥ u; (v) Uogólniona dystrybuanta odwrotna F −1 jest niemalejąca i lewostronnie ciągła w przedziale (0, 1]; (vi) Dla ustalonego x ∈ IR zachodzi równość F −1 (F (x)) = x wtedy i tylko wtedy, gdy x jest lewostronnym punktem wzrostu F tj. Dla każdego ε > 0 mamy F (x) − F (x − ε) > 0; (vii) Dla ustalonego u ∈ (0, 1) zachodzi równość F (F −1 (u)) = u wtedy i tylko wtedy, gdy u jest prawostronnym punktem wzrostu F −1 tj. Dla każdego ε > 0 (u + ε < 1) zachodzi następująca nierówność F −1 (u + ε) − F −1 (u) > 0. Dowód. (i) Z uwagi poczynionej po definicji 1.4 wynika, że jeśli |F −1 (u)| = ∞ to równoważność jest oczywista. Zatem możemy założyć, że |F −1 (u)| < ∞. Wtedy dowód implikacji "⇒"wynika z definicji kresu dolnego. W drugą stronę. Załóżmy, że x ≥ F −1 (u). Z definicji kresu dolnego istnieje ciąg {xn }n≥1 ⊂ {x ∈ IR : F (x) ≥ u} taki, że (1.4) xn & F −1 (u), gdy n → ∞. Z definicji ciągu {xn }n≥1 mamy F (xn ) ≥ u dla n ≥ 1. Stąd, z prawostronnej ciągłości F i z (1.4) otrzymujemy przy n → ∞ (1.5) F (F −1 (u)) ≥ u. Z założenia x ≥ F −1 (u). Zatem z monotonicznosci F i z (1.5) dostajemy F (x) ≥ F (F −1 (u)) ≥ u. (ii) Mamy F (F −1 (0)) = F (−∞) = 0. Gdy F −1 (1) = +∞, to F (F −1 (1)) = F (+∞) = 1. Gdy F −1 (1) = x0 ∈ IR, to dla każdego ε > 0 istnieje x ∈ IR taki, że F (x) ≥ 1 oraz x < x0 + ε. Stąd F (x0 + ε) = 1. Przechodząc z ε → 0 oraz korzystając z prawostronnej ciągłości F otrzymujemy F (x0 ) = 1. Zatem F (F −1 (1)) = F (x0 ) = 1. (iii) Dowód wynika z (i) podstawiając u := F (x). (iv) Dla u = 0 i u = 1 dowód wynika z (ii). Dla u ∈ (0, 1) wzór został udowodniony w dowodzie (i) (patrz (1.5)). M. Beśka, Statystyka matematyczna, wykład 1 6 (v) Dla u1 , u2 ∈ [0, 1] takich, że u1 < u2 mamy {x ∈ IR : F (x) ≥ u2 } ⊂ {x ∈ IR : F (x) ≥ u1 }. Stąd i z definicji kresu dolnego F −1 (u1 ) = inf{x ∈ IR : F (x) ≥ u1 } ≤ inf{x ∈ IR : F (x) ≥ u2 } = F −1 (u2 ), co dowodzi monotoniczności F −1 . Niech u ∈ (0, 1] będzie takie, że F −1 (u) < ∞. Załóżmy, że F −1 nie jest lewostronnie ciagłe w u. Wtedy _ ^ F −1 (u − δ) < x < F −1 (u). x∈R δ>0 Z (i) dostajemy u − δ ≤ F (x) < u. Przechodząc z δ → 0 dostajemy u ≤ F (x) < u, co daje sprzeczność. Został nam do rozważenia przypadek F −1 (1) = ∞. Wtedy jak wiemy dla każdego x ∈ IR mamy F (x) < 1. Gdyby granica lim F −1 (u) = x0 ∈ IR u→1− (istnieje z monotoniczności F −1 ) była skończona, to ponieważ F −1 jest niemalejąca, więc ^ F −1 (u) ≤ x0 . u∈(0, 1) Stąd i z (i) mamy ^ u ≤ F (x0 ) < 1. u∈(0, 1) Biorąc u → 1− dostajemy 1 ≤ F (x0 ) < 1, co daje sprzeczność. (vi) "⇒" Załóżmy, że x nie jest lewostronnym punktem wzrostu F tj. _ F (x) − F (x − ε) = 0. ε>0 Wtedy z (iii) mamy F −1 (F (x)) = F −1 (F (x − ε)) ≤ x − ε < x. "⇐" Załóżmy, że F −1 (F (x)) < x. Wtedy istnieje ε > 0 takie, że F −1 (F (x)) < x − ε < x. M. Beśka, Statystyka matematyczna, wykład 1 7 Stąd i z (iv) mamy F (x) ≤ F (F −1 (F (x))) ≤ F (x − ε) ≤ F (x). Stąd F (x) = F (x − ε), czyli x nie jest lewostronnym punktem wzrostu F . (vii) "⇒" Załóżmy, że x nie jest prawostronnym punktem wzrostu F −1 tj. _ F −1 (u + ε) − F −1 (u) = 0. ε>0 u+ε<1 Wtedy z (iv) mamy F (F −1 (u) = F (F −1 (u + ε)) ≥ u + ε > u. "⇐" Załóżmy, że F (F −1 (u)) > u. Wtedy istnieje ε > 0 takie, że 1 ≥ F (F −1 (u)) > u + ε > u. Stąd i z (iii) mamy F −1 (u) ≥ F −1 (F (F −1 (u))) ≥ F −1 (u + ε) ≥ F −1 (u). Stąd F −1 (u) = F −1 (u + ε), czyli u nie jest prawostronnym punktem wzrostu F −1 . 2 Uwaga. Jeśli dystrybuanta F jest ciągła, to każdy punkt u ∈ (0, 1) jest prawostronnym punktem wzrostu F −1 . Rzeczywiście, załóżmy, że u ∈ (0, 1) nie jest prawostronnym punktem wzrostu F −1 tj. istnieje ε > 0 takie, że u + ε < 1 oraz F −1 (u + ε) = F −1 (u). Z własności dystrybuanty (0, 1) ⊂ F (IR). Stąd _ u = F (x1 ), u + ε = F (x2 ). x1 ,x2 ∈R Niech p ∈ (0, 1) będzie takie, że (1.6) F (x1 ) = u < p < u + ε = F (x2 ). Z własności Darbouxa istnieje x ∈ IR taki, że F (x) = p. Stąd i z (1.6) mamy F (x1 ) = u < F (x) < u + ε = F (x2 ). Stosując teraz lemat 1.5(i) dostajemy F −1 (u) ≤ x < F −1 (u + ε), co daje sprzeczność z założeniem. 2 Z powyższej uwagi oraz z lematu 1.5 dostajemy 8 M. Beśka, Statystyka matematyczna, wykład 1 Wniosek 1.6 Jeśli dystrybuanta F jest ciągła, to ^ F (F −1 (u)) = u. u∈[0, 1] F −1 (u), Uwaga. Zauważmy, że jeśli u ∈ (0, 1) jest punktem ciągłości F to Rzczywiście, niech F (F −1 (u)) > u. Wtedy istnieje ε > 0 takie, że F (F −1 (u)) 2 = u. F (F −1 (u)) > u + ε > u. Ponadto dla ciągu {xn }n≥1 takiego, że xn < F −1 (u), n ≥ 1, xn % F −1 (u) mamy F (xn ) % F (F −1 (u)) > u + ε. Z drugiej strony F (xn ) < u dla n ≥ 1, czyli limn→∞ F (xn ) ≤ u co daje sprzeczność. 2 Twierdzenie 1.7 Jeśli F = FX jest ciągłą dystrybuantą zmiennej losowej X, to zmienna losowa Y = F (X) ma rozkład jednostajny na przedziale (0, 1). Dowód. Zauważmy, że FY (y) = P {Y ≤ y} = P {F (X) ≤ y} = 0, dla y < 0, 1, dla y ≥ 1. Załóżmy, więc że 0 ≤ y < 1. Wtedy korzystając z lematu 1.5 (i), z ciągłości F oraz z wniosku 1.6 dostajemy ∞ \ 1 FY (y) = P {Y ≤ y} = P {F (X) ∈ (−∞, y]} = P F (X) ∈ − ∞, y + = n n=1 P \ ∞ 1 1 L.1.5(i) 1 −1 F (X) < y+ = lim P F (X) < y+ = lim P X < F y+ = n→∞ n→∞ n n n n=1 1 1 1 W n.1.6 −1 −1 lim P X ≤ F y+ = lim F F y+ = lim y + = y. n→∞ n→∞ n→∞ n n n Zatem y < 0, 0, gdy y, gdy 0 ≤ y < 1, FY (y) = 1, gdy y ≥ 1, czyli jest dystrybuantą rozkładu jednostajnego na przedziale (0, 1). 2 M. Beśka, Statystyka matematyczna, wykład 1 9 Twierdzenie 1.8 Niech X będzie zmienną losową o dystrybuancie F . Wtedy P {F −1 (F (X)) = X} = 1. (1.7) Dowód. Na mocy lematu 1.5 (iii) wystarczy wykazać, że P { F −1 (F (X)) < X } = µX {x ∈ IR : F −1 (F (x)) < x} = 0. Korzystając z gestości zbioru Q liczb wymiernych w IR, monotoniczności F oraz z lematu 1.5 (i) możemy napisać [ { x ∈ IR : F −1 (F (x)) < x } = { x ∈ IR : F −1 (F (x)) < q < x } q∈Q (1.8) ⊂ [ q∈Q { x > q : F (x) ≤ F (q) } = [ { x > q : F (x) = F (q) }. q∈Q Jeśli { x > q : F (x) = F (q) } = ∅ to oczywiście µX ({ x > q : F (x) = F (q) }) = 0. Niech więc { x > q : F (x) = F (q) } = 6 ∅. Oznaczmy xs = sup{ x > q : F (x) = F (q) }. Jeśli xs = +∞ to { x > q : F (x) = F (q) } = (q, +∞). Zatem µX ({ x > q : F (x) = F (q) }) = µX ((q, +∞)) = F (+∞) − F (q) = 0. Niech więc xs < +∞ i oznaczmy przez Cont(F ) zbiór punktów ciągłości dystrybuanty F . Wtedy (q, xs ), gdy xs 6∈ Cont(F ), (1.9) { x > q : F (x) = F (q) } = (q, xs ], gdy xs ∈ Cont(F ). Rzeczywiście, załóżmy, że xs 6∈Cont(F ) tj. F (xs ) > F (x− s ). Wykażemy równość { x > q : F (x) = F (q) } = (q, xs ). Niech t > q oraz F (t) = F (q). Z definicji kresu górnego wynika, że t ≤ xs . Gdyby t = xs − to F (xs ) = F (t) = F (q) = F (x− s ) co jest sprzeczne z założeniem, że F (xs ) > F (xs ), więc t < xs . Zatem t ∈ (q, xs ). W drugą stronę. Niech q < t < xs . Z definicji kresu górnego istnieje u > q dla którego F (u) = F (q) oraz takie, że u > t. Stąd F (u) ≥ F (t). Ponieważ z założenia t > q, więc mamy również F (t) ≥ F (q). Ostatecznie otrzymujemy F (u) ≥ F (t) ≥ F (q) = F (u). Stąd F (u) = F (t) = F (q). Zatem t ∈ { x > q : F (x) = F (q) }. M. Beśka, Statystyka matematyczna, wykład 1 10 Załóżmy teraz, że xs ∈Cont(F ) tj. F (xs ) = F (x− s ). Wykażemy równość { x > q : F (x) = F (q) } = (q, xs ]. Niech t Niech q t ∈ {x dowodu > q oraz F (t) = F (q). Wtedy t ≤ xs . Zatem t ∈ (q, xs ]. W drugą stronę. < t ≤ xs . Jeśli t = xs , to ponieważ F (t) = F (xs ) = F (x− s ) = F (q), więc > q : F (x) = F (q) }. Gdy natomiast t < xs to powtarzamy rozumowanie z powyżej. Dowód (1.9) został zakończony. Korzystając z tej równości mamy µX ({ x > q : F (x) = F (q) }) = µX ((q, xs )) = F (x− gdy xs ∈ 6 Cont(F ), s ) − F (q) = 0, − µX ((q, xs ]) = F (xs ) − F (q) = F (xs ) − F (q) = 0, gdy xs ∈ Cont(F ). Zatem jak widać w każdym przypadku dostajemy µX ({ x > q : F (x) = F (q) }) = 0. Stosując teraz (1.8) dostajemy ostatecznie X µX ({ x ∈ IR : F −1 (F (x)) < x }) ≤ µX ({ x > q : F (x) = F (q) }) = 0, q∈Q co kończy dowód twierdzenia. 2 1.3 Przestrzeń prób, przestrzeń statystyczna, próba losowa prosta Obserwując jakieś zjawisko losowe charakteryzujące pewna zbiorowość (nazywaną w statystyce populacją) możemy je modelować pewną zmienną losową X, której wartościami są wszystkie możliwe obserwowalne wyniki badanego zjawiska losowego. Tę zmienną losową nazywać będziemy cechą. Przez X będziemy oznaczać zbiór wszystkich możliwych wartości cechy X. Na ogół będziemy zakładać, że X ⊂ IRd gdzie d ≥ 1. Do rozważań teoretycznych potrzebna będzie σ-algebra na X . Na ogół będzie to σ-algebra zbiorów borelowskich na X i będziemy ją oznaczać przez B = B(X ). Przestrzeń mierzalną (X , B) bedziemy nazywać przestrzenią prób indukowaną cechą X. Rozkład cechy X jest nieznany. Celem wnioskowania statystycznego jest dostarczenie informacji o nieznanym rozkładzie cechy X lub o jej nieznanych wartościach parametrów na podstawie obserwacji cechy X (tj. obserwacji zjawiska losowego). Rodzinę możliwych rozkładów cechy X będziemy oznaczać przez P = {µθ }θ∈Θ . Uporządkowana trójkę (X , B, P), gdzie P = {µθ }θ∈Θ nazywamy przestrzenią statystyczną (lub modelem statystycznym) indukowaną cechą X. Przykładem takiej przestrzeni może być: X = {0, 1}, B = 2X P = {µθ }θ∈Θ , gdzie Θ = (0, 1), µθ = θδ1 + (1 − θ)δ0 , θ ∈ Θ. Definicja 1.9 Mówimy, że przestrzen statystyczna (X , B, P) jest produktem przestrzeni statystycznych (Xi , Bi , Pi ), i = 1, 2, . . . , n jeśli X = X1 × · · · × Xn , B = B1 ⊗ · · · ⊗ Bn , P = {µ1,θ × · · · × µn,θ : µi,θ ∈ Pi , i = 1, 2, . . . , n, θ ∈ Θ}. M. Beśka, Statystyka matematyczna, wykład 1 11 Jasne jest, że jeśli (Xi , Bi , Pi ) jest indukowana przez cechę Xi dla i = 1, 2, . . . , n, to (X , B, P) jest indukowana przez wektor losowy X = (X1 , . . . , Xn ) niezależnych zmiennych losowych {Xi }1≤i≤n . W szczegolności, gdy (Xi , Bi , Pi ) = . . . = (Xn , Bn , Pn ) to przestrzeń statystyczna (nzywana w tym przypadku produktową przestrzenia statystyczną) (X , B, P) := (X , B, P)n := (X n , B n , P n ) jest indukowana przez wektor losowy X = (X1 , . . . , Xn ) niezależnych zmiennych losowych {Xi }1≤i≤n o takim samym rozkładzie tzn. µX1 = . . . = µXn Taki wektor losowy będziemy nazywać próbą losową prostą. Ma ona nastepujaca interpretację: Dokonujemy n-krotnej (niezależnej) obserwacji badanego zjawiska losowego którego cechą jest X. Wartościami zmiennej losowej X1 są wszystkie możliwe wyniki pierwszej obserwacji, X2 drugiej obserwacji itd. Z niezależności obserwacji wynika, że zmienne losowe X1 , . . . , Xn są niezależne. Ponieważ dokonujemy n - krotnej obserwacji tego samego zjawiska (zakładamy tu, że obserwacja nie wpływa na samo zjawisko), którego cechą jest zmienna losowa X, więc µX = µX1 = . . . = µXn . Jeśli x1 będzie wynikiem pierwszej obserwacji, x2 drugiej i ogólnie xi bedzie wynikiej i tej obserwacji, to wektor x = (x1 , x2 , . . . , xn ) będziemy nazywać realizacją próby losowej prostej lub krótko próbką. Definicja 1.10 Niech (X , B, P) będzie przestrzenią statystyczną, a (Y, A) przestrzenią mierzalną. Wtedy mierzalne odwzorowanie T : X → Y nazywamy statystyką na przestrzeni (X , B, P). Zauważmy, że statystyka T jest odwzorowaniem mierzalnym tj. ^ T −1 (A) ∈ B. A∈A Ponadto σ-algebrę B0 = T −1 (A) = {T −1 (A) : A ∈ A} ⊂ B nazywamy σ-algebrą indukowaną przez statystykę T . Na ogół w naszych rozważaniach przestrzeń statystyczna (X , B, P) będzie przestrzenią produktową tj. indukowaną przez próbę losowa prostą X = (X1 , . . . , Xn ) określoną na pewnej przestrzeni probabilistycznej (Ω, F, P ). Możemy więc dokonać złożenia T = T (X) i wtedy statystyka T jest zmienną losową na przestrzeni (Ω, F, P ). Dokładniej mamy następujący diagram X T (Ω, F) −→ (X , B) − → (Y, A). 12 M. Beśka, Statystyka matematyczna, wykład 1 Gdy będziemy pisać T = T (x) to statystykę T traktujemy jako odwzorowanie na przestrzeni statystycznej (X , B, P). Jeśli T : (X , B) → (Y, A) jest statystyką, to możemy określić rozkłady µTθ (A) = µθ (T −1 (A)), A ∈ A. Wtedy (Y, A, PT ), gdzie PT = {µTθ }θ∈Θ nazywamy przestrzenią statystyczną indukowaną przez statystykę T . Definicja 1.11 Niech T1 i T2 będą statystykami określonymi na (X , B, P) o wartościach w (Y1 , A1 ), (Y2 , A2 ) odpowiednio. Statystyki T1 i T2 nazywamy równoważnymi jeśli T1−1 (A1 ) = T2−1 (A2 ). 1.4 Dystrybuanta empiryczna Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F . Definicja 1.12 Dystrybuantą empiryczna z próby losowej prostej X = (X1 , . . . , Xn ) nazywamy statystykę n (1.10) Fn (x; X) = 1X I(−∞, n x] (Xi ), x ∈ IR. i=1 Podstawowe własności dystrybuanty empirycznej (i) Mamy równoważność: F (x) = 1 ⇔ Fn (x; X) = 1, P - p.w.; (ii) Mamy równoważność: F (x) = 0 ⇔ Fn (x; X) = 0, P - p.w.; (iii) Jeśli 0 < F (x) < 1, to nFn (x; X) ma rozkład dwumianowy (Bernoulliego) o parametrach p = F (x) i n ∈ IN; (iv) E Fn (x; X) = F (x), x ∈ IR; (v) P limn→∞ Fn (x; X) = F (x) = 1, x ∈ IR; (vi) P limn→∞ Fn (x− ; X) = F (x− ) = 1, x ∈ IR; (vii) Dla x ∈ IR takiego, że 0 < F (x) < 1 zachodzi następujące centralne twierdzenie graniczne √ Fn (x; X) − F (x) D np −−−→ N (0, 1). F (x)(1 − F (x)) n→∞ Krótkie uzasadnienie powyższych własności. Własności (i) oraz (ii) wynikają bezposrednio z definicji dystrybuany empirycznej (wzór (1.10)), bowiem P {Fn (x; X) = 1} = P {I(−∞, x] (Xi ) = 1} = P {Xi ≤ x} = F (x), i = 1, 2, . . . , n, 13 M. Beśka, Statystyka matematyczna, wykład 1 P {Fn (x; X) = 0} = P {I(−∞, x] (Xi ) = 0} = P {Xi > x} = 1 − F (x), i = 1, 2, . . . , n. Również ze wzoru powyżej wynika, że nFn (x; X), gdy 0 < F (x) < 1 jest sumą niezależnych zmiennych losowych o rozkładzie zero-jedynkowym z parametrem. Własność (iv) wynika z (iii) i wlasności rozkładu dwumianowego. Własność (v) to szczególny przypadek mocnego prawa wielkich liczb Kołmogorowa. Własność (vi) wynika z n 1X Fn (x; X) − Fn (x ; X) = I{x} (Xi ) n − i=1 oraz z mocnego prawa wielkich liczb, bo n Fn (x− ; X) = Fn (x; X) − 1X I{x} (Xi ) −−−→ F (x) − P {Xi = x} = F (x− ), n→∞ n P − p.w., i=1 poniważ P {Xi = x} = F (x) − F (x− ). Ostatnia własność jest szczególnym przypadkiem centralnego twierdzenia granicznego Moiver’a-Laplace’a. Twierdzenie 1.13 (Podstawowe twierdzenie statyst. mat. (Gliwienko-Cantelli)) Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F . Oznaczmy Dn = sup |Fn (x; X) − F (x)|, n ≥ 1. x∈R Wtedy Dn −−−→ 0, n→∞ P − p.w. tzn. P lim Dn = 0 = 1. n→∞ Dowód. Niech M ∈ IN będzie ustalone. Oznaczmy k , k = 0, 1, 2, . . . , M, M + 1. xk,M = F −1 M Zauważmy, że x0,M = F −1 (0) = −∞ oraz xM +1,M = F −1 MM+1 = +∞. Oznaczmy I0 = (x0,M , x1,M ) = (−∞, x1,M ) oraz Ik = [xk,M , xk+1,M ), k = 1, 2, . . . , M. Wtedy rodzina {Ik }0≤k≤M jest rozbiciem prostej IR. Zauważmy, że dla x ∈ Ik , k = 0, 1, . . . , M mamy (1.11) Fn (xk,M ; X) ≤ Fn (x; X) ≤ Fn (x− k+1,M ; X) oraz (1.12) F (xk,M ) ≤ F (x) ≤ F (x− k+1,M ). 14 M. Beśka, Statystyka matematyczna, wykład 1 Wykażemy, że dla k = 0, 1, . . . , M zachodzą nierówności 0 ≤ F (x− k+1,M ) − F (xk,M ) ≤ (1.13) 1 . M W tym celu rozważymy trzy przypadki (1) Gdy k = 0. Wtedy − − F (x− lim F (y). 1,M ) − F (x0,M ) = F (x1,M ) − F (−∞) = F (x1,M ) = y→x 1,M y<x1,M Ponieważ y < x1,M = F −1 1 1 ⇐⇒ F (y) < , M M zatem F (x− lim 1,M ) − F (x0,M ) ≤ y→x 1,M y<x1,M 1 1 = . M M (2) Gdy k = M . −1 (1)) = 1 − 1 = 0 ≤ F (x− M +1,M ) − F (xM,M ) = 1 − F (F 1 . M (3) Gdy 1 ≤ k ≤ M − 1. k k + 1 k 1 F (y) − F F −1 ≤ y→xlim − = , k+1,M k+1,M M M M M lim F (x− k+1,M ) − F (xk,M ) = y→x y<xk+1,M bo F F −1 k M ≥ k M y<xk+1,M oraz y < xk+1,M = F −1 k + 1 M ⇐⇒ F (y) < k+1 . M Dowód (1.13) został zakończony. Korzystajac teraz z (1.11), (1.12) i (1.13) dla x ∈ Ik , k = 0, 1, . . . , M dostajemy − − Fn (x; X) − F (x) ≤ Fn (x− k+1,M ; X) − F (xk,M ) ≤ Fn (xk+1,M ; X) − F (xk+1,M ) + − |Fn (x− k+1,M ; X) − F (xk+1,M )| + 1 ≤ M 1 . M Podobnie otrzymujemy oszacowanie z dołu Fn (x; X) − F (x) ≥ Fn (xk,M ; X) − F (x− k+1,M ) ≥ Fn (xk,M ; X) − F (xk,M ) − −|Fn (xk,M ; X) − F (xk,M )| − 1 . M 1 ≥ M 15 M. Beśka, Statystyka matematyczna, wykład 1 Z tych dwóch oszacowań wynika, że dla x ∈ Ik , k = 0, 1, . . . , M mamy − |Fn (x; X) − F (x)| ≤ max{|Fn (x− k+1,M ; X) − F (xk+1,M )|, |Fn (xk,M ; X) − F (xk,M )|} + 1 . M Stąd przyjmując oznaczenia (1) (2) − ∆n,M = max |Fn (x− k+1,M ; X) − F (xk+1,M )| ∆n,M = max |Fn (xk,M ; X) − F (xk,M )|, 0≤k≤M 0≤k≤M możemy napisać oszacowanie (1) (2) Dn = sup |Fn (x; X) − F (x)| ≤ max{∆n,M , ∆n,M } + x∈R 1 . M Z własności dystrybuanty empirycznej Fn (xk,M ; X) −−−→ F (xk,M ), P − p.w. n→∞ oraz − Fn (x− k+1,M ; X) −−−→ F (xk+1,M ), n→∞ P − p.w. Zatem (1) (2) ∆n,M −−−→ 0 oraz ∆n,M −−−→ 0, n→∞ n→∞ P − p.w. Ostatecznie, wiec dla dowolnego M ∈ IN mamy 0 ≤ lim sup Dn ≤ n→∞ 1 , M P − p.w. Stąd lim Dn = 0, n→∞ P − p.w. Dowód twierdzenia został zakończony. 2 Uwaga. W 1956 roku Dvoretzky, Kiefer i Wolfowitz wykazali, że przy założeniach jak w podstawowym twierdzeniu statystyki istnieje stała K, która nie zależy od ε > 0 n i F taka, że n o √ 2 P sup n|Fn (x; X) − F (x)| > ε ≤ K e−2ε , n ≥ 1. x∈R W 1990 roku Massart wykazał, że K = 2 i jest to najlepsza stała. Korzystając teraz z tych uwag możemy napisać n ε o 2 P sup |Fn (x; X) − F (x)| > √ ≤ 2 e−2ε , n ≥ 1. n x∈R √ Przyjmując δ = ε/ n możemy powyższą nierówność zapisać w postaci n o 2 P sup |Fn (x; X) − F (x)| > δ ≤ 2 e−2nδ , n ≥ 1. x∈R 16 M. Beśka, Statystyka matematyczna, wykład 1 P −2nδ 2 < ∞ tzn. szereg ten jest zbieżny, więc z lematu Borel-Cantelliego Ponieważ ∞ n=1 2 e dostajemy Dn = sup |Fn (x; X) − F (x)| −−−→ 0, P − p.w. n→∞ x∈R Co daje inny dowód podstawowego twierdzenia statystyki matematycznej. 2 1.5 Statystyki pozycyjne, kwantyle z próby Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F . Dla ω ∈ Ω możemy napisać X(1) (ω) ≤ X(2) (ω) ≤ . . . ≤ X(k) (ω) ≤ . . . ≤ X(n) (ω). Wtedy X(k) nazywamy k-tą statystyką pozycyjną. Zauważmy, że X(1) = min Xi , X(n) = max Xi , 1≤i≤n 1≤i≤n X(k) = Fn−1 k n ;X , k = 1, . . . , n. Będziemy starali się wyznaczyc wzór na dystrybuantę k-tej statystyki pozycyjnej. Ponieważ k k Fn (x; X) ≥ ⇐⇒ X(k) = Fn−1 ; X ≤ x, n n więc n X i n−i n Fk,n (x) = P {X(k) ≤ x} = P {Fn (x; X) ≥ k/n} = F (x) 1 − F (x) . i i=k Okazuje się, że możemy pozbyć się znaku sumy w powyższym wzorze, wystarczy skorzystać z lematu Lemat 1.14 Niech p ∈ [0, 1] oraz n ∈ IN. Wtedy dla 1 ≤ k ≤ n mamy Z p n X n i n−1 n−i p (1 − p) =n tk−1 (1 − t)n−k dt. i k−1 0 i=k Dowód. Niech p ∈ [0, 1] i oznaczmy S(p) = n X n i p (1 − p)n−i . i i=k Wyznaczmy pochodną (względem p) wielomianu S(p). Mamy n X n i−1 S 0 (p) = ip (1 − p)n−i − (n − i)pi (1 − p)n−i−1 = i i=k 17 M. Beśka, Statystyka matematyczna, wykład 1 n n−1 X X n n i−1 n−i ip (1 − p) − (n − i)pi (1 − p)n−i−1 . i i i=k i=k n n n−1 n n n−1 Ponieważ ni = ni n−1 i−1 oraz i = n−i = n−i n−i−1 = n−i i , więc n n−1 X X n − 1 n − 1 i−1 n−i S (p) = n p (1 − p) −n pi (1 − p)n−i−1 = i−1 i 0 i=k i=k n n X X n − 1 i−1 n − 1 i−1 n − 1 k−1 n−i n−i n p (1 − p) −n p (1 − p) =n p (1 − p)n−k . i−1 i−1 k−1 i=k i=k+1 Całkując teraz na przedziale [0, p] otrzymaną rowność stronami otrzymujemy Z p Z p n−1 S 0 (t) dt = n tk−1 (1 − t)n−k dt. S(p) = S(p) − S(0) = k − 1 0 0 Dowód lematu został zakończony. 2 Korzystając z powyższego lematu dostajemy ostateczny wzor na dystrybuantę k-tej statystyki pozycyjnej. (1.14) Fk,n (x) = n X n i=k i F (x) i 1 − F (x) n−i n−1 =n k−1 Z F (x) tk−1 (1 − t)n−k dt 0 dla x ∈ IR. W szczególności n F1,n (x) = 1 − 1 − F (x) , n Fn,n (x) = F (x) , x ∈ IR. Wniosek 1.15 Niech X = (X1 , . . . , Xn ) będzie próbą losową prostą z cechy, której rozkład ma gęstość f (względem miary Lebesgue’a). Wtedy gęstość fk,n k-tej statystyki pozycyjnej wyraża się wzorem k−1 n−k n−1 fk,n (x) = n F (x) 1 − F (x) f (x), x ∈ IR. k−1 Dowód. Wynika ze wzoru (1.14) poprzez zróżniczkowanie dystrybuanty Fk,n . 2 Definicja 1.16 Kwantylem rzędy p ∈ (0, 1) rozkładu zmiennej losowej X o dystrybuancie F nazywamy liczbę xp = F −1 (p). Kwantyl rzędu 1/2 nazywamy medianą. 18 M. Beśka, Statystyka matematyczna, wykład 1 Z lematu 1.5 wynika, że jeśli xp = F −1 (p), to F (xp ) = F (F −1 (p)) ≥ p. Ponadto z definicji uogólninej dystrybuanty odwrotnej i własności kresu dolnego mamy dla każdego ε > 0 nierówność F (xp − ε) < p. Przechodząc z ε → 0 dostajemy F (x− p ) ≤ p. Stąd kwantyl xp spełnia nierówności F (x− p ) ≤ p ≤ F (xp ). Jak łatwo zauważyć jest to najmniejsza liczba xp która spełnia te nierówności. Definicja 1.17 Niech X = (X1 , . . . , Xn ) będzie próbą losową prostą z cechy X o dystrybuancie F . Kwantylem rzędu p ∈ (0, 1) z próby X nazywamy statystykę Zp,n (X) = Fn−1 (p ; X). Kwantyl z próby rzędu 1/2 nazywamy medianą z próby. Kwantyle z proby możemy wyrazić za pomocą statystyk pozycyjnych, mianowicie X(np) , gdy np ∈ IN, Zp,n (X) = X([np]+1) , gdy np 6∈ IN, gdzie [np] oznacza część całkowitą z liczby np. Przypadek np ∈ IN był już uzasadniany (przy statystykach pozycyjnych). Gdy np 6∈ IN, to istnieje k ∈ IN takie, że nk < p < k+1 n . −1 Stąd i z definicji dystrybuany empirycznej wynika, że Fn (p; X) = X(k+1) . Z drugiej strony, ponieważ k < np < k + 1, więc k + 1 = [np] + 1. Zatem Zp,n (X) = Fn−1 (p ; X) = X(k+1) = X([np]+1) . Niekiedy ze względu na symetrię wygodnie jest definiować medianę z próby nastepująco ( X( n+1 ) , gdy n = 2k − 1, k ∈ IN, 2 me (X) = 1 n = 2k, k ∈ IN. 2 (X(n/2) + X(n/2+1) ), gdy Przypomnijmy prosty fakt charakteryzujący zbieżność P - p.w. Lemat 1.18 Niech {Xn }n≥1 będzie ciągiem zmiennych losowych. Wtedy Xn −−−→ X, n→∞ P P − p.w. ⇐⇒ sup |Xn − X| −−−→ 0. n→∞ n≥k Dowód. Ustalmy ε > 0. Wtedy z definicji zbieżności według prawdopodobieństwa i ciągłości prawdopodobieństwa względem ciągów zstępujących otrzymujemy n o [ 0 = lim P sup |Xn − X| > ε = lim P |Xn − X| > ε = k→∞ P ∞ \ n≥k k→∞ n≥k [ |Xn − X| > ε = P lim sup |Xn − X| > ε . k=1 n≥k n→∞ Stąd i z dowolności ε > 0 dostajemy tezę. Dowód lematu jest zakończony. 2 19 M. Beśka, Statystyka matematyczna, wykład 1 Twierdzenie 1.19 Niech X = (X1 , . . . , Xn ) bedzie próbą losową prostą z populacji w której cecha X ma dystrybuantę F i niech p ∈ (0, 1). Jeśli xp jest jedynym rozwiązaniem nierówności F (x− ) ≤ p ≤ F (x), to Zp,n (X) −−−→ xp , (1.15) P − p.w. n→∞ Dowód. Jak wiadomo z lematu 1.18 zbieżność w (1.15) jest równoważna zbieżności n o ^ P sup |Zp,n (X) − xp | > ε −−−→ 0. k→∞ n≥k ε>0 Ustalmy ε > 0. Z jednoznaczności xp mamy nierówności F (xp − ε) < p < F (xp + ε). Z mocnego prawa wielkich liczb dostajemy Fn (xp − ε; X) −−−→ F (xp − ε), P − p.w., Fn (xp + ε; X) −−−→ F (xp + ε), P − p.w. n→∞ n→∞ Zbieżności te są równoważne (1.16) ^ η>0 (1.17) ^ η>0 lim P k→∞ lim P k→∞ ∞ \ |Fn (xp − ε; X) − F (xp − ε)| ≤ η = 1, |Fn (xp + ε; X) − F (xp + ε)| ≤ η = 1. n=k ∞ \ n=k Oznaczmy δ1 = p − F (xp − ε) > 0, δ2 = F (xp + ε) − p > 0. Niech η < min{δ1 , δ2 } oraz niech (1.18) |Fn (xp − ε; X) − F (xp − ε)| ≤ η dla n≥k |Fn (xp + ε; X) − F (xp + ε)| ≤ η dla n ≥ k. i (1.19) Wtedy (1.20) Fn (xp − ε; X) < p < Fn (xp + ε; X), dla n ≥ k. 20 M. Beśka, Statystyka matematyczna, wykład 1 Rzeczywiście, dowód (1.20) wynika z 1.18 η<δ1 Fn (xp − ε; X) ≤ η + F (xp − ε) < p − F (xp − ε) + F (xp − ε) = p = 1.19 F (xp + ε) − δ2 < F (xp + ε) − η ≤ Fn (xp + ε; X). Korzystając z (1.18), (1.19) oraz z(1.20) dostajemy ∞ \ ∞ \ |Fn (xp − ε; X) − F (xp − ε)| ≤ η ∩ |Fn (xp + ε; X) − F (xp + ε)| ≤ η ⊂ n=k n=k ∞ \ Fn (xp − ε; X) < p < Fn (xp + ε; X) . n=k Stąd, z (1.16) i z (1.17) dostajemy ∞ \ lim P Fn (xp − ε; X) < p < Fn (xp + ε; X) = 1, k→∞ co implikuje n=k ∞ \ lim P xp − ε ≤ Fn−1 (p; X) ≤ xp + ε = 1. k→∞ n=k Ponieważ z definicji Zp,n (X) = Fn−1 (p; X), więc powyższa równość jest równoważna lim P ∞ \ k→∞ tzn. |Zp,n (X) − xp | ≤ ε =1 n=k n o P sup |Zp,n (X) − xp | > ε −−−→ 0. k→∞ n≥k To natomiast (jak już wiemy) jest równoważne Zp,n (X) −−−→ xp , n→∞ P − p.w. Dowód twierdzenia został zakończony. 2