1 Przestrzenie statystyczne, statystyki

advertisement
1
M. Beśka, Statystyka matematyczna, wykład 1
1
Przestrzenie statystyczne, statystyki
1.1
Rozkłady zmiennych losowych
Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną, a X : Ω → IR zmienną
losową na niej. Rozkładem zmiennej losowej X nazywamy miarę probabilistyczną µ = µX
na (IR, B(IR)) daną wzorem
µX (A) = P {X ∈ A} = P (X −1 (A)),
A ∈ B(IR).
Jeśli µ jest miarą probabilistyczną na (IR, B(IR)), to łatwo zauważyć, że na przestrzeni
probabilistycznej (IR, B(IR), µ) zmienna losowa
X(ω) = ω,
ω ∈ IR
ma rozkład µ. Zatem każda miara probabilistyczna na (IR, B(IR)) jest rozkładem pewnej
zmiennej losowej. Stąd takie miary będziemy nazywać rozkładami. Przypomnijmy znane
z wykładu z teorii miary twierdzenie
Twierdzenie 1.1 (O rozkładzie Lebesgue’a) Niech ν i µ będą σ-skończonymi miarami
na przestrzeni mierzalnej (X, A). Wtedy istnieją jedyne miary νac i νs takie, że
ν = νac + νs
oraz
νac µ
i
νs ⊥ µ.
Twierdzenie o rozkładzie Lebesgue’a zastosujemy do dowodu następującego wniosku.
Wniosek 1.2 Niech µ będzie rozkładem na (IR, B(IR)). Wtedy istnieją jednoznacznie wyznaczone rozkłady µac , µd , µc na (IR, B(IR)) oraz liczby 0 ≤ αac , αd , αc ≤ 1, αac +αd +αc =
1 takie, że
(i) µ = αac µac + αd µd + αc µc ;
(ii) µac λ, λ - miara Lebesgue’a;
(iii) Rozkład µd jest dyskretny tzn. istnieje co najwyżej przeliczalny zbiór S ⊂ IR (jest
oczywiste, że S ∈ B(IR)) taki, że µd ({x}) > 0 dla x ∈ S oraz µd (S 0 ) = 0.
(iv) Rozkład µc jest ciągły (tzn. µc ({x}) = 0 dla x ∈ IR) oraz µc ⊥ λ.
Dowód. Na mocy twierdzenia 1.1 istnieją miary µ1 i µ2 na (IR, B(IR)) takie, że
µ = µ1 + µ2 ,
µ1 λ,
µ2 ⊥ λ.
Oznaczmy
S = {x ∈ IR : µ2 ({x}) 6= 0}.
M. Beśka, Statystyka matematyczna, wykład 1
2
Ponieważ µ2 jest skończona, więc S jest co najwyżej przeliczalny. Określmy
µ∗d (A) = µ2 (A ∩ S),
A ∈ B(IR),
µ∗c (A)
A ∈ B(IR).
0
= µ2 (A ∩ S ),
Wtedy
µ = µ1 + µ∗d + µ∗c .
Oznaczmy αac = µ1 (IR), αd = µ∗d (IR), αc = µ∗c (IR) oraz
1
µ1 oraz µac ≡ 0 gdy αac = 0;
αac
1 ∗
µd =
µ oraz µd ≡ 0 gdy αd = 0;
αd d
1 ∗
µc =
µ oraz µc ≡ 0 gdy αc = 0.
αc c
µac =
Dowód wniosku został zakończony.
2
Powyższy wniosek pozwala nam wyróżnić pewne klasy rozkładów
A) Rozkłady absolutnie ciągłe.
To takie rozkłady µ na (IR, B(IR)), które są absolutnie ciągłe względem miary Lebesgue’a
λ co zapisujemy µ λ. Przypomnijmy teraz twierdzenie Radona-Nikodyma (w ogólnej
postaci).
Twierdzenie 1.3 (Radona-Nikodyma) Niech (X, A) będzie przestrzenią mierzalną, a
µ i ν miarami na niej. Załóżmy, że µ jest miarą σ-skończoną, a ν miarą absolutnie ciągłą
względem µ tzn. ν µ. Wtedy istnieje nieujemna funkcja mierzalna h taka, że
Z
(1.1)
ν(E) =
h(x) µ(x), E ∈ A
(lub krótko ν = hµ).
E
Jeśli istnieje druga nieujemna mierzalna funkcja g spełniająca (1.1) to h = g, µ - p.w.
Ponadto h jest skończenie całkowalna wtedy i tylko wtedy, gdy ν jest miarą skończoną, a
jest µ - p.w skończona wtedy i tylko wtedy, gdy ν jest σ-skończona.
2
Korzystając teraz w naszej sytuacji z twierdzenia Radona-Nikodyma wnioskujemy, że
istnieje funkcja borelowska f : IR → [0, ∞) taka, że
Z
(1.2)
µ(A) =
f (x) dλ(x),
A ∈ B(IR).
A
3
M. Beśka, Statystyka matematyczna, wykład 1
Podstawiając w (1.2) A := IR otrzymujemy
Z
1 = µ(IR) =
(1.3)
f (x) dλ(x).
R
Funkcję f nazywamy gęstością rozkładu µ. Tak więc każdemu rozkładowi µ na (IR, B(IR))
takiemu, że µ λ odpowiada nieujemna funkcja borelowska spełniająca warunek (unormowania) (1.3). Odwrotnie, mając niujemną funkcję borelowską spełniającą warunek (1.3)
możemy przy pomocy (1.2) określić rozkład µ na (IR, B(IR)) taki, że µ λ. Widzimy więc,
że istnieje wzajemnie jednoznacza odpowiedniość między rozkładami na (IR, B(IR)) absolutnie ciągłymi względem miary Lebesgue’a, a gęstościami. Do tej klasy rozkładów należą
m.in. rozkład normalny, rozkład wykładniczy, rozkład gamma, rozkład beta, rozkład Cauchy’ego, rozkład jednostajny i inne.
B) Rozkłady dyskretne.
Przypominamy, że rozkład µ nazywamy dyskretnym jeśli istnieje co najwyżej przeliczalny
zbiór S ⊂ IR taki, że µ({x}) > 0 dla x ∈ S oraz µ(S 0 ) = 0. Niech S = {xi }i∈I . Wtedy
X
µ=
p i δ xi ,
i∈I
gdzie pi = µ({xi }) > 0, i ∈ I. Zauważmy również, że (warunek unormowania)
X
1 = µ(IR) =
pi .
i∈I
Dla A ∈ B(IR) mamy
µ(A) =
X
pi δxi (A) =
X
pi .
xi ∈A
i∈I
Omawiane rozkłady dyskretne µ są absolutnie ciągłe względem miary liczącej na S. Dokładniej µ ν, gdzie
X
ν=
δxi .
i∈I
Miara licząca ν jest tu σ - skończona, możemy więc zastosować twierdzenie RadonaNikodyma. Zatem
Z
f (x) dν(x),
A ∈ B(IR),
µ(A) =
A
gdzie
f (x) =
pi , gdy x = xi dla pewnego i ∈ I,
0 gdy x 6= xi dla każdego i ∈ I.
Funkcję f nazywamy w tym przpadku gęstością rozkładu µ wzgledem miary liczącej ν
lub funkcją prawdopodobieństwa. Do klasy tych rozkładów należą m.in. rozkład zerojedynkowy, rozkład dwumianowy, rozkład Poissona, rozkład geometryczny, rozkład równomierny i inne.
4
M. Beśka, Statystyka matematyczna, wykład 1
C) Rozkłady ciągłe i singularne względem miary Lebesgue’a.
W zastosowaniach statystycznych rozkłady tego typu nie pojawiają się. Służą raczej do
rozważań teoretycznych. Rzadko też pojawiają się rozkłady będące kombinacjami wypukłymi rozkładów z rozważanych klas.
1.2
Dystrybuanty, uogólniona dystrybuanta odwrotna
Innym (równoważnym z rozkładem) obiektem związanym że zmienna losową X jest dystrybuanta tej zmiennej losowej (lub jej rozkładu µX ). Mianowicie funkcję
F (x) = FX (x) = P {X ≤ x} = µX ((−∞, x]),
x ∈ IR
nazywamy dystrybuantą zmiennej losowej X. Dystrybuanta zmiennej losowej posiada
następujące własności:
(i) F : IR → [0, 1];
(ii) Dystrybuanta F jest funkcją niemalejącą;
(iii) Dystrybuanta F jest funkcją co najmniej prawostronnie ciągłą;
(iv) limx→+∞ F (x) = 1 tj. F (+∞) = 1 oraz limx→−∞ F (x) = 0 tj. F (−∞) = 0;
(v) P {a < X ≤ b} = F (b) − F (a), a < b, a, b ∈ IR;
(vi) P {X = x} = F (x) − F (x− ).
Z własność (vi) wynika od razu, że P {X = x} = 0 wtedy i tylko wtedy, gdy F jest ciągła
w punkcie x. Zauważmy też, że istnieje wzajemnie jednoznaczna odpowiedniość między
dystrybuantami a rozkładami. Można też wykazać, że każda funkcja F , która spełnia
warunki od (i) do (iv) jest dystrybuantą pewnej zmiennej losowej (pewnego rozkładu).
Definicja 1.4 Niech F będzie dystrybuantą.Uogólniona dystrybuantą odwrotną nazywamy
funjcję numeryczną F −1 : [0, 1] → [−∞, +∞] określoną wzorem
F −1 (u) = inf{x ∈ IR : F (x) ≥ u},
u ∈ [0, 1].
Zauważmy, że zawsze F −1 (0) = −∞ oraz
F −1 (1) = +∞ ⇐⇒
^
F (x) < 1.
x∈R
Ponadto dla każdego u ∈ (0, 1) mamy −∞ < F −1 (u) < +∞. Dalsze własności uogólnionej
dystrybuanty odwrotnej zostały zebrane w lemacie
5
M. Beśka, Statystyka matematyczna, wykład 1
Lemat 1.5 Niech F będzie dystrybuantą, a F −1 jej uogólnioną dystrybuantą odwrotną.
Wtedy
(i) Dla każdego x ∈ IR oraz każdego u ∈ [0, 1] zachodzi równoważność
F (x) ≥ u ⇐⇒ x ≥ F −1 (u)
lub równoważnie
F (x) < u ⇐⇒ x < F −1 (u);
(ii) F (F −1 (0)) = 0, F (F −1 (1)) = 1;
(iii) Dla x ∈ IR mamy F −1 (F (x)) ≤ x;
(iv) Dla u ∈ [0, 1] mamy F (F −1 (u)) ≥ u;
(v) Uogólniona dystrybuanta odwrotna F −1 jest niemalejąca i lewostronnie ciągła w przedziale (0, 1];
(vi) Dla ustalonego x ∈ IR zachodzi równość F −1 (F (x)) = x wtedy i tylko wtedy, gdy x jest
lewostronnym punktem wzrostu F tj. Dla każdego ε > 0 mamy F (x) − F (x − ε) > 0;
(vii) Dla ustalonego u ∈ (0, 1) zachodzi równość F (F −1 (u)) = u wtedy i tylko wtedy, gdy u
jest prawostronnym punktem wzrostu F −1 tj. Dla każdego ε > 0 (u + ε < 1) zachodzi
następująca nierówność F −1 (u + ε) − F −1 (u) > 0.
Dowód. (i) Z uwagi poczynionej po definicji 1.4 wynika, że jeśli |F −1 (u)| = ∞ to równoważność jest oczywista. Zatem możemy założyć, że |F −1 (u)| < ∞. Wtedy dowód
implikacji "⇒"wynika z definicji kresu dolnego. W drugą stronę. Załóżmy, że x ≥ F −1 (u).
Z definicji kresu dolnego istnieje ciąg {xn }n≥1 ⊂ {x ∈ IR : F (x) ≥ u} taki, że
(1.4)
xn & F −1 (u),
gdy n → ∞.
Z definicji ciągu {xn }n≥1 mamy F (xn ) ≥ u dla n ≥ 1. Stąd, z prawostronnej ciągłości F i
z (1.4) otrzymujemy przy n → ∞
(1.5)
F (F −1 (u)) ≥ u.
Z założenia x ≥ F −1 (u). Zatem z monotonicznosci F i z (1.5) dostajemy
F (x) ≥ F (F −1 (u)) ≥ u.
(ii) Mamy F (F −1 (0)) = F (−∞) = 0. Gdy F −1 (1) = +∞, to F (F −1 (1)) = F (+∞) = 1.
Gdy F −1 (1) = x0 ∈ IR, to dla każdego ε > 0 istnieje x ∈ IR taki, że F (x) ≥ 1 oraz
x < x0 + ε. Stąd F (x0 + ε) = 1. Przechodząc z ε → 0 oraz korzystając z prawostronnej
ciągłości F otrzymujemy F (x0 ) = 1. Zatem F (F −1 (1)) = F (x0 ) = 1.
(iii) Dowód wynika z (i) podstawiając u := F (x).
(iv) Dla u = 0 i u = 1 dowód wynika z (ii). Dla u ∈ (0, 1) wzór został udowodniony w
dowodzie (i) (patrz (1.5)).
M. Beśka, Statystyka matematyczna, wykład 1
6
(v) Dla u1 , u2 ∈ [0, 1] takich, że u1 < u2 mamy
{x ∈ IR : F (x) ≥ u2 } ⊂ {x ∈ IR : F (x) ≥ u1 }.
Stąd i z definicji kresu dolnego
F −1 (u1 ) = inf{x ∈ IR : F (x) ≥ u1 } ≤ inf{x ∈ IR : F (x) ≥ u2 } = F −1 (u2 ),
co dowodzi monotoniczności F −1 . Niech u ∈ (0, 1] będzie takie, że F −1 (u) < ∞. Załóżmy,
że F −1 nie jest lewostronnie ciagłe w u. Wtedy
_
^
F −1 (u − δ) < x < F −1 (u).
x∈R
δ>0
Z (i) dostajemy
u − δ ≤ F (x) < u.
Przechodząc z δ → 0 dostajemy
u ≤ F (x) < u,
co daje sprzeczność. Został nam do rozważenia przypadek F −1 (1) = ∞. Wtedy jak wiemy
dla każdego x ∈ IR mamy F (x) < 1. Gdyby granica
lim F −1 (u) = x0 ∈ IR
u→1−
(istnieje z monotoniczności F −1 ) była skończona, to ponieważ F −1 jest niemalejąca, więc
^
F −1 (u) ≤ x0 .
u∈(0, 1)
Stąd i z (i) mamy
^
u ≤ F (x0 ) < 1.
u∈(0, 1)
Biorąc u → 1− dostajemy 1 ≤ F (x0 ) < 1, co daje sprzeczność.
(vi) "⇒" Załóżmy, że x nie jest lewostronnym punktem wzrostu F tj.
_
F (x) − F (x − ε) = 0.
ε>0
Wtedy z (iii) mamy
F −1 (F (x)) = F −1 (F (x − ε)) ≤ x − ε < x.
"⇐" Załóżmy, że F −1 (F (x)) < x. Wtedy istnieje ε > 0 takie, że
F −1 (F (x)) < x − ε < x.
M. Beśka, Statystyka matematyczna, wykład 1
7
Stąd i z (iv) mamy
F (x) ≤ F (F −1 (F (x))) ≤ F (x − ε) ≤ F (x).
Stąd F (x) = F (x − ε), czyli x nie jest lewostronnym punktem wzrostu F .
(vii) "⇒" Załóżmy, że x nie jest prawostronnym punktem wzrostu F −1 tj.
_
F −1 (u + ε) − F −1 (u) = 0.
ε>0
u+ε<1
Wtedy z (iv) mamy
F (F −1 (u) = F (F −1 (u + ε)) ≥ u + ε > u.
"⇐" Załóżmy, że F (F −1 (u)) > u. Wtedy istnieje ε > 0 takie, że
1 ≥ F (F −1 (u)) > u + ε > u.
Stąd i z (iii) mamy
F −1 (u) ≥ F −1 (F (F −1 (u))) ≥ F −1 (u + ε) ≥ F −1 (u).
Stąd F −1 (u) = F −1 (u + ε), czyli u nie jest prawostronnym punktem wzrostu F −1 .
2
Uwaga. Jeśli dystrybuanta F jest ciągła, to każdy punkt u ∈ (0, 1) jest prawostronnym
punktem wzrostu F −1 . Rzeczywiście, załóżmy, że u ∈ (0, 1) nie jest prawostronnym
punktem wzrostu F −1 tj. istnieje ε > 0 takie, że u + ε < 1 oraz F −1 (u + ε) = F −1 (u). Z
własności dystrybuanty (0, 1) ⊂ F (IR). Stąd
_
u = F (x1 ), u + ε = F (x2 ).
x1 ,x2 ∈R
Niech p ∈ (0, 1) będzie takie, że
(1.6)
F (x1 ) = u < p < u + ε = F (x2 ).
Z własności Darbouxa istnieje x ∈ IR taki, że F (x) = p. Stąd i z (1.6) mamy
F (x1 ) = u < F (x) < u + ε = F (x2 ).
Stosując teraz lemat 1.5(i) dostajemy
F −1 (u) ≤ x < F −1 (u + ε),
co daje sprzeczność z założeniem.
2
Z powyższej uwagi oraz z lematu 1.5 dostajemy
8
M. Beśka, Statystyka matematyczna, wykład 1
Wniosek 1.6 Jeśli dystrybuanta F jest ciągła, to
^
F (F −1 (u)) = u.
u∈[0, 1]
F −1 (u),
Uwaga. Zauważmy, że jeśli
u ∈ (0, 1) jest punktem ciągłości F to
Rzczywiście, niech F (F −1 (u)) > u. Wtedy istnieje ε > 0 takie, że
F (F −1 (u))
2
= u.
F (F −1 (u)) > u + ε > u.
Ponadto dla ciągu {xn }n≥1 takiego, że xn < F −1 (u), n ≥ 1, xn % F −1 (u) mamy F (xn ) %
F (F −1 (u)) > u + ε. Z drugiej strony F (xn ) < u dla n ≥ 1, czyli limn→∞ F (xn ) ≤ u co
daje sprzeczność.
2
Twierdzenie 1.7 Jeśli F = FX jest ciągłą dystrybuantą zmiennej losowej X, to zmienna
losowa Y = F (X) ma rozkład jednostajny na przedziale (0, 1).
Dowód. Zauważmy, że
FY (y) = P {Y ≤ y} = P {F (X) ≤ y} =
0, dla y < 0,
1, dla y ≥ 1.
Załóżmy, więc że 0 ≤ y < 1. Wtedy korzystając z lematu 1.5 (i), z ciągłości F oraz z
wniosku 1.6 dostajemy
∞ \
1
FY (y) = P {Y ≤ y} = P {F (X) ∈ (−∞, y]} = P F (X) ∈
− ∞, y +
=
n
n=1
P
\
∞ 1
1 L.1.5(i)
1
−1
F (X) < y+
= lim P F (X) < y+
=
lim P X < F
y+
=
n→∞
n→∞
n
n
n
n=1
1
1
1
W n.1.6
−1
−1
lim P X ≤ F
y+
= lim F F
y+
= lim y +
= y.
n→∞
n→∞
n→∞
n
n
n
Zatem

y < 0,
 0, gdy
y, gdy 0 ≤ y < 1,
FY (y) =

1, gdy
y ≥ 1,
czyli jest dystrybuantą rozkładu jednostajnego na przedziale (0, 1).
2
M. Beśka, Statystyka matematyczna, wykład 1
9
Twierdzenie 1.8 Niech X będzie zmienną losową o dystrybuancie F . Wtedy
P {F −1 (F (X)) = X} = 1.
(1.7)
Dowód. Na mocy lematu 1.5 (iii) wystarczy wykazać, że
P { F −1 (F (X)) < X } = µX {x ∈ IR : F −1 (F (x)) < x} = 0.
Korzystając z gestości zbioru Q liczb wymiernych w IR, monotoniczności F oraz z lematu
1.5 (i) możemy napisać
[
{ x ∈ IR : F −1 (F (x)) < x } =
{ x ∈ IR : F −1 (F (x)) < q < x }
q∈Q
(1.8)
⊂
[
q∈Q
{ x > q : F (x) ≤ F (q) } =
[
{ x > q : F (x) = F (q) }.
q∈Q
Jeśli { x > q : F (x) = F (q) } = ∅ to oczywiście µX ({ x > q : F (x) = F (q) }) = 0. Niech
więc { x > q : F (x) = F (q) } =
6 ∅. Oznaczmy
xs = sup{ x > q : F (x) = F (q) }.
Jeśli xs = +∞ to { x > q : F (x) = F (q) } = (q, +∞). Zatem
µX ({ x > q : F (x) = F (q) }) = µX ((q, +∞)) = F (+∞) − F (q) = 0.
Niech więc xs < +∞ i oznaczmy przez Cont(F ) zbiór punktów ciągłości dystrybuanty F .
Wtedy
(q, xs ), gdy xs 6∈ Cont(F ),
(1.9)
{ x > q : F (x) = F (q) } =
(q, xs ], gdy xs ∈ Cont(F ).
Rzeczywiście, załóżmy, że xs 6∈Cont(F ) tj. F (xs ) > F (x−
s ). Wykażemy równość
{ x > q : F (x) = F (q) } = (q, xs ).
Niech t > q oraz F (t) = F (q). Z definicji kresu górnego wynika, że t ≤ xs . Gdyby t = xs
−
to F (xs ) = F (t) = F (q) = F (x−
s ) co jest sprzeczne z założeniem, że F (xs ) > F (xs ), więc
t < xs . Zatem t ∈ (q, xs ). W drugą stronę. Niech q < t < xs . Z definicji kresu górnego
istnieje u > q dla którego F (u) = F (q) oraz takie, że u > t. Stąd F (u) ≥ F (t). Ponieważ
z założenia t > q, więc mamy również F (t) ≥ F (q). Ostatecznie otrzymujemy
F (u) ≥ F (t) ≥ F (q) = F (u).
Stąd F (u) = F (t) = F (q). Zatem t ∈ { x > q : F (x) = F (q) }.
M. Beśka, Statystyka matematyczna, wykład 1
10
Załóżmy teraz, że xs ∈Cont(F ) tj. F (xs ) = F (x−
s ). Wykażemy równość
{ x > q : F (x) = F (q) } = (q, xs ].
Niech t
Niech q
t ∈ {x
dowodu
> q oraz F (t) = F (q). Wtedy t ≤ xs . Zatem t ∈ (q, xs ]. W drugą stronę.
< t ≤ xs . Jeśli t = xs , to ponieważ F (t) = F (xs ) = F (x−
s ) = F (q), więc
> q : F (x) = F (q) }. Gdy natomiast t < xs to powtarzamy rozumowanie z
powyżej. Dowód (1.9) został zakończony. Korzystając z tej równości mamy
µX ({ x > q : F (x) = F (q) })
=
µX ((q, xs )) = F (x−
gdy xs ∈
6 Cont(F ),
s ) − F (q) = 0,
−
µX ((q, xs ]) = F (xs ) − F (q) = F (xs ) − F (q) = 0, gdy xs ∈ Cont(F ).
Zatem jak widać w każdym przypadku dostajemy µX ({ x > q : F (x) = F (q) }) = 0.
Stosując teraz (1.8) dostajemy ostatecznie
X
µX ({ x ∈ IR : F −1 (F (x)) < x }) ≤
µX ({ x > q : F (x) = F (q) }) = 0,
q∈Q
co kończy dowód twierdzenia.
2
1.3
Przestrzeń prób, przestrzeń statystyczna, próba losowa prosta
Obserwując jakieś zjawisko losowe charakteryzujące pewna zbiorowość (nazywaną w statystyce populacją) możemy je modelować pewną zmienną losową X, której wartościami są
wszystkie możliwe obserwowalne wyniki badanego zjawiska losowego. Tę zmienną losową
nazywać będziemy cechą. Przez X będziemy oznaczać zbiór wszystkich możliwych wartości
cechy X. Na ogół będziemy zakładać, że X ⊂ IRd gdzie d ≥ 1. Do rozważań teoretycznych potrzebna będzie σ-algebra na X . Na ogół będzie to σ-algebra zbiorów borelowskich
na X i będziemy ją oznaczać przez B = B(X ). Przestrzeń mierzalną (X , B) bedziemy
nazywać przestrzenią prób indukowaną cechą X. Rozkład cechy X jest nieznany. Celem
wnioskowania statystycznego jest dostarczenie informacji o nieznanym rozkładzie cechy X
lub o jej nieznanych wartościach parametrów na podstawie obserwacji cechy X (tj. obserwacji zjawiska losowego). Rodzinę możliwych rozkładów cechy X będziemy oznaczać
przez P = {µθ }θ∈Θ . Uporządkowana trójkę (X , B, P), gdzie P = {µθ }θ∈Θ nazywamy
przestrzenią statystyczną (lub modelem statystycznym) indukowaną cechą X. Przykładem takiej przestrzeni może być: X = {0, 1}, B = 2X P = {µθ }θ∈Θ , gdzie Θ = (0, 1),
µθ = θδ1 + (1 − θ)δ0 , θ ∈ Θ.
Definicja 1.9 Mówimy, że przestrzen statystyczna (X , B, P) jest produktem przestrzeni
statystycznych (Xi , Bi , Pi ), i = 1, 2, . . . , n jeśli
X = X1 × · · · × Xn ,
B = B1 ⊗ · · · ⊗ Bn ,
P = {µ1,θ × · · · × µn,θ : µi,θ ∈ Pi ,
i = 1, 2, . . . , n, θ ∈ Θ}.
M. Beśka, Statystyka matematyczna, wykład 1
11
Jasne jest, że jeśli (Xi , Bi , Pi ) jest indukowana przez cechę Xi dla i = 1, 2, . . . , n, to
(X , B, P) jest indukowana przez wektor losowy X = (X1 , . . . , Xn ) niezależnych zmiennych
losowych {Xi }1≤i≤n . W szczegolności, gdy
(Xi , Bi , Pi ) = . . . = (Xn , Bn , Pn )
to przestrzeń statystyczna (nzywana w tym przypadku produktową przestrzenia statystyczną)
(X , B, P) := (X , B, P)n := (X n , B n , P n )
jest indukowana przez wektor losowy X = (X1 , . . . , Xn ) niezależnych zmiennych losowych
{Xi }1≤i≤n o takim samym rozkładzie tzn.
µX1 = . . . = µXn
Taki wektor losowy będziemy nazywać próbą losową prostą. Ma ona nastepujaca interpretację: Dokonujemy n-krotnej (niezależnej) obserwacji badanego zjawiska losowego którego
cechą jest X. Wartościami zmiennej losowej X1 są wszystkie możliwe wyniki pierwszej
obserwacji, X2 drugiej obserwacji itd. Z niezależności obserwacji wynika, że zmienne losowe X1 , . . . , Xn są niezależne. Ponieważ dokonujemy n - krotnej obserwacji tego samego
zjawiska (zakładamy tu, że obserwacja nie wpływa na samo zjawisko), którego cechą jest
zmienna losowa X, więc
µX = µX1 = . . . = µXn .
Jeśli x1 będzie wynikiem pierwszej obserwacji, x2 drugiej i ogólnie xi bedzie wynikiej i tej obserwacji, to wektor x = (x1 , x2 , . . . , xn ) będziemy nazywać realizacją próby losowej
prostej lub krótko próbką.
Definicja 1.10 Niech (X , B, P) będzie przestrzenią statystyczną, a (Y, A) przestrzenią
mierzalną. Wtedy mierzalne odwzorowanie T : X → Y nazywamy statystyką na przestrzeni
(X , B, P).
Zauważmy, że statystyka T jest odwzorowaniem mierzalnym tj.
^
T −1 (A) ∈ B.
A∈A
Ponadto σ-algebrę
B0 = T −1 (A) = {T −1 (A) : A ∈ A} ⊂ B
nazywamy σ-algebrą indukowaną przez statystykę T . Na ogół w naszych rozważaniach
przestrzeń statystyczna (X , B, P) będzie przestrzenią produktową tj. indukowaną przez
próbę losowa prostą X = (X1 , . . . , Xn ) określoną na pewnej przestrzeni probabilistycznej
(Ω, F, P ). Możemy więc dokonać złożenia T = T (X) i wtedy statystyka T jest zmienną
losową na przestrzeni (Ω, F, P ). Dokładniej mamy następujący diagram
X
T
(Ω, F) −→ (X , B) −
→ (Y, A).
12
M. Beśka, Statystyka matematyczna, wykład 1
Gdy będziemy pisać T = T (x) to statystykę T traktujemy jako odwzorowanie na przestrzeni statystycznej (X , B, P). Jeśli T : (X , B) → (Y, A) jest statystyką, to możemy
określić rozkłady
µTθ (A) = µθ (T −1 (A)),
A ∈ A.
Wtedy (Y, A, PT ), gdzie PT = {µTθ }θ∈Θ nazywamy przestrzenią statystyczną indukowaną
przez statystykę T .
Definicja 1.11 Niech T1 i T2 będą statystykami określonymi na (X , B, P) o wartościach w
(Y1 , A1 ), (Y2 , A2 ) odpowiednio. Statystyki T1 i T2 nazywamy równoważnymi jeśli T1−1 (A1 ) =
T2−1 (A2 ).
1.4
Dystrybuanta empiryczna
Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F .
Definicja 1.12 Dystrybuantą empiryczna z próby losowej prostej X = (X1 , . . . , Xn ) nazywamy statystykę
n
(1.10)
Fn (x; X) =
1X
I(−∞,
n
x] (Xi ),
x ∈ IR.
i=1
Podstawowe własności dystrybuanty empirycznej
(i) Mamy równoważność: F (x) = 1 ⇔ Fn (x; X) = 1, P - p.w.;
(ii) Mamy równoważność: F (x) = 0 ⇔ Fn (x; X) = 0, P - p.w.;
(iii) Jeśli 0 < F (x) < 1, to nFn (x; X) ma rozkład dwumianowy (Bernoulliego) o parametrach p = F (x) i n ∈ IN;
(iv) E Fn (x; X) = F (x), x ∈ IR;
(v) P limn→∞ Fn (x; X) = F (x) = 1, x ∈ IR;
(vi) P limn→∞ Fn (x− ; X) = F (x− ) = 1, x ∈ IR;
(vii) Dla x ∈ IR takiego, że 0 < F (x) < 1 zachodzi następujące centralne twierdzenie
graniczne
√ Fn (x; X) − F (x)
D
np
−−−→ N (0, 1).
F (x)(1 − F (x)) n→∞
Krótkie uzasadnienie powyższych własności. Własności (i) oraz (ii) wynikają bezposrednio
z definicji dystrybuany empirycznej (wzór (1.10)), bowiem
P {Fn (x; X) = 1} = P {I(−∞,
x] (Xi )
= 1} = P {Xi ≤ x} = F (x),
i = 1, 2, . . . , n,
13
M. Beśka, Statystyka matematyczna, wykład 1
P {Fn (x; X) = 0} = P {I(−∞,
x] (Xi )
= 0} = P {Xi > x} = 1 − F (x),
i = 1, 2, . . . , n.
Również ze wzoru powyżej wynika, że nFn (x; X), gdy 0 < F (x) < 1 jest sumą niezależnych
zmiennych losowych o rozkładzie zero-jedynkowym z parametrem. Własność (iv) wynika z
(iii) i wlasności rozkładu dwumianowego. Własność (v) to szczególny przypadek mocnego
prawa wielkich liczb Kołmogorowa. Własność (vi) wynika z
n
1X
Fn (x; X) − Fn (x ; X) =
I{x} (Xi )
n
−
i=1
oraz z mocnego prawa wielkich liczb, bo
n
Fn (x− ; X) = Fn (x; X) −
1X
I{x} (Xi ) −−−→ F (x) − P {Xi = x} = F (x− ),
n→∞
n
P − p.w.,
i=1
poniważ P {Xi = x} = F (x) − F (x− ). Ostatnia własność jest szczególnym przypadkiem
centralnego twierdzenia granicznego Moiver’a-Laplace’a.
Twierdzenie 1.13 (Podstawowe twierdzenie statyst. mat. (Gliwienko-Cantelli))
Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F .
Oznaczmy
Dn = sup |Fn (x; X) − F (x)|,
n ≥ 1.
x∈R
Wtedy
Dn −−−→ 0,
n→∞
P − p.w.
tzn.
P
lim Dn = 0 = 1.
n→∞
Dowód. Niech M ∈ IN będzie ustalone. Oznaczmy
k ,
k = 0, 1, 2, . . . , M, M + 1.
xk,M = F −1
M
Zauważmy, że x0,M = F −1 (0) = −∞ oraz xM +1,M = F −1 MM+1 = +∞. Oznaczmy
I0 = (x0,M , x1,M ) = (−∞, x1,M )
oraz
Ik = [xk,M , xk+1,M ),
k = 1, 2, . . . , M.
Wtedy rodzina {Ik }0≤k≤M jest rozbiciem prostej IR. Zauważmy, że dla x ∈ Ik , k =
0, 1, . . . , M mamy
(1.11)
Fn (xk,M ; X) ≤ Fn (x; X) ≤ Fn (x−
k+1,M ; X)
oraz
(1.12)
F (xk,M ) ≤ F (x) ≤ F (x−
k+1,M ).
14
M. Beśka, Statystyka matematyczna, wykład 1
Wykażemy, że dla k = 0, 1, . . . , M zachodzą nierówności
0 ≤ F (x−
k+1,M ) − F (xk,M ) ≤
(1.13)
1
.
M
W tym celu rozważymy trzy przypadki
(1) Gdy k = 0. Wtedy
−
−
F (x−
lim F (y).
1,M ) − F (x0,M ) = F (x1,M ) − F (−∞) = F (x1,M ) = y→x
1,M
y<x1,M
Ponieważ
y < x1,M = F −1
1
1
⇐⇒ F (y) <
,
M
M
zatem
F (x−
lim
1,M ) − F (x0,M ) ≤ y→x
1,M
y<x1,M
1
1
=
.
M
M
(2) Gdy k = M .
−1
(1)) = 1 − 1 = 0 ≤
F (x−
M +1,M ) − F (xM,M ) = 1 − F (F
1
.
M
(3) Gdy 1 ≤ k ≤ M − 1.
k k + 1
k 1
F (y) − F F −1
≤ y→xlim
−
=
,
k+1,M
k+1,M
M
M
M
M
lim
F (x−
k+1,M ) − F (xk,M ) = y→x
y<xk+1,M
bo F F −1
k
M
≥
k
M
y<xk+1,M
oraz
y < xk+1,M = F −1
k + 1
M
⇐⇒ F (y) <
k+1
.
M
Dowód (1.13) został zakończony. Korzystajac teraz z (1.11), (1.12) i (1.13) dla x ∈ Ik ,
k = 0, 1, . . . , M dostajemy
−
−
Fn (x; X) − F (x) ≤ Fn (x−
k+1,M ; X) − F (xk,M ) ≤ Fn (xk+1,M ; X) − F (xk+1,M ) +
−
|Fn (x−
k+1,M ; X) − F (xk+1,M )| +
1
≤
M
1
.
M
Podobnie otrzymujemy oszacowanie z dołu
Fn (x; X) − F (x) ≥ Fn (xk,M ; X) − F (x−
k+1,M ) ≥ Fn (xk,M ; X) − F (xk,M ) −
−|Fn (xk,M ; X) − F (xk,M )| −
1
.
M
1
≥
M
15
M. Beśka, Statystyka matematyczna, wykład 1
Z tych dwóch oszacowań wynika, że dla x ∈ Ik , k = 0, 1, . . . , M mamy
−
|Fn (x; X) − F (x)| ≤ max{|Fn (x−
k+1,M ; X) − F (xk+1,M )|, |Fn (xk,M ; X) − F (xk,M )|} +
1
.
M
Stąd przyjmując oznaczenia
(1)
(2)
−
∆n,M = max |Fn (x−
k+1,M ; X) − F (xk+1,M )|
∆n,M = max |Fn (xk,M ; X) − F (xk,M )|,
0≤k≤M
0≤k≤M
możemy napisać oszacowanie
(1)
(2)
Dn = sup |Fn (x; X) − F (x)| ≤ max{∆n,M , ∆n,M } +
x∈R
1
.
M
Z własności dystrybuanty empirycznej
Fn (xk,M ; X) −−−→ F (xk,M ),
P − p.w.
n→∞
oraz
−
Fn (x−
k+1,M ; X) −−−→ F (xk+1,M ),
n→∞
P − p.w.
Zatem
(1)
(2)
∆n,M −−−→ 0 oraz ∆n,M −−−→ 0,
n→∞
n→∞
P − p.w.
Ostatecznie, wiec dla dowolnego M ∈ IN mamy
0 ≤ lim sup Dn ≤
n→∞
1
,
M
P − p.w.
Stąd
lim Dn = 0,
n→∞
P − p.w.
Dowód twierdzenia został zakończony.
2
Uwaga. W 1956 roku Dvoretzky, Kiefer i Wolfowitz wykazali, że przy założeniach jak w
podstawowym twierdzeniu statystyki istnieje stała K, która nie zależy od ε > 0 n i F taka,
że
n
o
√
2
P sup n|Fn (x; X) − F (x)| > ε ≤ K e−2ε ,
n ≥ 1.
x∈R
W 1990 roku Massart wykazał, że K = 2 i jest to najlepsza stała. Korzystając teraz z tych
uwag możemy napisać
n
ε o
2
P sup |Fn (x; X) − F (x)| > √
≤ 2 e−2ε ,
n ≥ 1.
n
x∈R
√
Przyjmując δ = ε/ n możemy powyższą nierówność zapisać w postaci
n
o
2
P sup |Fn (x; X) − F (x)| > δ ≤ 2 e−2nδ ,
n ≥ 1.
x∈R
16
M. Beśka, Statystyka matematyczna, wykład 1
P
−2nδ 2 < ∞ tzn. szereg ten jest zbieżny, więc z lematu Borel-Cantelliego
Ponieważ ∞
n=1 2 e
dostajemy
Dn = sup |Fn (x; X) − F (x)| −−−→ 0,
P − p.w.
n→∞
x∈R
Co daje inny dowód podstawowego twierdzenia statystyki matematycznej.
2
1.5
Statystyki pozycyjne, kwantyle z próby
Niech X = (X1 , . . . , Xn ) będzie próbą losowa prostą z cechy X o o dystrybuancie F . Dla
ω ∈ Ω możemy napisać
X(1) (ω) ≤ X(2) (ω) ≤ . . . ≤ X(k) (ω) ≤ . . . ≤ X(n) (ω).
Wtedy X(k) nazywamy k-tą statystyką pozycyjną. Zauważmy, że
X(1) = min Xi ,
X(n) = max Xi ,
1≤i≤n
1≤i≤n
X(k) = Fn−1
k
n
;X ,
k = 1, . . . , n.
Będziemy starali się wyznaczyc wzór na dystrybuantę k-tej statystyki pozycyjnej. Ponieważ
k
k
Fn (x; X) ≥
⇐⇒ X(k) = Fn−1 ; X ≤ x,
n
n
więc
n X
i
n−i
n
Fk,n (x) = P {X(k) ≤ x} = P {Fn (x; X) ≥ k/n} =
F (x) 1 − F (x)
.
i
i=k
Okazuje się, że możemy pozbyć się znaku sumy w powyższym wzorze, wystarczy skorzystać
z lematu
Lemat 1.14 Niech p ∈ [0, 1] oraz n ∈ IN. Wtedy dla 1 ≤ k ≤ n mamy
Z p
n X
n i
n−1
n−i
p (1 − p)
=n
tk−1 (1 − t)n−k dt.
i
k−1 0
i=k
Dowód. Niech p ∈ [0, 1] i oznaczmy
S(p) =
n X
n i
p (1 − p)n−i .
i
i=k
Wyznaczmy pochodną (względem p) wielomianu S(p). Mamy
n X
n i−1
S 0 (p) =
ip (1 − p)n−i − (n − i)pi (1 − p)n−i−1 =
i
i=k
17
M. Beśka, Statystyka matematyczna, wykład 1
n n−1
X
X n
n
i−1
n−i
ip (1 − p)
−
(n − i)pi (1 − p)n−i−1 .
i
i
i=k
i=k
n
n
n−1
n
n n−1
Ponieważ ni = ni n−1
i−1 oraz i = n−i = n−i n−i−1 = n−i
i , więc
n n−1
X
X n − 1
n − 1 i−1
n−i
S (p) = n
p (1 − p)
−n
pi (1 − p)n−i−1 =
i−1
i
0
i=k
i=k
n n X
X
n − 1 i−1
n − 1 i−1
n − 1 k−1
n−i
n−i
n
p (1 − p)
−n
p (1 − p)
=n
p (1 − p)n−k .
i−1
i−1
k−1
i=k
i=k+1
Całkując teraz na przedziale [0, p] otrzymaną rowność stronami otrzymujemy
Z p
Z p
n−1
S 0 (t) dt = n
tk−1 (1 − t)n−k dt.
S(p) = S(p) − S(0) =
k
−
1
0
0
Dowód lematu został zakończony.
2
Korzystając z powyższego lematu dostajemy ostateczny wzor na dystrybuantę k-tej statystyki pozycyjnej.
(1.14)
Fk,n (x) =
n X
n
i=k
i
F (x)
i
1 − F (x)
n−i
n−1
=n
k−1
Z
F (x)
tk−1 (1 − t)n−k dt
0
dla x ∈ IR. W szczególności
n
F1,n (x) = 1 − 1 − F (x) ,
n
Fn,n (x) = F (x) ,
x ∈ IR.
Wniosek 1.15 Niech X = (X1 , . . . , Xn ) będzie próbą losową prostą z cechy, której rozkład
ma gęstość f (względem miary Lebesgue’a). Wtedy gęstość fk,n k-tej statystyki pozycyjnej
wyraża się wzorem
k−1
n−k
n−1
fk,n (x) = n
F (x)
1 − F (x)
f (x),
x ∈ IR.
k−1
Dowód. Wynika ze wzoru (1.14) poprzez zróżniczkowanie dystrybuanty Fk,n .
2
Definicja 1.16 Kwantylem rzędy p ∈ (0, 1) rozkładu zmiennej losowej X o dystrybuancie
F nazywamy liczbę
xp = F −1 (p).
Kwantyl rzędu 1/2 nazywamy medianą.
18
M. Beśka, Statystyka matematyczna, wykład 1
Z lematu 1.5 wynika, że jeśli xp = F −1 (p), to F (xp ) = F (F −1 (p)) ≥ p. Ponadto z
definicji uogólninej dystrybuanty odwrotnej i własności kresu dolnego mamy dla każdego
ε > 0 nierówność F (xp − ε) < p. Przechodząc z ε → 0 dostajemy F (x−
p ) ≤ p. Stąd kwantyl
xp spełnia nierówności
F (x−
p ) ≤ p ≤ F (xp ).
Jak łatwo zauważyć jest to najmniejsza liczba xp która spełnia te nierówności.
Definicja 1.17 Niech X = (X1 , . . . , Xn ) będzie próbą losową prostą z cechy X o dystrybuancie F . Kwantylem rzędu p ∈ (0, 1) z próby X nazywamy statystykę
Zp,n (X) = Fn−1 (p ; X).
Kwantyl z próby rzędu 1/2 nazywamy medianą z próby.
Kwantyle z proby możemy wyrazić za pomocą statystyk pozycyjnych, mianowicie
X(np) ,
gdy np ∈ IN,
Zp,n (X) =
X([np]+1) , gdy np 6∈ IN,
gdzie [np] oznacza część całkowitą z liczby np. Przypadek np ∈ IN był już uzasadniany
(przy statystykach pozycyjnych). Gdy np 6∈ IN, to istnieje k ∈ IN takie, że nk < p < k+1
n .
−1
Stąd i z definicji dystrybuany empirycznej wynika, że Fn (p; X) = X(k+1) . Z drugiej
strony, ponieważ k < np < k + 1, więc k + 1 = [np] + 1. Zatem
Zp,n (X) = Fn−1 (p ; X) = X(k+1) = X([np]+1) .
Niekiedy ze względu na symetrię wygodnie jest definiować medianę z próby nastepująco
(
X( n+1 ) ,
gdy n = 2k − 1, k ∈ IN,
2
me (X) =
1
n = 2k, k ∈ IN.
2 (X(n/2) + X(n/2+1) ), gdy
Przypomnijmy prosty fakt charakteryzujący zbieżność P - p.w.
Lemat 1.18 Niech {Xn }n≥1 będzie ciągiem zmiennych losowych. Wtedy
Xn −−−→ X,
n→∞
P
P − p.w. ⇐⇒ sup |Xn − X| −−−→ 0.
n→∞
n≥k
Dowód. Ustalmy ε > 0. Wtedy z definicji zbieżności według prawdopodobieństwa i
ciągłości prawdopodobieństwa względem ciągów zstępujących otrzymujemy
n
o
[
0 = lim P sup |Xn − X| > ε = lim P
|Xn − X| > ε =
k→∞
P
∞
\
n≥k
k→∞
n≥k
[
|Xn − X| > ε = P lim sup |Xn − X| > ε .
k=1 n≥k
n→∞
Stąd i z dowolności ε > 0 dostajemy tezę. Dowód lematu jest zakończony.
2
19
M. Beśka, Statystyka matematyczna, wykład 1
Twierdzenie 1.19 Niech X = (X1 , . . . , Xn ) bedzie próbą losową prostą z populacji w której cecha X ma dystrybuantę F i niech p ∈ (0, 1). Jeśli xp jest jedynym rozwiązaniem
nierówności
F (x− ) ≤ p ≤ F (x),
to
Zp,n (X) −−−→ xp ,
(1.15)
P − p.w.
n→∞
Dowód. Jak wiadomo z lematu 1.18 zbieżność w (1.15) jest równoważna zbieżności
n
o
^
P sup |Zp,n (X) − xp | > ε −−−→ 0.
k→∞
n≥k
ε>0
Ustalmy ε > 0. Z jednoznaczności xp mamy nierówności
F (xp − ε) < p < F (xp + ε).
Z mocnego prawa wielkich liczb dostajemy
Fn (xp − ε; X) −−−→ F (xp − ε),
P − p.w.,
Fn (xp + ε; X) −−−→ F (xp + ε),
P − p.w.
n→∞
n→∞
Zbieżności te są równoważne
(1.16)
^
η>0
(1.17)
^
η>0
lim P
k→∞
lim P
k→∞
∞
\
|Fn (xp − ε; X) − F (xp − ε)| ≤ η
= 1,
|Fn (xp + ε; X) − F (xp + ε)| ≤ η
= 1.
n=k
∞
\
n=k
Oznaczmy
δ1 = p − F (xp − ε) > 0,
δ2 = F (xp + ε) − p > 0.
Niech η < min{δ1 , δ2 } oraz niech
(1.18)
|Fn (xp − ε; X) − F (xp − ε)| ≤ η
dla
n≥k
|Fn (xp + ε; X) − F (xp + ε)| ≤ η
dla
n ≥ k.
i
(1.19)
Wtedy
(1.20)
Fn (xp − ε; X) < p < Fn (xp + ε; X),
dla
n ≥ k.
20
M. Beśka, Statystyka matematyczna, wykład 1
Rzeczywiście, dowód (1.20) wynika z
1.18
η<δ1
Fn (xp − ε; X) ≤ η + F (xp − ε) < p − F (xp − ε) + F (xp − ε) = p =
1.19
F (xp + ε) − δ2 < F (xp + ε) − η ≤ Fn (xp + ε; X).
Korzystając z (1.18), (1.19) oraz z(1.20) dostajemy
∞
\
∞
\
|Fn (xp − ε; X) − F (xp − ε)| ≤ η ∩
|Fn (xp + ε; X) − F (xp + ε)| ≤ η ⊂
n=k
n=k
∞
\
Fn (xp − ε; X) < p < Fn (xp + ε; X) .
n=k
Stąd, z (1.16) i z (1.17) dostajemy
∞
\
lim P
Fn (xp − ε; X) < p < Fn (xp + ε; X) = 1,
k→∞
co implikuje
n=k
∞
\
lim P
xp − ε ≤ Fn−1 (p; X) ≤ xp + ε = 1.
k→∞
n=k
Ponieważ z definicji Zp,n (X) = Fn−1 (p; X), więc powyższa równość jest równoważna
lim P
∞
\
k→∞
tzn.
|Zp,n (X) − xp | ≤ ε
=1
n=k
n
o
P sup |Zp,n (X) − xp | > ε −−−→ 0.
k→∞
n≥k
To natomiast (jak już wiemy) jest równoważne
Zp,n (X) −−−→ xp ,
n→∞
P − p.w.
Dowód twierdzenia został zakończony.
2
Download