Document

advertisement
MOMENTY I KWANTYLE EMPIRYCZNE
Określimy teraz próbkowe odpowiedniki pewnych liczbowych charakterystyk rozkładu. Niech X1, X2, . . . , Xn
będzie próbką z rozkładu o dystrybuancie F. Średnią z
próbki nazywamy zmienną losową
1∑
X̄ =
Xi.
n i=1
n
∑
Dla pewnej obserwacji (x1, . . . , xn) wartość x̄ = n1 ni=1 xi
jest wartością oczekiwaną (średnią) rozkładu empirycznego (dlaczego?).
Analogicznie określamy:
∑(
)2 1 ∑ 2
1
2
Sb =
Xi − X̄ 2
Xi − X̄ =
n i=1
n i=1
n
n
- wariancja z próbki,
1∑ k
b
ak =
Xi ,
n i=1
n
)k
1 ∑(
m
bk =
Xi − X̄ ,
n i=1
n
k∈N
- momenty z próbki (zwykłe i centralne).
Oczywiście, dla pewnej obserwacji (x1, . . . , xn) odpowiedniki powyższych wzorów dają odpowiednie liczbowe charakterystyki rozkładu empirycznego.
1
Przypomnijmy jeszcze jedną liczbową charakterystykę
rozkładu, mianowicie kwantyl. Liczbę xp, p ∈ (0, 1),
nazywamy kwantylem rzędu p rozkładu zmiennej losowej X o dystrybuancie F, jeśli
P (X < xp) = F (xp−) 6 p 6 F (xp) = P (X 6 xp).
Taka liczba xp zawsze istnieje, choć nie musi wyznaczać
się jednoznacznie.
(i) Jeśli równanie F (x) = p względem x ma dokładnie
jeden pierwiastek (np. w przypadku rozkładu absolutnie ciągłego o ściśle monotonicznej dystrybuancie), to
ten pierwiastek jest właśnie kwantylem rzędu p, czyli
xp = F −1(p).
(ii) Jeśli równanie F (x) = p względem x nie ma pierwiastków (np. w przypadku rozkładu dyskretnego, gdy
prosta y = p trafia pomiędzy schodkami funkcji y =
F (x)), to kwantyl xp też określa się w sposób jednoznaczny. Tak dla rozkładu dyskretnego, jeśli nk < p <
k+1
n , to xp jest punktem, w którym dystrybuanta ma
skok z nk do k+1
n . W tym przypadku F (xp −) < p <
F (xp).
(iii) Jeśli istnieje przedział [a, b] taki, że F (x) = p
∀x ∈ [a, b], to każda liczba z przedziału [a, b] jest kwantylem rzędu p.
2
Liczbę x
bp nazywamy kwantylem empirycznym rzędu p,
jeśli jest to kwantyl rzędu p dla rozkładu empirycznego,
czyli jeśli
Fbn(b
xp−) 6 p 6 Fbn(b
xp).
bp to kwantyl rzędu p z próbki.
Wówczas X
Ponieważ dla pewnej obserwacji (x1, . . . , xn) rozkład
empiryczny jest zawsze rozkładem dyskretnym, więc
możemy mieć kłopoty z jednoznacznym określeniem
pewnych kwantyli empirycznych.
Rozważmy przykład określenia mediany z próbki.
Przypomnijmy, iż mediana rozkładu to kwantyl rzędu
p = 1/2. Jeśli n jest liczbą nieparzystą, to
d 1, . . . , Xn) := X
b1/2 = X(n+1)/2:n (dlaczego?).
med(X
Natomiast jeśli n jest liczbą parzystą, to każda liczba z
b1/2 (dlaczego?). Dla
przedziału [Xn/2:n, Xn/2+1:n) jest X
uniknięcia niejednoznaczności przyjęto, że mediana z
próbki to środek tego przedziału. Zatem
{
n − nieparz.
d 1 , . . . , Xn ) = X
( (n+1)/2:n,
)
med(X
Xn/2:n +Xn/2+1:n /2, n − parz.
Ogólnie, przyjmujemy, że
bp = ([(n + 1)p] + 1 − (n + 1)p)X[(n+1)p]:n
X
+ ((n + 1)p − [(n + 1)p]) X[(n+1)p]+1:n,
3
gdzie [a] oznacza część całkowitą liczby a ∈ R.
Kwantyle rozkładu rzędu p = 1/4 i p = 3/4 nazywamy
odpowiednio kwartylami pierwszym i trzecim (kwartyl
drugi to mediana).
bp ,
Zgodnie ze wzorem na X
b1/4 = Xk:n, X
b3/4 = X3k:n;
dla n = 4k − 1 mamy X
b1/4 = 3Xk:n/4 + Xk+1:n/4,
dla n = 4k mamy X
b3/4 = X3k:n/4 + 3X3k+1:n/4;
X
b1/4 = Xk:n/2 + Xk+1:n/2,
dla n = 4k + 1 mamy X
b3/4 = X3k+1:n/2 + X3k+2:n/2;
X
b1/4 = Xk:n/4 + 3Xk+1:n/4,
dla n = 4k + 2 mamy X
b3/4 = 3X3k+2:n/4 + X3k+3:n/4.
X
4
Download