MOMENTY I KWANTYLE EMPIRYCZNE Określimy teraz próbkowe odpowiedniki pewnych liczbowych charakterystyk rozkładu. Niech X1, X2, . . . , Xn będzie próbką z rozkładu o dystrybuancie F. Średnią z próbki nazywamy zmienną losową 1∑ X̄ = Xi. n i=1 n ∑ Dla pewnej obserwacji (x1, . . . , xn) wartość x̄ = n1 ni=1 xi jest wartością oczekiwaną (średnią) rozkładu empirycznego (dlaczego?). Analogicznie określamy: ∑( )2 1 ∑ 2 1 2 Sb = Xi − X̄ 2 Xi − X̄ = n i=1 n i=1 n n - wariancja z próbki, 1∑ k b ak = Xi , n i=1 n )k 1 ∑( m bk = Xi − X̄ , n i=1 n k∈N - momenty z próbki (zwykłe i centralne). Oczywiście, dla pewnej obserwacji (x1, . . . , xn) odpowiedniki powyższych wzorów dają odpowiednie liczbowe charakterystyki rozkładu empirycznego. 1 Przypomnijmy jeszcze jedną liczbową charakterystykę rozkładu, mianowicie kwantyl. Liczbę xp, p ∈ (0, 1), nazywamy kwantylem rzędu p rozkładu zmiennej losowej X o dystrybuancie F, jeśli P (X < xp) = F (xp−) 6 p 6 F (xp) = P (X 6 xp). Taka liczba xp zawsze istnieje, choć nie musi wyznaczać się jednoznacznie. (i) Jeśli równanie F (x) = p względem x ma dokładnie jeden pierwiastek (np. w przypadku rozkładu absolutnie ciągłego o ściśle monotonicznej dystrybuancie), to ten pierwiastek jest właśnie kwantylem rzędu p, czyli xp = F −1(p). (ii) Jeśli równanie F (x) = p względem x nie ma pierwiastków (np. w przypadku rozkładu dyskretnego, gdy prosta y = p trafia pomiędzy schodkami funkcji y = F (x)), to kwantyl xp też określa się w sposób jednoznaczny. Tak dla rozkładu dyskretnego, jeśli nk < p < k+1 n , to xp jest punktem, w którym dystrybuanta ma skok z nk do k+1 n . W tym przypadku F (xp −) < p < F (xp). (iii) Jeśli istnieje przedział [a, b] taki, że F (x) = p ∀x ∈ [a, b], to każda liczba z przedziału [a, b] jest kwantylem rzędu p. 2 Liczbę x bp nazywamy kwantylem empirycznym rzędu p, jeśli jest to kwantyl rzędu p dla rozkładu empirycznego, czyli jeśli Fbn(b xp−) 6 p 6 Fbn(b xp). bp to kwantyl rzędu p z próbki. Wówczas X Ponieważ dla pewnej obserwacji (x1, . . . , xn) rozkład empiryczny jest zawsze rozkładem dyskretnym, więc możemy mieć kłopoty z jednoznacznym określeniem pewnych kwantyli empirycznych. Rozważmy przykład określenia mediany z próbki. Przypomnijmy, iż mediana rozkładu to kwantyl rzędu p = 1/2. Jeśli n jest liczbą nieparzystą, to d 1, . . . , Xn) := X b1/2 = X(n+1)/2:n (dlaczego?). med(X Natomiast jeśli n jest liczbą parzystą, to każda liczba z b1/2 (dlaczego?). Dla przedziału [Xn/2:n, Xn/2+1:n) jest X uniknięcia niejednoznaczności przyjęto, że mediana z próbki to środek tego przedziału. Zatem { n − nieparz. d 1 , . . . , Xn ) = X ( (n+1)/2:n, ) med(X Xn/2:n +Xn/2+1:n /2, n − parz. Ogólnie, przyjmujemy, że bp = ([(n + 1)p] + 1 − (n + 1)p)X[(n+1)p]:n X + ((n + 1)p − [(n + 1)p]) X[(n+1)p]+1:n, 3 gdzie [a] oznacza część całkowitą liczby a ∈ R. Kwantyle rozkładu rzędu p = 1/4 i p = 3/4 nazywamy odpowiednio kwartylami pierwszym i trzecim (kwartyl drugi to mediana). bp , Zgodnie ze wzorem na X b1/4 = Xk:n, X b3/4 = X3k:n; dla n = 4k − 1 mamy X b1/4 = 3Xk:n/4 + Xk+1:n/4, dla n = 4k mamy X b3/4 = X3k:n/4 + 3X3k+1:n/4; X b1/4 = Xk:n/2 + Xk+1:n/2, dla n = 4k + 1 mamy X b3/4 = X3k+1:n/2 + X3k+2:n/2; X b1/4 = Xk:n/4 + 3Xk+1:n/4, dla n = 4k + 2 mamy X b3/4 = 3X3k+2:n/4 + X3k+3:n/4. X 4