Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja 1 Oznaczenia Zmienne losowe (cechy) oznaczamy na wykładzie dużymi literami z końca alfabetu. Próby proste odpowiadającymi im literami pogrubionymi. Jesli X jest cechą, to X = (X1 , X2 , .., Xn )T jest próbą prostą rozmiaru n. 1.1 Podstawowe statystki Szereg statystyk pozycyjnych (rangowych) X(1) , X(2) , .., X(n) to szereg uporzadkowanych (od najmniejszej do najwiekszej) wartości obserwacji w próbie. Średnia arytmetyczna: n X̄ = 1X Xi n i=1 Wariancja empiryczna: n S2 = n 1X 2 1X (Xi − X̄)2 = X − (X̄)2 = X 2 − X̄ 2 n i=1 n i=1 i Wariancja probkowa n S02 1 X = (Xi − X̄)2 n − 1 i=1 √ 2 Empiryczne odchylenie standardowe : S = p S 2 Próbkowe odchylenie standardowe : S = S0 Moment zwykły rzędu n n An = Moment centralny rzędu n 1X n X n i=1 i n 1X mn = (Xi − X̄)n n i=1 2 Estymacja przedzialowa - podstawowe wzory We wszystkich omawianych w tym rozdziale przypadkach wspołczynnik ufności jest równy (co najmniej) q. 2.1 Przedziały ufności dla wartości oczekiwanej Cecha X ma nieznaną wartośc oczekiwaną m. Przypadek I. Cecha ma rozklad normalny N (m, σ 2 ) i wariancja σ 2 jest znana. Przedział ufności: σuβ σuβ [X̄ − √ , X̄ + √ ] n n gdzie β = 1+q 2 zas uβ jest kwantylem rzedu β z rozkladu normalnego N(0,1) Przypadek II. Cecha ma rozklad normalny N (m, σ 2 ) ale wariancja σ 2 jest nieznana. Przedział ufności: S · tβ S · tβ [X̄ − √ , X̄ + √ ] n−1 n−1 gdzie β = 1+q 2 zas tβ jest kwantylem rzedu β z rozkladu Studenta o n − 1 stopniach swobody. Przypadek III. Cecha ma rozkład nieznany lub inny niż normalny. Dla konstrukcji przedziału ufności w tym przypadku musimy mieć próbę dużego rozmiaru. Zwykle zakłada się, że n > 30. Przedział ufności: S · uβ S · uβ [X̄ − √ , X̄ + √ ] n−1 n−1 gdzie β = 1+q 2 zas uβ jest kwantylem rzedu β z rozkladu normalnego N(0,1) UWAGA Jeśli za oszacowanie punktowe wartości oczekiwanej cechy X przyjmiemy wartość średniej z próby (X̄), to błędem standardowym tego oszacowania nazywamy wartość statystyki σ̂ SX̄ = √ n 2 gdzie σ̂ jest oszacowaniem odchylenia standardowego badanej cechy X. Jeśli natura stochastyczna cechy (jej rozkład :) jest nieznana lub jesli jest to cecha o rozkładzie zbliżonym do normalnego, to możemy przyjąć w powyższym wzorze σ̂ = §0 . W różnych szczególnych przypadkach można użyć lepszego estymatora odchylenia standardowego. Np. jesli cecha X ma rozkład wykładniczy, to lepsze oszacowanie tego odchylenia otrzymamy przyjmując σ̂ = X̄. Podobnie w √ przypadku rozkładu Poissona lepiej przyjąć σ̂ = X̄.... Dlaczego? 2.2 Przedział ufności dla wskaźnika struktury Dana jest próba z rozkładu zero-jeden, tj. obserwowana cecha X ma rozkład: P (X = 1) = p = 1 − P (X = 0) Niech N oznacza sumę wartości zaobserwowanych w próbie rozmiaru n. Zatem - inaczej - N jest liczba jedynek w próbie. Wspolczynnik ufności wynosi q. Wartość prawdopodobienstwa ”p” w wielu zastosowanich (np. w ekonomii czy demografii) nazywamy wskaznikiem struktury p dla elementow populacji o zadanej wlasności. W innych zastosowaniach nazywamy go frakcją (elementow populacji o zadanej wlasności), tak jest np. problemach kontroli jakości produkcji. Przedziałem ufności dla p jest: [Bβ1 (N, n − N + 1) , Bβ2 (N + 1, n − N )] gdzie Bβ (n1 , n2 ) oznacza kwantyl rzędu β z rozkładu Beta z parametrami n1 i n2 . Rzędy β1 oraz β2 kwantyli pojawiających sie w przedziale ufności są, odpowiednio, równe (1 − q)/2 oraz (1 + q)/2. Podany wzór jest modyfikowany gdy N = 0 oraz gdy N = n. Jeżeli N = 0, to lewy koniec przedziału ufności jest równy 0, a jeżeli N = n, to prawy koniec przedziału ufności jest równy 1. Kwantyle rozkładu Beta znajdujemy z wykorzystaniem pakietów komputerowych takich jak Excel,Maple czy Mathematica. Powyzszy ”dokładny” przedział został wyprowadzony przez Jerzego Spławę - Neymana, twórcę idei przedziałów ufności. W przypadku proby dużego rozmiaru wielu autorów zaleca stosowanie nastepujacego przybliżonego (asymptotycznego) i prostszego(?) przedziału ufności (którego idea pochodzi od Walda): r r p̂(1 − p̂) p̂(1 − p̂) , p̂ + uβ ] [p̂ − uβ n n 1+q gdzie p̂ = N n , β = 2 zas uβ jest kwantylem rzedu β z rozkladu normalnego N(0,1). Różni autorzy różnie okreslają warunki zapewniające, że próba jest ”wystarczająco” duża. Znajdziemy wśród nich następujące: n ­ n0 3 gdzie n0 jest równe wg. jednych 50, wg. innych 100 (od czego to de facto zależy?). Inny warunek jest fromułowany w postaci np ­ c, n(1 − p) ­ c gdzie znowu u jednych autorów c jest równe 5 a u innych np. 50. Wszystkie te zalecenia mają na celu zapewnienie wystarczająco dobrego przybliżenia rozkładu statystyki p̂ − p p p̂(1 − p̂)/n rozkładem normalnym standaryzowanym N (0, 1) Podawane są również nieco dokładniejsze ale bardziej skomplikowane i nadal tylko asymptotycznie poprawne przedziały ufności wyprowadzane w oparciu o asymtotyczną normalność rozkładu statystyki p̂ − p p p(1 − p)/n W dobie komputerów wydaje się, że wszysytkie te upraszczające pomysły są zbyteczne, gdyż wyznaczenie przedziału Neymana nie nastręcza teraz takich kłopotów jak w czasach Walda. UWAGA Wartość statystyki r p̂(1 − p̂) Sp̂ = n praktycy nazywają często błędem standardowym oszacowania wskaźnika stryktury 2.3 Przedział ufności dla wariancji Estymujemy wariancję rozkładu cechy. Przypadek: cecha ma rozklad normalny Przedział ufności: [ nS 2 nS 2 , ] χ2 χ1 gdzie χ1 jest kwantylem rzedu (1 − q)/2 z rozkladu χ2 o n − 1 stopniach swobody, zas χ2 jest kwantylem rzedu (1 + q)/2 z tego samego rozkladu. 3 Analiza korelacji - estymacja Kowariancja empiryczna CX,Y = n X (Xi − X̄)(Yi − Ȳ ) i=1 4 Współczynnik korelacji Pearsona Dla prób dotyczacych badania zwiazkow dwoch cech X i Y rxy = CX,Y nSX SY gdzie SX , SY są empirycznymi odchyleniami standardowymi dla próby z cechy X i Y , odpowiednio. Współczynnik korelacji cześciowej pomiedzy cechami X1 i X2 przy eliminacji wpływu cech X3,..., Xn −R12 r12.3...n = √ R11 R22 gdzie Rij są dopełnieniami algebraicznymi wyznacznika r12 r12 ... r1n r21 r22 r2n R = ... rn1 rn2 rnn Współczynnik korelacji wielorakiej pomiędzy cechą X1 a cechami X2,..., Xn r R r1(23...n) = 1 − R11 5