ZAGADNIENIE ESTYMACJI Mamy populację generalną i interesujemy się pewną cechą X, a dokładniej pewną charakterystyką liczbową µ tej cechy (np. średnią wartością tej cechy). Przeprowadzamy doświadczenie, w wyniku czego mamy próbę losową (x1, . . . , xn). Analizując próbę mamy odpowiedzieć na pytanie: Ile mniej-więcej wynosi wartość parametru µ ? Formalizacja probabilistyczno-statystyczna tego zagadnienia: {xi} - niezależne zmienne losowe o tym samym rozkładzie (=rozkładzie cechy X), którego wartość oczekiwana µ (=średnia wartość cechy X) nie jest znana; mamy oszacować µ. Istnieje dwa sposoby estymacji (szacowania) µ: 1. estymacja punktowa (wynik estymacji: µ szacujemy na µ0); 2. estymacja przedziałowa (wynik estymacji: µ leży w przedziale [µ−, µ+] z ustaloną dozą pewności). 1 Definicja. Statystyką nazywamy każdą funkcję mierzalną (zmienną losową) T (x1, . . . , xn). Postać statystyki nie może zależeć od nieznanego parametru. Pn x1 +···+xn 1 2 Przykłady: x̄ = , (x −x̄) - statystyki, i i=1 n n Pn x1 +···+xn 1 , n i=1(xi − µ)2 - nie statystyki. µ Definicja. Estymatorem punktowym parametru µ nazywamy dowolną statystykę T (x1, . . . , xn), która naszym zdaniem dobrze przybliża wartość µ. Rozważmy statystykę x̄ jako estymator nieznanej wartości oczekiwanej µ. Mamy: x1 + · · · + xn Ex1 + · · · + Exn E x̄ = E = = µ, n n 1 x1 + · · · + xn Varx̄ = Var = 2 (Varx1 + · · · + Varxn) n n nVarx1 σ 2 = = , 2 n n gdzie σ 2 := VarX. Zaleta uśredniania - redukcja zmienności. 2 Definicja. Estymator T (x1, . . . , xn) parametru µ nazywamy nieobciążonym, jeśli ET (x1, . . . , xn) = µ ∀µ (średnio estymator szacuje parametr bez błędu). Definicja. Estymator T (x1, . . . , xn) parametru µ nazywamy zgodnym, jeśli dla n → ∞ T (x1, . . . , xn) → µ ∀µ w pewnym sensie probabilistycznym (im wieksza jest próba, tym lepiej estymator szacuje parametr). Estymator x̄ nieznanej wartości oczekiwanej µ jest nieobciążony i zgodny (na mocy prawa wielkich liczb). Przykład. Jednostki statystyczne albo posiadają pewną własność (1), albo nie (0). Należy oszacować nieznana proporcję p jednostek posiadających tą własność. (x1, . . . , xn) - próba z rozkładu zero-jedynkowego o nieznanej wartości p: P (X = 1) = p, P (X = 0) = 1 − p, EX = p. Zagadnienie oszacowania parametru p sprowadza się do oszacowania nieznanej wartości oczekiwanej. Zatem n - proporcja jednostek w próbie posiadająpb = x1+···+x n cych tą własność jest dobrym estymatorem dla p. 3 Niech α ∈ (0, 1) będzie ustalone (standardowo α = 0.05); liczba 1 − α jest nazywana poziomem ufności. Definicja. Estymatorem przedziałowym (przedziałem ufności) parametru µ na poziomie ufności 1 − α nazywamy przedział [µ−, µ+], końce którego są statystykami, taki, że P (µ ∈ [µ−, µ+]) = 1 − α. Konstrukcja przedziałów ufności dla przypadków: 1. cecha ma rozkład normalny, wariancja σ 2 jest znana; 2. cecha ma rozkład normalny, wariancja σ 2 nie jest znana; 3. cecha ma rozkład dowolny, ale n jest duże. 1. {xi} - niezależne zmienne losowe o rozkładzie √ 2 N (µ, σ 2) =⇒ x̄ ∼ N (µ, σn ) =⇒ n x̄−µ σ ∼ N (0, 1). Bierzemy taką liczbę z1−α/2, żeby √ x̄ − µ P (−z1−α/2 6 n 6 z1−α/2) = 1 − α. σ Estymator przedziałowy: σ σ [µ−, µ+] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ . n n 4 q 1 n−1 Pn 2 2. Zamiast σ bierzemy s = j=1 (xj − x̄) , zamiast rozkładu N (0, 1) mamy rozkład Studenta o (n − 1) stopniach swobody. Estymator przedziałowy: s s [µ−, µ+] = x̄ − t1−α/2,n−1 √ , x̄ + t1−α/2,n−1 √ . n n 3. (estymator przyblizony) W porównaniu z poprzednim przypadkiem, zamiast rozkładu Studenta ponownie bierzemy rozkład N (0, 1). Estymator przedziałowy: s s [µ−, µ+] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ . n n Przykład (ze str.3). Mamy przypadek 3. p(1−p) n VarX = p(1 − p), Varb p = Var x1+···+x = n n . Estymator przedziałowy: " # r r pb(1 − pb) pb(1 − pb) [p−, p+] = pb − z1−α/2 , pb + z1−α/2 . n n 5