Metoda reprezentacyjna Metoda reprezentacyjna Stanisław Jaworski Katedra Ekonometrii i Statystyki Zakład Statystyki Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji. Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji. Definicja (populacja) Populacją generalną będziemy nazywać zbiór wszystkich jednostek badania. Populacja generalna będzie zapisywana w postaci: U = {u1 , u2 , . . . , uN } lub U = {1, 2, . . . , N }. Liczbę N ∈ N nazywamy liczebnością populacji. Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji. Definicja (populacja) Populacją generalną będziemy nazywać zbiór wszystkich jednostek badania. Przykłady Zbiór studentów, którz zdali egamin Populacja generalna będzie zapisywana w postaci: Zbiór gospodarstw domowych w Polsce w dniu 1 stycznia bieżącego roku U = {u1 , u2 , . . . , uN } lub U = {1, 2, . . . , N }. Zbiór wyborców Liczbę N ∈ N nazywamy liczebnością populacji. Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y:U →R Wartość cechy dla j–tej jednostki badania, tzn. Y(uj ), oznaczamy przez Yj Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y:U →R Wartość cechy dla j–tej jednostki badania, tzn. Y(uj ), oznaczamy przez Yj Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y:U →R Wartość cechy dla j–tej jednostki badania, tzn. Y(uj ), oznaczamy przez Yj Definicja (parametr populacji) Parametrem populacji U nazywamy wektor Y = [Y1 , Y2 , . . . , YN ] Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y:U →R Wartość cechy dla j–tej jednostki badania, tzn. Y(uj ), oznaczamy przez Yj Definicja (parametr populacji) Parametrem populacji U nazywamy wektor Y = [Y1 , Y2 , . . . , YN ] Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód Definicja (przestrzeń parametrów) Zbiór możliwych parametrów populacji U nazywamy przestrzenią parametrów i oznaczamy przez Ω Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω → R Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω → R Przykład (1/2) Populacja={student1, student2, student3} Cecha=ocena z egzaminu Parametr=[2, 4, 5] Przestrzeń parametrów Ω = {1, 2, 3, 4, 5} × {1, 2, 3, 4, 5} × {1, 2, 3, 4, 5} Zauważmy, że [2, 4, 5] ∈ Ω Przykład funkcji parametrycznej T : Ω → R: T (Y1 , Y2 , Y3 ) = 3 1X Yi 3 i=1 Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω → R Przykład (2/2) Wartość globalna cechy Y: Y = N P Yi i=1 Średnia cechy Y: Ȳ = 1 N Wariancja cechy Y: S 2 = N P Yi i=1 1 N −1 N P (Yi − Ȳ )2 i=1 Minimalna wartość cechy Y: Ymin = min{Y1 , . . . , YN } Maksymalna wartość cechy Y: Ymax = max{Y1 , . . . , YN } Y Iloraz wartości globalnych cech X , Y: R = X N P Kowariancja cech X , Y: Sxy = N 1−1 (Xj − X̄)(Yj − Ȳ ) j=1 Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Rodzaje prób Definicja (próba uporządkowana) Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor s = [j1 , j2 , . . . , jn ] ∈ U n Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s). Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S Metoda reprezentacyjna Podstawowe pojęcia Populacja, cecha, parametr, próba Rodzaje prób Definicja (próba uporządkowana) Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor s = [j1 , j2 , . . . , jn ] ∈ U n Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s). Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S Definicja (próba nieuporządkowana) Próbą nieuporządkowaną s0 o liczebności ν z populacji U nazywamy zbiór s0 ⊂ U Dla podkreślenia, że liczebność ν dotyczy próby s będziemy ją oznaczać przez ν(s). Zbiór wszystkich nieuporządkowanych prób będziemy oznaczać przez S 0 Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (plan losowania) Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S : p(s) ≥ 0 X s∈S p(s) = 1 (∀s ∈ S ) Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (plan losowania) Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S : p(s) ≥ 0 X (∀s ∈ S ) p(s) = 1 s∈S Definicja (pradopodobieństwo k−tego rzędu) Prawdopodobieństwo pierwszego rzędu: πj = P p(s) s3j Prawdopodobieństwo drugiego rzędu: πj,k = P p(s) s3j,k Prawdopodobieństwo k–tego rzędu: πj1 ,...,jk = Zapis P P p(s) s3j1 ,...,jk oznacza, że sumowanie odbywa się potakich s ∈ S , które zawierają s3j,k jednostki j, k. Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) P Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = ν(s)p(s) s∈S Wariancja efektywnej liczebności próby: D2 [ν(S)] = P (ν(s) − ν)2 p(s) s∈S ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) P Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = ν(s)p(s) s∈S Wariancja efektywnej liczebności próby: D2 [ν(S)] = P (ν(s) − ν)2 p(s) s∈S ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu. Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) P Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = ν(s)p(s) s∈S Wariancja efektywnej liczebności próby: D2 [ν(S)] = P (ν(s) − ν)2 p(s) s∈S ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu. Przykład (1/2): Losowanie proste ze zwracaniem (lpzz) Niech u, u1 , u2 , . . . , ui−1 ∈ U oraz U ma rozmiar N Au –zdarzenie oznaczające, że w i−tym ciągnięciu wylosowaliśmy element u Au1 ,...,ui−1 –zdarzenie oznaczające, że w poprzednich ciągnięciach (od 1 do i − 1) wyciągnęliśmy elementy u1 , . . . , ui−1 W losowaniu ze zwracaniem zachodzi P (Au |Au1 ,...,ui−1 ) = u, oraz u1 , . . . , ui−1 . 1 N dla dowolnych Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) P Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = ν(s)p(s) s∈S Wariancja efektywnej liczebności próby: D2 [ν(S)] = P (ν(s) − ν)2 p(s) s∈S ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu. Przykład (2/2): Losowanie proste bez zwracania (lpbz) W losowaniu bez zwracania zachodzi P (Au |Au1 ,...,ui−1 ) = 1 dla u ∈ / {u1 , . . . , ui−1 } N − (i − 1) oraz P (Au |Au1 ,...,ui−1 ) = 0 w przeciwnym przypadku. Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania Prawdopodobieństwa pierwszego rzędu w losowaniach prostych πj – prawdopodobieństwo wylosowania j–tego elementu w próbie 1 − πj – prawdopodobieństwo niewylosowania j–tego elementu w próbie Pobieramy próbę n – elementową. Losujemy ze zwracaniem. 1 n ) N Pobieramy próbę n – elementową. Losujemy bez zwracania. N −1 n n−1 πj = = N N 1 − πj = (1 − n Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania Losowanie z prawdopodobieństwami proporcjonalnymi do wartości cechu X i ze zwracaniem (lppxzz) Niech składowe parametru [X1 , . . . , XN ] będą większe od zera. Określamy prawdopodobieństwo pj , j = 1, . . . , N, wylosowania j–tego elementu populacji następująco: Xj pj = X Zgodnie z zadanym rozkładem prawdopdobieństwa losujemy próbę n−elementową. Ai −zdarzenie polegające na tym, że i−ty elment nie pojawi się w próbie. Stąd πij = 1 − P (Ai ∪ Aj ) = 1 − P (Ai ) − P (Aj ) + P (Ai ∩ Aj ) = = 1 − (1 − pi )n − (1 − pj )n + (1 − pi − pj )n Zauważmy: Ai ∩ Aj − zdarzenie polegające na tym, że i−ty oraz j−ty elment nie pojawi się w próbie. Metoda reprezentacyjna Podstawowe pojęcia Plan losowania, schemat losowania, operat losowania Definicja (operat losowania) Operatem losowania nazywamy wykaz jednostek badania lub ich zespołów, zwanych jednostkami losowania. Każdej jednostce jest przyporządkowany identyfikator. Jeżeli losujemy jednostki badania, mówimy o losowaniu indywidualnym, jeżeli zespoły, o zespołowym. Definicja (przestrzeń prób) Niech U = {1, 2, . . . , N }. Możemy wówczas przyjąć, że Ω = Ω1 × . . . ΩN . Niech Ωs = Ωj1 × . . . × Ωjn dla s = (j1 , . . . , jn ) ∈ S . Zbiór P= [ s∈S nazywamy przestrzenią prób. Ωs Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Definicja (statystyka) Funkcję t : P → R nazywamy statystyką. Definicja (estymator) Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y ) nazywamy oceną funkcji parametrycznej T . Estymatory Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Definicja (statystyka) Funkcję t : P → R nazywamy statystyką. Definicja (estymator) Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y ) nazywamy oceną funkcji parametrycznej T . Estymatory Estymator liniowy jednorodny t(Ys ) = s X wi Yji i=1 dla s = (j1 , j2 , . . . , jn ), Ys = (Yj1 , . . . , Yjn ) oraz ustalonych w1 , w2 , . . . , wn ∈ R Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Definicja (statystyka) Funkcję t : P → R nazywamy statystyką. Definicja (estymator) Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y ) nazywamy oceną funkcji parametrycznej T . Estymatory Estymator Horvitza–Thompsona: ȳHT (plan lppbz) t(Ys0 ) = n 1 X Yji N i=1 πji dla s0 = {j1 , j2 , . . . , jn }, Ys0 = (Yj1 , . . . , Yjn ). P Oznaczenie: πi = s0 3i p(s0 ) Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Definicja (statystyka) Funkcję t : P → R nazywamy statystyką. Definicja (estymator) Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y ) nazywamy oceną funkcji parametrycznej T . Estymatory Estymator Hansena–Hurwitza: ȳHH (plan lppxzz) t(Ys ) = n n 1 X Yji X̄ X Yji = N i=1 npji n i=1 Xji dla s = (j1 , j2 , . . . , jn ), Ys = (Yj1 , . . . , Yjn ) Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Parametry estymatora Definicja (estymator nieobciążony) Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość s ∈ S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Estymator t nazywamy nieobciążonym dla funkcji parametrycznej T , jeżeli X Ep (t(YS )) = t(Ys )p(s) = T (Y) s∈S Wartość oczekiwaną Ep (t(YS )) będziemy dla uproszczenia oznaczać przez Ep (t) lub przez E(t). Jeżeli estymator jest obciążony, to różnica Ep (t(YS )) − T (Y) nazywa się obciążeniem estymatora. Różnicę tę będziemy oznaczać przez B(t). Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Parametry estymatora Definicja (wariancja estymatora) Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość s ∈ S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Wariancją estymatora t nazywamy wyrażenie X Dp2 (t(YS )) = [t(Ys ) − Ep (t(YS ))]2 p(s) s∈S = X t(Ys )2 p(s) − [Ep (t(YS ))]2 s∈S Wariancję Dp2 (t(YS )) będziemy oznaczać przez Dp2 (t) lub D2 (t). Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Parametry estymatora Definicja (błąd średniokwadratowy) Przy oznaczeniach, jak w powyższych definicjach, średnim błędem średniokwadratowym estymatora t jest wyrażenie X (t(Ys ) − T (Y))2 p(s) M SEp (t) = s∈S = Dp2 (t(YS )) + [B(t)]2 Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wartość oczekiwana estymatora Horvitza-Thompsona Twierdzenie Estymator Horvitza Thompsona jest nieobciążony Pomiń dowód Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wartość oczekiwana estymatora Horvitza-Thompsona Twierdzenie Estymator Horvitza Thompsona jest nieobciążony Dowód Ep (ȳHT ) = X s0 ∈S X Yj 1 0 p(s ) N πj 0 0 j∈s N X X 1 Yj = p(s0 ) N πj j=1 0 s 3j N X 1 Yj X = p(s0 ) = Ȳ N πj 0 j=1 s 3j Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi N X 1 X 2 1 2 Dp (ȳHT ) = 2 Yj −1 + N π j j=1 1≤j,k≤N ; j6=k πjk − 1 Yj Yk πj πk Pomiń dowód Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi N X 1 X 2 1 2 Dp (ȳHT ) = 2 Yj −1 + N π j j=1 1≤j,k≤N ; j6=k πjk − 1 Yj Yk πj πk Dowód 2 X Yj 1 − [Ȳ ]2 = = Ep [(yHT ) ] − [Ep (yHT )] = Ep N πj 0 j∈S X Yj Yk X Yj 2 1 − [Ȳ ]2 = = 2E + N π πj πk j 0 j,k∈S0 Dp2 (ȳHT ) 2 2 j∈S j6=k Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi N X 1 X 2 1 2 Dp (ȳHT ) = 2 Yj −1 + N π j j=1 1≤j,k≤N ; j6=k πjk − 1 Yj Yk πj πk Dowód N 2 1 X Yj X p(s0 ) + = 2 N j=1 πj2 0 s 3j X 1≤j,k≤N j6=k Yj Yk πj πk X s0 3j,k 2 p(s0 ) − [Ȳ ] = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi N X 1 X 2 1 2 Dp (ȳHT ) = 2 Yj −1 + N π j j=1 1≤j,k≤N ; j6=k πjk − 1 Yj Yk πj πk Dowód N 2 1 X Yj = 2 + N j=1 πj N X 1 Yj2 = 2 N j=1 X 1≤j,k≤N j6=k πjk 2 Yj Yk − [Ȳ ] = πj πk X 1 −1 + πj 1≤j,k≤N ; j6=k πjk − 1 Yj Yk πj πk Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X 1≤j,k≤N j6=k (πj πk − πjk ) Yj Yk − πj πk 2 Pomiń dowód Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód ν(s) = N X Is (j) j=1 Ep ν(S) = N X j=1 Ep (IS (j)) = N X X j=1 s3j p(s) = N X j=1 πj Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód X 1≤j,k≤N j6=k πjk = X 1≤j,k≤N j6=k = Ep Ep (IS (j)IS (k)) = Ep N X j=1 2 IS (j) − N X j=1 X 1≤j,k≤N j6=k 2 IS (j) IS (j)IS (k) = 2 = Ep ν (S) − N X j=1 IS (j) = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód = Ep ν 2 (S) − ν(S) = Ep (ν 2 (S)) − Ep (ν(S)) = = Dp2 (ν(S)) + [Ep (ν(S))]2 − Ep (ν(S)) Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód Dla ν(S) ≡ ν mamy zatem tożsamości: ν= N X j=1 N X j=1 j6=k πjk = N X j=1 j6=k πj , X πjk = ν 2 − ν 1≤j,k≤N j6=k Ep (IS (j)IS (k)) = Ep (IS (k) N X j=1 j6=k = Ep (IS (k)[ν(S) − IS (k)]) = (ν − 1)πk IS (j)) = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód 1 N2 X (πj πk − πjk ) 1≤j,k≤N j6=k 1 = 2 N 2 = 2 N X πk 1≤j,k≤N j6=k X 1≤j,k≤N j6=k πk Yj2 πj Yj2 πj Yj Yk − πj πk + πj 2 Yk2 πk − πjk = − πjk Yk2 πk2 Yj2 πj2 − πjk Yk2 πk2 Yj Y k − Yj Yk + πjk πj πk Yj Yk − 2Yj Yk + 2πjk πj πk ! =? ! Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód Ponieważ X 1≤j,k≤N j6=k πk Yj2 πj = N Y2 X N X j j=1 =ν πj πj − N Y2 X j j=1 k=1 k6=j N Y2 X j j=1 πk = N X j=1 Yj2 πj (ν − πj ) = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód oraz X πjk 1≤j,k≤N j6=k Yj2 πj2 = N Y2 X N X j j=1 πj2 = (ν − 1) 1≤j,k≤N j6=k Yj Yk = Y 2 − N Y2 X j N X j=1 N Y2 X j j=1 k=1 k6=j j=1 X πjk = πj Yj2 πj2 πj (ν − 1) = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi D2 (ȳHT ) = 1 2N 2 X (πj πk − πjk ) 1≤j,k≤N j6=k Yj Yk − πj πk 2 Dowód mamy N N N Y2 N 2 X X X 2 X Yj j 2 2 =? 2 ν − Y − (ν − 1) − Y + Yj2 + j N j=1 πj π j=1 j=1 j j=1 = N Y2 X 2 j + 2 N π j=1 j 1≤j,k≤N j6=k X 1≤j,k≤N j6=k N 2 2 X Yj = 2 + N π j=1 j X πjk Yj Yk − Y 2 πj πk X 1≤j,k≤N j6=k πjk 2 2 Yj Yk − 2[Ȳ ] = 2D (yHT ) πj πk Yj Yk πjk πj πk Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Twierdzenie Jeżeli πj > 0 dla j = 1, . . . , N oraz πij > 0 dla i, j = 1, . . . , N, j = 6 k, to statystyka 2 X X Yj πjk Yj Yk 1 1 −1 + −1 Dˆ2 (ȳHT ) = 2 N πj πj π π πj,k j k 0 0 1≤j,k∈S j∈S j6=k jest nieobciążonym estymatorem wariancji D2 (ȳHT ). Dla ν(S0 ) ≡ ν ma on postać Dˆ2 (ȳHT ) = 1 2N 2 X j,k∈S0 j6=k πj πk − πjk πjk Yj Yk − πj πk 2 Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wniosek Dla n−elementowej próby wylosowanej według planu lpbz (losowanie proste bez zwracania) n s2 Dˆ2 (ȳHT ) = 1 − , N n gdzie 1 X 1 X (Yi − ȲS0 )2 , ȲS0 = Yi s2 = n−1 n 0 0 i∈S i∈S Uwaga. Jeżeli zmienna S0 zrealizuje się jako s0 = {j1 , . . . , jn }, to dla uproszczenia będziemy oznaczać (Yj1 , . . . , Yjn ) przez (y1 , . . . , yn ). Wtedy możemy zapisać s2 = n 1 X (yi − ȳ)2 , n − 1 i=1 ȳ = n 1X yi n i=1 Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wartość oczekiwana estymatora Hansena–Hurwitza (plan lppxzz, n(s) ≡ n) Ze względu na sposób losowania estymator ten można zapisać w postaci ȳHH = n 1 X YJi N i=1 npJi gdzie J1 , J2 , . . . , Jn są niezależnymi zmiennymi losowymi o tym samym rozkładzie p: Wtedy Ep (ȳHH ) = 1 Nn n P i=1 Ep 1 p1 YJi pJi 2 p2 = ··· ··· 1 Nn N pN n P N P i=1 j=1 Yj pj pj = Ȳ Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wariancja estymatora Hansena–Hurwitza (plan lppxzz, n(s) ≡ n) 2 2 n X YJi p i=1 Ji 2 D (ȳHH ) = Ep (yHH ) − (Ep (yHH )) = Ep n Y2 X 1 Ji E + = p (N n)2 p2 i=1 J i X 1≤j,k≤n j6=k !2 − (Ȳ )2 = YJi YJk − (ȳ)2 = p p Ji Jk n X N X Y2 1 = pk k2 + 2 (N n) pk i=1 k=1 = 1 (N n)2 n N X Yk2 k=1 pk X E 1≤j,k≤n j6=k YJ i pJi E YJ k pJk ! + n(n − 1)N 2 (Ȳ )2 2 N 1 X Yk = pk − Ȳ n k=1 N pk − (Ȳ )2 = ! − (ȳ)2 = Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Zauważmy, że dla pk = Yk Y = PYk k Yk zachodzi D2 (ȳHH ) = 0. Jeżeli dla k = 1, 2, . . . , N mamy pk = 1/N , to ȳHH = ȳ = n 1X yi n i=1 oraz D2 (ȳHH ) = D2 (ȳ) = N 1 1 X · (Yk − Ȳ )2 n N k=1 Uogólniony estymator różnicy dla średniej ȳGD = 1 X Yi − Ei + Ē N πi 0 i∈S gdzie E1 , . . . , EN są dowolnymi stałymi. W szczególności dla Ei = cXi , i = 1, . . . , N , gdzie Xi są wartościami cechy dodatkowej X oraz c jest stałą, estymator ten przyjmuje postać: X Xi 1 X Yi 1 = ȳHT + c(X̄ − x̄HT ) ȳGD = + c X̄ − N pi N πi 0 0 i∈S i∈S Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Zatem E(ȳGD ) = Ȳ oraz D2 (ȳGD ) = D2 (ȳHT ) + c2 D2 (x̄HT ) − 2cCov(x̄HT , ȳHT ), Cov(x̄HT ,ȳHT ) . D 2 (x̄HT ) która jest minimalizowana dla c = Zatem najmniejsza wariancja wynosi: D(ȳGD ) = D2 (ȳHT )[1 − %2 (x̄HT , ȳHT )] Estymator Khamisa ȳK (losowanie zgodnie ze schematem lpzz) Niech s0 = r(s), gdzie r jest funkcją redukcyjną ȳK = 1 X Yj ν(S0 ) 0 j∈S Estymator Khamisa jest nieobciążony: E(ȳK ) = E(E(ȳK |ν(S0 ))) = E(Ȳ ) = Ȳ Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator Wariancja 2 1 X Yj = ν(S0 ) j∈S0 X X 1 0 2 0 2 1 Yj ν(S ) + E D Yj ν(S ) = E =D ν(S0 ) ν(S0 ) j∈S0 j∈S0 2 1 Nσ 1 = D2 (Ȳ ) + E − ν(S0 ) N N −1 2 D (ȳK ) = D N 1 X (Yi − Ȳ )2 N i=1 1 N σ2 1 1 1 − > − S 2 = D2 (ȳHT ) D2 (ȳK ) = E ν(S0 ) N N −1 n N gdzie σ 2 = gdzie D2 (ȳHT ) wyznaczone w przypadku: lpbz, ν ≡ n Metoda reprezentacyjna Podstawowe pojęcia Statystyka, estymator W przypadku lpzz i rozmiaru próby n mamy D2 (ȳHH ) = σ 2 /n Zauważmy: h i n N E ν(S 0) − n 1 N 1 1 − < ⇐⇒ <1 E ν(S0 ) N N −1 n N −1 Zatem D2 (ȳHH ) > D2 (ȳK ) > D2 (ȳHT ) Metoda reprezentacyjna Podstawowe pojęcia Strategia losowania Definicja (strategia losowania) Strategią losowania nazywamy parę (p, t), gdzie p jest planem losowania, natomiast t jest estymatorem funkcji parametrycznej T . Strategię losowania będziemy oznaczać przez H(p, t). Jeśli estymator t jest nieobciążony, powiemy o strategii, że jest nieobciążona. Definicja (porównanie strategii) Powiemy, że startegia H1 (p1 , t1 ) jest co najmniej tak dobra jak strategia H2 (p2 , t2 ), jeżeli M SEp1 (t1 ) ≤ M SEp2 (t2 ) dla wszystkich Y ∈ Ω. Jeżeli dodatkowo M SEp1 (t1 ) < M SEp2 (t2 ) dla pewnego Y ∈ Ω, to mówimy, że strategia H1 (p1 , t1 ) jest lpesza od strategii H2 (p2 , t2 ) Przypomnienie: M SEp (t) = X s∈S (t(Ys ) − T (Y))2 p(s) Metoda reprezentacyjna Podstawowe pojęcia Strategia losowania Przykład Rozmiar próby: n M SElpzz (ȳHH ) > M SElpzz (ȳK ) > M SElpbz (ȳHT ) Metoda reprezentacyjna Wybrane zagadnienia Przedział ufności dla średniej, minimalna liczebność próby Problem Jak ustalić liczebność próby n, aby błąd szacunku nie przekroczył zadanej wielkości d ze z góry ustalonym prawdopodobieństwem 1 − α? P (|tn − T | < d) = 1 − α Definicja (minimalna liczebność próby) Wielkość d nazywana jest maksymalnym dopuszczalnym błędem szacunku, natomiast δ = d/T maksymalnym dopuszaczalnym względnym błędem szacunku Przykład W przypadku szacowania Ȳ na podstawie próby wylosowanej według schematu lpbz mamy P (|ȳ − Ȳ | < d) = P (ȳ − d < Ȳ < ȳ + d) = 1 − α P (ȳ − u1−α/2 D(ȳ) < Ȳ < ȳ + u1−α/2 D(ȳ)) ≈ 1 − α gdzie u1−α/2 jest kwantylem rozkładu normalnego rzędu (1 − α/2) oraz 1 1 D2 (ȳ) = − S2 n N Metoda reprezentacyjna Wybrane zagadnienia Przedział ufności dla średniej, minimalna liczebność próby Zatem d = u1−α/2 D(ȳ) δ = u1−α/2 D(ȳ) Ȳ oraz minimalna liczebność próby n = [n? ] + 1 n? = N u21−α/2 S 2 N d2 + u21−α/2 S 2 = N u21−α/2 V 2 N δ 2 + u21−α/2 V 2 gdzie V = S/Ȳ – współczynnik zmienności Przy wyznaczaniu minimalnej próby parametry, których nie znamy zastępujemy ich oszacowaniami Metoda reprezentacyjna Wybrane zagadnienia Estymatory złożone Definicja ( estymator produktowy (iloczynowy)) Statystykę x̄ȳ ȳp = , X̄ > 0 X̄ nazywamy estymatorem produktowym (iloczynowym) średniej Ȳ Twierdzenie Jeżeli n–elementowa próba wylosowana została według schematu lpbz z N –elementowej populacji, to E(ȳp ) = Ȳ + (1 − n/N ) 2 Sxy nX̄ + O(n−2 ) n Sy2 + 2RSxy + R2 Sx2 M SE(ȳp ) = 1 − + O(n−2 ) N n gdzie Sxy = N 1 X (Xj − X̄)(Yj − Ȳ ) N − 1 j=1 R= Ȳ X̄ Metoda reprezentacyjna Wybrane zagadnienia Estymatory złożone Definicja (estymator ilorazowy) Statystykę ȳq = ȳ X̄ = rX̄ x̄ gdzie r= ȳ x̄ nazywamy estymatorem ilorazowym średniej Ȳ . Twierdzenie Jeżeli n–elementowa próba wylosowana została według schematu lpbz z N –elementowej populacji, to E(ȳq ) = Ȳ + (1 − n/N ) RSx2 − Sxy + O(n−2 ) nX̄ n Sy2 − 2RSxy + R2 Sx2 M SE(ȳq ) = 1 − + O(n−2 ) N n Metoda reprezentacyjna Wybrane zagadnienia Estymatory złożone Definicja (estymator liniowy) Statystykę ȳlr = ȳ + b(X̄ − x̄) gdzie s2xy b= s2x = Pn i=1 (xi − x̄)(yi − ȳ) Pn 2 i=1 (xi − x̄) nazwywamy estymatorem liniowym regresyjnym Twierdzenie Jeżeli n–elementowa próba wylosowana została według schematu lpbz z N –elementowej populacji, to n E(ȳlr ) = Ȳ + 1 − C + O(n−2 ) N gdzie B C= N P (Yj − Ȳ )3 − j=1 N P (Xj − X̄)2 (Yj − Ȳ ) j=1 (n − 1)(N − 1)Sx2 Metoda reprezentacyjna Wybrane zagadnienia Estymatory złożone N P B= (Xj − X̄)(Yj − Ȳ ) j=1 N P (Xj − X̄)2 j=1 oraz n Sy2 (1 − ρ2xy ) M SE(ȳlr ) = 1 − + O(n−2 ) N n gdzie ρxy = Sxy Sx =B Sx Sy Sy Metoda reprezentacyjna Wybrane zagadnienia Losowanie warstwowe Zagadnienie (estymacja wartości średniej w losowaniu warstwowym) Badamy cechę mierzalną Y. Populacja generalna o liczności N podzielona jest na L warstw o licznościach Nh , h = 1, 2, . . . , L, przy czym L X Nh = N. h=1 Frakcja elementów w warstwie h wynosi Wh = Nh /N . Z każdej warstwy oddzielnie losujemy nh elementów do próby. Dla próby n elementowej spełnione jest nh = Nh n = Wh n, N h = 1, 2, . . . , L. Metoda reprezentacyjna Wybrane zagadnienia Losowanie warstwowe Z próby otrzymujemy wyniki yih , i = 1, 2, . . . , nh , h = 1, 2, . . . , L. Na podstawie próby szacujemy średnią wartość Ȳ populacji w następujący sposób: ȳw = L L X 1 X Nh ȳh = Wh ȳh , N h=1 h=1 gdzie ȳh = nh 1 X yih nh i=1 Wariancja tego estymatora wynosi: D2 (ȳw ) = 1 1 − n N X L Wh Sh2 , h=1 gdzie Sh2 jest wariancją w h–tej warstwie (jeżeli jej nie znamy, to z dużej próby można ją oszacować za pomocą s2h ). Metoda reprezentacyjna Wybrane zagadnienia Losowanie warstwowe Jeżeli badana cecha w populacji ma rozkład zbliżony do normalnego lub gdy przy innym rozkładzie próba jest duża, to przybliżony przedział ufności dla średniej ma postać ȳw − u1−α/2 D(ȳw ), ȳw + u1−α/2 D(ȳw ) Minimalna liczebność próby potrzebna do oszacowania średniej z maksymalnym dopuszczalnym błędem szacunku d wynosi L P n= h=1 Wh Sh2 L d2 1 P + Wh Sh2 u21−α/2 N h=1 Metoda reprezentacyjna Wybrane zagadnienia Losowanie warstwowe Zagadnienie („optymalna” estymacja wartości średniej w losowaniu warstwowym) Założenia są identyczne, jak w poprzednim zagadnieniu, z tą różnicą, że • liczba wylosowanych elementów z h-tej warstwy wynosi nh = Wh Sh n, L P Wh Sh h = 1, 2, . . . , L h=1 • wariancja estymatora wynosi 1 D (ȳw ) = n 2 L X h=1 !2 Wh Sh − L 1 X Wh Sh2 N h=1 Metoda reprezentacyjna Wybrane zagadnienia Losowanie warstwowe • minimalna liczebność próby wynosi ( n= L P Wh Sh )2 h=1 L 1 P d2 Wh Sh2 + u21−α/2 N h=1 Losowanie w zagadnieniu pierwszym nazywamy proporcjonalnym (do wielkości warstwy), a w zagadnieniu drugim optymalnym (zapewnia najmniejszą wariancję estymatora)