Metoda reprezentacyjna

advertisement
Metoda reprezentacyjna
Metoda reprezentacyjna
Stanisław Jaworski
Katedra Ekonometrii i Statystyki
Zakład Statystyki
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Metoda reprezentacyjna
Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji
skończonych oraz metody szacowania nieznanych charakterystyk populacji.
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Metoda reprezentacyjna
Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji
skończonych oraz metody szacowania nieznanych charakterystyk populacji.
Definicja (populacja)
Populacją generalną będziemy nazywać
zbiór wszystkich jednostek badania.
Populacja generalna będzie zapisywana w
postaci:
U = {u1 , u2 , . . . , uN } lub U = {1, 2, . . . , N }.
Liczbę N ∈ N nazywamy liczebnością
populacji.
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Metoda reprezentacyjna
Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji
skończonych oraz metody szacowania nieznanych charakterystyk populacji.
Definicja (populacja)
Populacją generalną będziemy nazywać
zbiór wszystkich jednostek badania.
Przykłady
Zbiór studentów, którz zdali egamin
Populacja generalna będzie zapisywana w
postaci:
Zbiór gospodarstw domowych w
Polsce w dniu 1 stycznia bieżącego
roku
U = {u1 , u2 , . . . , uN } lub U = {1, 2, . . . , N }.
Zbiór wyborców
Liczbę N ∈ N nazywamy liczebnością
populacji.
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (cecha statystyczna)
Cechą statystyczną nazywamy funkcję Y:
Y:U →R
Wartość cechy dla j–tej jednostki badania,
tzn. Y(uj ), oznaczamy przez Yj
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (cecha statystyczna)
Cechą statystyczną nazywamy funkcję Y:
Y:U →R
Wartość cechy dla j–tej jednostki badania,
tzn. Y(uj ), oznaczamy przez Yj
Przykłady
ocena z egzaminu:
Y(student) = ocena z egzaminu
dochody gospodarstwa domowego:
Y(gospodarstwo domowe) = dochód
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (cecha statystyczna)
Cechą statystyczną nazywamy funkcję Y:
Y:U →R
Wartość cechy dla j–tej jednostki badania,
tzn. Y(uj ), oznaczamy przez Yj
Definicja (parametr populacji)
Parametrem populacji U nazywamy wektor
Y = [Y1 , Y2 , . . . , YN ]
Przykłady
ocena z egzaminu:
Y(student) = ocena z egzaminu
dochody gospodarstwa domowego:
Y(gospodarstwo domowe) = dochód
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (cecha statystyczna)
Cechą statystyczną nazywamy funkcję Y:
Y:U →R
Wartość cechy dla j–tej jednostki badania,
tzn. Y(uj ), oznaczamy przez Yj
Definicja (parametr populacji)
Parametrem populacji U nazywamy wektor
Y = [Y1 , Y2 , . . . , YN ]
Przykłady
ocena z egzaminu:
Y(student) = ocena z egzaminu
dochody gospodarstwa domowego:
Y(gospodarstwo domowe) = dochód
Definicja (przestrzeń parametrów)
Zbiór możliwych parametrów populacji U
nazywamy przestrzenią parametrów i
oznaczamy przez Ω
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (Funkcja parametryczna)
Funkcją parametryczną nazywamy funkcję T : Ω → R
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (Funkcja parametryczna)
Funkcją parametryczną nazywamy funkcję T : Ω → R
Przykład (1/2)
Populacja={student1, student2, student3}
Cecha=ocena z egzaminu
Parametr=[2, 4, 5]
Przestrzeń parametrów
Ω = {1, 2, 3, 4, 5} × {1, 2, 3, 4, 5} × {1, 2, 3, 4, 5}
Zauważmy, że
[2, 4, 5] ∈ Ω
Przykład funkcji parametrycznej T : Ω → R:
T (Y1 , Y2 , Y3 ) =
3
1X
Yi
3 i=1
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Definicja (Funkcja parametryczna)
Funkcją parametryczną nazywamy funkcję T : Ω → R
Przykład (2/2)
Wartość globalna cechy Y: Y =
N
P
Yi
i=1
Średnia cechy Y: Ȳ =
1
N
Wariancja cechy Y: S 2 =
N
P
Yi
i=1
1
N −1
N
P
(Yi − Ȳ )2
i=1
Minimalna wartość cechy Y: Ymin = min{Y1 , . . . , YN }
Maksymalna wartość cechy Y: Ymax = max{Y1 , . . . , YN }
Y
Iloraz wartości globalnych cech X , Y: R =
X
N
P
Kowariancja cech X , Y: Sxy = N 1−1
(Xj − X̄)(Yj − Ȳ )
j=1
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Rodzaje prób
Definicja (próba uporządkowana)
Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor
s = [j1 , j2 , . . . , jn ] ∈ U n
Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s).
Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S
Metoda reprezentacyjna
Podstawowe pojęcia
Populacja, cecha, parametr, próba
Rodzaje prób
Definicja (próba uporządkowana)
Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor
s = [j1 , j2 , . . . , jn ] ∈ U n
Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s).
Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S
Definicja (próba nieuporządkowana)
Próbą nieuporządkowaną s0 o liczebności ν z populacji U nazywamy zbiór
s0 ⊂ U
Dla podkreślenia, że liczebność ν dotyczy próby s będziemy ją oznaczać przez ν(s).
Zbiór wszystkich nieuporządkowanych prób będziemy oznaczać przez S 0
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (plan losowania)
Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S :
p(s) ≥ 0
X
s∈S
p(s) = 1
(∀s ∈ S )
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (plan losowania)
Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S :
p(s) ≥ 0
X
(∀s ∈ S )
p(s) = 1
s∈S
Definicja (pradopodobieństwo k−tego rzędu)
Prawdopodobieństwo pierwszego rzędu: πj =
P
p(s)
s3j
Prawdopodobieństwo drugiego rzędu: πj,k =
P
p(s)
s3j,k
Prawdopodobieństwo k–tego rzędu: πj1 ,...,jk =
Zapis
P
P
p(s)
s3j1 ,...,jk
oznacza, że sumowanie odbywa się potakich s ∈ S , które zawierają
s3j,k
jednostki j, k.
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (parametry efektywnej liczebności próby)
P
Oczekiwana efektywna liczebność próby: ν = E[ν(S)] =
ν(s)p(s)
s∈S
Wariancja efektywnej liczebności próby: D2 [ν(S)] =
P
(ν(s) − ν)2 p(s)
s∈S
ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem
p(s)
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (parametry efektywnej liczebności próby)
P
Oczekiwana efektywna liczebność próby: ν = E[ν(S)] =
ν(s)p(s)
s∈S
Wariancja efektywnej liczebności próby: D2 [ν(S)] =
P
(ν(s) − ν)2 p(s)
s∈S
ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem
p(s)
Definicja (schemat losowania)
Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z
populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych
jednostek w każdym ciągnieniu.
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (parametry efektywnej liczebności próby)
P
Oczekiwana efektywna liczebność próby: ν = E[ν(S)] =
ν(s)p(s)
s∈S
Wariancja efektywnej liczebności próby: D2 [ν(S)] =
P
(ν(s) − ν)2 p(s)
s∈S
ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem
p(s)
Definicja (schemat losowania)
Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z
populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych
jednostek w każdym ciągnieniu.
Przykład (1/2): Losowanie proste ze zwracaniem (lpzz)
Niech u, u1 , u2 , . . . , ui−1 ∈ U oraz U ma rozmiar N
Au –zdarzenie oznaczające, że w i−tym ciągnięciu wylosowaliśmy element u
Au1 ,...,ui−1 –zdarzenie oznaczające, że w poprzednich ciągnięciach (od 1 do i − 1)
wyciągnęliśmy elementy u1 , . . . , ui−1
W losowaniu ze zwracaniem zachodzi P (Au |Au1 ,...,ui−1 ) =
u, oraz u1 , . . . , ui−1 .
1
N
dla dowolnych
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (parametry efektywnej liczebności próby)
P
Oczekiwana efektywna liczebność próby: ν = E[ν(S)] =
ν(s)p(s)
s∈S
Wariancja efektywnej liczebności próby: D2 [ν(S)] =
P
(ν(s) − ν)2 p(s)
s∈S
ν(S) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem
p(s)
Definicja (schemat losowania)
Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z
populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych
jednostek w każdym ciągnieniu.
Przykład (2/2): Losowanie proste bez zwracania (lpbz)
W losowaniu bez zwracania zachodzi
P (Au |Au1 ,...,ui−1 ) =
1
dla u ∈
/ {u1 , . . . , ui−1 }
N − (i − 1)
oraz
P (Au |Au1 ,...,ui−1 ) = 0 w przeciwnym przypadku.
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania
Prawdopodobieństwa pierwszego rzędu w losowaniach prostych
πj – prawdopodobieństwo wylosowania j–tego elementu w próbie
1 − πj – prawdopodobieństwo niewylosowania j–tego elementu w próbie
Pobieramy próbę n – elementową. Losujemy ze zwracaniem.
1 n
)
N
Pobieramy próbę n – elementową. Losujemy bez zwracania.
N −1
n
n−1
πj =
=
N
N
1 − πj = (1 −
n
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania
Losowanie z prawdopodobieństwami proporcjonalnymi do wartości cechu X i ze
zwracaniem (lppxzz)
Niech składowe parametru [X1 , . . . , XN ] będą większe od zera. Określamy
prawdopodobieństwo pj , j = 1, . . . , N, wylosowania j–tego elementu populacji
następująco:
Xj
pj =
X
Zgodnie z zadanym rozkładem prawdopdobieństwa losujemy próbę n−elementową.
Ai −zdarzenie polegające na tym, że i−ty elment nie pojawi się w próbie.
Stąd
πij = 1 − P (Ai ∪ Aj ) = 1 − P (Ai ) − P (Aj ) + P (Ai ∩ Aj ) =
= 1 − (1 − pi )n − (1 − pj )n + (1 − pi − pj )n
Zauważmy: Ai ∩ Aj − zdarzenie polegające na tym, że i−ty oraz j−ty elment nie
pojawi się w próbie.
Metoda reprezentacyjna
Podstawowe pojęcia
Plan losowania, schemat losowania, operat losowania
Definicja (operat losowania)
Operatem losowania nazywamy wykaz jednostek badania lub ich zespołów, zwanych
jednostkami losowania. Każdej jednostce jest przyporządkowany identyfikator. Jeżeli
losujemy jednostki badania, mówimy o losowaniu indywidualnym, jeżeli zespoły, o
zespołowym.
Definicja (przestrzeń prób)
Niech U = {1, 2, . . . , N }. Możemy wówczas przyjąć, że Ω = Ω1 × . . . ΩN . Niech
Ωs = Ωj1 × . . . × Ωjn dla s = (j1 , . . . , jn ) ∈ S . Zbiór
P=
[
s∈S
nazywamy przestrzenią prób.
Ωs
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Definicja (statystyka)
Funkcję t : P → R nazywamy statystyką.
Definicja (estymator)
Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę
t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y )
nazywamy oceną funkcji parametrycznej T .
Estymatory
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Definicja (statystyka)
Funkcję t : P → R nazywamy statystyką.
Definicja (estymator)
Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę
t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y )
nazywamy oceną funkcji parametrycznej T .
Estymatory
Estymator liniowy jednorodny
t(Ys ) =
s
X
wi Yji
i=1
dla s = (j1 , j2 , . . . , jn ), Ys = (Yj1 , . . . , Yjn ) oraz ustalonych w1 , w2 , . . . , wn ∈ R
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Definicja (statystyka)
Funkcję t : P → R nazywamy statystyką.
Definicja (estymator)
Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę
t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y )
nazywamy oceną funkcji parametrycznej T .
Estymatory
Estymator Horvitza–Thompsona: ȳHT (plan lppbz)
t(Ys0 ) =
n
1 X Yji
N i=1 πji
dla s0 = {j1 , j2 , . . . , jn }, Ys0 = (Yj1 , . . . , Yjn ).
P
Oznaczenie: πi = s0 3i p(s0 )
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Definicja (statystyka)
Funkcję t : P → R nazywamy statystyką.
Definicja (estymator)
Niech T : Ω → R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę
t : P → Θ nazywamy estymatorem funkcji parametrycznej T . Jeśli Y ∈ P, to t(Y )
nazywamy oceną funkcji parametrycznej T .
Estymatory
Estymator Hansena–Hurwitza: ȳHH (plan lppxzz)
t(Ys ) =
n
n
1 X Yji
X̄ X Yji
=
N i=1 npji
n i=1 Xji
dla s = (j1 , j2 , . . . , jn ), Ys = (Yj1 , . . . , Yjn )
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Parametry estymatora
Definicja (estymator nieobciążony)
Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość
s ∈ S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Estymator t
nazywamy nieobciążonym dla funkcji parametrycznej T , jeżeli
X
Ep (t(YS )) =
t(Ys )p(s) = T (Y)
s∈S
Wartość oczekiwaną Ep (t(YS )) będziemy dla uproszczenia oznaczać przez Ep (t) lub
przez E(t).
Jeżeli estymator jest obciążony, to różnica Ep (t(YS )) − T (Y) nazywa się obciążeniem
estymatora. Różnicę tę będziemy oznaczać przez B(t).
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Parametry estymatora
Definicja (wariancja estymatora)
Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość
s ∈ S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Wariancją
estymatora t nazywamy wyrażenie
X
Dp2 (t(YS )) =
[t(Ys ) − Ep (t(YS ))]2 p(s)
s∈S
=
X
t(Ys )2 p(s) − [Ep (t(YS ))]2
s∈S
Wariancję Dp2 (t(YS )) będziemy oznaczać przez Dp2 (t) lub D2 (t).
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Parametry estymatora
Definicja (błąd średniokwadratowy)
Przy oznaczeniach, jak w powyższych definicjach, średnim błędem
średniokwadratowym estymatora t jest wyrażenie
X
(t(Ys ) − T (Y))2 p(s)
M SEp (t) =
s∈S
= Dp2 (t(YS )) + [B(t)]2
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wartość oczekiwana estymatora Horvitza-Thompsona
Twierdzenie
Estymator Horvitza Thompsona jest nieobciążony
Pomiń dowód
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wartość oczekiwana estymatora Horvitza-Thompsona
Twierdzenie
Estymator Horvitza Thompsona jest nieobciążony
Dowód

Ep (ȳHT ) =
X
s0 ∈S


X Yj
1
0

 p(s )
N
πj
0
0
j∈s
N X
X
1 Yj
=
p(s0 )
N πj
j=1 0
s 3j
N
X
1 Yj X
=
p(s0 ) = Ȳ
N
πj 0
j=1
s 3j
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Wariancja estymatora Horvitza-Thompsona wynosi

N
X
1 X 2 1
2
Dp (ȳHT ) = 2
Yj
−1 +
N
π
j
j=1
1≤j,k≤N ;
j6=k

πjk
− 1 Yj Yk 
πj πk
Pomiń dowód
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Wariancja estymatora Horvitza-Thompsona wynosi

N
X
1 X 2 1
2
Dp (ȳHT ) = 2
Yj
−1 +
N
π
j
j=1
1≤j,k≤N ;
j6=k

πjk
− 1 Yj Yk 
πj πk
Dowód
2
X Yj
1
 − [Ȳ ]2 =
= Ep [(yHT ) ] − [Ep (yHT )] = Ep 
N
πj
0
j∈S


X Yj Yk 
 X Yj 2
1
 − [Ȳ ]2 =
= 2E
+

N
π
πj πk 
j
0
j,k∈S0

Dp2 (ȳHT )
2
2
j∈S
j6=k
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Wariancja estymatora Horvitza-Thompsona wynosi

N
X
1 X 2 1
2
Dp (ȳHT ) = 2
Yj
−1 +
N
π
j
j=1
1≤j,k≤N ;
j6=k

πjk
− 1 Yj Yk 
πj πk
Dowód


N
2
1  X Yj X
p(s0 ) +
= 2
N j=1 πj2 0
s 3j
X
1≤j,k≤N
j6=k
Yj Yk
πj πk
X
s0 3j,k

2
p(s0 )
 − [Ȳ ] =
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Wariancja estymatora Horvitza-Thompsona wynosi

N
X
1 X 2 1
2
Dp (ȳHT ) = 2
Yj
−1 +
N
π
j
j=1
1≤j,k≤N ;
j6=k

πjk
− 1 Yj Yk 
πj πk
Dowód


N
2
1  X Yj
= 2
+
N j=1 πj

N
X
1
Yj2
= 2
N
j=1
X
1≤j,k≤N
j6=k

πjk
2
Yj Yk 
 − [Ȳ ] =
πj πk
X
1
−1 +
πj
1≤j,k≤N ;
j6=k

πjk
− 1 Yj Yk 
πj πk
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
1≤j,k≤N
j6=k
(πj πk − πjk )
Yj
Yk
−
πj
πk
2
Pomiń dowód
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
ν(s) =
N
X
Is (j)
j=1
Ep ν(S) =
N
X
j=1
Ep (IS (j)) =
N X
X
j=1 s3j
p(s) =
N
X
j=1
πj
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód

X
1≤j,k≤N
j6=k
πjk =
X
1≤j,k≤N
j6=k

= Ep 

Ep (IS (j)IS (k)) = Ep 

N
X
j=1
2
IS (j) −
N
X
j=1

X
1≤j,k≤N
j6=k

2
IS
(j)

IS (j)IS (k)
=

2
= Ep ν (S) −
N
X
j=1

IS (j) =
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
= Ep ν 2 (S) − ν(S) = Ep (ν 2 (S)) − Ep (ν(S)) =
= Dp2 (ν(S)) + [Ep (ν(S))]2 − Ep (ν(S))
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
Dla ν(S) ≡ ν mamy zatem tożsamości:
ν=
N
X
j=1
N
X
j=1
j6=k
πjk =
N
X
j=1
j6=k
πj ,
X
πjk = ν 2 − ν
1≤j,k≤N
j6=k
Ep (IS (j)IS (k)) = Ep (IS (k)
N
X
j=1
j6=k
= Ep (IS (k)[ν(S) − IS (k)]) = (ν − 1)πk
IS (j)) =
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
1
N2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
1
= 2
N
2
= 2
N
X
πk
1≤j,k≤N
j6=k
X
1≤j,k≤N
j6=k
πk
Yj2
πj
Yj2
πj
Yj
Yk
−
πj
πk
+ πj
2
Yk2
πk
− πjk
=
− πjk
Yk2
πk2
Yj2
πj2
− πjk
Yk2
πk2
Yj Y k
− Yj Yk + πjk
πj πk
Yj Yk
− 2Yj Yk + 2πjk
πj πk
!
=?
!
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
Ponieważ
X
1≤j,k≤N
j6=k
πk
Yj2
πj
=
N Y2 X
N
X
j
j=1
=ν
πj
πj
−
N Y2
X
j
j=1
k=1
k6=j
N Y2
X
j
j=1
πk =
N
X
j=1
Yj2
πj
(ν − πj ) =
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
oraz
X
πjk
1≤j,k≤N
j6=k
Yj2
πj2
=
N Y2 X
N
X
j
j=1
πj2
= (ν − 1)
1≤j,k≤N
j6=k
Yj Yk = Y 2 −
N Y2
X
j
N
X
j=1
N Y2
X
j
j=1
k=1
k6=j
j=1
X
πjk =
πj
Yj2
πj2
πj (ν − 1) =
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Dla ν(S) ≡ ν wariancja estymatora Horwitza–Thompsona wynosi
D2 (ȳHT ) =
1
2N 2
X
(πj πk − πjk )
1≤j,k≤N
j6=k
Yj
Yk
−
πj
πk
2
Dowód
mamy


N
N
N Y2
N
2
X
X
X
2  X Yj
j
2
2
=? 2 
ν
−
Y
−
(ν
−
1)
−
Y
+
Yj2 +
j
N  j=1 πj
π
j=1
j=1 j
j=1

=
N Y2
X
2 
j

+

2
N
π
j=1 j
1≤j,k≤N
j6=k

X
1≤j,k≤N
j6=k

N
2
2  X Yj
= 2
+

N
π
j=1 j
X

πjk
Yj Yk − Y 2 

πj πk

X
1≤j,k≤N
j6=k

πjk
2
2
Yj Yk 
 − 2[Ȳ ] = 2D (yHT )
πj πk
Yj Yk 

πjk
πj πk 
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Twierdzenie
Jeżeli πj > 0 dla j = 1, . . . , N oraz πij > 0 dla i, j = 1, . . . , N, j =
6 k, to statystyka


2
X
X
Yj
πjk
Yj Yk 
1
1 

−1 +
−1
Dˆ2 (ȳHT ) = 2 
N 
πj
πj
π
π
πj,k 
j
k
0
0
1≤j,k∈S
j∈S
j6=k
jest nieobciążonym estymatorem wariancji D2 (ȳHT ).
Dla ν(S0 ) ≡ ν ma on postać
Dˆ2 (ȳHT ) =
1
2N 2
X
j,k∈S0
j6=k
πj πk − πjk
πjk
Yj
Yk
−
πj
πk
2
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wniosek
Dla n−elementowej próby wylosowanej według planu lpbz (losowanie proste bez
zwracania)
n s2
Dˆ2 (ȳHT ) = 1 −
,
N n
gdzie
1 X
1 X
(Yi − ȲS0 )2 , ȲS0 =
Yi
s2 =
n−1
n
0
0
i∈S
i∈S
Uwaga. Jeżeli zmienna S0 zrealizuje się jako s0 = {j1 , . . . , jn }, to dla uproszczenia
będziemy oznaczać (Yj1 , . . . , Yjn ) przez (y1 , . . . , yn ). Wtedy możemy zapisać
s2 =
n
1 X
(yi − ȳ)2 ,
n − 1 i=1
ȳ =
n
1X
yi
n i=1
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wartość oczekiwana estymatora Hansena–Hurwitza (plan lppxzz, n(s) ≡ n)
Ze względu na sposób losowania estymator ten można zapisać w postaci
ȳHH =
n
1 X YJi
N i=1 npJi
gdzie J1 , J2 , . . . , Jn są niezależnymi zmiennymi losowymi o tym samym rozkładzie
p:
Wtedy Ep (ȳHH ) =
1
Nn
n
P
i=1
Ep
1
p1
YJi
pJi
2
p2
=
···
···
1
Nn
N
pN
n P
N
P
i=1 j=1
Yj
pj
pj = Ȳ
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wariancja estymatora Hansena–Hurwitza (plan lppxzz, n(s) ≡ n)
2
2
n
X
YJi
p
i=1 Ji

2
D (ȳHH ) = Ep (yHH ) − (Ep (yHH )) = Ep

n Y2
X
1
Ji

E
+
=
p

(N n)2
p2
i=1 J
i
X
1≤j,k≤n
j6=k
!2
− (Ȳ )2 =
YJi YJk 
 − (ȳ)2 =
p p 
Ji Jk


n X
N
X
Y2
1

=
pk k2 +

2
(N n)
pk
i=1 k=1
=
1
(N n)2
n
N
X
Yk2
k=1
pk
X
E
1≤j,k≤n
j6=k
YJ i
pJi
E
YJ k
pJk
!
+ n(n − 1)N 2 (Ȳ )2
2
N
1 X
Yk
=
pk
− Ȳ
n k=1
N pk
− (Ȳ )2 =
!

 − (ȳ)2 =

Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Zauważmy, że dla pk =
Yk
Y
=
PYk
k Yk
zachodzi D2 (ȳHH ) = 0.
Jeżeli dla k = 1, 2, . . . , N mamy pk = 1/N , to
ȳHH = ȳ =
n
1X
yi
n i=1
oraz
D2 (ȳHH ) = D2 (ȳ) =
N
1 1 X
·
(Yk − Ȳ )2
n N k=1
Uogólniony estymator różnicy dla średniej
ȳGD =
1 X Yi − Ei
+ Ē
N
πi
0
i∈S
gdzie E1 , . . . , EN są dowolnymi stałymi. W szczególności dla
Ei = cXi , i = 1, . . . , N , gdzie Xi są wartościami cechy dodatkowej X oraz c jest
stałą, estymator ten przyjmuje postać:


X Xi
1 X Yi
1
 = ȳHT + c(X̄ − x̄HT )
ȳGD =
+ c X̄ −
N
pi
N
πi
0
0
i∈S
i∈S
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Zatem E(ȳGD ) = Ȳ oraz
D2 (ȳGD ) = D2 (ȳHT ) + c2 D2 (x̄HT ) − 2cCov(x̄HT , ȳHT ),
Cov(x̄HT ,ȳHT )
.
D 2 (x̄HT )
która jest minimalizowana dla c =
Zatem najmniejsza wariancja wynosi:
D(ȳGD ) = D2 (ȳHT )[1 − %2 (x̄HT , ȳHT )]
Estymator Khamisa ȳK (losowanie zgodnie ze schematem lpzz)
Niech s0 = r(s), gdzie r jest funkcją redukcyjną
ȳK =
1 X
Yj
ν(S0 )
0
j∈S
Estymator Khamisa jest nieobciążony: E(ȳK ) = E(E(ȳK |ν(S0 ))) = E(Ȳ ) = Ȳ
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
Wariancja

2

1 X 
Yj =
ν(S0 )
j∈S0

 



X X 1
0
2
0
2  1
Yj ν(S ) + E D 
Yj ν(S ) =
E
=D
ν(S0 )
ν(S0 )
j∈S0
j∈S0
2
1
Nσ
1
= D2 (Ȳ ) + E
−
ν(S0 )
N N −1
2
D (ȳK ) = D 
N
1 X
(Yi − Ȳ )2
N i=1
1
N σ2
1
1
1
−
>
−
S 2 = D2 (ȳHT )
D2 (ȳK ) = E
ν(S0 )
N N −1
n
N
gdzie σ 2 =
gdzie D2 (ȳHT ) wyznaczone w przypadku: lpbz, ν ≡ n
Metoda reprezentacyjna
Podstawowe pojęcia
Statystyka, estymator
W przypadku lpzz i rozmiaru próby n mamy D2 (ȳHH ) = σ 2 /n
Zauważmy:
h
i
n
N E ν(S
0) − n
1
N
1
1
−
<
⇐⇒
<1
E
ν(S0 )
N N −1
n
N −1
Zatem
D2 (ȳHH ) > D2 (ȳK ) > D2 (ȳHT )
Metoda reprezentacyjna
Podstawowe pojęcia
Strategia losowania
Definicja (strategia losowania)
Strategią losowania nazywamy parę (p, t), gdzie p jest planem losowania, natomiast t
jest estymatorem funkcji parametrycznej T . Strategię losowania będziemy oznaczać
przez H(p, t). Jeśli estymator t jest nieobciążony, powiemy o strategii, że jest
nieobciążona.
Definicja (porównanie strategii)
Powiemy, że startegia H1 (p1 , t1 ) jest co najmniej tak dobra jak strategia H2 (p2 , t2 ),
jeżeli
M SEp1 (t1 ) ≤ M SEp2 (t2 )
dla wszystkich Y ∈ Ω. Jeżeli dodatkowo
M SEp1 (t1 ) < M SEp2 (t2 )
dla pewnego Y ∈ Ω, to mówimy, że strategia H1 (p1 , t1 ) jest lpesza od strategii
H2 (p2 , t2 )
Przypomnienie:
M SEp (t) =
X
s∈S
(t(Ys ) − T (Y))2 p(s)
Metoda reprezentacyjna
Podstawowe pojęcia
Strategia losowania
Przykład
Rozmiar próby: n
M SElpzz (ȳHH ) > M SElpzz (ȳK ) > M SElpbz (ȳHT )
Metoda reprezentacyjna
Wybrane zagadnienia
Przedział ufności dla średniej, minimalna liczebność próby
Problem
Jak ustalić liczebność próby n, aby błąd szacunku nie przekroczył zadanej wielkości d
ze z góry ustalonym prawdopodobieństwem 1 − α?
P (|tn − T | < d) = 1 − α
Definicja (minimalna liczebność próby)
Wielkość d nazywana jest maksymalnym dopuszczalnym błędem szacunku, natomiast
δ = d/T maksymalnym dopuszaczalnym względnym błędem szacunku
Przykład
W przypadku szacowania Ȳ na podstawie próby wylosowanej według schematu lpbz
mamy
P (|ȳ − Ȳ | < d) = P (ȳ − d < Ȳ < ȳ + d) = 1 − α
P (ȳ − u1−α/2 D(ȳ) < Ȳ < ȳ + u1−α/2 D(ȳ)) ≈ 1 − α
gdzie u1−α/2 jest kwantylem rozkładu normalnego
rzędu (1 − α/2) oraz
1
1
D2 (ȳ) =
−
S2
n
N
Metoda reprezentacyjna
Wybrane zagadnienia
Przedział ufności dla średniej, minimalna liczebność próby
Zatem
d = u1−α/2 D(ȳ)
δ = u1−α/2
D(ȳ)
Ȳ
oraz minimalna liczebność próby n = [n? ] + 1
n? =
N u21−α/2 S 2
N d2 +
u21−α/2 S 2
=
N u21−α/2 V 2
N δ 2 + u21−α/2 V 2
gdzie V = S/Ȳ – współczynnik zmienności
Przy wyznaczaniu minimalnej próby parametry, których nie znamy zastępujemy ich
oszacowaniami
Metoda reprezentacyjna
Wybrane zagadnienia
Estymatory złożone
Definicja ( estymator produktowy (iloczynowy))
Statystykę
x̄ȳ
ȳp =
, X̄ > 0
X̄
nazywamy estymatorem produktowym (iloczynowym) średniej Ȳ
Twierdzenie
Jeżeli n–elementowa próba wylosowana została według schematu lpbz z
N –elementowej populacji, to
E(ȳp ) = Ȳ + (1 − n/N )
2
Sxy
nX̄
+ O(n−2 )
n Sy2 + 2RSxy + R2 Sx2
M SE(ȳp ) = 1 −
+ O(n−2 )
N
n
gdzie
Sxy =
N
1 X
(Xj − X̄)(Yj − Ȳ )
N − 1 j=1
R=
Ȳ
X̄
Metoda reprezentacyjna
Wybrane zagadnienia
Estymatory złożone
Definicja (estymator ilorazowy)
Statystykę
ȳq =
ȳ
X̄ = rX̄
x̄
gdzie
r=
ȳ
x̄
nazywamy estymatorem ilorazowym średniej Ȳ .
Twierdzenie
Jeżeli n–elementowa próba wylosowana została według schematu lpbz z
N –elementowej populacji, to
E(ȳq ) = Ȳ + (1 − n/N )
RSx2 − Sxy
+ O(n−2 )
nX̄
n Sy2 − 2RSxy + R2 Sx2
M SE(ȳq ) = 1 −
+ O(n−2 )
N
n
Metoda reprezentacyjna
Wybrane zagadnienia
Estymatory złożone
Definicja (estymator liniowy)
Statystykę
ȳlr = ȳ + b(X̄ − x̄)
gdzie
s2xy
b=
s2x
=
Pn
i=1 (xi − x̄)(yi − ȳ)
Pn
2
i=1 (xi − x̄)
nazwywamy estymatorem liniowym regresyjnym
Twierdzenie
Jeżeli n–elementowa próba wylosowana została według schematu lpbz z
N –elementowej populacji, to
n
E(ȳlr ) = Ȳ + 1 −
C + O(n−2 )
N
gdzie
B
C=
N
P
(Yj − Ȳ )3 −
j=1
N
P
(Xj − X̄)2 (Yj − Ȳ )
j=1
(n − 1)(N − 1)Sx2
Metoda reprezentacyjna
Wybrane zagadnienia
Estymatory złożone
N
P
B=
(Xj − X̄)(Yj − Ȳ )
j=1
N
P
(Xj − X̄)2
j=1
oraz
n Sy2 (1 − ρ2xy )
M SE(ȳlr ) = 1 −
+ O(n−2 )
N
n
gdzie
ρxy =
Sxy
Sx
=B
Sx Sy
Sy
Metoda reprezentacyjna
Wybrane zagadnienia
Losowanie warstwowe
Zagadnienie (estymacja wartości średniej w losowaniu warstwowym)
Badamy cechę mierzalną Y. Populacja generalna o liczności N podzielona jest na L
warstw o licznościach Nh , h = 1, 2, . . . , L, przy czym
L
X
Nh = N.
h=1
Frakcja elementów w warstwie h wynosi Wh = Nh /N . Z każdej warstwy oddzielnie
losujemy nh elementów do próby. Dla próby n elementowej spełnione jest
nh =
Nh
n = Wh n,
N
h = 1, 2, . . . , L.
Metoda reprezentacyjna
Wybrane zagadnienia
Losowanie warstwowe
Z próby otrzymujemy wyniki
yih , i = 1, 2, . . . , nh , h = 1, 2, . . . , L.
Na podstawie próby szacujemy średnią wartość Ȳ populacji w następujący sposób:
ȳw =
L
L
X
1 X
Nh ȳh =
Wh ȳh ,
N h=1
h=1
gdzie
ȳh =
nh
1 X
yih
nh i=1
Wariancja tego estymatora wynosi:
D2 (ȳw ) =
1
1
−
n
N
X
L
Wh Sh2 ,
h=1
gdzie Sh2 jest wariancją w h–tej warstwie (jeżeli jej nie znamy, to z dużej próby można
ją oszacować za pomocą s2h ).
Metoda reprezentacyjna
Wybrane zagadnienia
Losowanie warstwowe
Jeżeli badana cecha w populacji ma rozkład zbliżony do normalnego lub gdy przy
innym rozkładzie próba jest duża, to przybliżony przedział ufności dla średniej ma
postać
ȳw − u1−α/2 D(ȳw ), ȳw + u1−α/2 D(ȳw )
Minimalna liczebność próby potrzebna do oszacowania średniej z maksymalnym
dopuszczalnym błędem szacunku d wynosi
L
P
n=
h=1
Wh Sh2
L
d2
1 P
+
Wh Sh2
u21−α/2
N h=1
Metoda reprezentacyjna
Wybrane zagadnienia
Losowanie warstwowe
Zagadnienie („optymalna” estymacja wartości średniej w losowaniu warstwowym)
Założenia są identyczne, jak w poprzednim zagadnieniu, z tą różnicą, że
• liczba wylosowanych elementów z h-tej warstwy wynosi
nh =
Wh Sh
n,
L
P
Wh Sh
h = 1, 2, . . . , L
h=1
• wariancja estymatora wynosi
1
D (ȳw ) =
n
2
L
X
h=1
!2
Wh Sh
−
L
1 X
Wh Sh2
N h=1
Metoda reprezentacyjna
Wybrane zagadnienia
Losowanie warstwowe
• minimalna liczebność próby wynosi
(
n=
L
P
Wh Sh )2
h=1
L
1 P
d2
Wh Sh2
+
u21−α/2
N h=1
Losowanie w zagadnieniu pierwszym nazywamy proporcjonalnym (do wielkości
warstwy), a w zagadnieniu drugim optymalnym (zapewnia najmniejszą wariancję
estymatora)
Download