Zagadnienia estymacji — Punktem wyjścia badania statystycznego

advertisement
Zagadnienia estymacji
— Punktem wyjścia badania statystycznego jest wylosowanie z całej populacji pewnej skończonej liczby n elementów
i zbadanie ich ze względu na zmienną losową (cechę) X. Uzyskane w ten sposób wartości x1 , x2 , . . . , xn badanej
cechy X są zaobserwowanymi wartościami n-elementowej próby.
— Statystyka opisowa ogranicza się do opisu uzyskanych wyników próby, bez wyciągania wniosków o całej populacji.
— W statystyce matematycznej, na podstawie wyników badania próbnego, wyciąga się wnioski dotyczące badanej
cechy w całej populacji.
Wnioskowanie statystyczne
— Do najważniejszych form wnioskowania statystycznego należą:
— estymacja (ocena) nieznanych parametrów bądź ich funkcji, które charakteryzują rozkład badanej cechy
populacji;
— weryfikacja (badanie prawdziwości) postawionych hipotez statystycznych.
— Wnioskowanie statystyczne jest oparte na częściowej informacji, więc dostarcza jedynie wniosków wiarygodnych, a
nie absolutnie prawdziwych.
— Wnioski wiarygodne, to wnioski prawdziwe z pewnym zadanym prawdopodobieństwem.
Próba losowa
— Dowolne dwie n-elementowe próbki z tej samej populacji są na ogół różne.
— Dlatego wygodnie jest traktować ciąg liczbowy x1 , . . . , xn jako realizację ciągu X1 , . . . , Xn , gdzie Xi dla i ∈
{1, 2, . . . , n} jest zmienną losową.
— Ciąg zmiennych losowych X1 , . . . , Xn nazywamy n-elementową próbą losową.
— Jeśli zmienne losowe X1 , . . . , Xn są niezależne i każda z nich ma rozkład taki, jak rozkład badanej cechy populacji,
to próbę nazywamy próbą prostą.
— Ciąg liczb x1 , . . . , xn nazywamy zaobserwowaną próbą losową lub próbką.
Estymacja punktowa
— W estymacji punktowej za ocenę wartości parametru przyjmuje się jedną konkretną wartość otrzymaną na podstawie wyników próby.
— Niech rozkład badanej cechy zależy od nieznanego parametru θ.
— Parametr ten będziemy szacowali na podstawie n-elementowej próby prostej X1 , . . . , Xn .
— Funkcję g(X1 , . . . , Xn ) będącą funkcją próby losowej X1 , . . . , Xn nazywamy statystyką.
— Statystyka jest funkcją zmiennych losowych, jest też zmienną losową mającą swój własny rozkład zależny od postaci
funkcji g i od rozkładu zmiennych X1 , . . . , Xn .
Przykłady statystyk
— średnia arytmetyczna X z próby
n
X=
1X
Xi
n i=1
wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x =
n
1X
xi , gdzie x1 , x2 , . . . , xn są wynikami próby
n i=1
— wariancja z próby
n
1X
S2 =
(Xi − X)2
n i=1
wartością tej statystyki jest wariancja empiryczna
n
s2 =
1X
(xi − x)2
n i=1
1
Przykłady statystyk
— wariancja z próby
n
1 X
(Xi − X)2
n − 1 i=1
Ŝ 2 =
wartością tej statystyki jest wariancja empiryczna
n
ŝ2 =
1 X
(xi − x)2
n − 1 i=1
√
— odchylenie standardowe S = S 2 z próby
wartość tej statystyki nazywana p
jest empirycznym odchyleniem standardowym i oznaczana jest symbolem s
— odchylenie standardowe Ŝ = Ŝ 2 z próby
wartość tej statystyki nazywana jest empirycznym odchyleniem standardowym i oznaczana jest symbolem ŝ
Estymatory
— Każdą statystykę θ̂n (X1 , . . . , Xn ), której wartości przyjmujemy do oceny (przybliżenia) nieznanego parametru θ,
nazywamy estymatorem parametru θ.
— Otrzymaną na podstawie realizacji konkretnej próby wartość estymatora nazywamy oceną (przybliżeniem,
oszacowaniem) tego parametru.
— Dla danego parametru θ można oczywiście utworzyć wiele estymatorów θ̂n (X1 , . . . , Xn ), ale dla uzyskania estymatora o możliwie najlepszych własnościach pożądane jest, aby spełniał on pewne warunki.
— Oczywiście wraz ze wzrostem liczności próby zwiększa się dokładność oszacowania parametru θ.
Estymatory
— Estymator θ̂n nazywamy estymatorem zgodnym parametru θ, jeżeli dla każdej liczby ε > 0 spełniony jest
warunek
lim P θ̂n − θ < ε = 1.
n→∞
— Estymator θ̂n nazywamy estymatorem nieobciążonym parametru θ, jeżeli dla każdego n zachodzi warunek
E(θ̂n ) = θ.
— Jeżeli istnieje n takie, że E(θ̂n ) 6= θ, to estymator θ̂n nazywamy estymatorem obciążonym parametru θ, a różnicę
Bn (θ) = E(θ̂n ) − θ nazywamy obciążeniem estymatora.
Estymatory
— Jeżeli
h
i
lim Bn (θ) = lim E(θ̂n ) − θ = 0
n→∞
n→∞
(lub inaczej lim E(θ̂n ) = θ), to estymator θ̂n nazywamy estymatorem asymptotycznie nieobciążonym
n→∞
parametru θ.
— Nieobciążony estymator θ̂n parametru θ nazywamy efektywnym lub najefektywniejszym, jeżeli ma najmniejszą
wariancję spośród nieobciążonych estymatorów tego parametru.
Estymatory
— Jeżeli istnieje estymator efektywny θ̃n parametru θ, zaś θ̂n jest innym estymatorem nieobciążonym tego parametru,
to efektywnością estymatora θ̂n jest liczba
ef θ̂n =
D2 θ̃n
D2 θ̂n
.
— Oczywiście zachodzi nierówność 0 < ef θ̂n 6 1, przy czym równość ma miejsce jedynie dla estymatora efektywnego.
2
— Estymator θ̂n nazywamy estymatorem asymptotycznie efektywnym parametru θ, jeżeli
lim ef θ̂n = 1.
n→∞
Przykłady estymatorów
— Statystyka X =
— Statystyka X =
1
n
n
X
Xi jest zgodnym i nieobciążonym estymatorem parametru µ (wartości średniej).
i=1
n
X
1
n
Xi jest najefektywniejszym estymatorem parametru µ populacji generalnej o rozkładzie
i=1
N (µ, σ).
n
1X
(Xi − X)2 jest obciążonym estymatorem wariancji σ 2 .
n i=1
n
1 X
— Statystyka Ŝ 2 =
(Xi − X)2 jest nieobciążonym estymatorem wariancji σ 2 .
n − 1 i=1
— Statystyka S 2 =
Estymacja przedziałowa
— Estymacja przedziałowa polega na podaniu tzw. przedziałów ufności dla nieznanych parametrów danego rozkładu
(bądź funkcji tych parametrów).
— Przedziałem ufności dla parametru θ na poziomie ufności 1 − α, gdzie 0 < α < 1, nazywamy przedział (θ1 , θ2 )
spełniający warunki:
— końce przedziału θ1 = θ1 (X1 , . . . , Xn ) oraz θ2 = θ2 (X1 , . . . , Xn ) są funkcjami próby losowej i nie zależą od
szacowanego parametru θ;
— prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru θ jest równe 1 − α, tzn. P (θ1 < θ <
θ2 ) = 1 − α.
— Liczbę 1 − α nazywamy współczynnikiem ufności.
Przedział ufności dla wartości średniej
Model I
— Cecha X populacji generalnej ma rozkład normalny N (µ, σ). Szacujemy metodą przedziałową nieznaną
wartość średnią µ przy założeniu, że znane jest odchylenie standardowe σ = σ0 .
Liczebność próby jest dowolna.
√
— W teorii statystyki dowodzi się, że jeżeli zmienna losowa X ma rozkład N (µ, σ), to zmienna losowa U = X−µ
n
σ
ma rozkład normalny N (0, 1).
— Oznacza to, że istnieje taka liczba uα , że dla ustalonego współczynnika ufności 1 − α będzie spełniony warunek
X − µ√ P n < uα = 1 − α.
σ
Przedział ufności dla wartości średniej
Model I c.d.
— Liczba uα jest wyznaczona w oparciu o wzór
P (|U | < uα ) = 1 − α lub P (|U | > uα ) = α lub Φ(uα ) = 1 −
α
.
2
— Wartość uα jest wartością standaryzowanego rozkładu normalnego N (0, 1) odczytaną z tablic statystycznych.
— Przy ustalonym współczynniku ufności 1 − α przedział ufności dla parametru µ przyjmuje postać
σ0
σ0
µ ∈ X − uα √ , X + uα √
.
n
n
3
Przedział ufności dla wartości średniej
Model II
— Cecha X populacji generalnej ma dowolny rozkład. Liczebość próby jest duża (n > 30). Szacujemy metodą
przedziałową nieznaną wartość średnią µ przy założeniu, że znane jest odchylenie standardowe σ = σ0 .
— W teorii statystyki dowodzi się, że średnia z próby X ma graniczny rozkład normalny N (µ, √σn ). Zmienna losowa
√
U = X−µ
n ma rozkład normalny N (0, 1).
σ
— Otrzymujemy więc przedział ufności dla parametru µ jak w modelu I:
σ0
σ0
µ ∈ X − uα √ , X + uα √
.
n
n
Przedział ufności dla wartości średniej
Model III
— Cecha X populacji generalnej ma dowolny rozkład o skończonej, ale nieznanej wariancji σ 2 . Liczebość
próby jest duża (n > 30). Szacujemy metodą przedziałową nieznaną wartość
q średnią µ.
n
— Ze względu na fakt, że próba jest duża można przyjąć, że σ ≈ Ŝ, gdzie Ŝ = n−1
S. Przedział ufności przyjmuje
więc postać jak w modelu I, przy czym nieznane odchylenie standardowe jest zastąpione estymatorem Ŝ
!
Ŝ
Ŝ
µ ∈ X − uα √ , X + uα √
.
n
n
Przedział ufności dla wartości średniej
Model III c.d.
— Z uwagi na równość
√Ŝ
n
=
√S
n−1
wyznaczony przedział ufności może być zastąpiony przedziałem równoważnym
µ∈
X − uα √
S
S
, X + uα √
n−1
n−1
.
Przedział ufności dla wartości średniej
Model IV
— Cecha X populacji generalnej ma rozkład normalny N (µ, σ) o nieznanym odchyleniu standardowym σ.
— Szacujemy metodą przedziałową nieznaną wartość średnią µ przy założeniu, że liczebność próby jest mała
(n < 30). Nie można więc przyjąć założenia σ ≈ Ŝ.
— Budowa przedziału ufności dla tego przypadku opiera się na statystyce
T =
X − µ√
n − 1,
S
która ma rozkład t-Studenta o n − 1 stopniach swobody.
Przedział ufności dla wartości średniej
Model IV c.d.
— Oznacza to, że w tablicach rozkładu t-Studenta możemy znaleźć wartość tα dla n−1 stopni swobody przy ustalonym
współczynniku ufności 1 − α, dla której spełniony będzie warunek
X − µ√
P n − 1 < tα = 1 − α.
S
— Liczna tα jest wyznaczona w oparciu o wzór
P (|T | < tα ) = 1 − α lub P (|T | > tα ) = α.
4
Przedział ufności dla wartości średniej
Model IV c.d.
— W wyniku przekształceń otrzymujemy przedział ufności dla parametru µ
S
S
µ ∈ X − tα √
, X + tα √
.
n−1
n−1
— Z uwagi na równość
√Ŝ
n
=
√S
n−1
wyznaczony przedział ufności może być zastąpiony przedziałem równoważnym:
Ŝ
Ŝ
X − t α √ , X + tα √
n
n
µ∈
!
.
Rozkład t-Studenta
— Zmienna losowa T ma rozkład t-Studenta o n stopniach swobody, jeżeli jej funkcja gęstości wyraża się wzorem
f (t) = √
1
nB
1 n
2, 2
t2
1+
n
− n+1
2
,
gdzie B jest funkcją beta
Z1
B(x, y) =
tx−1 (1 − t)y−1 dt, x > 0, y > 0.
0
— Dla funkcji gęstości rozkładu t-Studenta spełniony jest warunek f (−t) = f (t), a dla dystrybuanty F (−t) = 1−F (t).
Rozkład t-Studenta
+∞
Z
— Liczbę tα taką, że P (|T | > tα ) = 2
f (t)dt = α nazywamy wartością krytyczną rozkładu zmiennej losowej
tα
T.
1
— Mamy przy tym P (T 6 −tα ) = P (T > tα ) = α.
2
— Wartości krytyczne tα dla danego α i danej liczby stopni swobody n są stablicowane.
— Przy n → ∞ rozkład t-Studenta dąży do rozkładu normalnego standaryzowanego N (0, 1).
5
Download