STATYSTYKA MATEMATYCZNA

advertisement
STATYSTYKA
MATEMATYCZNA
Wnioskowanie statystyczne
- estymacja
treść
• Próba - reprezentatywność próby schematy losowania
• Rozkłady z próby
• Estymacja statystyczna - punktowa,
przedziałowa, wyznaczanie liczebności
próby
Obserwacja statystyczna moŜe być pełna (obejmująca
wszystkie jednostki populacji) - metody wnioskowania statystycznego
nie mają tu zastosowania, stosujemy metody opisu.
Obserwacja statystyczna moŜe być częściowa (obejmująca
część jednostek populacji - próbę) - metody wnioskowania są tu
niezbędne.
Dlaczego prowadzi się badania na podstawie próby?
• populacja nieskończona
• populacja skończona ale bardzo liczna
• określenie wartości cechy jest niszczące
Próba uŜyta do oceny populacji musi być reprezentatywna, nie
moŜe być tendencyjna.
Reprezentatywność próby uzyskuje się poprzez losowe
pobranie jednostek z populacji, powstaje w ten sposób próba losowa.
Struktura próby losowej moŜe, co najwyŜej, losowo róŜnić się od
struktury populacji.
Idealna próba reprezentatywna powinna dać idealny obraz populacji.
Oznacza to, Ŝe rozkład liczebności względnych (empirycznego
prawdopodobieństwa) powinien być taki sam jak w populacji.
MoŜliwe to jest tylko wtedy, kiedy znamy rozkład populacji.
Próba losowa - jednostki trafiają do próby w sposób losowy.
Prosta próba losowa (wygodna do rozwaŜań teoretycznych) - w trakcie losowania wszystkie jednostki populacji mają takie same
prawdopodobieństwo wejścia do próby.
Schematy losowania (ogólne):
- losowanie niezaleŜne - losowanie ze zwracaniem (powstaje prosta
próba losowa)
- losowanie zaleŜne - losowanie bez zwracania.
RóŜnica między tymi schematami stopniowo zanika przy
duŜych i rosnących liczebnościach populacji.
Opracowywaniem szczegółowych sposobów (schematów)
losowania dla zróŜnicowanych zadań wnioskowania statystycznego
zajmuje się wydzielony dział statystyki matematycznej pod nazwą Metoda reprezentacyjna. Stosując odpowiedni dla danego zadania
sposób losowania próby uzyskujemy lepsze oszacowanie
parametrów populacji - zmniejszamy błąd wnioskowania.
Przykładowe schematy stosowane w leśnictwie:
- losowanie warstwowe
- losowanie systematyczne
- losowanie dwufazowe
- losowanie wielostopniowe
Rozkłady z próby (rozkłady statystyk)
KaŜda funkcja wyznaczona na podstawie wyników próby
nosi nazwę statystyki z n-elementowej próby.
NajwaŜniejszą statystyką jest średnia z próby:
1
x = ∑ xi
n
Parametr populacji (np. µ) jest wielkością stałą nieznaną co do
wartości liczbowej.
Parametr próby (statystyka np. x ) jest zmienną o określonym
rozkładzie z próby (chociaŜ dla danej próby stałą).
Pojęcie rozkładu statystyki (rozkładu z próby) wyjaśnimy
na przykładzie średniej z próby.
Rozkład średniej z próby
Rozkład taki moglibyśmy uzyskać pobierając z populacji
bardzo wiele n-elementowych prób i obliczając średnie
arytmetyczne dla tych prób. Powstanie w ten sposób populacja
(wirtualna), w której jednostką będzie pojedyncza próba a cechą
(zmienną) będzie wyznaczona statystyka czyli średnia z próby.
Populacja taka będzie miała określony rozkład i określone
parametry: średnią arytmetyczną (EX) zwaną nadzieją
matematyczną lub wartością oczekiwaną, wariancję (D2X) oraz
odchylenie standardowe (DX) zwane błędem standardowym.
WaŜne twierdzenie: JeŜeli rozkład zmiennej losowej X jest
normalny, co zapisujemy
N(EX ; DX)
to rozkład statystyki X dla n-elementowej próby jest równieŜ
normalny, co zapisujemy 
DX 
N  EX ;

1
n

DX =
DX
czyli
1
n
D2 X = D2 X
EX = EX
n
Dla cechy statystycznej o rozkładzie: N(µ ; σ)
rozkład średniej z próby będzie: N  µ ; σ 
n

Natomiast dla dowolnego rozkładu, przy wzroście liczebności
próby, rozkład średniej z próby dąŜy do rozkładu normalnego.
Podsumujmy; Rozkład teoretyczny średniej z próby, w wielu
przypadkach, moŜe być przedstawiany za pomocą funkcji gęstości
rozkładu normalnego o parametrach:
EX = µ
DX =
σ
n
fx
fx
σ
σ
x − EX x − µ
=
z=
σ
DX
n
z=
σ
n
x
µ
Ex
x
µ
x−µ
σ
DX =
fz
DZ = 1
n
-3
-2 -1
0
1
2
3
z
Inne waŜne rozkładu statystyk (z próby):
Rozkład Studenta (W. Gosset)
∑ (x − x )
2
x−µ
n
t=
s
i
s=
k = n −1
n −1
ft
-4
-3
-2
-1
0
1
2
3
4
t
fχ2
Rozkład χ2
n
χ = ∑ zi
2
2
1
k=n
χ2
Rozkład F-Snedecora
fF
2
s1
F= 2
s2
dla
2
s1 > s2
2
k1 = n1 − 1
k 2 = n2 − 1
F
Estymacja statystyczna jest rodzajem wnioskowania o
wartościach parametrów populacji generalnej na podstawie
statystyk określonych z n-elementowych prób losowych.
Statystyka, na podstawie której szacujemy parametr
populacji Θ nazywamy estymatorem Tn parametru Θ.
Dobry estymator to taki, który daje moŜliwie najlepsze
oszacowanie parametru populacji.
Cechy dobrego estymatora:
1. NieobciąŜoność
ETn = Θ
2. Zgodność
lim P[Tn − Θ < ε ] = 1
n →∞
lim ETn → Θ
n →∞
3. Efektywność
Estymator efektywny to taki, który ma najmniejszą
zmienność (wariancję).
Estymacja punktowa polega na punktowym oszacowaniu
parametru Θ populacji generalnej na podstawie estymatora Tn.
Szacunek taki moŜe być uzupełniony określeniem błędu
standardowego estymatora.
Θ = Tn ; DTn lub pTn
pTn - błąd standardowy procentowy (tzw. błąd średni)
JeŜeli musimy stosować estymatory obciąŜone, to naleŜy
dodatkowo określić obciąŜenie BTn.
Θ = Tn - BTn ; DTn
W odniesieniu do średniej arytmetycznej:
µ=x ;
σ
n
Dx
lub
w
n
px
Estymacja przedziałowa polega na wyznaczeniu granic przedziału
liczbowego takiego, Ŝe z załoŜonym duŜym prawdopodobieństwem
moŜemy oczekiwać, iŜ szacowany parametr populacji ma wartość
liczbową z tego przedziału.
Przedział taki nazywamy - przedziałem ufności, to duŜe
prawdopodobieństwo - poziomem ufności (1 - α), a dopełnienie
poziomu ufności do jedności - poziomem istotności (α)
Estymacja przedziałowa, której teorię opracował Jerzy
Spława-Neyman jest znacznym krokiem do przodu w porównaniu z
estymacją punktową. PrzecieŜ prawdopodobieństwo tego, Ŝe wartość
estymatora będzie dokładnie równa wartości szacowanego parametru
będzie równa zeru [P(Tn = Θ) = 0]. Podanie błędu standardowego
trochę ten mankament łagodzi.
JeŜeli n dąŜy do nieskończoności to rozkład estymatora Tn
dąŜy do rozkładu normalnego; N(ETn ; DTn).
Dla niobciąŜonego estymatora: ETn = Θ
Wprowadźmy pojęcie zmiennej standaryzowanej estymatora Tn
parametru Θ
Tn − ETn Tn − Θ
z=
=
DTn
DTn
i wyznaczmy przedział tak, aby wartość statystyki z znalazła się
w nim z prawdopodobieństwem (1 - α ) (załoŜony poziom ufności)
P( z ∈< − zα / 2 ; zα / 2 > ) = 1 − α
1-α
α/2
α/2
- zα/2
0
zα/2
 Tn − Θ
P
∈< − zα / 2 ; zα / 2
 DTn

> = 1−α

P[(Tn − Θ ) ∈< − zα / 2 DTn ; zα / 2 DTn >] = 1 − α
P[Θ ∈< Tn − zα / 2 DTn ; Tn + zα / 2 DTn >] = 1 − α
Dla średniej pod warunkiem, Ŝe znamy σ populacji generalnej
σ
σ 

P µ ∈< x − zα / 2
; x + zα / 2
> = 1−α
n
n 

a jeŜeli mała próba to tylko z populacji o rozkładzie normalnym
JeŜeli nie znamy σ populacji generalnej to:
- dla duŜej próby moŜna przyjąć, Ŝe s = σ
s
s 

P µ ∈< x − zα / 2
; x + zα / 2
> = 1−α
n
n 

- dla małej próby, ale tylko w przypadku jeŜeli rozkład populacji
jest normalny, przedział ufności moŜemy zbudować posługując
się rozkładem Studenta
s
s 

P µ ∈< x − tα / 2
; x + tα / 2
> = 1−α
n
n 

Dla dowolnego rozkładu moŜemy posłuŜyć się nierównością Czebyszewa
s
s 
1

P  µ ∈< x − ε
; x +ε
> ≥ 1− 2
ε
n
n 

Wyznaczanie liczebności próby
- dla średniej przy znanej σ populacji generalnej
maksymalny błąd absolutny szacunku przy załoŜonym poziomie
istotności α będzie równy połowie przedziału ufności
x − µ = ∆ = zα / 2
σ
n
lub
∆ n = zα / 2σ
jeŜeli:
zα / 2σ
n=
∆
 zα / 2σ 
n=

 ∆ 
2
 zα / 2 w 
n=

 d 
∆
d = 100%
2
µ
σ
w = 100%
µ
- dla średniej jeŜeli nie znamy σ populacji generalnej
 tα / 2 s 
n=

 ∆ 
2
lub
 tα / 2 w 
n=

 d 
2
ale poniewaŜ t zaleŜy od α oraz k = n - 1 liczebność wyznaczamy
metodą kolejnych przybliŜeń.
Przykłady:
* ZałóŜmy, Ŝe rozkład wysokości w starszych
drzewostanach sosnowych jest normalny o odchyleniu
standardowym σ = 2 m. Oszacować średnią wysokość
drzewostanu składającego się z 450 drzew na podstawie próby
losowej o liczebności n = 9.
Wyniki pomiaru:
18.5; 22; 23.5; 21.5; 20.5; 22.5; 19; 20.5; 21
µ = x ; Dx =
189m
x=
= 21m ;
9
σ
n
;
Dx =
σ
n
N −n
N −1
2
441
Dx =
= 0,67 m ; D x = 0,67
= 0,66
449
9
µ = 21m ; D x = 0,67 m ;
D x = 0,66m
* Oszacować średnią pierśnicę drzewostanu na podstawie
próby prostej o liczebności n = 64 drzewa, jeŜeli średnia z tej próby
x = 28 oraz wiemy, Ŝe współczynnik zmienności pierśnic w
podobnych drzewostanach w = 20%.
w
µ = x ; px =
;
n
20
µ = 28 ; p x =
= 2,5%
8
* ZałóŜmy, Ŝe rozkład 5-letniego przyrostu wysokości w
drzewostanach sosnowych jest normalny o odchyleniu
standardowym σ = 0,2m. Wyznaczyć, przyjmując poziom ufności
1 - α = 0,95, przedział ufności dla średniego przyrostu wysokości
drzewostanu, jeŜeli średnia obliczona na podstawie próby prostej
o liczebności n = 16 drzew x = 0,8m.
σ
σ 

P µ ∈< x − zα / 2
; x + zα / 2
> = 1−α
n
n 

α 0,05
F (− zα / 2 ) = =
= 0,025 → zα / 2 = 1,96 ≈ 2
2
2
F ( zα / 2 ) = 1 −
α
2
= 1 − 0,025 = 0,975 → zα / 2 = 1,96 ≈ 2
0,2
0,2 

P µ ∈< 0,8 − 2
; 0,8 + 2
>  = 0,95
16
16 

P(µ ∈< 0,8 − 0,1; 0,8 + 0,1 > ) = 0,95
P(µ ∈< 0,7 ; 0,9 > ) = 0,95
* ZałóŜmy, Ŝe rozkład wysokości drzew drzewostanu
robiniowego jest normalny. Wyznaczyć przedział ufności dla średniej
wysokości tego drzewostanu, przy poziomie ufności 1 - α = 0,95,
jeŜeli określone na podstawie próby prostej o liczebności n = 9:
średnia x = 18m, odchylenie standardowe s = 2m.
s
s 

P µ ∈< x − tα / 2
; x + tα / 2
 = 1−α
n
n

tα/2 odczytujemy z tablic rozkładu Studenta na podstawie α i k = n - 1
2
2 

tα / 2 = 2,31; P µ ∈< 18 − 2,31
; 18 + 2,31
>  = 0,95
9
9 

P(µ ∈< 18 − 1,55 ; 18 + 1,55 > ) = 0,95 ; P(µ ∈< 16,45 ; 19,55 > ) = 0,95
* Wyznaczyć liczebność próby prostej tak aby z
prawdopodobieństwem 0,90 moŜna było oczekiwać, Ŝe błąd
określenia średniego pola przekroju pierśnicowego drzew pg w
danym drzewostanie nie przekroczy 5%, jeŜeli współczynnik
zmienności pierśnicowego pola przekroju drzew wg = 40%.
1 − α = 0,9 ; α = 0,1; Fzα / 2 = 1 − α / 2 = 0,95 ; zα / 2 = 1,65
2
2
 zα / 2 w   1,65 * 40 
2


n=
=
 = 13,2 = 174,24 ≅ 175

5

 p  
Download