Estymacja przedziałowa parametrów strukturalnych zbiorowości

advertisement
Estymacja przedziałowa parametrów strukturalnych zbiorowości generalnej
Parametr zbiorowości generalnej () - miara opisowa, np. średnia arytmetyczna
(  ), odchylenie standardowe ( ), czy wskaźnik struktury ( p ) zbiorowości generalnej,
której wartość jest na ogół nie znana.
Estymacja, czyli szacowanie parametrów, polega na podaniu ocen parametrów populacji
generalnej na podstawie statystyki uzyskanej z próby losowej.
Statystyki wyliczone na podstawie pobranych z populacji grup losowych z teorii estymacji
noszą nazwę estymatorów. Estymatorem jest więc każda statystyka wyliczona z próby
losowej, która służy do szacowania odpowiadającego jej parametru populacji generalnej.
Aby statystyki mogły być uznane za dobre estymatory powinny charakteryzować się
pewnymi cechami:
1) Nieobciążoność – jeśli wartość oczekiwana estymatora stosowanego do
wyznaczenia nieznanego parametru zbiorowości generalnej jest równa wartości tego
parametru, to taki estymator nazywamy nieobciążonym:
E(Tn )  
2) Zgodność – własność estymatora powodująca, że wraz ze wzrostem liczebności
próby wartość estymatora zbliża się do parametru zbiorowości generalnej. Innymi
słowy różnica między tymi wielkościami podlega działaniu prawa wielkich liczb:
lim P{Tn     }  1
n
gdzie:
 0
jest dowolnie małą liczbą
3) Efektywność – spośród dwóch estymatorów wybieramy ten, którego wariancja jest
mniejsza. Miarą efektywności estymatora jest jego wariancja
D 2 (Tn ) .
Wyróżniamy dwa rodzaje estymacji:
1) Estymacja punktowa polega na podaniu wielkości szacowanego parametru, która
jest równa wartości estymatora. Ponieważ z reguły wielkości estymatora różnią się
od wartości parametru populacji generalnej, podaje się jednocześnie średni błąd
szacunku, czyli odchylenie standardowe estymatora.
2) Estymacja przedziałowa polega na skonstruowaniu pewnego przedziału
liczbowego, zwanego przedziałem ufności (Neymana), który z określonym
prawdopodobieństwem pokryje estymarowy parametr.
Losowanie niezależne (ze zwrotem) – proces wybory jednostek do próby, w którym
każdorazowo elementy zbiorowości generalnej mają takie samo prawdopodobieństwo
dostania się do próby.
Rozkład estymatora w próbie – rozkład prawdopodobieństwa wskazujący na wszystkie
możliwe wielkości, jakie może przyjąć dana statystyka (np. średnia arytmetyczna w
próbie, odchylenie standardowe w próbie czy częstość względna w próbie).
Błąd standardowy – odchylenie standardowe estymatora
Tn , które zapisujemy  (Tn ) .
Zbieżność do rozkładu normalnego – jeśli liczba jednostek obserwacji dąży do
nieskończoności (w praktyce oznacza to zazwyczaj n  30 ), to rozkład estymatora Tn
jest zbliżony do rozkładu normalnego.
Wartość oczekiwana średniej arytmetycznej z próby
E (x )  
gdzie:
 - wartość średniej w zbiorowości generalnej,
x - wartość średniej w próbie.
Błąd standardowy średniej arytmetycznej z próby
x 

n
Wartość oczekiwana wskaźnika struktury z próby
E( x )  p
gdzie:
p - nieznana wartość wskaźnika struktury (częstości względnej) zbiorowości
generalnej
Błąd standardowy wskaźnika struktury z próby
p 
p(1  p)
n
gdzie:
p - nieznana wartość wskaźnika struktury z próby
Estymacja przedziałowa nieznanej wartości średniej populacji generalnej
Współczynnik ufności – dzięki estymacji przedziałowej wyznacza się przedział
liczbowy, który z pewnym prawdopodobieństwem zawiera nieznaną wartość parametru.
To prawdopodobieństwo nazywane jest współczynnikiem ufności, a oszacowany przedział
– przedziałem ufności (Neymana).
Współczynnik ufności oznacza się: 1   . Najczęściej ma on takie wartości:
0,99
0,95
0,90
2,58
1,96
1,64
Przedział ufności Neymana ma postać ogólną:
P{Tn  z / 2 (Tn )    Tn  z / 2 (Tn )}  1  
gdzie:
z / 2 - wartość zmiennej losowej w rozkładzie N (0;1) , takiej że P( Z  z / 2 )  1  
lub następującą formułę:
P{Tn  t / 2 (Tn )    Tn  t / 2 (Tn )}  1  
gdzie:
t / 2 - wartość zmiennej losowej w rozkładzie t-Studenta przy
takiej że prawdopodobieństwo
n  1 stopniach swobody,
P( T  t / 2 )  1   .
Zbieżność rozkładu średniej z próby ( x ) do rozkładu normalnego – wraz ze
wzrostem liczby jednostek w próbie (n  30) estymator x
ma rozkład zbliżony do
rozkładu normalnego o nadziei matematycznej (wartości oczekiwanej) równej
odchyleniu standardowym

 i
. Jest to szczególny przypadek działania prawa wielkich
n
liczb.
Normalność rozkładu średniej z prób ( x ) - jeśli zmienna losowa X ma rozkład
normalny, to także x ma rozkład normalny, bez względu na wielkość próby.
Zbieżność do rozkładu t-Studenta – gdy nie jest możliwe skorzystanie ze zbieżności
rozkładu x do rozkładu normalnego, zmienna X w zbiorowości generalnej ma rozkład
normalny oraz nieznane jest  z populacji generalnej, wówczas korzystamy ze
zbieżności statystyki
S
lub S x 
n
n  30 lub n  30 ).
Sx 
x
do rozkładu t-Studenta o n  1 stopniach swobody, gdzie
Sx
S
, w zależności od liczebności próby n (odpowiednio
n 1
 w zależności od informacji pochodzących ze
zbiorowości generalnej, rozkładu statystyki x oraz wielkości próby przedstawia schemat.
Sposób budowy przedziałów ufności dla
tak
nie
σ znane
X  N (  , )
x ma rozkład normalny lub
asymptotycznie normalny o
parametrach  i  x
nie
x 

n
x
x
ma rozkład zbliżony
do t-Studenta o n-1
stopnia swobody
tak
n  1  30
1)
  x  z / 2 x
Sx 
S
n
Sˆ x 
S
n 1
1)
2)
  x  z / 2 S x
  x  t / 2Sˆx
Objaśnienie do powyższego schematu:
Schemat ten przedstawia przedziały ufności dla nieznanej wartości średniej (  ) zmiennej
X o rozkładzie normalnym lub zbliżonym do normalnego
z / 2 to wartość Z o rozkładzie N (0,1), taka że P( Z  z / 2  1  
2) t / 2 to wartość T o rozkładzie t-Studenta o n  1 stopniach swobody, która spełnia
1)
zależność
P( T  t / 2  
Przykład 10
(na przedział ufności dla wartości oczekiwanej)
W pewnym zakładzie produkcyjnym postanowiono zbadać staż pracy pracowników
umysłowych. W tym celu z populacji tych pracowników wylosowano grupę (losowanie
niezależne (ze zwrotem)) o liczbie n  196 pracowników, z której obliczono średnią
x  6,92 lat. Dotychczasowe doświadczenie wskazuje, że rozkład stażu pracowników
umysłowych jest rozkładem normalnym z odchyleniem standardowym 2,8 lat (  ).
Przyjmując współczynnik ufności 1    0,95 zbudować przedział ufności dla nieznanego
średniego stażu pracy w populacji pracowników umysłowych w tym zakładzie.
Zgodnie ze schematem ustalamy, że spełnione są warunki:
 - odchylenie standardowe
x - rozkład normalny
Zatem korzystamy z następującego wzoru na przedział ufności dla nieznanej wartości
(  ) ze zbiorowości generalnej:
  x  z / 2   x
Na podstawie tablic dystrybuanty rozkładu normalnego dla
1    0,95 wiemy, że
F ( z / 2 )  1 

2
(
0,05
)  0,975
2
z / 2  1,96
x 

n

2,8
2,8

 0,2
196 14
Przedział ufności przyjmuje postać:
  x  z / 2   x
  6,9  1,96  0,2
  6,9  0,392
6,508    7,292
Odp.: Z prawdopodobieństwem 0,95 możemy przypuszczać, że średni staż pracy w
populacji pracowników umysłowych w tym zakładzie zawiera się w przedziale (6,508 lat;
7,292 lat). Innymi słowy 95% wszystkich takich przedziałów pokryje parametr (  ) ,
natomiast 5% nie pokryje. Godzimy się więc z ryzykiem błędu, że w 5 przypadkach na
100 nieznana wartość średniego stażu pracy w populacji generalnej znajduje się poza
wyznaczonym przedziałem liczbowym.
Wykreślenie graficzne
f(z)
F ( z / 2 )  0,975
 z / 2
0
z / 2
Przykład 11
Odchylenie standardowe
W losowo wybranej grupie 450 samochodów osobowych marki FSO 1500
przeprowadzono badanie zużycia benzyny na tej samej dla wszystkich samochodów
trasie długości 100 km. Okazało się, że odchylenie standardowe zużycia benzyny dla tej
grupy samochodów wynosiło 0,8 litra na 100 km.
Zakładając, że badana cecha ma rozkład normalny wyznaczyć przedział ufności dla
odchylenia standardowego ze zużyciem benzyny przez wszystkie samochody tej marki na
takiej trasie. Przyjąć współczynnik ufności 0,99.
Rozwiązanie
P{S  z / 2
S
S
   S  z / 2
}  1
2n
2n
S = 0,8 (odchylenie standardowe)
0,8
0,8
   0,8  2,58 
 0,8  0,068    0,8  0,068 
900
900
0,731    0,869
0,8  2,58 
0,9
0,8
   0,8  2,58 

30
30
0,731    0,869
0,8  2,58 
Odp.: Otrzymany przedział 0,731 i 0,869 jest jednym z tych wszystkich możliwych do
otrzymania przedziałów, które z prawdopodobieństwem 0,99 pokrywają odchylenie
standardowe zużycia benzyny przez samochody FSO 1500 na trasie 100 km.
Przykład 12
W celu oszacowania średniej długości pewnego detalu produkowanego w
przedsiębiorstwie wylosowano 17 detali i otrzymano średnią ich długość 32 cm oraz
odchylenie standardowe 0,6 mm.
Oszacować przy współczynniku ufności 0,90 wartość oczekiwaną produkowanych w tej
firmie detali.
Rozwiązanie
Rozkład t-Studenta
Rozwiązaniem jest przedział liczbowy dla nieznanej (  ) , który wyznaczymy ze schematu
przy założeniu, że x zbiorowości generalnej ma rozkład normalny.
Z tablic rozkładu t-Studenta otrzymujemy dla liczby stopnia
17  1  16 i   0,10
t / 2  1,746
Skorzystamy ze wzoru:
  x  t / 2  Sˆ x
Sˆ x 
Sˆ x 
S
n 1
S
0,6
0,6 0,6



 0,15
4
n 1
16
16
  32  1,746  0,15
32  0,262  31,738
31,738    32,262
n  1 , który u nas równa się
Odp.: W 90% możemy przypuszczać, że w przedziale od 31,738 do 32,262 produkuje się
średnią długość detali w tym przedsiębiorstwie.
Wykres graficzny
f(t)

2

 0,05
2
 t / 2
Graficzna ilustracja
Estymacja
generalnej
0
 0,05
t
t / 2
P( T  t / 2  0,10
przedziałowa
nieznanego
wskaźnika
struktury
zbiorowości
Estymatorem wskaźnika struktury frakcji (prawdopodobieństwa) jest wskaźnik
struktury z próby losowej.
Warunkiem często zalecanym w procederze szacowania wskaźnika struktury ( p ) jest
duża próba (n  100, a nawet n  120) . W zastosowaniach statystyki warunek ten jest
znacznie łagodniejszy (n  30) . Oczywiście, im większa próba, tym bardziej precyzyjne
wyniki.
Błąd standardowy estymatora p
p 
p(1  p)
n
Przedział ufności dla nieznanego wskaźnika struktury zbiorowości generalnej
(p)
p  p  z / 2  p
gdzie:
 p
Tn  p
z / 2 - wartość zmiennej losowej standaryzowanej w rozkładzie normalnym, przy danym
1   , gdyż mamy zawsze do czynienia z dużą próbą.
Przedział ufności dla p (rząd wielkości p nie jest znany)
p  p  z / 2
p(1  p)
n
Przykład 12
Chcemy znaleźć prawdopodobieństwo tego, że losowo wybrany pracownik pewnego
dużego zakładu będzie miał wykształcenie wyższe. W tym celu wylosowano próbę liczącą
400 pracowników i stwierdzono, że 32 spośród nich posiada wykształcenie wyższe.
Oszacować na tej podstawie przy współczynniku ufności 0,95 udział osób z
wykształceniem wyższym spośród zatrudnionych w tym przedsiębiorstwie.
Rozwiązanie zadania
 p
Tn  p
p – wskaźnik struktury
32
 0,08
400
1  p  1  0,08  0,92
p
F ( z / 2 )  0,975
P  0,08  1,96 
z / 2  1,96
0,08  0,92
 0,08  0,027
400
0,053  P  0,107
Odp.: Z 95% wiarygodnością możemy przypuszczać, że odsetek osób z wykształceniem
wyższym w tym przedsiębiorstwie waha się w przedziale od 5,3% do 10,7%.
Można niekiedy zastosować najostrożniejszy sposób postępowania. Polega on na
przyjęciu maksymalnej wartości  p :
p 
p(1  p)
,
n
przy danym
Przedział ufności dla
1
n osiąga maksimum dla p  1  p , czyli p  .
2
p (najostrożniejszy sposób postępowania przy danym n)
p  p  z / 2
1
2 n
Niezbędna (minimalna) liczebność próby w przypadku szacowania p (wskaźnika
struktury)
( z )2  p(1  p)
n   /2 2
,
E
gdzie
E  z / 2 p
Gdy p nie jest wstępnie znane (np. brak badań pilotażowych czy innych wcześniejszych
informacji), wówczas można przyjąć:
p(1  p)  p (1  p )
Zatem wzór na niezbędną liczebność próby przyjmuje następującą postać:
( z / 2 )2  p(1  p)
n
E2
lub przy postępowaniu w najostrożniejszy sposób ( p  1  p 
1
):
2
(z )2
n   / 22
4E
gdzie:
E - bezwzględny maksymalny błąd szacunku ( E  z / 2   p ).
Przykład 13
Właściciel sklepu z artykułami żywnościowymi chce ustalić procent swoich stałych
klientów spośród ogółu klientów jego sklepu. Jak liczną grupę powinien wylosować, aby z
prawdopodobieństwem 95% maksymalny błąd szacunku nie przekraczał 5%?
Rozwiązanie:
 p
Tn  p
n?
1    95
E  0,05
z / 2  1,96
p  1  p  0,5
n
1,96 2
4  0,052
 384,16
Skorzystaliśmy z tego właśnie wzoru, gdyż brak jest jakichkolwiek informacji o odsetku
klientów powtarzających zakupy w tym sklepie (to chcieliśmy właśnie ustalić), zatem
postąpiliśmy w sposób najostrożniejszy.
Odp.: Należy zatem wylosować próbę liczącą 385 klientów.
Download