Statystyka Teoria i Przykłady

advertisement
Statystyka Teoria i Przykłady
Estymacja przedziałowa parametrów strukturalnych zbiorowości generalnej
Parametr zbiorowości generalnej () - miara opisowa, np. średnia arytmetyczna (  ),
odchylenie standardowe ( ), czy wskaźnik struktury ( p ) zbiorowości generalnej, której
wartość jest na ogół nie znana.
Estymacja, czyli szacowanie parametrów, polega na podaniu ocen parametrów populacji
generalnej na podstawie statystyki uzyskanej z próby losowej.
Statystyki wyliczone na podstawie pobranych z populacji grup losowych z teorii estymacji
noszą nazwę estymatorów. Estymatorem jest więc każda statystyka wyliczona z próby
losowej, która służy do szacowania odpowiadającego jej parametru populacji generalnej.
Aby statystyki mogły być uznane za dobre estymatory powinny charakteryzować się pewnymi
cechami:
Nieobciążoność – jeśli wartość oczekiwana estymatora stosowanego do wyznaczenia
nieznanego parametru zbiorowości generalnej jest równa wartości tego parametru, to taki
estymator nazywamy nieobciążonym:
E(Tn )  
Zgodność – własność estymatora powodująca, że wraz ze wzrostem liczebności próby
wartość estymatora zbliża się do parametru zbiorowości generalnej. Innymi słowy różnica
między tymi wielkościami podlega działaniu prawa wielkich liczb:
lim P{Tn     }  1
n
gdzie:
  0 jest dowolnie małą liczbą
Efektywność – spośród dwóch estymatorów wybieramy ten, którego wariancja jest mniejsza.
Miarą efektywności estymatora jest jego wariancja D 2 (Tn ) .
Wyróżniamy dwa rodzaje estymacji:
Estymacja punktowa polega na podaniu wielkości szacowanego parametru, która jest równa
wartości estymatora. Ponieważ z reguły wielkości estymatora różnią się od wartości
www.wkuwanko.pl
1
Statystyka Teoria i Przykłady
parametru populacji generalnej, podaje się jednocześnie średni błąd szacunku, czyli
odchylenie standardowe estymatora.
Estymacja przedziałowa polega na skonstruowaniu pewnego przedziału liczbowego, zwanego
przedziałem ufności (Neymana), który z określonym prawdopodobieństwem pokryje
estymarowy parametr.
Losowanie niezależne (ze zwrotem) – proces wybory jednostek do próby, w którym
każdorazowo elementy zbiorowości generalnej mają takie samo prawdopodobieństwo
dostania się do próby.
Rozkład estymatora w próbie – rozkład prawdopodobieństwa wskazujący na wszystkie
możliwe wielkości, jakie może przyjąć dana statystyka (np. średnia arytmetyczna w próbie,
odchylenie standardowe w próbie czy częstość względna w próbie).
Błąd standardowy – odchylenie standardowe estymatora Tn , które zapisujemy  (Tn ) .
Zbieżność do
rozkładu normalnego
– jeśli
liczba jednostek
obserwacji dąży
do
nieskończoności (w praktyce oznacza to zazwyczaj n  30 ), to rozkład estymatora Tn jest
zbliżony do rozkładu normalnego.
Wartość oczekiwana średniej arytmetycznej z próby
E (x )  
gdzie:
 - wartość średniej w zbiorowości generalnej,
x
- wartość średniej w próbie.
Błąd standardowy średniej arytmetycznej z próby
x 

n
Wartość oczekiwana wskaźnika struktury z próby
www.wkuwanko.pl
2
Statystyka Teoria i Przykłady
E( x )  p
gdzie:
- nieznana wartość wskaźnika struktury (częstości względnej) zbiorowości generalnej
p
Błąd standardowy wskaźnika struktury z próby
p 
p(1  p)
n
gdzie:
- nieznana wartość wskaźnika struktury z próby
p
Estymacja przedziałowa nieznanej wartości średniej populacji generalnej
Współczynnik ufności – dzięki estymacji przedziałowej wyznacza się przedział liczbowy, który
z
pewnym
prawdopodobieństwem
zawiera
nieznaną
wartość
parametru.
To
prawdopodobieństwo nazywane jest współczynnikiem ufności, a oszacowany przedział –
przedziałem ufności (Neymana).
Współczynnik ufności oznacza się: 1   . Najczęściej ma on takie wartości:
0,99
0,95
0,90
2,58
1,96
1,64
Przedział ufności Neymana ma postać ogólną:
P{Tn  z / 2 (Tn )    Tn  z / 2 (Tn )}  1  
gdzie:
z / 2 - wartość zmiennej losowej w rozkładzie N (0;1) , takiej że P( Z  z / 2 )  1  
www.wkuwanko.pl
3
Statystyka Teoria i Przykłady
lub następującą formułę:
P{Tn  t / 2 (Tn )    Tn  t / 2 (Tn )}  1  
gdzie:
t / 2 - wartość zmiennej losowej w rozkładzie t-Studenta przy n  1 stopniach swobody,
takiej że prawdopodobieństwo P( T  t / 2 )  1   .
Zbieżność rozkładu średniej z próby ( x ) do rozkładu normalnego – wraz ze wzrostem liczby
jednostek w próbie (n  30) estymator x ma rozkład zbliżony do rozkładu normalnego o

nadziei matematycznej (wartości oczekiwanej) równej  i odchyleniu standardowym
.
n
Jest to szczególny przypadek działania prawa wielkich liczb.
Normalność rozkładu średniej z prób ( x ) - jeśli zmienna losowa X ma rozkład normalny, to
także x ma rozkład normalny, bez względu na wielkość próby.
Zbieżność do rozkładu t-Studenta – gdy nie jest możliwe skorzystanie ze zbieżności rozkładu
x do rozkładu normalnego, zmienna X w zbiorowości generalnej ma rozkład normalny oraz
nieznane jest  z populacji generalnej, wówczas korzystamy ze zbieżności statystyki
do rozkładu t-Studenta o n  1 stopniach swobody, gdzie S x 
S
lub S x 
n
x
Sx
S
, w
n 1
zależności od liczebności próby n (odpowiednio n  30 lub n  30 ).
Sposób budowy przedziałów ufności dla  w zależności od informacji pochodzących ze
zbiorowości generalnej, rozkładu statystyki x oraz wielkości próby przedstawia schemat.
tak
nie
σ znane
www.wkuwanko.pl
4
Statystyka Teoria i Przykłady
X  N (  , )
x
x ma rozkład normalny lub
x
asymptotycznie normalny o
parametrach  i  x
nie
x 
ma rozkład zbliżony
do t-Studenta o n-1
stopnia swobody
tak

n  1  30
n
1)
  x  z / 2 x
Sx 
S
n
Sˆ x 
S
n 1
1)
2)
  x  z / 2 S x
  x  t / 2Sˆx
Objaśnienie do powyższego schematu:
www.wkuwanko.pl
5
Statystyka Teoria i Przykłady
Schemat ten przedstawia przedziały ufności dla nieznanej wartości średniej (  ) zmiennej X
o rozkładzie normalnym lub zbliżonym do normalnego
1) z / 2 to wartość Z o rozkładzie N (0,1), taka że P( Z  z / 2  1  
2) t / 2
to wartość T o rozkładzie t-Studenta o n  1 stopniach swobody, która spełnia
zależność P( T  t / 2  
Przykład 10
(na przedział ufności dla wartości oczekiwanej)
W pewnym zakładzie produkcyjnym postanowiono zbadać staż pracy pracowników
umysłowych. W tym celu z populacji tych pracowników wylosowano grupę (losowanie
niezależne (ze zwrotem)) o liczbie n  196 pracowników, z której obliczono średnią x  6,92
lat. Dotychczasowe doświadczenie wskazuje, że rozkład stażu pracowników umysłowych jest
rozkładem normalnym z odchyleniem standardowym 2,8 lat (  ).
Przyjmując współczynnik ufności 1    0,95 zbudować przedział ufności dla nieznanego
średniego stażu pracy w populacji pracowników umysłowych w tym zakładzie.
Zgodnie ze schematem ustalamy, że spełnione są warunki:

- odchylenie standardowe
x
- rozkład normalny
Zatem korzystamy z następującego wzoru na przedział ufności dla nieznanej wartości (  ) ze
zbiorowości generalnej:
  x  z / 2   x
Na podstawie tablic dystrybuanty rozkładu normalnego dla
1    0,95 wiemy, że
www.wkuwanko.pl
6
Statystyka Teoria i Przykłady
F ( z / 2 )  1 

2
(
0,05
)  0,975
2
z / 2  1,96
x 

n

2,8
2,8

 0,2
196 14
Przedział ufności przyjmuje postać:
  x  z / 2   x
  6,9  1,96  0,2
  6,9  0,392
6,508    7,292
Odp.: Z prawdopodobieństwem 0,95 możemy przypuszczać, że średni staż pracy w populacji
pracowników umysłowych w tym zakładzie zawiera się w przedziale (6,508 lat; 7,292 lat).
Innymi słowy 95% wszystkich takich przedziałów pokryje parametr (  ) , natomiast 5% nie
pokryje. Godzimy się więc z ryzykiem błędu, że w 5 przypadkach na 100 nieznana wartość
średniego stażu pracy w populacji generalnej znajduje się poza wyznaczonym przedziałem
liczbowym.
Wykreślenie graficzne
f(z)
F ( z / 2 )  0,975
www.wkuwanko.pl
7
Statystyka Teoria i Przykłady
 z / 2
0
z / 2
Przykład 11
Odchylenie standardowe
W losowo wybranej grupie 450 samochodów osobowych marki FSO 1500 przeprowadzono
badanie zużycia benzyny na tej samej dla wszystkich samochodów trasie długości 100 km.
Okazało się, że odchylenie standardowe zużycia benzyny dla tej grupy samochodów wynosiło
0,8 litra na 100 km.
Zakładając, że badana cecha ma rozkład normalny wyznaczyć przedział ufności dla
odchylenia standardowego ze zużyciem benzyny przez wszystkie samochody tej marki na
takiej trasie. Przyjąć współczynnik ufności 0,99.
Rozwiązanie
P{S  z / 2
S
S
   S  z / 2
}  1
2n
2n
S = 0,8 (odchylenie standardowe)
0,8
0,8
   0,8  2,58 
 0,8  0,068    0,8  0,068 
900
900
0,731    0,869
0,8  2,58 
0,9
0,8
   0,8  2,58 

30
30
0,731    0,869
0,8  2,58 
Odp.: Otrzymany przedział 0,731 i 0,869 jest jednym z tych wszystkich możliwych do
otrzymania przedziałów, które z prawdopodobieństwem 0,99 pokrywają odchylenie
standardowe zużycia benzyny przez samochody FSO 1500 na trasie 100 km.
Przykład 12
www.wkuwanko.pl
8
Statystyka Teoria i Przykłady
W celu oszacowania średniej długości pewnego detalu produkowanego w przedsiębiorstwie
wylosowano 17 detali i otrzymano średnią ich długość 32 cm oraz odchylenie standardowe
0,6 mm.
Oszacować przy współczynniku ufności 0,90 wartość oczekiwaną produkowanych w tej firmie
detali.
Rozwiązanie
Rozkład t-Studenta
Rozwiązaniem jest przedział liczbowy dla nieznanej (  ) , który wyznaczymy ze schematu
przy założeniu, że x zbiorowości generalnej ma rozkład normalny.
Z tablic rozkładu t-Studenta otrzymujemy dla liczby stopnia n  1 , który u nas równa się
17  1  16 i   0,10
t / 2  1,746
Skorzystamy ze wzoru:
  x  t / 2  Sˆ x
Sˆ x 
Sˆ x 
S
n 1
S
0,6
0,6 0,6



 0,15
4
n 1
16
16
  32  1,746  0,15
32  0,262  31,738
31,738    32,262
Odp.: W 90% możemy przypuszczać, że w przedziale od 31,738 do 32,262 produkuje się
średnią długość detali w tym przedsiębiorstwie.
Wykres graficzny
f(t)
www.wkuwanko.pl
9
Statystyka Teoria i Przykłady

2

 0,05
 t / 2
2
0
t / 2
 0,05
t
Graficzna ilustracja P( T  t / 2  0,10
Estymacja przedziałowa nieznanego wskaźnika struktury zbiorowości generalnej
Estymatorem wskaźnika struktury frakcji (prawdopodobieństwa) jest wskaźnik struktury z
próby losowej.
Warunkiem często zalecanym w procederze szacowania wskaźnika struktury ( p ) jest duża
próba (n  100, a nawet n  120) . W zastosowaniach statystyki warunek ten jest znacznie
łagodniejszy (n  30) . Oczywiście, im większa próba, tym bardziej precyzyjne wyniki.
Błąd standardowy estymatora p
p 
p(1  p)
n
Przedział ufności dla nieznanego wskaźnika struktury zbiorowości generalnej (p)
www.wkuwanko.pl
10
Statystyka Teoria i Przykłady
p  p  z / 2  p
gdzie:
 p
Tn  p
z / 2 - wartość zmiennej losowej standaryzowanej w rozkładzie normalnym, przy danym
1   , gdyż mamy zawsze do czynienia z dużą próbą.
Przedział ufności dla p (rząd wielkości p nie jest znany)
p  p  z / 2
p(1  p)
n
Przykład 12
Chcemy znaleźć prawdopodobieństwo tego, że losowo wybrany pracownik pewnego dużego
zakładu będzie miał wykształcenie wyższe. W tym celu wylosowano próbę liczącą 400
pracowników i stwierdzono, że 32 spośród nich posiada wykształcenie wyższe.
Oszacować na tej podstawie przy współczynniku ufności 0,95 udział osób z wykształceniem
wyższym spośród zatrudnionych w tym przedsiębiorstwie.
Rozwiązanie zadania
 p
Tn  p
p – wskaźnik struktury
www.wkuwanko.pl
11
Statystyka Teoria i Przykłady
32
 0,08
400
1  p  1  0,08  0,92
p
F ( z / 2 )  0,975
z / 2  1,96
0,08  0,92
 0,08  0,027
400
P  0,08  1,96 
0,053  P  0,107
Odp.: Z 95% wiarygodnością możemy przypuszczać, że odsetek osób z wykształceniem
wyższym w tym przedsiębiorstwie waha się w przedziale od 5,3% do 10,7%.
Można niekiedy zastosować najostrożniejszy sposób postępowania. Polega on na przyjęciu
maksymalnej wartości  p :
p 
p(1  p)
,
n
przy danym n osiąga maksimum dla p  1  p , czyli p 
1
.
2
Przedział ufności dla p (najostrożniejszy sposób postępowania przy danym n)
p  p  z / 2
1
2 n
Niezbędna (minimalna) liczebność próby w przypadku szacowania p (wskaźnika struktury)
( z )2  p(1  p)
n   /2 2
,
E
E  z / 2 p
gdzie
Gdy p nie jest wstępnie znane (np. brak badań pilotażowych czy innych wcześniejszych
informacji), wówczas można przyjąć:
www.wkuwanko.pl
12
Statystyka Teoria i Przykłady
p(1  p)  p (1  p )
Zatem wzór na niezbędną liczebność próby przyjmuje następującą postać:
( z / 2 )2  p(1  p)
n
E2
lub przy postępowaniu w najostrożniejszy sposób ( p  1  p 
1
):
2
(z )2
n   / 22
4E
gdzie:
E
- bezwzględny maksymalny błąd szacunku ( E  z / 2   p ).
Przykład 13
Właściciel sklepu z artykułami żywnościowymi chce ustalić procent swoich stałych klientów
spośród ogółu klientów jego sklepu. Jak liczną grupę powinien wylosować, aby z
prawdopodobieństwem 95% maksymalny błąd szacunku nie przekraczał 5%?
Rozwiązanie:
 p
Tn  p
n?
1    95
E  0,05
z / 2  1,96
p  1  p  0,5
1,96 2
n
 384,16
4  0,052
www.wkuwanko.pl
13
Statystyka Teoria i Przykłady
Skorzystaliśmy z tego właśnie wzoru, gdyż brak jest jakichkolwiek informacji o odsetku
klientów powtarzających zakupy w tym sklepie (to chcieliśmy właśnie ustalić), zatem
postąpiliśmy w sposób najostrożniejszy.
Odp.: Należy zatem wylosować próbę liczącą 385 klientów.
www.wkuwanko.pl
14
Download