Estymacja parametrów jednowymiarowej zmiennej losowej

advertisement
Estymacja parametrów
populacji
Estymacja parametrów populacji
Estymacja polega na szacowaniu wartości
parametrów rozkładu lub postaci samego rozkładu
zmiennej losowej, na podstawie próby
statystycznej.
Estymacje można podzielić na:
• estymację punktową - wyznaczanie na podstawie próby
statystycznej konkretnych wartości parametrów dla całej
zbiorowości generalnej (mogą to być takie parametry jak
wartość
oczekiwana,
mediana,
czy
odchylenie
standardowe),
• estymację przedziałową polegającą na konstruowaniu
przedziału liczbowego, który z ustalonym z góry, wysokim
prawdopodobieństwem
pokrywa
nieznaną
wartość
szacowanego parametru. Przedział taki nazywa się
przedziałem ufności, a prawdopodobieństwo, z jakim
pokrywa on szacowany parametr - współczynnikiem
ufności.
Przedział ufności
Granice przedziału ufności są losowe, a więc dla konkretnych
prób będziemy uzyskiwać różne wartości. Uzyskany konkretny
przedział
będziemy
interpretować
następująco:
w 1- procentach przypadków przedział (a, b) pokrywa
nieznaną wartość parametru.
Oznacza to jednocześnie, że średnio w  procentach
przypadków wyznaczony przedział nie pokrywa
szacowanego parametru.
4
Przedział ufności (c.d.)
Dokładność estymacji parametru określa rozpiętość
przedziału ufności będąca różnicą między jego górną i dolną
granicą: d = b - a.
Rozpiętość przedziału ufności zależy między innymi od
przyjętego poziomu ufności 1-: im to prawdopodobieństwo jest bliższe jedności, tym rozpiętość przedziału
jest większa (a precyzja oceny mniejsza).
W zastosowaniach praktycznych najczęściej stosujemy
poziomy ufności rzędu 0.90, 0.95 czy 0.99 ( odpowiednio
0.10, 0.05 czy 0.01)
5
Przedział ufności dla wartości oczekiwanej – znane
odchylenie standardowe
Jeśli znamy odchylenie standardowe zbiorowości, to wartość
szacowanej średniej, z prawdopodobieństwem równym 1-α, znajduje
się w przedziale danym wzorem:


 

P x  u
 m  x  u
  1
n
n

gdzie:
x -średnia arytmetyczna,
u -wartość odczytana z tablicy rozkładu t-Studenta dla liczby stopni swobody r=,
 - odchylenie standardowe,
n - liczebność próby,
m - wartość oczekiwana.
Przykład
Zakładając, że ceny jednostkowe lokali mieszkalnych z danego przykładu
w miejscowości A w pierwszym kwartale 2012 r. mają rozkład zbliżony do
rozkładu normalnego N(3460,241) oraz, że znane jest odchylenie standardowe
zbiorowości  241, oszacować przedział ufności dla nieznanej wartości średniej
zbiorowości. Przyjmijmy współczynnik ufności 1-α = 0,95
Rozwiązanie
Podstawiając powyższe dane do danego wzoru oraz odczytując z tablicy
zmiennej losowej t-Studenta wartość krytyczną, dla liczby stopni swobody r=∞
(albowiem odchylenie standardowe zbiorowości jest znane) i α = 0,05
otrzymujemy:
241
241 

P 3460  1,96
 m  3460  1,96
  0,95
30
30 


  0,95
P 3373,76  m  3546,24
Oznacza to, że przedział liczbowy
prawdopodobieństwem 1-α = 0,95 pokrywa nieznaną wartość m.
z
Przedział ufności dla wartości oczekiwanej – odchylenie
standardowe nie jest znane
Jeżeli odchylenie standardowe zbiorowości nie jest znane, to
przedział ufności dla wartości oczekiwanej m należy skonstruować
w oparciu o rozkład t-Studenta:

s
s 

P x  t ;r
 m  x  t ;r
  1
n
n

gdzie:
r = n -1 stopni swobody,
s - odchylenie standardowe.
Przykład
Zakładając, że ceny jednostkowe lokali mieszkalnych z danego przykładu
w miejscowości A w pierwszym kwartale 2012 r. mają rozkład zbliżony do rozkładu
normalnego N(3460,241), oszacować przedział ufności dla nieznanej wartości
średniej. Przyjmijmy współczynnik ufności 1-α = 0,95
Rozwiązanie
Podstawiając powyższe dane do wzoru oraz odczytując z tablicy zmiennej losowej
t-Studenta wartość, dla liczby stopni swobody r = n-1=29 i α = 0,05 otrzymujemy:
241
241 

P 3460  2,045
 m  3460  2,045
  0,95
30
30 

P3370,02  m  3549,98  0,95
Można zatem stwierdzić, że z prawdopodobieństwem 95% średnia cena jednostkowa
lokali mieszkalnych w miejscowości A zawiera się w przedziale liczbowym o końcach
3370 zł/m2 i 3550 zł/m2.
Jeżeli liczba obserwacji n dąży do nieskończoności, to różnica
między wyżej podanymi przedziałami jest bardzo mała. Dzieje
się tak dlatego, że rozkład t-Studenta jest zbieżny do rozkładu
normalnego. Występuje to wtedy, gdy liczba stopni swobody
(n-1) wzrasta nieograniczenie. Począwszy od n=30 różnicę
między tymi przedziałami można praktycznie zaniedbać.
Przedział ufności dla
wariancji 2 w populacji normalnej
Niech zmienna losowa
oraz niech
X ~ N (m,  )
xi (i = 1, 2, ..., n) oznacza n-elementową próbę losową.
Statystyka
2 
ns 2
2
ma rozkład 2 z liczbą stopni swobody v = n - 1.
Dla ustalonego  można określić takie dwie wartości
2
i
, dla których spełnione są równości:
2
  ,n1
 1  ,n 1
2
2
P(     ,n 1 ) 
2
2
2

2
P (  2   12  ,n 1 )  1 
2

2
11
Przedział ufności dla wariancji
2 w populacji normalnej (c.d.)
Z obu wzorów wynika, że
P( 12  ,n 1   2   2,n 1 )  1  
2
2
Po odpowiednich przekształceniach otrzymujemy przedział ufności dla
wariancji:
P(
ns 2
  ,n 1
2
2
 
ns 2
2

2
1 2 , n 1
)  1
12
Przedział ufności dla odchylenia standardowego  w
populacji normalnej.
Pierwiastkując krańce przedziału ufności dla wariancji otrzymujemy
poszukiwany przedział dla odchylenia standardowego:
P(
ns
2
  ,n 1
2
2
 
ns

2
2
1 2 , n 1
)  1
13
Przedział ufności dla
odchylenia standardowego w populacji normalnej – dla dużej
próby
S
S 

P S  z
   S  z
  1
2n
2n 

Gdzie:
z
- wartość odczytana z tablicy dystrybuanty rozkładu normalnego N(0,1)
w taki sposób, aby przy danym współczynniku ufności 1-α spełniona była
równość P z  Z  z   1  
Przedział ufności dla
prawdopodobieństwa w populacji normalnej


m
P  z
n



m m
1  
m
n
n
 p   z
n
n
m  m  
1  
n
n
 1

n



Gdzie:
m - liczba jednostek w próbie mających wyróżnioną cechę,
n - liczebność próby,
m
W
n - wskaźnik struktury w próbie, który jest estymatorem
prawdopodobieństwa p w populacji generalnej
z - wartość odczytana z tablicy dystrybuanty rozkładu normalnego N(0,1) w
taki sposób, aby przy danym współczynniku ufności 1-α spełniona była
równość P z  Z  z   1  
Uzasadnienie wielkości próby
u 
n 2
d
2
2
2
t s
n 2
d
(wariancja jest znana)
2
gdzie:
2
s 
1 n0
2
(
x

x
)
 i
n0  1 i 1
(wariancja jest nieznana)
2
u pq
n 2
d
Zbiorowość generalna ma rozkład dwupunktowy z parametrem p (p
jest frakcją jedynek lub elementów wyróżnionych w zbiorowości.)
Jeżeli nie znamy rzędu wielkości szacowanego wskaźnika struktury
p, to przyjmując za iloczyn pq jego największą wartość ¼ , otrzymujemy
poniższy wzór:
u2
n 2
4d
gdzie:
d - dopuszczalny, ustalony z góry maksymalny błąd szacunku wartości m.
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Przez hipotezę statystyczną rozumie się dowolne przypuszczenie na
temat
wartości
parametrów
lub
postaci
funkcyjnej
zbiorowości
generalnej. Z hipotezą parametryczną mamy do czynienia gdy
przypuszczenie to dotyczy wartości parametrów rozkładu, natomiast
pozostałe hipotezy nazywane są hipotezami nieparametrycznymi.
W testach istotności hipotezę H0 formułuje się jako hipotezę „o równości”
natomiast hipotezę alternatywną H1 jako hipotezę o „różności”,
„większości” lub „mniejszości”.
Q - parametr zbiorowości generalnej oszacowany na
podstawie próby,
Q0 – porównywana z nim wartość hipotetyczna.
H0: Q = Q0
H1 : Q ≠ Q0
H1 : Q > Q0
H1 : Q < Q0
H0: Q = Q0
H1: Q ≠ Q0
H0: Q ≤ Q0
H1: Q > Q0
H0: Q ≥ Q0
H1: Q < Q0
Hipoteza zerowa
Prawdziwa
Fałszywa
Przyjąć
Decyzja
prawidłowa
Błąd II. rodzaju
Odrzucić
Błąd I. rodzaju
Decyzja
prawidłowa
Decyzja
Oznaczmy przez D pewną charakterystykę, która jest
miarą odchylenia między rozkładem z próby a rozkładem
hipotetycznym. Miara ta nazywa się zwykle
sprawdzianem hipotezy i określa się ją jako funkcję
wyników próby, na podstawie której podejmuje się
decyzję przyjęcia lub odrzucenia hipotezy zerowej.
Obszarem krytycznym, zwanym inaczej
obszarem odrzuceń lub zbiorem krytycznym
nazywamy podzbiór przestrzeni prób, który
ma tę własność, że jeżeli wartość
charakterystyki D zostanie zakwalifikowana do
niego, to wtedy hipotezę zerową należy
odrzucić.
Obszar krytyczny zbudowany z dwóch rozłącznych
przestrzeni prób w rozkładzie charakterystyki nosi
nazwę obszaru krytycznego testu dwustronnego.
Obszar krytyczny testu w zależności od hipotezy
alternatywnej może być jednostronny, lewo- lub
prawostronny. Test jest dwustronny w zależności
od tego, czy odrzuca się hipotezę zerową dla
wartości charakterystyki testu, która przypada na
dwa przedziały lub tez na jeden przedział
rozkładu z próby.
Wprowadzenie podziału testów na jednostronny i dwustronny ma
swoje uzasadnienie w przypadku odczytywania z tablic
statystycznych wartości krytycznych Dα. Jeżeli, na przykład,
sprawdzamy hipotezę stosując test jednostronny, a tablice
statystyczne zbudowane dla testu dwustronnego, to wtedy Dα
odczytujemy nie dla poziomu istotności α, ale dla podwojonego
poziomu istotności, tzn. dla 2 α.
A
f(D)
Dk = (-, Dd)  (Dg, +)

2

2
Dd
E(D)
Dg
D
f(D)
B
Dk = (Dg, +)

E(D)
Dg
D
C
f(D)
Dk = (-, Dd)

Dd
E(D)
D
Weryfikacja hipotez dotyczących wartości oczekiwanej
Zmienna X w zbiorowości generalnej ma rozkład N(m,) lub zbliżony do normalnego i
wartość m jest nieznana:
H0: m=m0
1)
 - znane
H1: mm0
H1: m>m0
H1: m<m0
2)  - nieznane, n>30
u
x  m0

x  m0
u
s
n
u : N (0;1)
n
u  N (0;1)
3)  - nieznane, n30
Statystyka t ma rozkład Studenta z n-1stopniami swobody
x  m0
t
s
n 1
Przyjmijmy, że zbiorowość generalna ma rozkład normalny N(m,σ ) o nieznanej
wartości średniej. Ze zbiorowości tej wylosowano n-elementową próbę
statystyczną w celu zweryfikowania hipotezy H0, że wartość oczekiwana z próby
równa jest wartości oczekiwanej zbiorowości. W tym przypadku hipoteza
alternatywna H1 mówi o istotnej różnicy pomiędzy tymi wartościami.
H0: m = m0
H1: m ≠ m0
Wartość statystyki testującej obliczamy na podstawie wzoru:
_
x
m0
gdzie:
- średnia arytmetyczna
- wartość oczekiwana
x  m0
u
s
n
Jeśli znane jest odchylenie standardowe:
u
x  m0

n
x
m0
gdzie:
- średnia arytmetyczna
- wartość oczekiwana
Procedura podejmowania decyzji dotyczących przyjęcia lub odrzucenia H0
przebiega następująco:
a) w przypadku testu dwustronnego (H1: m ≠ m0)
• jeśli wartość obliczona t spełnia nierówność t  t ;r
- należy odrzucić H0 na
korzyść H1,
• jeśli natomiast: t  t ;r - nie ma podstaw do odrzucenia H0.
b) w przypadku testu jednostronnego (H1: m < m0 lub H1: m > m0)
• jeśli wartość obliczona t spełnia nierówność t  t2 ;r - należy odrzucić
H0 na korzyść H1,
• jeśli natomiast: t  t2 ;r - nie ma podstaw do odrzucenia H0.
W przypadku, gdy odchylenie standardowe nie jest znane, należy
posłużyć się odchyleniem standardowym z próby. Wartość
sprawdzianu hipotezy obliczamy wykorzystując następujący wzór:
x  m0
t
.
s
n 1
Granicę obszaru krytycznego dla zadanego poziomu istotności α
odczytujemy z tablicy rozkładu t-Studenta dla r =n-1 stopni swobody.
W przypadku testu dwustronnego (H1: m ≠ m0) obszar krytyczny ma
postać:
Dk   ;t ]  [t ; 
W przypadku testów jednostronnych (H1: m < m0 lub H1: m > m0) mamy
natomiast:
Dk  (;t2 ]
lub
Dk  [t2 ; )
Jeżeli obliczona wartość t znajdzie się w obszarze krytycznym, to
wtedy H0 należy odrzucić na korzyść hipotezy alternatywnej H1.
W przeciwnym razie nie ma podstaw do jej odrzucenia.
Hipoteza zerowa może również przyjąć postać H0: m ≤ m0 lub H0: m ≥
m0.
W pierwszym przypadku hipoteza H1: m > m0 a w drugim: H1: m < m0.
Taki zapis jednoznacznie określa sposób wyznaczenia obszaru
krytycznego.
Przykład
Na podstawie badań rynku nieruchomości przeprowadzonych w pierwszym
kwartale zeszłego roku obliczono, że średnia cena lokali mieszkalnych
w miejscowości B wynosi 3500 zł/m2. W drugim kwartale zeszłego roku specjalista
w pewnej firmie zajmującej się sprzedażą nieruchomości przeprowadził na 25
elementowej próbie podobne badanie i stwierdził, że średnia cena lokali
mieszkalnych wyniosła 3560 zł/m2 a odchylenie standardowe 250 zł/m2. Czy
oznacza to, że ceny nieruchomości wzrosły? Należy przyjąć poziom istotności
α = 0,05.
Rozwiązanie
Formułujemy hipotezy:
H0: m = 3500 – średnia cena nieruchomości dalej wynosi 3500 zł/m2
H1: m > 3500 – średnia cena nieruchomość wzrosła
Ponieważ nie znamy odchylenia standardowego zbiorowości posłużymy się
wzorem:
_
x  m0 3560  3500
60
t


 1,18
s
250
51,02
n 1
24
W przypadku testu jednostronnego odczytujemy z tablicy rozkładu t-Studenta,
dla r = 25-1=24 stopni swobody i 2α = 0,1 wartość
Ponieważ
t  t2 ;r
t0,1; 24  1,711 .
- nie ma podstaw do odrzucenia H0, mówiącej o równości
cen jednostkowych lokali mieszkalnych w badanych okresach. Można zatem
stwierdzić z 95% pewnością, że średnia cena jednostkowa została na tym samym
poziomie.
WERYFIKACJA
ISTOTNOŚCI
RÓŻNICY
MIĘDZY
OCZEKIWANYMI DWÓCH ZMIENNYCH LOSOWYCH
WARTOŚCIAMI
Weryfikacji poddawana jest najczęściej hipoteza H0 mówiąca, że nie ma istotnej
różnicy między wartościami oczekiwanymi, wobec hipotezy alternatywnej H1
sugerującej istotną różnicę między tymi wartościami.
H0: m1 = m2
H1: m1 ≠ m2
Sprawdzian hipotezy zerowej w takiej sytuacji ma postać:
x1  x 2
t
sp
sp 
n1  n2
n1 n2
(n1  1) s12  (n2  1) s 22
(n1  1)  (n2  1)
Jeśli próby są równe n1 = n2 = n, to:
x1  x2
t
sp
sp 
n
2
s12  s 22
2
Jeśli wartość obliczona t spełnia nierówność
t  t ;r
, gdzie r = (n1-1)+ (n2-1)
stopni swobody - należy odrzucić H0 na korzyść H1,
Jeżeli natomiast:
t  t ;r - przeto nie ma podstaw do odrzucenia H0.
Przykład
Przykład ten dotyczy losowego zbioru cen jednostkowych sprzedanych lokali
mieszkalnych o liczebności n = 8, na którym przeprowadzono pomiar cechy X.
W tym przypadku rozważamy zbiór wartości z dwóch okresów badań.
Na podstawie danych przedstawionych w danej tablicy określić, czy różnice
miedzy wartościami średnich można uznać za nieistotne. Sformułowaną hipotezę
należy zweryfikować na poziomie istotności =0,05.
WARTOŚCI OBLICZONYCH CHARAKTERYSTYK
x1
x2
3287,5
3575
s2
81093,8
146875
s
284,8
383,2
x
Źródło: Obliczenia własne.
Rozwiązanie
Formułujemy hipotezę zerową (H0), mówiącą, że nie ma istotnej różnicy między
średnimi cenami dla dwóch badanych okresów, wobec hipotezy alternatywnej (H1),
mówiącej o istotnej różnicy między tymi średnimi.
H0: m1 = m2
H1: m1 ≠ m2
Ponieważ wielkości prób są sobie równe (n = 8), stosuje się wzory:
sp 
t
x1  x 2
sp
s12  s 22
 337,62
2
n 3287,5  3575

4  1,703
2
337,62
Wartość tr jest realizacją zmiennej losowej t-Studenta o r = n1+ n2–2 stopniach
swobody.
Dla =0,05 oraz r=14, odczytana z tablicy rozkładu zmiennej losowej t-Studenta
wartość krytyczna t0,05;14 = 2,145.
Ponieważ |t | < t0,05;14 przeto nie ma podstaw do odrzucenia hipotezy zerowej,
o istotnej różnicy między średnimi cenami sprzedaży lokali mieszkalnych dla
obydwu badanych okresów.
Testowanie hipotezy o wariancji
Niech cecha X ma w zbiorowości generalnej rozkład N(m,σ). Należy
zweryfikować hipotezę H0:σ2=σ20 przeciwko H1:σ2>σ20.
Taką hipotezę alternatywną przyjmuje się najczęściej, gdyż zwykle
sytuacja, gdy wariancja cechy w zbiorowości jest duża, jest niekorzystna.
Jeśli m jest znane, to sprawdzian hipotezy H0 ma postać:
Przy założeniu prawdziwości H0 statystyka ta ma rozkład χ2 o n stopniach
swobody.
nS 22
2
n  2

1 n
2
S    X i  m .
n i 1
2
2
Jeśli m jest nieznane, sprawdzianem H0 hipotezy jest:

2
n 1

nS 2
2
Statystyka ta ma rozkład χ2 o n-1 stopniach swobody.
Z uwagi na postać H1 relacja P(χ2>χ2α)=α wyznacza prawostronny
zbiór krytyczny, gdzie χ2α jest wartością
krytyczną odczytaną z
x
tablic rozkładu χ2 dla odpowiedniej liczby stopni swobody i P=α.
Jeśli dla danej próby losowej relacja wyznaczająca zbiór
krytyczny jest spełniona, to H0 należy odrzucić na korzyść H1.
1
Jeśli n>30, sprawdzian hipotezy przyjmuje jedną z poniższych
postaci:
Jeśli m jest znane w zbiorowości generalnej, to
T
2nS 22

2
 2n  1
Jeśli m jest nieznane, wówczas
T
2nS 2

2
 2n  3
Statystyka T ma rozkład zbliżony do N(0,1), zatem dalsze postępowanie jest
identyczne jak w opisanych wcześniej testach istotności wykorzystujących
statystyki o rozkładzie N(0,1).
Testowanie hipotezy o dwóch wariancjach
Badamy dwie zbiorowości o rozkładzie normalnym N(m1,σ1) i
N(m2,σ2). Należy zweryfikować hipotezę:
H0: σ21=σ22 przy H1: σ21>σ22 .
Z obydwu populacji losuje się próby proste o liczebności n1 i n2.
Niech S2(1) i S2(2) oznaczają wariancję S2. Ze względu na postać hipotezy H1 tak
numerujemy zbiorowości, aby S2(1)>S2(2). Sprawdzianem hipotezy jest
statystyka:
S (21)
F 2 .
S( 2)
Statystyka ta ma rozkład F-Snedecora o r1=(n1-1) i r2=(n2-1) stopniach
swobody. Relacja wyznaczająca prawostronny zbiór krytyczny jest postaci:
P(F>Fα)=α,
Gdzie Fα odczytujemy z tablic rozkładu F-Snedecora dla r1 i r2 stopni swobody.
Testowanie hipotezy o wskaźniku struktury
Niech populacja generalna ma rozkład dwupunktowy z parametrem
p oznaczającym prawdopodobieństwo, że badana cecha przyjmie wyróżnioną
wartość. Chcemy zweryfikować na podstawie n-elementowej próby (n>100)
hipotezę zerową
H0:p=p0
Hipoteza alternatywna może przyjmować jedną z następujących postaci:
H1:p≠p0, H1:p<p0 lub H1:p>p0
Sprawdzianem hipotezy zerowej jest statystyka:
X
 p0
T n
p0 q0
n
która przy prawdziwości H0 ma w przybliżeniu rozkład N(0,1), przy czym X
oznacza ilość jednostek o wyróżnionej wartości cechy w n-elementowej
próbie.
Testowanie hipotezy o dwóch wskaźnikach struktury
Zakładamy, że badana cecha ma w dwóch populacjach rozkład
dwupunktowy z parametrami p1 i p2. Należy zweryfikować hipotezę H0:p1=p2.
Hipoteza alternatywna może mieć postać H1:p1≠p2 lub H1:p1<p2, albo
H1:p1>p2.
Z obu populacji losujemy próby proste o liczebności n1 i n2, przy
czym obydwie próby muszą być duże, tzn. n1≥100 i n2≥100. Sprawdzianem
hipotezy zerowej jest statystyka:
X1 X 2

n1 n2
T
pq
n
gdzie:
p
X1  X 2
nn
, q  1  p, n  1 2 .
n1  n2
n1  n2
Statystyka ta, przy założeniu prawdziwości hipotezy H0, ma rozkład zbliżony
do N(0,1).
Download