Estymator (statystyka z próby, zmienna losowa) wartość Parametr

advertisement
Estymacja punktowa
Pobieranie próby i rozkłady z próby
Statystyki z próby jako estymatory parametrów populacji
• Parametry populacji są to liczbowe charakterystyki całej populacji.
• Statystyką z próby nazywa się liczbową charakterystykę próby.
Estymatorem parametru populacji nazywamy statystykę z próby (zmienną losową) używaną do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby. Jeżeli jako ocenę (szacunek) podajemy jedną wartość liczbową, to nazywamy ją oceną punktową parametru populacji lub estymacją punktową.
Estymator
(statystyka z próby, zmienna losowa)
wartość
Parametr
populacji
"
𝑋 -­‐ średnia z próby
𝑥& + ⋯ + 𝑥)
𝑥̅ =
𝑛
𝜇 -­‐ średnia w populacji
𝑆
-­‐ wariancja z próby
𝑆 -­‐ odchylenie standardowe w próbie
5
𝑃 -­‐ frakcja w próbie
𝑠
=
(𝑥&
− 𝑥̅ ) + ⋯ +
𝑛−1
𝑠=
𝑠
𝑥
𝑝̂ =
𝑛
(𝑥)
− 𝑥̅ )
𝜎
-­‐ wariancja w populacji
𝜎 -­‐ odchylenie standardowe w populacji
𝑝 -­‐ frakcja w populacji
"
Z poznanych wcześniej zmiennych losowych 𝑋, 𝑆 , 𝑆 poznajmy jeszcze 5
jedną – frakcję (częstość) w próbie, 𝑃. Estymator ten służy do szacowania frakcji w populacji, 𝑝.
-
Frakcja w populacji, 𝒑
9
Frakcja w próbie, 𝒑
Jest to liczba elementów populacji
należących do pewnej kategorii,
którą się interesujemy, podzielona
przez liczbę wszystkich elementów
populacji.
𝑥
𝑝̂ =
𝑛
𝑥 -­‐ liczba elementów próby, które
należą do interesującej nas kategorii,
𝑛 -­‐ liczebność próby.
Rozkład z próby
Rozkład statystyki z próby jest rozkładem
prawdopodobieństwa
wszystkich
możliwych
wartości, jakie ta statystyka (ta zmienna losowa)
może przyjąć, jeżeli obliczamy je na podstawie
badania losowych prób o tych samych rozmiarach (o
tej samej liczebności), pobranych z określonej
populacji.
"
Na przykład, rozkładem średniej z próby, 𝑋
jest rozkład prawdopodobieństwa wszystkich
"
wartości, jakie może przybrać zmienna losowa 𝑋, gdy
próba o liczebności 𝑛 jest pobierana z określonej
populacji.
Przykład.
Populacja = 1,2,3,4,5,6,7,8
Prawdopodobieństwo wybrania, którejkolwiek wartości z populacji jest jednakowe. Wynosi ono zatem 1/8. Zatem średnia w populacji wynosi:
1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 36
𝜇=
=
= 4,5
8
8
Odchylenie standardowe w populacji wynosi:
(1 −
𝜎 = 𝜇) + ⋯ +
(8 −
8
𝜇)
= 2,29
Wartości x
0,15
0,1
0,05
0
1
2
3
4
5
6
7
8
"
Skonstruujemy rozkład z próby zmiennej 𝑋 , pobierając próby
dwuelementowe (𝑛 = 2) z populacji.
Pierwsza wartość z próby
1
2
3
4
5
6
7
8
1
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(7,1)
(8,1)
2
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
(7,2)
(8,2)
3
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
(7,3)
(8,3)
4
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
(7,4)
(8,4)
5
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
(7,5)
(8,5)
6
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
(7,6)
(8,6)
7
(1,7)
(2,7)
(3,7)
(4,7)
(5,7)
(6,7)
(7,7)
(8,7)
8
Druga wartość z próby
𝛀
(1,8)
(2,8)
(3,8)
(4,8)
(5,8)
(6,8)
(7,8)
(8,8)
Pierwsza wartość z próby
1
2
3
4
5
6
7
8
1
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(7,1)
(8,1)
2
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
(7,2)
(8,2)
3
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
(7,3)
(8,3)
4
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
(7,4)
(8,4)
5
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
(7,5)
(8,5)
6
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
(7,6)
(8,6)
7
(1,7)
(2,7)
(3,7)
(4,7)
(5,7)
(6,7)
(7,7)
(8,7)
8
Druga wartość z próby
𝛀
(1,8)
(2,8)
(3,8)
(4,8)
(5,8)
(6,8)
(7,8)
(8,8)
Rozkład z próby:
Możliwe wartości F
średniej z próby, 𝑿
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
7,5
8
Prawdopodobieństwo 1 2 3 4 5 6 7 8 7 6 5 4 3 2 1
wystąpienia wartości 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64
Wartości 𝑥̅
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
7,5
8
"
Znajdźmy teraz wartość oczekiwaną i odchylenie standardowe zmiennej losowej 𝑋, korzystając z rozkładu z próby:
Możliwe wartości F
średniej z próby, 𝑿
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
6,5
7
7,5
8
Prawdopodobieństwo 1 2 3 4 5 6 7 8 7 6 5 4 3 2 1
wystąpienia wartości 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64
"
𝐸 𝑋 = 1⋅
"
𝑆𝐷 𝑋 =
&
K
+1,5⋅
+2⋅
IJ
IJ
IJ
+ ⋯+ 8 ⋅
&
IJ
= 4,5
1
= (1 − 4,5) ⋅
+ ⋯ + 8 − 4,5
64
1
-⋅
= 1,62
64
Zauważmy, że:
"
𝐸(𝑋) = 4,5 = 𝜇
"
𝑆𝐷 𝑋 =
2,29
𝜎
=
𝑛
2
Zauważyliśmy bardzo istotną własność:
Oczekiwana wartość średniej z próby:
"
𝐸 𝑋 = 𝜇.
Odchylenie standardowe średniej z próby:
𝜎
"
𝑆𝐷 𝑋 =
.
𝑛
Jaki jest zatem rozkład średniej z próby?
"
Jeżeli rozkład w populacji jest normalny, to rozkład średniej z próby, 𝑋 ma
średnią (wartość oczekiwaną) równą średniej w populacji, 𝜇. Odchylenie
standardowe średniej z próby (inaczej zwane błędem standardowym)
wyraża się wzorem: 𝜎/ 𝑛, co oznacza, że maleje wraz ze wzrostem
"
liczebności próby, 𝑛, a co za tym idzie zbliżanie się 𝑋 do 𝜇 staje się co raz
bardziej prawdopodobne.
Jednak co się dzieje gdy, rozkład w populacji nie jest normalny?
Odpowiedź na to pytanie daje najważniejsze osiągnięcie statystyki:
Centralne Twierdzenie Graniczne
Centralne Twierdzenie Graniczne:
Jeżeli pobieramy próbę z populacji o średniej 𝜇 i skończonym
"
odchyleniu standardowym 𝜎, to rozkład średniej z próby, 𝑋 dąży do
rozkładu normalnego o średniej 𝜇 i odchyleniu standardowym 𝜎/ 𝑛,
gdy liczebność próby wzrasta nieograniczenie. Inaczej mówiąc, dla
dostatecznie dużych 𝑛:
-
𝜎
"
𝑋~𝑁 𝜇,
𝑛
.
W centralnym twierdzeniu granicznym zakłada się znajomość odchylenia standardowego populacji, 𝜎. Jeśli odchylenie standardowe w populacji nie jest znane musimy posłużyć się inną statystyką. Możemy użyć standaryzowanego rozkładu średniej z próby:
"
𝑋−𝜇
𝑡=
𝑆⁄ 𝑛
Jeżeli rozkład w populacji jest normalny, to statystyka 𝑡 ma rozkład Studenta z 𝑛 − 1 stopniami swobody.
5
Rozkład frakcji z próby, 𝑃
Przypomnijmy, że wartością frakcji z próby jest proporcja liczby elementów danej kategorii, 𝑥 do liczby wszystkich elementów próby, 𝑛.
𝑥
𝑝̂ =
𝑛
5
Rozkład frakcji z próby, 𝑃 opiera się na rozkładzie dwumianowym z parametrami 𝑛 i 𝑝, gdzie 𝑛 jest liczebnością próby, a 𝑝 jest frakcją z populacji. Przypomnijmy, że zmienna losowa o rozkładzie dwumianowym, 𝑋 liczy liczbę sukcesów w 𝑛 próbach. Skoro 𝑋
5
𝑃=
𝑛
a 𝑛 jest ustalone przed pobraniem próby, więc rozkład zmiennej 𝑋
5
determinuje rozkład zmiennej losowej 𝑃. 5
Gdy liczebność próby 𝑛 wzrasta, to rozkład frakcji z próby, 𝑃 zbliża się do rozkładu normalnego o średniej 𝑝 i odchyleniu standardowym 𝑝(1 − 𝑝)⁄𝑛.
Aczel−Sounderpandian:
Complete Business
Statistics, Seventh Edition
5. Sampling and Sampling
Distributions
Text
𝑝(1 − 𝑝)
5
𝑃~𝑁 𝑝,
𝑛
FIGURE 5–9
Sampling and Sampling Distribu
$
The Sampling Distribution of P When p ! 0.3, as n Increases
o ile 𝑛𝑝 > 5 i 𝑛 1 − 𝑝 > 5.
Sampling distribution of P when n = 2
0.5
Probability
0.4
0.3
0.2
0.1
0.0
0
1
2
p= 0
1
2
1
Sampling distribution of P when n = 10
Probability
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9 10
p= 0
1
10
2
10
3
10
4
10
5
10
6
10
7
10
8
10
9
10
x
1
Sampling distribution of P when n = 15
0.3
Probability
x
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
p= 0
1
15
2
15
3
15
4
15
5
15
6
15
7
15
8
15
9
15
10
15
11
15
12
15
13
15
14
15
1
x
Własności estymatorów
• Estymator 𝑌U parametru 𝜌 jest nieobciążony,
jeżeli jego wartość oczekiwana 𝐸 𝑌U jest
równa
parametrowi
populacji,
do
oszacowania którego służy, czyli gdy
𝐸 𝑌U = 𝜌.
• Systematyczne odchylanie się wartości
estymatora od szacowanego parametru
nazywa się obciążeniem estymatora
er 5
"
Średnia z próby, 𝑋, jest estymatorem nieobciążonym średniej w populacji, 𝜇.
"
E 5–10 The Sample Mean X as an Unbiased
Estimator
of
the
Population
Mean
!
𝐸 𝑋 =𝜇
The target of sampling: !
x
x
Sample means X
x
x
x
x
!
x
x
x
x
x
x
x
x
Przykład obciążonego estymatora, 𝑌, średniej w populacji, 𝜇.
GURE 5–11 An Example of a Biased Estimator of the Population Mean !
Obciążeniem tego estymatora jest odległość 𝑀 do 𝜇.
A systematic bias
Y
A biased estimator, Y
Y
!
Y
Y
Y
Y
Y
Y
M
Y
Y
Y
Y
Y
Y
Własności estymatorów
• Estymator 𝑌 parametru jest efektywny, jeżeli
ma niewielką wariancję 𝑉(𝑌) a tym samym
niewielkie odchylenie standardowe 𝑆𝐷(𝑌).
• Efektywność jest własnością względną, tzn.
można mówić tylko, że pewien estymator
jest efektywny w stosunku do innego
estymatora, co znaczy, że ma wariancję
mniejszą niż ten drugi estymator.
Dwa nieobciążone estymatory parametru 𝜇. Estymator 𝑋
jest efektywniejszy GURE 5–12 Two Unbiased Estimators of !, Where the Estimator X Is Efficient
od estymatora 𝑌.
Relative to the Estimator Z
An unbiased and
efficient estimator
X
z
z
z
Z
An unbiased
estimator of !
with large variance
(inefficient)
z
z
z
x
x
x
x
x
z
z
x
x
x x
x
!
x
z
x
x
z
z
z
z
z
z
z
z
z
Własności estymatorów
• Estymator 𝑌U parametru 𝜌 jest zgodny, jeżeli
prawdopodobieństwo, że jego wartość
będzie
bliska
wartości
szacowanego
parametru, wzrasta wraz ze wzrostem
liczebności próby. To znaczy dla dowolnie
małej liczby 𝜀 > 0 granica
lim 𝑃 𝑌U − 𝜌 < 𝜀 = 1.
)→_
"
Średnia z próby 𝑋 jest zgodnym estymatorem średniej w populacji 𝜇, ponieważ jej standardowym odchyleniem, błędem jest 𝜎/ 𝑛. Gdy "
liczebność próby 𝑛 wzrasta, standardowy błąd 𝑋 maleje, a wobec tego "
prawdopodobieństwo, że wartość 𝑋 będzie bliska wartości 𝜇 wzrasta.
Własności estymatorów
• Estymator jest dostateczny, jeżeli wykorzystuje
wszystkie informacje o szacowanym parametrze,
które są zawarte w danych z próby.
Mediana nie jest dostatecznym estymatorem średniej w populacji,
Średnia w próbie jest dostatecznym estymatorem średniej w populacji
Estymatory średniej w populacji, 𝝁
"
Średnia w próbie, 𝑋
Estymator:
• Nieobciążony,
• Najefektywniejszy,
• Zgodny,
• Dostateczny.
Mediana, 𝑀
Estymator:
• Niedostateczny,
• Mniej efektywny od średniej w próbie:
"
𝑉 𝑀 > 1,57 b 𝑉(𝑋)
• Mediana jest bardziej odporna na krańcowe wyniki obserwacji.
Dominanta
Estymator:
• Niedostateczny,
• Może być obciążony.
Estymatory wariancji w populacji, 𝝈
Wariancja w próbie
"
∑
(𝑋
−
𝑋
)
𝑆 =
𝑛−1
-
Wariancja (inny wzór)
"
∑
(𝑋
−
𝑋
)
f
𝑆 =
𝑛
-
Estymator:
• Nieobciążony,
• Zgodny,
• Dostateczny.
Estymator:
• Obciążony,
• Zgodny,
• Dostateczny.
𝟐
Estymatory frakcji w populacji, 𝒑
Frakcja z próby
𝑙𝑖𝑐𝑧𝑏𝑎 𝑜𝑏𝑠𝑒𝑟𝑤𝑎𝑐𝑗𝑖 𝑑𝑎𝑛𝑒𝑗 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑖
5
𝑃=
𝑛
Estymator:
• Nieobciążony,
• Najefektywniejszy
• Zgodny,
• Nieostateczny.
Estymatory odchylenia standardowego w populacji, 𝝈
Odchylenie standardowe w próbie
𝑆=
𝑆
Odstęp międzykwartylowy
𝐼𝑄𝑅 = 𝑄K − 𝑄&
Estymator:
• Obciążony,
• Zgodny,
• Dostateczny.
Estymator:
• Niedostateczny,
• Może być obciążony.
Zadania
Całkowity
przychód
w %
Spółka
Cena akcji
($)
Dywidenda
Całkowity
przychód
w %
204
18
11,13
0,08
69
35
25,00
45
45
Spółka
Cena akcji ($)
1
28,50
2
71,38
0,48
163
19
16,00
1,38
64
36
12,13
3
15,12
0,12
126
20
28,00
0,54
59
37
38,63
4
24,00
0,42
103
21
38,63
0,10
59
38
8,63
44
5
13,75
96
22
90,75
1,38
57
39
25,50
44
6
11,00
91
23
22,25
53
40
11,12
43
7
25,75
87
24
40,25
53
41
30,50
8
25,50
87
25
13,38
53
42
56,38
9
32,00
87
26
25,88
52
43
20,88
0,60
41
10
17,50
87
27
51,87
0,68
52
44
25,38
0,16
40
11
21,50
83
28
70,00
0,84
51
45
49,00
1,19
39
12
23,62
80
29
33,25
0,20
50
46
21,75
0,09
38
13
9,50
0,10
79
30
32,75
0,43
49
47
32,13
0,70
38
14
12,38
0,85
78
31
22,50
0,56
49
48
36,13
0,42
38
15
14,50
0,41
77
32
30,63
0,64
47
49
23,13
0,36
37
16
30,38
0,24
77
33
75,00
1,00
46
50
36,25
0,59
37
17
25,25
0,08
72
34
53,75
1,90
45
Dywidenda
0,35
0,40
Spółka
Cena akcji
($)
Całkowity
przychód
w %
Dywidenda
0,56
0,26
44
42
42
Interesuje nas średnia cena akcji powyższych 50 spółek. Traktując wyniki z tabeli jako populację obliczyć możemy:
Parametry populacji
Średnia w populacji 𝜇
Odchylenie standardowe w populacji 𝜎
30,2038
17,90643358
Następnie sprawdźmy jak zachowuje się średnia z próby. Pobierzmy 5, 10 i 15 elementowe próby losowe cen akcji.
Próba 5
elementowa
16
Próba 10 elementowa
25,88
Próba 15 elementowa
8,63
38,63
24
32,13
24
33,25
71,38
8,63
17,5
22,25
38,63
9,5
25,25
24
25,75
30,38
36,13
17,5
13,75
25,88
25,5
25,5
30,38
32,75
13,75
22,5
28,5
53,75
Średnia z próby
25,178
23,339
29,49333333
Odchylenie
13,42918724
6,879651881
15,7810382
Rowery górskie firmy Shimano są wystawiane w eleganckich salonach w
Mediolanie średnio za cenę 700 $. Załóżmy, że odchylenie standardowe
ceny jest równe 100 $. Jeżeli wybierzemy losowo 60 salonów, jakie jest
prawdopodobieństwo, że średnia cena roweru górskiego Shimano w
próbie znajdzie się między 680 a 720 $?
𝑛 = 60 > 30
𝜇 = 700
𝜎 = 100
"
𝑋~𝑁 700,
100
-
60
"
𝑃 680 ≤ 𝑋 ≤ 720 =
680 − 700
720 − 700
=𝑃
≤𝑍≤
=
100
100
60
60
= 𝑃 −1,55 ≤ 𝑍 ≤ 1,55 =
= 2𝐹 1,55 − 1 = 2 b 0,94 − 1 = 0,88
Przeciętny segment Koloseum może przetrzymać trzęsienie ziemi o sile 3,4
stopnia w skali Richtera, przy odchyleniu standardowym 1,5. Wybrano
losowo 100 segmentów i zbadano jaką maksymalną siłę trzęsienia ziemi
mogą one przetrzymać. Jakie jest prawdopodobieństwo, że przeciętny
segment w próbie przetrzyma trzęsienie ziemi o sile co najmniej 3,6 stopnia
w skali Richtera?
𝑛 = 100 > 30
𝜇 = 3,4
𝜎 = 1,5
"
𝑋~𝑁 3,4;
1,5
-
100
3,6 − 3,4
"
𝑃 𝑋 ≥ 3,6 = 𝑃 𝑍 ≥
= 𝑃 𝑍 ≥ 1,33 =
1,5
100
= 1 − F 1,33 = 1 − 0,91 = 0,09
70% dzieł sztuki wystawianych przez dom aukcyjny Sotheby’s w Japonii to
dzieła japońskie, ponieważ popyt na zachodnie dzieła sztuki w Japonii spada.
Jeżeli pobierzemy próbę losową złożoną z 200 dzieł sztuki spośród dzieł
wystawionych
przez
dom
aukcyjny
Sotheby’s,
to
jakie
jest
prawdopodobieństwo, że co najmniej 80% dzieł w tej próbie będzie dziełami
japońskimi?
𝑝 = 0,7
𝑛 = 200
𝑛𝑝 = 140 > 5
𝑛 1 − 𝑝 = 60 > 5
𝑝(1 − 𝑝)
5
𝑃~𝑁 𝑝;
= N(0,7; (0,032) )
𝑛
0,8 − 0,7
5
𝑃 𝑃 ≥ 0,8 = 𝑃 𝑍 ≥
=
0,032
= 𝑃 𝑍 ≥ 3,125 = 1 − 𝐹 3,125 =
= 1 − 0,99938 = 0,00062
Download