Estymacja punktowa Pobieranie próby i rozkłady z próby Statystyki z próby jako estymatory parametrów populacji • Parametry populacji są to liczbowe charakterystyki całej populacji. • Statystyką z próby nazywa się liczbową charakterystykę próby. Estymatorem parametru populacji nazywamy statystykę z próby (zmienną losową) używaną do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby. Jeżeli jako ocenę (szacunek) podajemy jedną wartość liczbową, to nazywamy ją oceną punktową parametru populacji lub estymacją punktową. Estymator (statystyka z próby, zmienna losowa) wartość Parametr populacji " 𝑋 -­‐ średnia z próby 𝑥& + ⋯ + 𝑥) 𝑥̅ = 𝑛 𝜇 -­‐ średnia w populacji 𝑆 -­‐ wariancja z próby 𝑆 -­‐ odchylenie standardowe w próbie 5 𝑃 -­‐ frakcja w próbie 𝑠 = (𝑥& − 𝑥̅ ) + ⋯ + 𝑛−1 𝑠= 𝑠 𝑥 𝑝̂ = 𝑛 (𝑥) − 𝑥̅ ) 𝜎 -­‐ wariancja w populacji 𝜎 -­‐ odchylenie standardowe w populacji 𝑝 -­‐ frakcja w populacji " Z poznanych wcześniej zmiennych losowych 𝑋, 𝑆 , 𝑆 poznajmy jeszcze 5 jedną – frakcję (częstość) w próbie, 𝑃. Estymator ten służy do szacowania frakcji w populacji, 𝑝. - Frakcja w populacji, 𝒑 9 Frakcja w próbie, 𝒑 Jest to liczba elementów populacji należących do pewnej kategorii, którą się interesujemy, podzielona przez liczbę wszystkich elementów populacji. 𝑥 𝑝̂ = 𝑛 𝑥 -­‐ liczba elementów próby, które należą do interesującej nas kategorii, 𝑛 -­‐ liczebność próby. Rozkład z próby Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka (ta zmienna losowa) może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach (o tej samej liczebności), pobranych z określonej populacji. " Na przykład, rozkładem średniej z próby, 𝑋 jest rozkład prawdopodobieństwa wszystkich " wartości, jakie może przybrać zmienna losowa 𝑋, gdy próba o liczebności 𝑛 jest pobierana z określonej populacji. Przykład. Populacja = 1,2,3,4,5,6,7,8 Prawdopodobieństwo wybrania, którejkolwiek wartości z populacji jest jednakowe. Wynosi ono zatem 1/8. Zatem średnia w populacji wynosi: 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 36 𝜇= = = 4,5 8 8 Odchylenie standardowe w populacji wynosi: (1 − 𝜎 = 𝜇) + ⋯ + (8 − 8 𝜇) = 2,29 Wartości x 0,15 0,1 0,05 0 1 2 3 4 5 6 7 8 " Skonstruujemy rozkład z próby zmiennej 𝑋 , pobierając próby dwuelementowe (𝑛 = 2) z populacji. Pierwsza wartość z próby 1 2 3 4 5 6 7 8 1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (7,1) (8,1) 2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) (7,2) (8,2) 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (7,3) (8,3) 4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (7,4) (8,4) 5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (7,5) (8,5) 6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) (7,6) (8,6) 7 (1,7) (2,7) (3,7) (4,7) (5,7) (6,7) (7,7) (8,7) 8 Druga wartość z próby 𝛀 (1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8) (8,8) Pierwsza wartość z próby 1 2 3 4 5 6 7 8 1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (7,1) (8,1) 2 (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) (7,2) (8,2) 3 (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (7,3) (8,3) 4 (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (7,4) (8,4) 5 (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (7,5) (8,5) 6 (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) (7,6) (8,6) 7 (1,7) (2,7) (3,7) (4,7) (5,7) (6,7) (7,7) (8,7) 8 Druga wartość z próby 𝛀 (1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8) (8,8) Rozkład z próby: Możliwe wartości F średniej z próby, 𝑿 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 Prawdopodobieństwo 1 2 3 4 5 6 7 8 7 6 5 4 3 2 1 wystąpienia wartości 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64 Wartości 𝑥̅ 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 " Znajdźmy teraz wartość oczekiwaną i odchylenie standardowe zmiennej losowej 𝑋, korzystając z rozkładu z próby: Możliwe wartości F średniej z próby, 𝑿 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 Prawdopodobieństwo 1 2 3 4 5 6 7 8 7 6 5 4 3 2 1 wystąpienia wartości 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64 " 𝐸 𝑋 = 1⋅ " 𝑆𝐷 𝑋 = & K +1,5⋅ +2⋅ IJ IJ IJ + ⋯+ 8 ⋅ & IJ = 4,5 1 = (1 − 4,5) ⋅ + ⋯ + 8 − 4,5 64 1 -⋅ = 1,62 64 Zauważmy, że: " 𝐸(𝑋) = 4,5 = 𝜇 " 𝑆𝐷 𝑋 = 2,29 𝜎 = 𝑛 2 Zauważyliśmy bardzo istotną własność: Oczekiwana wartość średniej z próby: " 𝐸 𝑋 = 𝜇. Odchylenie standardowe średniej z próby: 𝜎 " 𝑆𝐷 𝑋 = . 𝑛 Jaki jest zatem rozkład średniej z próby? " Jeżeli rozkład w populacji jest normalny, to rozkład średniej z próby, 𝑋 ma średnią (wartość oczekiwaną) równą średniej w populacji, 𝜇. Odchylenie standardowe średniej z próby (inaczej zwane błędem standardowym) wyraża się wzorem: 𝜎/ 𝑛, co oznacza, że maleje wraz ze wzrostem " liczebności próby, 𝑛, a co za tym idzie zbliżanie się 𝑋 do 𝜇 staje się co raz bardziej prawdopodobne. Jednak co się dzieje gdy, rozkład w populacji nie jest normalny? Odpowiedź na to pytanie daje najważniejsze osiągnięcie statystyki: Centralne Twierdzenie Graniczne Centralne Twierdzenie Graniczne: Jeżeli pobieramy próbę z populacji o średniej 𝜇 i skończonym " odchyleniu standardowym 𝜎, to rozkład średniej z próby, 𝑋 dąży do rozkładu normalnego o średniej 𝜇 i odchyleniu standardowym 𝜎/ 𝑛, gdy liczebność próby wzrasta nieograniczenie. Inaczej mówiąc, dla dostatecznie dużych 𝑛: - 𝜎 " 𝑋~𝑁 𝜇, 𝑛 . W centralnym twierdzeniu granicznym zakłada się znajomość odchylenia standardowego populacji, 𝜎. Jeśli odchylenie standardowe w populacji nie jest znane musimy posłużyć się inną statystyką. Możemy użyć standaryzowanego rozkładu średniej z próby: " 𝑋−𝜇 𝑡= 𝑆⁄ 𝑛 Jeżeli rozkład w populacji jest normalny, to statystyka 𝑡 ma rozkład Studenta z 𝑛 − 1 stopniami swobody. 5 Rozkład frakcji z próby, 𝑃 Przypomnijmy, że wartością frakcji z próby jest proporcja liczby elementów danej kategorii, 𝑥 do liczby wszystkich elementów próby, 𝑛. 𝑥 𝑝̂ = 𝑛 5 Rozkład frakcji z próby, 𝑃 opiera się na rozkładzie dwumianowym z parametrami 𝑛 i 𝑝, gdzie 𝑛 jest liczebnością próby, a 𝑝 jest frakcją z populacji. Przypomnijmy, że zmienna losowa o rozkładzie dwumianowym, 𝑋 liczy liczbę sukcesów w 𝑛 próbach. Skoro 𝑋 5 𝑃= 𝑛 a 𝑛 jest ustalone przed pobraniem próby, więc rozkład zmiennej 𝑋 5 determinuje rozkład zmiennej losowej 𝑃. 5 Gdy liczebność próby 𝑛 wzrasta, to rozkład frakcji z próby, 𝑃 zbliża się do rozkładu normalnego o średniej 𝑝 i odchyleniu standardowym 𝑝(1 − 𝑝)⁄𝑛. Aczel−Sounderpandian: Complete Business Statistics, Seventh Edition 5. Sampling and Sampling Distributions Text 𝑝(1 − 𝑝) 5 𝑃~𝑁 𝑝, 𝑛 FIGURE 5–9 Sampling and Sampling Distribu $ The Sampling Distribution of P When p ! 0.3, as n Increases o ile 𝑛𝑝 > 5 i 𝑛 1 − 𝑝 > 5. Sampling distribution of P when n = 2 0.5 Probability 0.4 0.3 0.2 0.1 0.0 0 1 2 p= 0 1 2 1 Sampling distribution of P when n = 10 Probability 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 p= 0 1 10 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9 10 x 1 Sampling distribution of P when n = 15 0.3 Probability x 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 p= 0 1 15 2 15 3 15 4 15 5 15 6 15 7 15 8 15 9 15 10 15 11 15 12 15 13 15 14 15 1 x Własności estymatorów • Estymator 𝑌U parametru 𝜌 jest nieobciążony, jeżeli jego wartość oczekiwana 𝐸 𝑌U jest równa parametrowi populacji, do oszacowania którego służy, czyli gdy 𝐸 𝑌U = 𝜌. • Systematyczne odchylanie się wartości estymatora od szacowanego parametru nazywa się obciążeniem estymatora er 5 " Średnia z próby, 𝑋, jest estymatorem nieobciążonym średniej w populacji, 𝜇. " E 5–10 The Sample Mean X as an Unbiased Estimator of the Population Mean ! 𝐸 𝑋 =𝜇 The target of sampling: ! x x Sample means X x x x x ! x x x x x x x x Przykład obciążonego estymatora, 𝑌, średniej w populacji, 𝜇. GURE 5–11 An Example of a Biased Estimator of the Population Mean ! Obciążeniem tego estymatora jest odległość 𝑀 do 𝜇. A systematic bias Y A biased estimator, Y Y ! Y Y Y Y Y Y M Y Y Y Y Y Y Własności estymatorów • Estymator 𝑌 parametru jest efektywny, jeżeli ma niewielką wariancję 𝑉(𝑌) a tym samym niewielkie odchylenie standardowe 𝑆𝐷(𝑌). • Efektywność jest własnością względną, tzn. można mówić tylko, że pewien estymator jest efektywny w stosunku do innego estymatora, co znaczy, że ma wariancję mniejszą niż ten drugi estymator. Dwa nieobciążone estymatory parametru 𝜇. Estymator 𝑋 jest efektywniejszy GURE 5–12 Two Unbiased Estimators of !, Where the Estimator X Is Efficient od estymatora 𝑌. Relative to the Estimator Z An unbiased and efficient estimator X z z z Z An unbiased estimator of ! with large variance (inefficient) z z z x x x x x z z x x x x x ! x z x x z z z z z z z z z Własności estymatorów • Estymator 𝑌U parametru 𝜌 jest zgodny, jeżeli prawdopodobieństwo, że jego wartość będzie bliska wartości szacowanego parametru, wzrasta wraz ze wzrostem liczebności próby. To znaczy dla dowolnie małej liczby 𝜀 > 0 granica lim 𝑃 𝑌U − 𝜌 < 𝜀 = 1. )→_ " Średnia z próby 𝑋 jest zgodnym estymatorem średniej w populacji 𝜇, ponieważ jej standardowym odchyleniem, błędem jest 𝜎/ 𝑛. Gdy " liczebność próby 𝑛 wzrasta, standardowy błąd 𝑋 maleje, a wobec tego " prawdopodobieństwo, że wartość 𝑋 będzie bliska wartości 𝜇 wzrasta. Własności estymatorów • Estymator jest dostateczny, jeżeli wykorzystuje wszystkie informacje o szacowanym parametrze, które są zawarte w danych z próby. Mediana nie jest dostatecznym estymatorem średniej w populacji, Średnia w próbie jest dostatecznym estymatorem średniej w populacji Estymatory średniej w populacji, 𝝁 " Średnia w próbie, 𝑋 Estymator: • Nieobciążony, • Najefektywniejszy, • Zgodny, • Dostateczny. Mediana, 𝑀 Estymator: • Niedostateczny, • Mniej efektywny od średniej w próbie: " 𝑉 𝑀 > 1,57 b 𝑉(𝑋) • Mediana jest bardziej odporna na krańcowe wyniki obserwacji. Dominanta Estymator: • Niedostateczny, • Może być obciążony. Estymatory wariancji w populacji, 𝝈 Wariancja w próbie " ∑ (𝑋 − 𝑋 ) 𝑆 = 𝑛−1 - Wariancja (inny wzór) " ∑ (𝑋 − 𝑋 ) f 𝑆 = 𝑛 - Estymator: • Nieobciążony, • Zgodny, • Dostateczny. Estymator: • Obciążony, • Zgodny, • Dostateczny. 𝟐 Estymatory frakcji w populacji, 𝒑 Frakcja z próby 𝑙𝑖𝑐𝑧𝑏𝑎 𝑜𝑏𝑠𝑒𝑟𝑤𝑎𝑐𝑗𝑖 𝑑𝑎𝑛𝑒𝑗 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑖 5 𝑃= 𝑛 Estymator: • Nieobciążony, • Najefektywniejszy • Zgodny, • Nieostateczny. Estymatory odchylenia standardowego w populacji, 𝝈 Odchylenie standardowe w próbie 𝑆= 𝑆 Odstęp międzykwartylowy 𝐼𝑄𝑅 = 𝑄K − 𝑄& Estymator: • Obciążony, • Zgodny, • Dostateczny. Estymator: • Niedostateczny, • Może być obciążony. Zadania Całkowity przychód w % Spółka Cena akcji ($) Dywidenda Całkowity przychód w % 204 18 11,13 0,08 69 35 25,00 45 45 Spółka Cena akcji ($) 1 28,50 2 71,38 0,48 163 19 16,00 1,38 64 36 12,13 3 15,12 0,12 126 20 28,00 0,54 59 37 38,63 4 24,00 0,42 103 21 38,63 0,10 59 38 8,63 44 5 13,75 96 22 90,75 1,38 57 39 25,50 44 6 11,00 91 23 22,25 53 40 11,12 43 7 25,75 87 24 40,25 53 41 30,50 8 25,50 87 25 13,38 53 42 56,38 9 32,00 87 26 25,88 52 43 20,88 0,60 41 10 17,50 87 27 51,87 0,68 52 44 25,38 0,16 40 11 21,50 83 28 70,00 0,84 51 45 49,00 1,19 39 12 23,62 80 29 33,25 0,20 50 46 21,75 0,09 38 13 9,50 0,10 79 30 32,75 0,43 49 47 32,13 0,70 38 14 12,38 0,85 78 31 22,50 0,56 49 48 36,13 0,42 38 15 14,50 0,41 77 32 30,63 0,64 47 49 23,13 0,36 37 16 30,38 0,24 77 33 75,00 1,00 46 50 36,25 0,59 37 17 25,25 0,08 72 34 53,75 1,90 45 Dywidenda 0,35 0,40 Spółka Cena akcji ($) Całkowity przychód w % Dywidenda 0,56 0,26 44 42 42 Interesuje nas średnia cena akcji powyższych 50 spółek. Traktując wyniki z tabeli jako populację obliczyć możemy: Parametry populacji Średnia w populacji 𝜇 Odchylenie standardowe w populacji 𝜎 30,2038 17,90643358 Następnie sprawdźmy jak zachowuje się średnia z próby. Pobierzmy 5, 10 i 15 elementowe próby losowe cen akcji. Próba 5 elementowa 16 Próba 10 elementowa 25,88 Próba 15 elementowa 8,63 38,63 24 32,13 24 33,25 71,38 8,63 17,5 22,25 38,63 9,5 25,25 24 25,75 30,38 36,13 17,5 13,75 25,88 25,5 25,5 30,38 32,75 13,75 22,5 28,5 53,75 Średnia z próby 25,178 23,339 29,49333333 Odchylenie 13,42918724 6,879651881 15,7810382 Rowery górskie firmy Shimano są wystawiane w eleganckich salonach w Mediolanie średnio za cenę 700 $. Załóżmy, że odchylenie standardowe ceny jest równe 100 $. Jeżeli wybierzemy losowo 60 salonów, jakie jest prawdopodobieństwo, że średnia cena roweru górskiego Shimano w próbie znajdzie się między 680 a 720 $? 𝑛 = 60 > 30 𝜇 = 700 𝜎 = 100 " 𝑋~𝑁 700, 100 - 60 " 𝑃 680 ≤ 𝑋 ≤ 720 = 680 − 700 720 − 700 =𝑃 ≤𝑍≤ = 100 100 60 60 = 𝑃 −1,55 ≤ 𝑍 ≤ 1,55 = = 2𝐹 1,55 − 1 = 2 b 0,94 − 1 = 0,88 Przeciętny segment Koloseum może przetrzymać trzęsienie ziemi o sile 3,4 stopnia w skali Richtera, przy odchyleniu standardowym 1,5. Wybrano losowo 100 segmentów i zbadano jaką maksymalną siłę trzęsienia ziemi mogą one przetrzymać. Jakie jest prawdopodobieństwo, że przeciętny segment w próbie przetrzyma trzęsienie ziemi o sile co najmniej 3,6 stopnia w skali Richtera? 𝑛 = 100 > 30 𝜇 = 3,4 𝜎 = 1,5 " 𝑋~𝑁 3,4; 1,5 - 100 3,6 − 3,4 " 𝑃 𝑋 ≥ 3,6 = 𝑃 𝑍 ≥ = 𝑃 𝑍 ≥ 1,33 = 1,5 100 = 1 − F 1,33 = 1 − 0,91 = 0,09 70% dzieł sztuki wystawianych przez dom aukcyjny Sotheby’s w Japonii to dzieła japońskie, ponieważ popyt na zachodnie dzieła sztuki w Japonii spada. Jeżeli pobierzemy próbę losową złożoną z 200 dzieł sztuki spośród dzieł wystawionych przez dom aukcyjny Sotheby’s, to jakie jest prawdopodobieństwo, że co najmniej 80% dzieł w tej próbie będzie dziełami japońskimi? 𝑝 = 0,7 𝑛 = 200 𝑛𝑝 = 140 > 5 𝑛 1 − 𝑝 = 60 > 5 𝑝(1 − 𝑝) 5 𝑃~𝑁 𝑝; = N(0,7; (0,032) ) 𝑛 0,8 − 0,7 5 𝑃 𝑃 ≥ 0,8 = 𝑃 𝑍 ≥ = 0,032 = 𝑃 𝑍 ≥ 3,125 = 1 − 𝐹 3,125 = = 1 − 0,99938 = 0,00062