Wnioskowanie statystyczne CZEŚĆ II dr Urszula Gierałtowska Wnioskowanie statystyczne Populacja generalna a próba statystyczna Przedmiotem statystyki matematycznej są zasady i metody uogólniania wyników otrzymanych z próby losowej na całą populację generalną, z której próba ta została pobrana. Przez populację generalną lub krótko populację będziemy rozumieć zbiór jednostek (osób, rzeczy, zjawisk) będących przedmiotem zainteresowania statystyka (badacza). Elementy populacji nazywamy jednostkami badania. Znajomość populacji generalnej oznacza: → w statystyce opisowej – wyniki badania całkowitego zbiorowości statystycznej ze względu na cechę X, → w statystyce matematycznej – znajomość rozkładu zmiennej losowej X. Wnioskowanie statystyczne W ramach wnioskowania statystycznego wyróżnia się dwa zasadnicze działy: → estymację, czyli szacowanie wartości parametrów lub postaci zmiennej losowej w populacji generalnej, na podstawie rozkładu empirycznego uzyskanego dla próby (wychodzimy od wyników próby i na ich podstawie formułujemy wnioski o populacji generalnej), → weryfikację (testowanie) hipotez statystycznych, czyli sprawdzenie określonych przypuszczeń (założeń) wysuniętych w stosunku do parametrów (lub rozkładów) populacji generalnej na podstawie wyników z próby (wysuwamy określone przypuszczenie dotyczące populacji generalnej, a następnie sprawdzamy je na podstawie wyników próby). Zbiorowości generalnej (populacji) stawia się wymóg, by była jednorodna, tzn. aby jednostki statystyczne w niej występujące ze względu na badaną cechę podlegały działaniu tych samych przyczyn systematycznych, a ich zróżnicowanie w obrębie zbiorowości wynikało tylko z przyczyn przypadkowych. Próbie stawia się również wymóg, aby była reprezentatywna, tzn. by możliwie dobrze odzwierciedlała strukturę zbiorowości generalnej, z której została pobrana (tzn. struktura próby ze względu na interesujące nas cechy musi być zbliżona do struktury populacji generalnej). . Wnioskowanie statystyczne Reprezentatywność próby może być osiągnięta, gdy są spełnione dwa warunki: → elementy populacji są dobierane do próby w sposób losowy, → próba jest wystarczająco liczna (zagadnienie minimalnej liczebności próby) Istnieją dwa sposoby pobierania próby: dobór celowy i losowy. Dobór celowy nie zabezpiecza przed subiektywizmem w doborze. Stosując metody statystyki matematycznej, należy pobrać próbę w sposób losowy. Przez losowy dobór elementów do próby będziemy rozumieli taki sposób postępowania, w którym każda jednostka ma znane (różne od zera) prawdopodobieństwo znalezienia się w próbie, a dla każdego podzbioru jednostek populacji generalnej, można ustalić prawdopodobieństwo dostania się do próby. Próba tym lepiej reprezentuje populację generalną, z której została wylosowana, im jest liczniejsza. Z losowaniem, czyli procesem pobierania prób losowych wiążą się następujące zagadnienia: operat losowania i schemat losowania. Wnioskowanie statystyczne Operat losowania jest to kompletny wykaz jednostek losowania (czasami jednostka losowania ≠ jednostka badania). Operatem losowania mogą być wykazy jednostek losowania danego stopnia – mapy lub szkice terenowe z zaznaczonymi granicami obszarów tworzących jednostki losowania danego stopnia. Operat losowania musi być: – kompletny, tzn. powinien obejmować wszystkie jednostki badanej populacji, przy czym każda jednostka badania powinna w nim figurować tylko raz, – aktualny - ponieważ operaty losowania są oparte na wynikach spisów (lub rejestracji) z natury rzeczy odzwierciedlają pewien przeszły stan faktyczny, który nie zawsze musi się pokrywać ze stanem obecnym. Wnioskowanie statystyczne Sposób postępowania prowadzący do wyboru określonej próby losowej nazywa się schematem losowania. Klasyfikacja schematów losowania: 1. losowanie niezależne i zależne, 2. losowanie indywidualne i zespołowe, 3. losowanie jednostopniowe i wielostopniowe, 4. losowanie nieograniczone i ograniczone. Ad.1. Losowanie niezależne zwane też losowaniem ze zwracaniem, to takie, w którym losujemy jednostkę po jednostce z populacji generalnej z tym samym prawdopodobieństwem wyboru. A zatem, żeby zachować takie samo prawdopodobieństwo wyboru jednostka raz wylosowana ponownie zostaje włączona w skład populacji (w każdym etapie losowania niezależnego, prawdopodobieństwo wylosowania danego elementu populacji do próby jest identyczne). W losowaniu zależnym (losowaniu bez zwracania) jednostka raz wylosowana do próby nie bierze udziału w dalszym losowaniu. Prawdopodobieństwo wyboru kolejnej jednostki zmienia się w miarę losowania kolejnych jednostek do próby. Wnioskowanie statystyczne Ad. 2. Losowanie indywidualne ma miejsce wówczas, gdy losuje się pojedyncze elementy (jednostki badania) z populacji generalnej. Losowanie zespołowe natomiast polega na tworzeniu zespołów (grup), składających się z pewnej liczby jednostek badania i wylosowaniu pewnej liczby tychże zespołów według określonej zasady. Próbę stanowią wówczas wszystkie jednostki badania z wylosowanych zespołów (grup). W tym schemacie losowania w przeciwieństwie do losowania indywidualnego jednostka losowania ≠ jednostka badania. Ad. 3. W losowaniu jednostopniowym stosowany jest tylko jeden etap losowania próby – losowane są od razu jednostki populacji generalnej. W losowaniu wielostopniowym cała populacja jest dzielona na szereg coraz bardziej szczegółowych podgrup jednostek badania. Podgrupy te nazywa się jednostkami losowania kolejnych stopni. Najpierw losuje się duże podgrupy jednostek badania zwane jednostkami losowania 1 stopnia, następnie mniejsze podgrupy zwane jednostkami losowania 2 stopnia spośród wylosowanych wcześniej jednostek losowania 1 stopnia itd. Ad. 4. Losowanie jest nieograniczone jeśli odbywa się z całej populacji. Losowanie ograniczone dokonuje się z poszczególnych rozłącznych części oddzielnie. Schematami losowania ograniczonego są losowanie warstwowe (losowanie z pewnych rozłącznych i wewnętrznie jednorodnych części populacji (warstw), na które poprzednio podzielono populację) i losowanie systematyczne (po losowym uporządkowaniu jednostek do próby włączamy co k-ty element populacji). Wnioskowanie statystyczne Losowanie indywidualne, nieograniczone, niezależne nosi nazwę losowania prostego, a otrzymana próba określana jest mianem próby prostej. Próbą prostą o liczebności n elementów wylosowaną ze skończonej lub nieskończonej populacji nazywa się taką próbę losową, której wyniki są niezależnymi zmiennymi losowymi o jednakowych rozkładach identycznych z rozkładem populacji. Próbę prostą ze skończonej populacji uzyskuje się stosując schemat losowania indywidualnego, nieograniczonego, niezależnego (zwrotnego). Próba prosta może być ściślej zdefiniowana jako n–wymiarowa zmienna losowa (wektor losowy) X = (X1, X2, ..., Xn) o własnościach: → X1, X2, ..., Xn są niezależnymi zmiennymi losowymi, → każda zmienna losowa Xi (i–ty wynik w próbie) ma rozkład identyczny z rozkładem populacji, tzn. jeżeli F(x) jest dystrybuantą rozkładu populacji, to F(xi) = F(x) dla i = 1, 2, ..., n. Realizacją próby X nazywamy wektor x realizacji zmiennych losowych X1, X2, ..., Xn tworzących próbę. Wnioskowanie statystyczne Estymacja to wnioskowanie o wartościach nieznanych wielkości charakteryzujących populację generalną na podstawie próby losowej. Estymacja statystyczna dzieli się na: parametryczną i nieparametryczną. Estymacja parametryczna to postępowanie prowadzące do szacowania parametrów rozkładu populacji generalnej, zaś estymacja nieparametryczna dotyczy szacowania postaci funkcyjnej rozkładu populacji generalnej. Wyróżniamy parametryczną estymację: – punktową (metodę szacunku, za pomocą której jako wartość parametru zbiorowości generalnej przyjmuje się jedną konkretną wartość estymatora wyznaczonego na podstawie n-elementowej próby), – przedziałową (wyznacza się przedział liczbowy, który z pewnym prawdopodobieństwem zawiera nieznaną wartość szacowanego parametru zbiorowości generalnej). Estymatorem Tn parametru Q rozkładu populacji generalnej nazywamy funkcję z próby Tn= t(X1, X2, ... , Xn), która służy do oszacowania wartości parametru Q. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby. Jeżeli jako ocenę (szacunek) podajemy jedną wartość liczbową, nazywamy ją oceną punktową (szacunkiem punktowym) parametru populacji. Wyrażenie będące różnicą pomiędzy estymatorem a wartości parametry Q, czyli Tn – Q = z określamy błędem szacunku lub błędem estymacji (jest to zmienna losowa o rozkładzie indukowanym przez rozkład estymatora). Wnioskowanie statystyczne Podstawowe własności estymatorów: – nieobciążoność – estymator jest nieobciążony, jeżeli jego wartość oczekiwana jest równa parametrowi populacji, do oszacowania której służy – E(Tn) = Q, n = 1, 2, ..., Wyrażenie E(Tn) – Q = b(Tn) określamy jako obciążenie estymatora, zaś estymator jest asymptotycznie nieobciążony, jeżeli: lim b(Tn )=0 n Własność nieobciążoności oznacza, że przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony równa się wartości szacowanego parametru. Własność ta gwarantuje otrzymanie za jego pomocą ocen wolnych od błędu systematycznego. – zgodność – estymator jest zgodny, jeżeli prawdopodobieństwo, że jego wartość będzie bliska wartości szacownego parametru, wzrasta wraz ze wzrostem liczebności próby tzn. dla dostatecznie licznej próby szansa otrzymania oceny estymatora różnego od parametru jest bliska 0 (estymator jest zgodny, jeżeli podlega działaniu prawa wielkich liczb). lim PTn Q = 1, 0, n przy → minimum Wraz ze wzrostem liczebności próby wzrasta dokładność oszacowania parametru Q. Przy małych liczebnościach ważniejsza praktycznie jest zwykle kwestia nieobciążoności lub rozmiarów obciążoności estymatora. Wnioskowanie statystyczne Współzależności pomiędzy własnościami zgodności i nieobciążoności: jeżeli estymator Tn parametru jest zgodny, to równocześnie jest asymptotycznie nieobciążony; twierdzenie odwrotne nie jest prawdziwe, jeżeli estymator Tn parametru Q jest nieobciążony (lub asymptotycznie nieobciążony) oraz jeżeli jego wariancja w miarę wzrostu liczebności próby zmierza do zera, to Tn jest estymatorem zgodnym. Drugą zależność można również zapisać jako – jeżeli estymator Tn parametru Q spełnia następujące warunki: 1) wariancja D2(Tn) tego estymatora dąży do zera przy n → ∞, 2) estymator jest nieobciążony lub jego obciążenie b(Tn) spełnia warunek lim b(Tn )=0 n to estymator jest zgodny (dowód twierdzenia opiera się na nierówności Czebyszewa). Jeżeli Tn jest zgodnym estymatorem parametru Q i h jest innym parametrem rozkładu związanym z Q przekształceniem ciągłym h = h(Q), to estymator h(Tn) jest estymatorem zgodnym parametru h. Wnioskowanie statystyczne – efektywność – estymator jest efektywny, jeżeli ma niewielką wariancję (a tym samym niewielkie odchylenie standardowe) – pośród wszystkich nieobciążonych estymatorów parametru Q, ten o najmniejszej wariancji nazwiemy najefektywniejszym (nierówność Rao-Cramera) D 2 Tn* D 2 Tni Miarą efektywności estymatora jest D 2 Tn* eT = 2 i D Tn * n Estymator asymtotycznie najefektywniejszy: 0 e Tn* 1 lim e Tn* = 1 n Efektywność estymatora związana jest z wielkością rozrzutu wartości estymatora dookoła jego nadziei matematycznej (w przypadku estymatora nieobciążonego, wariancja estymatora mierzy rozrzut realizacji Tn dookoła prawdziwej wartości parametru) – dostateczność – estymator Tn parametru Q jest dostateczny (wystarczający), jeżeli zawiera wszystkie informacje, jakie na temat parametru Q można uzyskać na podstawie próby i żaden inny estymator nie umożliwia otrzymania dodatkowych informacji o szacowanym parametrze. Wnioskowanie statystyczne Estymator Tn zgodny, nieobciążony i najefektywniejszy pozwoli najlepiej oszacować nieznany parametr Q, ponieważ z dużym prawdopodobieństwem można przyjąć, że zaobserwowana wartość estymatora Tn jest bliska rzeczywistej wartości Q. Przy estymacji punktowej za ocenę parametru przyjmuje się wartość estymatora, więc korzystniejsza jest sytuacja, że im wartości Tn grupują się bliżej wartości Q, tym niższa jest wariancja estymatora (wybiera się ten, który w rozpatrywanym zbiorze jest najefektywniejszy, czyli e(Tn*) jest największe) Pierwiastek z wariancji estymatora nieobciążonego nazywany jest błędem średnim szacunku. D(Tn) mierzy oczekiwany rząd odchyleń wartości estymatora od prawdziwej wartości parametru (mierzy przeciętną wielkość błędów szacunku jakie popełniono by in plus i in minus, gdyby z wyróżnionej zbiorowości wielokrotnie pobierano próby złożone z n obserwacji i na ich podstawie szacowano Q za pomocą estymatora Tn). Względny błąd średni szacunku określony jest jako D(Tn)/Q. Wnioskowanie statystyczne Statystyka jako zmienna losowa posiada pewien rozkład, który nazywamy rozkładem statystyki z próby. Zależy on przede wszystkim od rozkładu populacji, z której pochodzi próba oraz od liczebności próby. Ze względu na liczebność n próby rozkłady statystyk dzielimy na dokładne (rozkłady prawdopodobieństwa wyznaczone dla dowolnej liczby naturalnej n, będącej liczebnością próby; są one wykorzystywane dla małych prób) oraz graniczne (rozkład prawdopodobieństwa statystyki, który otrzymuje się przy założeniu nieograniczenie dużej próby, n → ∞ (nie ma jednej, określonej wartości n od której uznajemy prób za dużą. W niektórych przypadkach rozkład dokładny już dla n > 30 niewiele różni się od rozkładu granicznego, w innych przypadkach potrzebujemy n > 100)). Relacje między estymatorami a parametrami Estymator (statystyka z próby) Parametr populacji x s( x ) m n r p Wnioskowanie statystyczne Przegląd ważniejszych estymatorów Parametr Estymator Tn Wartość średnia X X= E(Tn) Własności estymatora Nieobciążony, zgodny, najbardziej efektywny 2 Nieobciążony, zgodny, najbardziej efektywny i n Wariancja 2 2 * S S 2 X = X = 2 i n i X 2 n n Ŝ 2 = S2 n 1 Wskaźnik struktury p Współczynnik korelacji Częstość względna m/n r= cov( X, Y ) SX SY n 1 2 Zgodny n 2 Nieobciążony, zgodny p Nieobciążony, zgodny, najbardziej efektywny 1 O n Zgodny Wnioskowanie statystyczne Metody wyznaczania estymatorów metoda momentów – estymatory zgodne, ale przeważnie obciążone i mało efektywne, metoda największej wiarogodności – estymatory zgodne, asymptotycznie nieobciążone i asymptotycznie efektywne, metoda najmniejszych kwadratów (estymacja parametrów wyrażających różne zależności pomiędzy zmiennymi losowymi) – estymatory zgodne, nieobciążone i najefektywniejsze w klasie estymatorów liniowych. Wnioskowanie statystyczne Estymacja średniej Rozkład średniej z próby to rozkład prawdopodobieństwa wszystkich wartości, jakie może przybrać losowa zmienna , gdy próba o liczebności n jest pobierana z określonej populacji. Analizując centralne twierdzenie graniczne: jeżeli pobieramy próbę z populacji o średniej i skończonym odchyleniu standardowym , to rozkład średniej z próby dąży do rozkładu normalnego o średniej i odchyleniu standardowym n , gdy liczebność próby wzrasta nieograniczenie, czyli przy dostatecznie dużych n: X : N; / n , można zauważyć, rozkład średniej z próby zmierza do rozkładu normalnego, niezależnie od rozkładu populacji, z której próba została pobrana. Czy znane jest tak nie Czy próba jest duża (n-1 > 120) nie tak Wnioskowanie statystyczne Rozkład średniej arytmetycznej z próby 1. Cecha X w populacji generalnej ma rozkład normalny N (, ), gdzie jest znane. Z populacji tej pobieramy próbę n-elementową (X1, X2, …, Xn). Średnia arytmetyczna z próby ma rozkład: N( n . W praktyce wykorzystujemy zmienną standaryzowaną u, która ma rozkład normalny N(0, 1). Zmienna standaryzowana ma postać: u= x n 2. Cecha X ma rozkład normalny N (, ), gdzie jest nieznane (próba mała). Dokonujemy przekształcenia zwanego studentyzacją t= x n 1 s( x ) Zmienna t ma rozkład t Studenta z n-1 stopniami swobody. Liczba stopni swobody jest równa liczbie niezależnych obserwacji określających statystykę t (w tym przypadku jest równa n-1). 3. Cecha X w populacji ma rozkład dowolny, nieznane (próba duża). Dla dużych prób zakładamy, że ≈ s . Korzystamy ze statystyki: u = x n s( x ) która ma rozkład normalny N(0, 1). Wnioskowanie statystyczne Rozkład wariancji z próby 1. Cecha X ma w populacji generalnej rozkład N(, ; , – nieznane; n ≤ 30. Estymatorem parametru 2 jest wariancja z próby s2(x) n s 2 (x) = 2 2 która ma rozkład chi-kwadrat z n-1 stopniami swobody. 2. Cecha X ma w populacji generalnej rozkład N(, ; , nieznane; n > 30. Estymatorem parametru 2 jest wariancja z próby s2(x) – korzystamy z rozkładu granicznego 2 2 N 2k 1;1 u = 2 2 2k 1, k = n 1 Statystyka u ma rozkład N(0,1) Rozkład wskaźnika struktury z próby Cecha X ma w populacji generalnej rozkład dwupunktowy, p – prawdopodobieństwo sukcesu, n > 100. Gdy liczebność próby wzrasta ma zastosowanie centralne twierdzenie graniczne – frakcja rozkładu z próby zbliża się do rozkładu normalnego o średniej p i odchyleniu standardowym Statystyka u = m p n p1 p n ma rozkład N(0, 1). p1 p n Wnioskowanie statystyczne Estymacja przedziałowa – polega na budowie przedziału zwanego przedziałem ufności, który z określonym prawdopodobieństwem będzie zawierał nieznaną wartość szacowanego parametru P(t1(Q) < Q < t2(Q)) = 1 – a, gdzie: t1(Q), t2(Q) – oznaczają granice przedziałów ufności, 1 – a = g – jest to z góry przyjęte prawdopodobieństwo, iż przedział ufności pokryje daną wartość parametru, które nazywa się współczynnikiem ufności (samo a określane jest prawdopodobieństwem błędu) Przedział ufności to losowy przedział wyznaczony za pomocą rozkładu estymatora (statystyki z próby), a mający tę własność, że z dużym, z góry zadanym prawdopodobieństwem, pokrywa wartość zadanego parametru Q. Interpretacja współczynnika ufności: przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie funkcji t1(Q) oraz t2(Q) średnio w (1 – a)100% przypadków otrzymalibyśmy przedziały pokrywające nieznaną wartość parametru Q, a ·100% przypadków – przedziały nie pokrywające tej wartości. Z reguły za 1 – a przyjmujemy: 0,9; 0,95, 0,99. Im wyższy współczynnik ufności (bliższy 1), tym większa pewność co do tego, że skonstruowany przedział będzie pokrywał estymowany parametr populacji generalnej. Niestety skutkuje to mniejszą precyzją oszacowania, gdyż długość przedziału ufności powiększa się. Maksymalny błąd szacunku d: jest to połowa długości przedziału ufności. Wnioskowanie statystyczne Precyzja oszacowania jest to miara dokładności dopasowania. Jeżeli: d≤5% – oszacowanie charakteryzuje się dużą precyzją (wyniki z próby można uogólnić na całą populację), 5 % < d ≤ 10 % – uogólnienia wyników na populację generalną należy dokonywać ostrożnie, d > 10 % – nie należy dokonywać żadnych uogólnień na populację generalną. Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna jest estymacja przedziałowa. Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału. Im liczniejsza próba, tym węższy jest przedział ufności. Wnioskowanie statystyczne Przedziały ufności dla nadziei matematycznej Budowa przedziału ufności dla wartości średniej (oczekiwanej) = E(X) rozkładu populacji zależy od: typu rozkładu cechy X w populacji generalnej, znajomości wariancji (odchylenia standardowego) wielkości próby 1. Założenia: próba losowa pobrana z populacji o rozkładzie N(, ), gdzie jest znane. Cel: budowa przedziału ufności dla przy współczynniku ufności 1-a. Przedział ufności ma postać: P x u a x ua = 1 a n n gdzie: ua – wartość zmiennej losowej u odczytana z tablic dystrybuanty rozkładu normalnego dla 1-a/2 Przedział ufności dla jest to przedział, który z prawdopodobieństwem 1-a pokrywa nieznaną wartość przeciętną w całej populacji generalnej. Maksymalny błąd szacunku wynosi: d = u a Precyzja oszacowania wynosi: dx = ua x n n 100% Wnioskowanie statystyczne 2. Założenia: próba losowa pobrana z populacji o rozkładzie N(, ), gdzie jest nieznane, liczebność próby – mała (do 120). Cel: budowa przedziału ufności dla przy współczynniku ufności 1-a. Przedział ufności ma postać: s( x ) s( x ) Px t a ,n1 x t a ,n 1 = 1 a n 1 n 1 ta – wartość statystyki t-Studenta odczytana dla a i n-1 stopni swobody Maksymalny błąd szacunku wynosi: d = t Precyzja oszacowania wynosi: dx = ta a ,n 1 s( x ) n 1 s( x ) n 1 100% x 3. Założenia: próba losowa pobrana z populacji o dowolnym rozkładzie, gdzie jest nieznane, a liczebność próby jest duża (n > 120). Cel: budowa przedziału ufności dla przy współczynniku ufności 1-a. Przedział ufności ma postać: s( x ) s( x ) P x u a x ua = 1 a n n s( x ) a n s( x ) Maksymalny błąd szacunku wynosi: d = u Precyzja oszacowania wynosi: d = x ua x n 100% Wnioskowanie statystyczne Przykład: 1. W celach antropometrycznych dokonano na wylosowanych niezależnie 400 studentach Uniwersytetu Szczecińskiego pomiarów mierząc m.in. długość stopy. Przeciętna długość stopy wyniosła 26,4 cm, natomiast wiadomo, że w całej populacji długość stopy odchyla się od wartości przeciętnej średnio o ±1,7 cm. Oszacować punktowo i przedziałowo średnią długość stopy studenta (g = 0,9). 2. W grupie 50 studentów dokonano analizy czasu poświęconego na naukę statystyki. W próbie tej średni czas wynosił 2,5 godziny, a odchylenie 1,5 godziny. Oszacuj przedziałowo przeciętny czas poświęcany na naukę, jeżeli g = 0,98 3. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia według ich powierzchni. Otrzymano wyniki: Powierzchnia [m2] Liczba mieszkań 30-40 13 40-50 17 50-60 48 60-70 30 70-80 15 Oszacować punktowo i przedziałowo przeciętną powierzchnię mieszkania (współczynnik ufności 0,95) Wnioskowanie statystyczne Przedziały ufności dla wariancji 1. Założenia: populacja generalna ma rozkład N(, ), , są nieznane, a próba jest mała (poniżej 30). Cel: budowa przedziału ufności dla przy współczynniku ufności 1-a. Przedział ufności ma postać: Wartości 2a odczytujemy z tablic kwantyli rozkładu 2 dla zadanego poziomu a i n-1 stopni swobody 2. Założenia: populacja generalna ma rozkład N, , , – są nieznane, a próba jest duża (n > 30). Cel: budowa przedziału ufności dla przy współczynniku ufności 1-a. Przedział ufności ma postać: Wnioskowanie statystyczne Przykład 1. W 5 gminach województwa zachodniopomorskiego określono poziom stopy bezrobocia: 17,1; 28,4; 13,3; 13,4; 18,0%. Na poziomie ufności 0,9 oszacuj odchylenie standardowe. 2. W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia według ich powierzchni. Otrzymano wyniki: Powierzchnia [m2] Liczba mieszkań 30-40 40-50 50-60 60-70 70-80 13 17 48 30 15 Oszacować przedziałowo odchylenie standardowe powierzchni mieszkań (współczynnik ufności 0,98). Wnioskowanie statystyczne Przedziały ufności dla odsetka (udziału, frakcji, wskaźnika struktury) Założenia: liczba elementów w próbie n >100. Cel: budowa przedziału ufności dla frakcji (procentu) p elementów posiadających wyróżnioną cechę w populacji generalnej. Przedział ufności ma postać: Przykład: W pewnym przedsiębiorstwie zbadano strukturę wypłat nagród pracowniczych. Wyniki przedstawia tabela: Wysokość nagrody Liczba pracowników 400-500 500-600 600-700 700-800 800-900 900-1000 20 30 60 80 40 20 Na poziomie ufności 0,92 oszacować odsetek osób, które otrzymały nagrodę powyżej 700 zł. Wnioskowanie statystyczne Problem minimalnej liczebności próby Minimalna liczebność próby – taka liczebność próby, która zapewni wymaganą dokładność (precyzję oszacowania) przy danym poziomie wiarygodności (prawdopodobieństwa). Dokładność estymacji przedziałowej parametru Q mierzona jest długością przedziału ufności wyznaczonego na podstawie wyników próby losowej. Z reguły z populacji generalnej pobiera się tylko jedną n - elementową próbę: • zbyt duża próba => zbyt duże koszty, opóźnienia czasu analizy wyników, • zbyt mała próba => nie zapewnia danej dokładności i wiarygodności wnioskowania. Aby wyznaczy minimalną liczebności próby należy ustalić: • poziom współczynnika ufności, • maksymalny błąd szacunku (długość przedziału ufności). Wnioskowanie statystyczne Dla estymacji przedziałowej średniej w populacji – przy znanym odchyleniu standardowym σ w populacji: poszukujemy takiej liczebność próby n, dla której przy danym współczynniku ufności (1-α) połowa długości przedziału ufności d – maksymalny błąd szacunku (tj. połowa długości przedziału ufności) – nie przekroczy ustalonej z góry wartości. u a2 2 n= 2 d – przy nieznanym odchyleniu standardowym σ w populacji: losujemy próbę wstępną n0, obliczamy średnią i wariancję z próby i na jej podstawie wyznaczamy właściwą liczebność próby: n= n= t a2 ,n 0 1 Ŝ2 ( x ) d2 t a2 ,n 0 1 s 2 ( x ) d2 n0 n 0 1 Jeżeli n ≤ n0 to próbę wstępną traktujemy jako właściwą. Jeżeli zaś n > n0 to musimy próbę powiększyć o n – n0. Wnioskowanie statystyczne Dla estymacji przedziałowej wskaźnika struktury w populacji W przypadku, gdy populacja generalna ma rozkład dwupunktowy z parametrem p; należy oszacować metodą przedziałową ten parametr tak, by przy współczynniku ufności 1 – a maksymalny błąd szacunku wskaźnika struktury nie przekroczył danej liczby d, wówczas: u a2 pq 2 , n = d2 ua , 4d 2 q = 1 – p, gdy znany jest rząd wielkości p, gdy nieznany jest rząd wielkości p, ua – wartość odczytana z tablic dystrybuanty N(0, 1) dla 1 – a, tak aby P u u a = 1 a. Wnioskowanie statystyczne Przykład 1. W celu wyznaczenia przeciętnej długości drogi hamowania samochodu na asfalcie, przeprowadzono przy prędkości 40 km/h 12 prób i otrzymano wyniki w metrach: 17,0; 19,0; 22,0; 20,5; 20,0; 21,0; 20,5; 20,0; 21,0; 18,0; 20,0; 21,0. Czy liczba prób jest wystarczająca do wyznaczenia przedziału ufności średniej o długości 0,5 m i dla 1 – α = 0,95. Ewentualnie, jaką liczbę prób należy jeszcze przeprowadzić? 2. W celu oszacowania przeciętnych miesięcznych wydatków studentów US na usługi kserograficzne w 2005 roku, wylosowano niezależnie 125 studentów. Jeżeli wiadomo, że odchylenie standardowe w całej populacji wynosi 12zł, a średnie wydatki w próbie wyniosły 30 zł. a) z jakim maksymalnym dopuszczalnym błędem można się pogodzić się, aby przy prawdopodobieństwie 0,95 próba była wystarczająco liczna, b) zakładając, że próba jest wystarczająca, przy jakim prawdopodobieństwie maksymalny błąd wyniesie 2 zł. 3. Jak liczna powinna być próba, aby oszacować odsetek pracowników awansujących trzykrotnie w karierze zawodowej z maksymalnym błędem 2% przy prawdopodobieństwie 0,92? Wnioskowanie statystyczne Przedziały ufności dla współczynnika korelacji Estymatorem współczynnika korelacji liniowej Pearsona jest współczynnik . – przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(, σ). Działa on dla dowolnej próby, choć jest zwykle stosowany tylko dla prób małych (n < 30, choć wielokrotnie w literaturze mówi się, że n < 200). – przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N(, σ) dla dużej próby Wnioskowanie statystyczne Przykład Na podstawie transakcji kupna-sprzedaży działek budowlanych w Szczecinie w grudniu 1995 roku otrzymano następujące informacje: Wartość działki [w tys. zł] 9 10 15 16 18 18 19 19 Powierzchnia działki [w arach] 2 3 3 3 4 5 4 4 Oszacować przedziałowo współczynnik korelacji wartości sprzedanych działek względem ich powierzchni (1-a = 0,95)