Zastosowanie metod statystycznych – laboratorium 5 Weryfikacja hipotez. Ocena istotności średnich arytmetycznych 1. Dla próby losowej 45 posiadaczy indywidualnych rachunków w pewnym banku zbadano poziom ich sald w dniu 30.03.2003r. Okazało się, że średnioarytmetyczne saldo wyniosło 5629 PLN, przy przeciętnym odchyleniu standardowym równym 734 PLN. Dyrekcja banku stwierdziła jednak, że rzeczywiste przeciętne saldo wszystkich posiadaczy kont indywidualnych było w tym dniu wyższe i wynosiło 5753 PLN. Przyjmij hipotezę zerową "dyrekcja banku ma rację, oczekiwane saldo wynosi 5753 PLN, a obserwowana różnica nie jest statystycznie istotna". Hipotezą alternatywną niech będzie "Powstała różnica jest statystycznie istotna, tj. dyrekcja banku myli się bądź kłamie, a oczekiwane saldo jest rzeczywiście mniejsze niż 5753 PLN". Przyjmij poziom istotności równy 5%. Podpowiedź: Rozmiar próby jest nieduży, powinniśmy więc posłużyć się rozkładem Studenta. Wpierw wyznacz przedział, w którym musi zawierać się t, jeśli mamy przyjąć hipotezę zerową. Pamiętaj, że w przypadku rozkładu Studenta Excel domyślnie przyjmuje, że ma do czynienia z "ogonami" po obydwu stronach rozkładu, a my chcemy tylko jeden "ogon". Ja otrzymałem przedział (-1.68, 1.68). Następnie oblicz wartość t, z jaką mamy do czynienia. Ja otrzymałem t = -1.13. Skoro otrzymana wartość zawiera się w wyznaczonym wcześniej przedziale, należy przyjąć hipotezę zerową, tj. nie mamy powodów przypuszczać że bank kłamie. Korzystając z pakietu STATISTICA: Granice poszukiwanego przedziału możesz łatwo wyznaczyć korzystając z Kalkulatora prawdopodobieństwa (korzystaliśmy już z niego w ostatnim laboratorium ze Statystyki). W tym celu wybierz Statystki podstawowe i tabele/Kalkulator prawdopodobieństwa, dalej Rozkład t (Studenta), zaznacz Oblicz X z p (znamy prawdopodobieństwo, szukamy granic) oraz (1-p) (znamy pole pod ogonem). W polu df wpisz liczbę stopni swobody rozkładu. W polu t odczytasz górną granicę przedziału (1.680230). Korzystając z pakietu STATISTICA (inaczej): Wybierz Statystyki podstawowe i tabele/Inne testy istotności. Skoncentruj się na panelu Różnica między dwiema średnimi (rozkład normalny). Tu możesz porównać dwie średnie. Ponieważ jedna średnia dotyczy próby (45 banków), a druga populacji (wszyscy posiadacze kont), zaznacz pole średnia z pomiarów 1 a średnia z populacji 2. Wypełnij pozostałe pola w panelu, nie zapomnij ustawić przełącznika w pozycji Jednostronny. Podawany wynik (pole p) to poziom istotności, przy którym trzeba będzie zmienić decyzję. Ja otrzymałem 0.1316, co oznacza, że gdyby poziom istotności wynosił aż 13.16%, przestalibyśmy mieć powody do przypuszczania, że bank nie kłamie, tj. odrzucilibyśmy hipotezę zerową na korzyść hipotezy alternatywnej. Skoro deklarowany poziom istotności wynosił 5%, od razu widzimy, że musimy przyjąć hipotezę zerową. Ten sposób zakłada rozkład normalny bądź odpowiednio dużą próbę (nasza była umiarkowanie duża, popełniliśmy błąd, ale nieduży). Uwaga: To, że przyjmujemy hipotezę zerową nie oznacza, że ją potwierdziliśmy! Jedyne, co możemy stwierdzić to to, że nie mamy podstaw, by ją odrzucić. Podyplomowe Studium Statystyki i Matematyki Finansowej 2007-2009, Jacek Dziedzic; FTiMS, Politechnika Gdańska. 2. Zawartość nikotyny w papierosach pewnej marki X jest rozłożona normalnie, z odchyleniem standardowym wynoszącym 4 mg. Aby zmniejszyć ryzyko raka płuc1, zaleca się by papieros nie zawierał więcej niż 26 mg nikotyny 2. Aby oszacować zawartość nikotyny w papierosach marki X zmierzono jej zawartość w próbie 10 papierosów. Otrzymane wyniki (z dokładnością do 1 mg) przestawia tabela. 33 27 20 36 25 24 27 24 34 29 Przyjmując poziom istotności 5%, czy możemy powiedzieć, że papierosy marki X jeszcze spełniają wspomnianą normę 26 mg? Podpowiedź: Najłatwiej będzie skorzystać z Excela. Hipotezą zerową będzie tu "średnia z populacji papierosów marki X wynosi 26 mg". Jednostronną hipotezą alternatywną będzie "średnia ta jest większa niż 26 mg". Wynik oficjalny: zc=1.64, z = 1.502, więc należy przyjąć hipotezę zerową. Papierosy X spełniają normę, przy poziomie istotności 5%, ale "ledwo". Prawdopodobnie należałoby zwiększyć próbę aby uwiarygodnić wybór. 3. Piekarnia X produkuje biszkopty w opakowaniach, dla których deklaruje wagę 350 g. Kontroler jakości pobrał próbę 20 opakowań i zważył zawarte w nich biszkopty, otrzymując w wyniku średnią wagę: 340 g z odchyleniem standardowym 15 g. Przyjmując poziom istotności 5%, czy możemy stwierdzić, że faktyczna waga opakowania biszkoptów to 350 g? Spróbuj znaleźć odpowiedź wszystkimi trzema sposobami (Excel, kalkulator prawdopodobieństw Statistiki i Inny test istotności Statistiki). Wynik oficjalny: tc=2.09, t = 2.98, więc należy odrzucić hipotezę zerową, przyjmując hipotezę alternatywną "średnia waga paczki nie wynosi 350 g". 4. Poziom kursu "Wstęp do mechaniki" nie zmieniał się przez ostatnie kilka lat. Średni wynik osiągany przez studentów tego kursu, na przestrzeni wspomnianych kilku lat wynosił 23/30. W ostatnim roku natomiast, pięćdziesiątka studentów zapisanych na kurs zakończyła kurs średnim wynikiem 35/50, przy odchyleniu standardowym 4 pkt. Przyjmując poziom istotności 2% chcemy sprawdzić, czy studenci w tym roku różnią się od studentów z lat poprzednich (in plus lub in minus). Załóż, że n=50 wystarcza, by posiłkować się rozkładem normalnym. Wynik oficjalny: zc=2.326, z = -3.5355, więc należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej. Zatem obserwowana różnica jest statystycznie istotna, przy poziomie istotności 2%. 1 Do dziś nie jest jasne, czy nikotyna sama w sobie jest rakotwórcza. Bez wątpienia rakotwórcze są natomiast substancje smoliste zawarte w papierosach. 2 Faktyczna dawka nikotyny docierająca do płuc palacza jest wielokrotnie mniejsza i jest rzędu 1 mg. Dane na pudełku papierosowym odzwierciedlają tę właśnie dawkę. Podyplomowe Studium Statystyki i Matematyki Finansowej 2007-2009, Jacek Dziedzic; FTiMS, Politechnika Gdańska. Weryfikacja hipotez. Ocena istotności różnicy dwóch średnich 5. Firma X produkuje tabletki przeciwbólowe, mając w linii produkcyjnej dwie maszyny tabletkujące A i B. Badanie 40 tabletek wyprodukowanych przez maszynę A dało w wyniku średnią wagę 330 mg przy odchyleniu standardowym 7 mg. Badanie 50 tabletek wyprodukowanych przez maszynę B dało w wyniku średnią wagę 320 mg przy odchyleniu standardowym 6.5 mg. Przyjmując poziom istotności 5%, czy obie maszyny produkują tabletki o tej samej wadze (przyjmujemy hipotezę alternatywną dwustronną)? Załóż, że próby są na tyle duże, że uzasadnione jest stosowanie rozkładu normalnego. Wynik oficjalny: zc=1.960, z = 6.95, więc zdecydowanie należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej. Zatem obserwowana różnica jest statystycznie istotna, przy zadanym poziomie istotności, wnioskujemy, że maszyny produkują tabletki o różnych masach. 6. Dwie firmy produkują farbę fosforyzującą. W teście konsumenckim przeprowadzonym przez niezależną organizację zbadano próbę pięciu puszek farby każdej z firm, zakupionych w różnych sklepach. Zmierzono czas "świecenia" warstwy każdej z farb, otrzymując następujące wyniki (w godzinach): Firma A 65 70 59 62 64 Firma B 64 65 71 75 73 Przyjmując poziom istotności 1%, sprawdź czy obydwie firmy produkują farbę o takim samym czasie "świecenia". Wynik oficjalny: Próba jest mała, więc korzystamy z rozkładu Studenta. tc=3.355, t = -1.97, więc nie ma podstaw, by odrzucić hipotezę zerową. Należy więc przypuszczać, że obserwowane różnice nie są statystycznie istotne. 7. W pewnym małym miasteczku, w celu przeprowadzenia badań budżetów domowych wylosowano niezależnie dwie losowe próby dwuosobowych gospodarstw domowych w dwóch kategoriach: 37 gospodarstw domowych pracowniczych oraz 14 gospodarstw domowych emerytów. Obserwowaną zmienną losową były wydatki na żywność w czerwcu 2000r. Komputerowy wydruk wyników wskazuje, że średnie arytmetyczne oraz odchylenia standardowe wyników były następujące: dla gospodarstw pracowniczych: 456.30 PLN (137.20 PLN), dla gospodarstw emerytów: 382.90 PLN (177.04 PLN). Deklarując poziom istotności 1%, uzasadnij statystycznie, czy różnica ocen średnich wydatków w obu zbiorowościach jest pochodzenia przypadkowego, czy też ma charakter różnicy nieprzypadkowej (istotnej). Hipotezę alternatywną przyjmij jednostronną, załóż że próby są na tyle małe, że należy korzystać z rozkładu Studenta. Wynik oficjalny: tc=2.405, t = -1.572, więc nie ma podstaw, by odrzucić hipotezę zerową. Zatem wnioskujemy, że obserwowana różnica nie jest statystycznie istotna. Podyplomowe Studium Statystyki i Matematyki Finansowej 2007-2009, Jacek Dziedzic; FTiMS, Politechnika Gdańska.