Estymatory Testowanie rozkładów Statystyka w przykładach Tomasz Mostowski Zajecia ˛ 10.04.2008 Statystyka Estymatory Testowanie rozkładów Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie próby. Każda˛ wartość uzyskana˛ na podstawie danych z próby nazwiemy statytsyka. ˛ Estymatorem nieznanego parametru θ nazwiemy dowolna˛ statystyk˛e T (X1 , X2 , . . . , Xn ). Naturalnie chcemy, żeby nasz estymator był dobry. Estymator nieobciażony ˛ E θb = θ Estymator zgodny ∀ε>0 limn→∞ P θb − θ ≥ ε = 0 Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Własności estymatorów Przykład estymatora zgodnego, ale obciażonego. ˛ Niech X ∼ U[0, a], T = max(X1 , X2 , . . . , Xn ) n a 6= a E(T ) = E(max(X1 , X2 , . . . , Xn )) = n+1 Łatwo pokazać, że jest to estymator zgodny Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Estymator efektywny Estymator efektywny to taki, który spośród wszystkich nieobciażonych ˛ ma najmniejsza˛ wariancje. ˛ (Taki estymator nie zawsze istnieje). Można powiedzieć, że estymator ten jest najlepszy. Średnio nie mylimy sie˛ co do jego oszacowań, a jednocześnie popełniamy najmniejszy bład. ˛ Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Estymacja punktowa Badajac ˛ dane zazwyczaj chcemy uzyskać informacje na temat pewnych charakterystyk danych. Sprowadza sie˛ to do estymacji pewnych parametrów rozkładu. Np. Jaka jest średnia dzienna stopa zwrotu z indeksu WIG? Jakie jest ryzyko zwiazane ˛ z inwestycja˛ w akcje pewnej spółki? Ile osób popiera działania rzadu? ˛ Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Przykłady estymatorów punktowych Estymator P wartości oczekiwanej w rozkładzie normalnym µ̂ = n1 Xi . Można pokazać, że jest to estymator efektywny. Estymatorem wariancji w próbie jest 2 1 P S 2 = n−1 Xi − (X̄ ) . Prosz˛e zwrócić uwage, ˛ że w mianowniku jest n − 1. Jest to estymator nieobciażony. ˛ P 2 X − (X̄ ) jest estymatorem obiażonym, ˛ ale S˜2 = 1 n i zgodnym. Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Estymacja przedziałowa Przy estymacji punktowej pojawia sie˛ jednak wiele problemów Dla rozkładów ciagłych ˛ prawdopodobieństwo, że estymator jest rzeczywiście równy nieznanemu parametrowi wynosi 0. Estymator punktowy nie daje nam żadnej informacji odnośnie tego jak bardzo sie˛ mylimy w naszych szacunkach. Nie wiemy zatem jaka˛ niepewnościa˛ obarczona jest nasza prognoza. Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Estymacja przedziałowa Przy estymacji przedziałowej staramy sie˛ znaleźć liczby θ1 i θ2 dla nieznanego parametru θ, żeby P(θ1 ≤ θ ≤ θ2 ) = 1 − α, gdzie α jest jakaś ˛ mała˛ liczba. ˛ Intuicyjnie oznacza to, że losowy przedział (θ1 , θ2 ) z dużym prawdopodobieństwem pokrywa nieznany parametr θ. Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Przedział ufności dla wartości oczekiwanej z rozkładu normalnego Jeśli wiadomo, że X1 , X2 , . . . , Xn pochodza˛ ze standardowego rozkładu normalnego o niezanej wartości oczekiwanej i znanej wariancji σ 2 , to (1 − α)% przedział ufności dany jest wzorem X̄ − Φ(1 − α/2)σ, X̄ + Φ(1 − α/2)σ Przedział nie musi być wybierany symetrycznie wokół wartości średniej. Możemy wziać ˛ właściwie dowolny przedział o zadanym prawdopodobieństwie Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Przedział ufności dla wartości oczekiwanej z rozkładu normalnego W standardowym rozkładzie mamy np. takie przedziały dla próby n elementowej √ P(−1.64 ≤ X¯n n ≤ 1.64) = 0.9 √ P(−∞ ≤ X¯n n ≤ 1.28) = 0.9 √ P(−1.28 ≤ X¯n n ≤ ∞) = 0.9 Za wyborem pierwszego przemawia to, że jest on najkrótszy ze wszystkich. Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Przedział ufności dla wartości oczekiwanej z rozkładu normalnego W rzeczywistości zazwyczaj nie znamy wariancji rozkładu Musimy wtedy posłużyć sie˛ estymatorem wariancji √ Statystyka t = X̄S−µ n − 1, ma rozkład t–Studenta n Przedział ufności dany jest wtedy wzorem X̄ − t(α/2, n − 1)Sn , X̄ + t(α/2, n − 1)Sn Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa rozkład t–Studenta Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Przedział ufności dla wariancji Czasami potrzebujemy także uzyskać przedział ufności dla wariancji Jeśli dane pochodza˛ z rozkładu normalnego, to zmienna 2 n χ = nS ma rozkład chi–kwadrat o n − 1 stopniach σ2 2 P swobody. Tutaj Sn = n1 Xi − (X̄ ) Przedział ufności dany jest wtedy wzorem nSn2 nSn2 , χ2 (1−α/2,n−1) χ2 (α/2,n−1) χ2 (p, n − 1) oznacza p–ty kwantyl rozkładu χ2 Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Problemy z przedziałami ufności Dane na których pracujemy czasami odbiegaja˛ od rozkładu normalnego. Estymator wariancji jest też nieodporny na obserwacje nietypowe outliery Oszacowane przedziały ufności dla statystyki t sa˛ wtedy nieprecyzyjne Pomimo tego w praktyce cz˛esto stosuje sie˛ przedziały oparte na tej statystyce Statystyka Estymatory Testowanie rozkładów Typy estymatorów Estymacja punktowa Estymacja przedziałowa Problemy z przedziałami ufności Przedziały ufności dla wariancji Jeżeli rozkład zmiennej silnie odbiega od rozkładu normalnego, skonstruowany przedział ufności dla wariancji jest bezużyteczny! Paradoksalnie nie jest to wielki problem, gdyż jeśli rozkład silnie odbiega od normalnego, wtedy wariancja nie jest dobrym wskaźnikiem rozproszenia i zazwyczaj nie warto sie˛ nia˛ zajmować. Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Testy Jednym z cz˛estszych pytań w statystyce i ekonometrii jest to czy dane pochodza˛ z konkretnego rozkładu (zazwyczaj normalnego). Testy możemy z grubsza podzielić na testy graficzne i formalne. Do najważniejszych formalnych należa˛ Test Kołmogorowa Test Kołmogorowa–Smirnowa Test Shapiro–Wilka Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Testy graficzne Dokładne obejrzenie analizowanych danych zazwyczaj może nam dużo powiedzieć o charakterstyce danych i cz˛esto oszcz˛edzić dużo czasu Aby sprawdzić, czy dane pochodza˛ z jakiegoś rozkładu można skorzystać z histogramu i wykresów typu quantile-quantile plot. Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Histogram Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Histogram Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne QQ–Plot Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne QQ–Plot Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Testy nieparametryczne Test Kołmogorowa i test Kołmogorowa-Smirnowa należa˛ do szerokiej klasy testów nieparametrycznych. Sa˛ to testy, w których nie zakładamy żadnej szczególnej postaci gestości ˛ rozkładu, a wartości krytyczne testów sa˛ zazwyczaj wyznaczone metodami Monte–Carlo. Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Test Kołmogorowa W teście Kołmogorowa testujemy, czy dystrybuanta empiryczna odpowiada dystrybuancie teoretycznej H0 : F (x) = F̂ (x) H1 : F (x) 6= F̂ (x) Statystyka testowa Dn = sup Fˆn (x) − F (x) x Dn bada jaka jest najwieksza ˛ odległość pomiedzy ˛ dystrybuanta˛ empiryczna˛ i teoretyczna. ˛ Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Test Kołmogorowa–Smirnowa W teście tym badamy, czy dystrybuanty z dwóch prób sa˛ sobie równe. H0 : F (x) = G(x) H1 : F (x) 6= G(x) Statystyka testowa Dn,m ˆ ˆ = sup Fn (x) − Gm (x) x Dn,m bada jaka jest najwieksza ˛ odległość pomiedzy ˛ dwoma dystrybuantami empirycznymi. Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Test Kołmogorowa–Smirnowa Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Plan 1 Estymatory Typy estymatorów Estymacja punktowa Estymacja przedziałowa 2 Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Centralne Twierdzenie Graniczne Centralne Twierdzenie Graniczne jest jednym z najważniejszych twierdzeń w rachunku prawdopodobieństwa. Mówi nam ono nam m.in., że odpowiednio unormowana suma wielu zmiennych losowych o tym samym rozkładzie ma standardowy rozkład normlany n limn→∞ P X1 +X√2 +···+X ≤ a = Φ(a), nσ gdzie Φ(a) oznacza dystrybuante standardowego rozkładu normalnego. Statystyka Estymatory Testowanie rozkładów Testy graficzne Testy nieparametryczne Centralne Twierdzenie graniczne Przykład – CTG i generowanie rozkładu normalnego Jak już wiemy w komputerze najłatwiej generuje sie˛ rozkład jednostajny. Sumujac ˛ i odpowiednio normujac ˛ zmienne z rozkładu jednostajnego, powinniśmy uzyskać zmienne z rozkładu normalnego. Pokażemy, że suma zaledwie 12 zmiennych z rozkładu jednostajnego ma rozkład normalny Ui ∼ U[0, 1] X = 12 X Ui − 6 i=1 X ∼ N(0, 1) Statystyka