Statystyka w przykladach

advertisement
Estymatory
Testowanie rozkładów
Statystyka w przykładach
Tomasz Mostowski
Zajecia
˛
10.04.2008
Statystyka
Estymatory
Testowanie rozkładów
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Własności estymatorów
Zazwyczaj w badaniach potrzebujemy oszacować pewne
parametry na podstawie próby. Każda˛ wartość uzyskana˛ na
podstawie danych z próby nazwiemy statytsyka.
˛
Estymatorem nieznanego parametru θ nazwiemy dowolna˛
statystyk˛e T (X1 , X2 , . . . , Xn ).
Naturalnie chcemy, żeby nasz estymator był dobry.
Estymator nieobciażony
˛
E θb = θ
Estymator zgodny ∀ε>0 limn→∞ P θb − θ ≥ ε = 0
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Własności estymatorów
Przykład estymatora zgodnego, ale obciażonego.
˛
Niech X ∼ U[0, a], T = max(X1 , X2 , . . . , Xn )
n
a 6= a
E(T ) = E(max(X1 , X2 , . . . , Xn )) = n+1
Łatwo pokazać, że jest to estymator zgodny
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Estymator efektywny
Estymator efektywny to taki, który spośród wszystkich
nieobciażonych
˛
ma najmniejsza˛ wariancje.
˛ (Taki estymator nie
zawsze istnieje). Można powiedzieć, że estymator ten jest
najlepszy. Średnio nie mylimy sie˛ co do jego oszacowań, a
jednocześnie popełniamy najmniejszy bład.
˛
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Estymacja punktowa
Badajac
˛ dane zazwyczaj chcemy uzyskać informacje na temat
pewnych charakterystyk danych. Sprowadza sie˛ to do
estymacji pewnych parametrów rozkładu. Np.
Jaka jest średnia dzienna stopa zwrotu z indeksu WIG?
Jakie jest ryzyko zwiazane
˛
z inwestycja˛ w akcje pewnej
spółki?
Ile osób popiera działania rzadu?
˛
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Przykłady estymatorów punktowych
Estymator
P wartości oczekiwanej w rozkładzie normalnym
µ̂ = n1
Xi .
Można pokazać, że jest to estymator efektywny.
Estymatorem wariancji w próbie jest
2
1 P
S 2 = n−1
Xi − (X̄ ) . Prosz˛e zwrócić uwage,
˛ że w
mianowniku jest n − 1. Jest to estymator nieobciażony.
˛
P
2
X − (X̄ ) jest estymatorem obiażonym,
˛
ale
S˜2 = 1
n
i
zgodnym.
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Estymacja przedziałowa
Przy estymacji punktowej pojawia sie˛ jednak wiele problemów
Dla rozkładów ciagłych
˛
prawdopodobieństwo, że estymator
jest rzeczywiście równy nieznanemu parametrowi wynosi
0.
Estymator punktowy nie daje nam żadnej informacji
odnośnie tego jak bardzo sie˛ mylimy w naszych
szacunkach. Nie wiemy zatem jaka˛ niepewnościa˛
obarczona jest nasza prognoza.
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Estymacja przedziałowa
Przy estymacji przedziałowej staramy sie˛ znaleźć liczby θ1
i θ2 dla nieznanego parametru θ, żeby
P(θ1 ≤ θ ≤ θ2 ) = 1 − α, gdzie α jest jakaś
˛ mała˛ liczba.
˛
Intuicyjnie oznacza to, że losowy przedział (θ1 , θ2 ) z
dużym prawdopodobieństwem pokrywa nieznany parametr
θ.
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Przedział ufności dla wartości oczekiwanej z rozkładu
normalnego
Jeśli wiadomo, że X1 , X2 , . . . , Xn pochodza˛ ze
standardowego rozkładu normalnego o niezanej wartości
oczekiwanej i znanej wariancji σ 2 , to (1 − α)% przedział
ufności dany jest wzorem
X̄ − Φ(1 − α/2)σ, X̄ + Φ(1 − α/2)σ
Przedział nie musi być wybierany symetrycznie wokół
wartości średniej. Możemy wziać
˛ właściwie dowolny
przedział o zadanym prawdopodobieństwie
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Przedział ufności dla wartości oczekiwanej z rozkładu
normalnego
W standardowym rozkładzie mamy np. takie przedziały dla
próby n elementowej
√
P(−1.64 ≤ X¯n n ≤ 1.64) = 0.9
√
P(−∞ ≤ X¯n n ≤ 1.28) = 0.9
√
P(−1.28 ≤ X¯n n ≤ ∞) = 0.9
Za wyborem pierwszego przemawia to, że jest on
najkrótszy ze wszystkich.
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Przedział ufności dla wartości oczekiwanej z rozkładu
normalnego
W rzeczywistości zazwyczaj nie znamy wariancji rozkładu
Musimy wtedy posłużyć sie˛ estymatorem wariancji
√
Statystyka t = X̄S−µ
n − 1, ma rozkład t–Studenta
n
Przedział ufności dany jest wtedy wzorem
X̄ − t(α/2, n − 1)Sn , X̄ + t(α/2, n − 1)Sn
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
rozkład t–Studenta
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Przedział ufności dla wariancji
Czasami potrzebujemy także uzyskać przedział ufności dla
wariancji
Jeśli dane pochodza˛ z rozkładu normalnego, to zmienna
2
n
χ = nS
ma rozkład chi–kwadrat o n − 1 stopniach
σ2
2
P
swobody. Tutaj Sn = n1
Xi − (X̄ )
Przedział
ufności dany jest
wtedy wzorem
nSn2
nSn2
,
χ2 (1−α/2,n−1) χ2 (α/2,n−1)
χ2 (p, n − 1) oznacza p–ty kwantyl rozkładu χ2
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Problemy z przedziałami ufności
Dane na których pracujemy czasami odbiegaja˛ od
rozkładu normalnego.
Estymator wariancji jest też nieodporny na obserwacje
nietypowe outliery
Oszacowane przedziały ufności dla statystyki t sa˛ wtedy
nieprecyzyjne
Pomimo tego w praktyce cz˛esto stosuje sie˛ przedziały
oparte na tej statystyce
Statystyka
Estymatory
Testowanie rozkładów
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
Problemy z przedziałami ufności
Przedziały ufności dla wariancji
Jeżeli rozkład zmiennej silnie odbiega od rozkładu
normalnego, skonstruowany przedział ufności dla wariancji
jest bezużyteczny!
Paradoksalnie nie jest to wielki problem, gdyż jeśli rozkład
silnie odbiega od normalnego, wtedy wariancja nie jest
dobrym wskaźnikiem rozproszenia i zazwyczaj nie warto
sie˛ nia˛ zajmować.
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Testy
Jednym z cz˛estszych pytań w statystyce i ekonometrii jest to
czy dane pochodza˛ z konkretnego rozkładu (zazwyczaj
normalnego). Testy możemy z grubsza podzielić na testy
graficzne i formalne. Do najważniejszych formalnych należa˛
Test Kołmogorowa
Test Kołmogorowa–Smirnowa
Test Shapiro–Wilka
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Testy graficzne
Dokładne obejrzenie analizowanych danych zazwyczaj
może nam dużo powiedzieć o charakterstyce danych i
cz˛esto oszcz˛edzić dużo czasu
Aby sprawdzić, czy dane pochodza˛ z jakiegoś rozkładu
można skorzystać z histogramu i wykresów typu
quantile-quantile plot.
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Histogram
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Histogram
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
QQ–Plot
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
QQ–Plot
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Testy nieparametryczne
Test Kołmogorowa i test Kołmogorowa-Smirnowa należa˛ do
szerokiej klasy testów nieparametrycznych. Sa˛ to testy, w
których nie zakładamy żadnej szczególnej postaci gestości
˛
rozkładu, a wartości krytyczne testów sa˛ zazwyczaj
wyznaczone metodami Monte–Carlo.
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Test Kołmogorowa
W teście Kołmogorowa testujemy, czy dystrybuanta empiryczna
odpowiada dystrybuancie teoretycznej
H0 : F (x) = F̂ (x)
H1 : F (x) 6= F̂ (x)
Statystyka testowa
Dn = sup Fˆn (x) − F (x)
x
Dn bada jaka jest najwieksza
˛
odległość pomiedzy
˛
dystrybuanta˛
empiryczna˛ i teoretyczna.
˛
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Test Kołmogorowa–Smirnowa
W teście tym badamy, czy dystrybuanty z dwóch prób sa˛ sobie
równe.
H0 : F (x) = G(x)
H1 : F (x) 6= G(x)
Statystyka testowa
Dn,m
ˆ
ˆ
= sup Fn (x) − Gm (x)
x
Dn,m bada jaka jest najwieksza
˛
odległość pomiedzy
˛
dwoma
dystrybuantami empirycznymi.
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Test Kołmogorowa–Smirnowa
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Plan
1
Estymatory
Typy estymatorów
Estymacja punktowa
Estymacja przedziałowa
2
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Centralne Twierdzenie Graniczne
Centralne Twierdzenie Graniczne jest jednym z
najważniejszych twierdzeń w rachunku prawdopodobieństwa.
Mówi nam ono nam m.in., że odpowiednio unormowana suma
wielu zmiennych losowych o tym samym rozkładzie ma
standardowy
rozkład normlany
n
limn→∞ P X1 +X√2 +···+X
≤
a
= Φ(a),
nσ
gdzie Φ(a) oznacza dystrybuante standardowego rozkładu
normalnego.
Statystyka
Estymatory
Testowanie rozkładów
Testy graficzne
Testy nieparametryczne
Centralne Twierdzenie graniczne
Przykład – CTG i generowanie rozkładu normalnego
Jak już wiemy w komputerze najłatwiej generuje sie˛ rozkład
jednostajny. Sumujac
˛ i odpowiednio normujac
˛ zmienne z
rozkładu jednostajnego, powinniśmy uzyskać zmienne z
rozkładu normalnego.
Pokażemy, że suma zaledwie 12 zmiennych z rozkładu
jednostajnego ma rozkład normalny
Ui ∼ U[0, 1]
X =
12
X
Ui − 6
i=1
X ∼ N(0, 1)
Statystyka
Download