Statystyka i opracowanie danych Podstawy wnioskowania

advertisement
Statystyka i opracowanie danych
Podstawy wnioskowania statystycznego.
Prawo wielkich liczb. Centralne twierdzenie graniczne.
Estymacja i estymatory
Dr Anna ADRIAN
Paw B5, pok 407
[email protected]pus.metal.agh.edu.pl
Wprowadzenie
Jeśli S jest przestrzenią zdarzeń elementarnych (w statystyce
nazywana populacją), to
Prostą próbą losową (próbką statystyczną) o liczności n
nazywamy
ciąg
niezależnych
zmiennych
losowych
X1, X2 ,….., Xn , określonych na przestrzeni S
i takich, że każda z nich ma ten sam rozkład.
Ciąg wartości x1, x2 ,….., xn próby losowej X1, X2 ,….., Xn
nazywamy realizacją próby losowej .
Wybór n elementów populacji powinien być dokonany
w taki sposób, żeby każdy podzbiór populacji, składający
się z n elementów miał taką samą szansę wybrania
Zadanie:
ocenić średni wzrost dorosłych Polaków.
– Jeśli wybieramy próbę spośród studentów – nie jest to
jednak próba wszystkich dorosłych Polaków
– Utożsamiamy populację z badaną cechą
– Szacujemy szukaną wartość ( średni wzrost) obliczając
pewną wartość z próby
– Niech T(X1, X2 ,….., Xn) , w naszym rozumieniu,
dobrze przybliża wartość nieznanego wskaźnika.
– Taką funkcję T nazywamy statystyką.
– Każda tak rozumiana statystyka jest zmienną losową,
a zatem posiada określony rozkład i ten rozkład
odgrywa bardzo ważną rolę w analizie statystycznej.
Rozkład średniej w prostej próbie
losowej
Średnią, w prostej próbie losowej X1, X2 ,….., Xn
o liczności n, nazywamy statystykę
X =
X
1
+ X
2
+ ... + X
n
n
Podana definicja jest szczególnym przypadkiem
statystyki T(X1, X2 ,….., Xn)
Średnia X jest zmienną losową, a x jest konkretną
wartością z jednej konkretnej próby. Możemy
wylosować kilka prób 100 elementowych i z każdej
otrzymać inną wartość np. x=`176,5; x =177,8
.....
Prawo Wielkich Liczb (PWL)
Prawo Wielkich Liczb:
Niech X będzie zmienną losową o wartości oczekiwanej µX
i skończonej wariancji σ2X<∞ i niech X1, X2 ,….., Xn będzie
prostą próbą losową z rozkładu zmiennej X.
Wówczas dla dowolnie małej dodatniej liczby ε i n→∞
P( X ∈ [ µ X − ε , µ X + ε ]) → 1
Charakterystyki rozkładu wartości średniej
Zakładając, że prosta próba losowa X1, X2 ,….., Xn
pochodzi z rozkładu o wartości średniej µ i wariancji σ2,
Otrzymamy
1
n
1
n
µ X = ( µ X + µ X + ... + µ Xn ) = ( µ + µ + ... + µ ) = µ
1
2
σ
1
σ X2 . =   σ X2 1 + σ X2 2 + .... + σ X2 n =
n
n
2
zatem
(
)
µ
σ
X
= µ
X
=
σ
n
2
Centralne twierdzenie graniczne
Jeśli X1, X2 ,….., Xn jest prostą próbą losową z rozkładu o wartości
średniej µ i skończonej wariancji σ2 .
Wówczas dla prób losowych o dużej liczebności rozkład
standaryzowanej średniej jest bliski standardowemu rozkładowi
normalnemu N(0,1), tzn rozkład średniej X jest w przybliżeniu
równy rozkładowi
N (µ , σ / n )
Zatem dla dowolnych a i b (a ≤ b) i zmiennej losowej Z
o standardowym rozkładzie normalnym


X −µ
P  a ≤
≤ b  → P ( a ≤ Z ≤ b ) = Φ ( b ) − Φ ( a )
σ / n


Zastosowanie - przykład
Rozkład naszego codziennego dojazdu do pracy jest
w przybliżeniu jednostajny na odcinku ( 0,5h,1h) a jednocześnie
czasy dojazdów w różne dni są niezależne. Jakie ( w przybliżeniu)
jest prawdopodobieństwo zdarzenia, że średni dzienny dojazd
w ciągu 30 dni przekroczy 0,8h (48 min)
Rozwiązanie:
niech Xi oznacza czas dojazdu w i-tym dniu, i=1,…,30
Xi ma rozkład jednostajny na odcinku [0,5 , 1], zatem
µ
X
i
0 ,5 + 1
3
=
=
oraz σ
2
4
2
X
i
=
(1
− 0 ,5
12
)2
=
1
48
stąd


P 



3
X −
4
1
48 * 30
>
3
0 ,8 −
4
1
48 * 30


 ≈ P (Z



> 1 , 89 ) = 1 − Φ ( 1 , 89 ) = 0 , 03
Rozkład częstości
Zakładamy, że zmienna X z rozkładu, z którego pochodzi próba, może przyjmować
tylko dwie wartości:
• 1, gdy badany obiekt posiada określoną cechę
• 0, gdy obiekt tej cechy nie posiada
oznaczmy
• p=P(X=1)
• q=1-p=P(X=0)
Liczba p, zwana proporcją jest równa prawdopodobieństwu posiadania wybranej
cechy (własności) przez losowo wybraną jednostkę.
Zauważmy, że µX=1*p+0*(1-p)=p, stąd też wynika że rozpatrywany wcześniej
problem szacowania wartości średniej jest w tym konkretnym przypadku
jednoznaczny z szacowaniem proporcji.
Przykłady zastosowań: szacowanie proporcji produktów wadliwych
wyprodukowanych w ciągu miesiąca, albo leworęcznych uczniów
przychodzących do I klasy
Rozkład częstości
Częstością występowania w prostej próbie losowej nazywamy
statystykę
pˆ =
∑
n
i =1
Xi
n
gdzie
X1, X2 ,….., Xn jest prostą próbą losową z rozkładu
dwupunktowego o wartościach 0 i 1.
Statystykę p obliczoną dla konkretnych wartości
w próbie nazywamy wartością częstości
Twierdzenia o częstości występowania
1. Częstość występowania pomnożona przez liczność próby
ma rozkład dwumianowy (Bernouliego) B (n, p). Ponadto
µ pˆ = p
σ 2pˆ =
p (1 − p )
n
2. Dla dowolnych rzeczywistych a i b, gdy n→∞


P a ≤





pˆ − p
≤ b  → Φ (b ) − Φ ( a )

p (1 − p )

n

Przykład zastosowań
• W populacji dorosłych Polaków 39% ma kłopoty ze snem. Jakie
jest prawdopodobieństwo, że w próbie 100 elementowej ,
częstość osób mających kłopoty ze snem nie przekroczy 0,33.
• Interesuje nas
P ( pˆ ≤ 0,33)
• Dane: a=-∞, b=33, n=100
 33 + 0.5 − 39 
P( pˆ ≤ 33 + 0.5) → Φ
 = Φ (−1.13) = 0.1292
 100 * 0.39 * 0.61 
Estymacja i estymatory.
Techniki wnioskowania statystycznego
W statystyce matematycznej stosowane są dwie techniki
wnioskowania:
• Estymacja polegająca na oszacowaniu z pewną dokładnością
określonych wartości charakteryzujących rozkład badanej cechy
np. częstości, wartości oczekiwanej, wariancji.
• Weryfikacja hipotez statystycznych polegająca na sprawdzeniu
słuszności przypuszczeń dotyczących postaci rozkładu cechy
(testy zgodności) bądź wartości jego parametrów (parametryczne
testy istotności)
Obie wymienione techniki uzupełniają się wzajemnie.
Co to jest estymator
• Zakładamy, że rozkład badanej cechy w populacji
generalnej jest opisany za pomocą dystrybuanty
F (x;Θ), gdzie Θ oznacza parametr od którego zależy ta
dystrybuanta (taki jak np. λ w rozkładzie Poissona).
• Nieznana wartość parametru Θ będzie szacowana
(obliczona) na podstawie próby n-elementowej (X1,. ,Xn)
Definicja estymatora
• Estymatorem Tn parametru Θ rozkładu populacji
generalnej nazywa się statystykę (dowolną) z próby Tn= t
(X1,.... ,Xn), która służy do oszacowania wartości
liczbowej tego parametru.
• Skoro szacunku parametru dokonuje się w oparciu o dane
z próby, zatem istnieje możliwość popełnienia błędu (
niech go oznacza litera d), który nazywany jest błędem
szacunku (estymacji) parametru Θ
d = Tn - Θ
Błąd estymacji
Błąd d jest też zmienną losową ( zależną od próby
losowej), a za miarę tego błędu przyjmuje się
∆ = E (Tn – Θ)2
Zauważmy, że jeśli E (Tn) = Θ wtedy wyrażenie
określające ∆, jest wariancją D2(Tn) estymatora Tn,,
a odchylenie standardowe D(Tn) jest średnim
(standardowym) błędem szacunku parametru Θ,
błędem względnym oszacowania jest iloraz D(Tn) / Θ
Estymacja i estymatory
Rozpatrywane dotychczas statystyki: średnia i częstość należą do
najczęściej stosowanych w praktyce.
W przypadku gdy statystyki używane są do szacowania (przybliżania)
nieznanych parametrów rozkładu zmienne losowej noszą specjalną
nazwę:
• Statystykę T(X1, X2 ,….., Xn ), służącą do oszacowania nieznanego
parametru populacji nazywamy estymatorem.
• Dla konkretnych wartości próby X1=x1, X2=x2 , ….., Xn= xn liczbę
T(X1, X2 ,….., Xn ) nazywamy wartością estymatora
Estymacja i estymatory
W zależności od tego co chcemy oszacować rozróżnia się
• estymację parametryczną, gdy szacowane są parametry rozkładu
zmiennej X (np. E(X), D2(X))
• Estymację nieparametryczną, gdy próbujemy wnioskować
o postaci rozkładu cechy X w populacji.
Podstawy teorii estymacji sformułował Karl Pearson na przełomie
XIX i XX wieku.
1. Pierwszym krokiem w estymacji jest wylosowanie
z populacji n - elementowej próby, po czym
2. na podstawie badań próby - obliczeń wykonanych na danych
zawartych w próbce
3. wyciągamy wnioski dotyczące badanej cechy
w całej populacji.
Rodzaje estymacji wg kryterium wyniku
• Estymacja punktowa – ma zastosowanie gdy, na podstawie
danych z próby, chcemy ustalić liczbową wartość określonego
parametru rozkładu cechy w całej populacji
• Estymacja przedziałowa polega na wyznaczeniu granic przedziału
liczbowego, w którym, z określonym prawdopodobieństwem,
zawiera się wartość szacowanego parametru
Podstawowym narzędziem szacowania nieznanego parametru jest
estymator obliczony na podstawie próby. np. dla wartości
oczekiwanej jest to średnia arytmetyczna, albo średnia ważona.
Liczba możliwych estymatorów konkretnego parametru rozkładu
może być duża ale, bierze się pod uwagę tylko te, które posiadają
określone właściwości (cechy).
Cechy dobrego estymatora
• Zgodny
• Nieobciążony
• Najefektywniejszy
Estymator jest
zgodny jeśli jest stochastycznie zbieżny
z szacowanym parametrem.
W praktyce oznacza to, że im większa próba (liczność
próbki) tym większe prawdopodobieństwo, że
estymator przyjmie wartości bliższe szacowanemu
parametrowi. Przykład im więcej ćwiczymy tym
bardziej prawdopodobny sukces.
Zbieżność stochastyczna
Ciąg zmiennych losowych (X1, X2 ,….., Xn )={Xn}
jest stochastycznie zbieżny do stałej c, jeśli dla
dowolnego ε>0, jest spełniona zależność
lim P( X
n →∞
n
−c < ε)=1
Oznacza to, że prawdopodobieństwo zdarzenia
(X
n
−c <ε)
wzrasta do 1, co nie oznacza zbieżności w sensie
analizy matematycznej
Estymator zgodny
Estymator Tn jest zgodny jeśli dla dowolnego ε>0.
lim
n→ ∞
P{ Tn − Θ < ε } = 1
Jeśli wybrany estymator nie jest zgodny to zwiększenie
liczebności próby może go oddalić od wartości szacowanej.
Przykład estymatorem średnich wyników grupy jest średnia
ocena najlepszego studenta, tak skrajnie zdefiniowany
estymator nie jest zgodny, bo zwiększenie liczności grupy
zwiększa prawdopodobieństwo oddalania go od średniej
oceny w całej grupie.
Jeśli estymator jest zgodny to jest asymptotycznie
nieobciążony
Podstawowe własności estymatorów
• Tw.2: Jeśli estymator jest nieobciążony lub
asymptotycznie nieobciążony oraz jego wariancja
spełnia relację
2
D
lim (Tn ) = 0
n →∞
to jest on estymatorem zgodnym
• Estymator Tn parametru Θ jest nieobciążony jeśli
spełniona jest relacja
E (Tn) = Θ
Jeśli ta relacja nie zachodzi, to estymator
nazywamy obciążonym , a wielkość
b (Tn) = E (Tn) - Θ
nazywamy obciążeniem estymatora
Cechy dobrego estymatora - Nieobciążoność
• Nieobciążoność estymatora oznacza, że wartość
oczekiwana estymatora nieobciążonego jest
dokładnie równa wartości szacowanego parametru.
•
Obciążoność oznacza, że wartości dostarczane
przez taki estymator obciążone są błędem
systematycznym
•
Cechy dobrego estymatora - Efektywność
• Efektywność – estymator jest tym efektywniejszy
im mniejsza jest jego wariancja.
• Spośród wszystkich estymatorów, które są zgodne
i nieobciążone wybieramy ten, który ma
najmniejszą wariancję, jest najefektywniejszy.
Własności estymatora - podsumowanie
Jeśli dany jest zbiór estymatorów Tn1,... Tnr
nieobciążonych, to ten estymator, który ma
w tym zbiorze najmniejsza wariancję, jest
estymatorem najefektywniejszym.
Tw. Estymator parametru statystycznego powinien
być:
• nieobciążony
• zgodny
• najefektywniejszy
Metody wyznaczania estymatorów:
metoda momentów,
metoda największej wiarygodności
Download