Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 [email protected] Wprowadzenie Jeśli S jest przestrzenią zdarzeń elementarnych (w statystyce nazywana populacją), to Prostą próbą losową (próbką statystyczną) o liczności n nazywamy ciąg niezależnych zmiennych losowych X1, X2 ,….., Xn , określonych na przestrzeni S i takich, że każda z nich ma ten sam rozkład. Ciąg wartości x1, x2 ,….., xn próby losowej X1, X2 ,….., Xn nazywamy realizacją próby losowej . Wybór n elementów populacji powinien być dokonany w taki sposób, żeby każdy podzbiór populacji, składający się z n elementów miał taką samą szansę wybrania Zadanie: ocenić średni wzrost dorosłych Polaków. – Jeśli wybieramy próbę spośród studentów – nie jest to jednak próba wszystkich dorosłych Polaków – Utożsamiamy populację z badaną cechą – Szacujemy szukaną wartość ( średni wzrost) obliczając pewną wartość z próby – Niech T(X1, X2 ,….., Xn) , w naszym rozumieniu, dobrze przybliża wartość nieznanego wskaźnika. – Taką funkcję T nazywamy statystyką. – Każda tak rozumiana statystyka jest zmienną losową, a zatem posiada określony rozkład i ten rozkład odgrywa bardzo ważną rolę w analizie statystycznej. Rozkład średniej w prostej próbie losowej Średnią, w prostej próbie losowej X1, X2 ,….., Xn o liczności n, nazywamy statystykę X = X 1 + X 2 + ... + X n n Podana definicja jest szczególnym przypadkiem statystyki T(X1, X2 ,….., Xn) Średnia X jest zmienną losową, a x jest konkretną wartością z jednej konkretnej próby. Możemy wylosować kilka prób 100 elementowych i z każdej otrzymać inną wartość np. x=`176,5; x =177,8 ..... Prawo Wielkich Liczb (PWL) Prawo Wielkich Liczb: Niech X będzie zmienną losową o wartości oczekiwanej µX i skończonej wariancji σ2X<∞ i niech X1, X2 ,….., Xn będzie prostą próbą losową z rozkładu zmiennej X. Wówczas dla dowolnie małej dodatniej liczby ε i n→∞ P( X ∈ [ µ X − ε , µ X + ε ]) → 1 Charakterystyki rozkładu wartości średniej Zakładając, że prosta próba losowa X1, X2 ,….., Xn pochodzi z rozkładu o wartości średniej µ i wariancji σ2, Otrzymamy 1 n 1 n µ X = ( µ X + µ X + ... + µ Xn ) = ( µ + µ + ... + µ ) = µ 1 2 σ 1 σ X2 . = σ X2 1 + σ X2 2 + .... + σ X2 n = n n 2 zatem ( ) µ σ X = µ X = σ n 2 Centralne twierdzenie graniczne Jeśli X1, X2 ,….., Xn jest prostą próbą losową z rozkładu o wartości średniej µ i skończonej wariancji σ2 . Wówczas dla prób losowych o dużej liczebności rozkład standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0,1), tzn rozkład średniej X jest w przybliżeniu równy rozkładowi N (µ , σ / n ) Zatem dla dowolnych a i b (a ≤ b) i zmiennej losowej Z o standardowym rozkładzie normalnym X −µ P a ≤ ≤ b → P ( a ≤ Z ≤ b ) = Φ ( b ) − Φ ( a ) σ / n Zastosowanie - przykład Rozkład naszego codziennego dojazdu do pracy jest w przybliżeniu jednostajny na odcinku ( 0,5h,1h) a jednocześnie czasy dojazdów w różne dni są niezależne. Jakie ( w przybliżeniu) jest prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8h (48 min) Rozwiązanie: niech Xi oznacza czas dojazdu w i-tym dniu, i=1,…,30 Xi ma rozkład jednostajny na odcinku [0,5 , 1], zatem µ X i 0 ,5 + 1 3 = = oraz σ 2 4 2 X i = (1 − 0 ,5 12 )2 = 1 48 stąd P 3 X − 4 1 48 * 30 > 3 0 ,8 − 4 1 48 * 30 ≈ P (Z > 1 , 89 ) = 1 − Φ ( 1 , 89 ) = 0 , 03 Rozkład częstości Zakładamy, że zmienna X z rozkładu, z którego pochodzi próba, może przyjmować tylko dwie wartości: • 1, gdy badany obiekt posiada określoną cechę • 0, gdy obiekt tej cechy nie posiada oznaczmy • p=P(X=1) • q=1-p=P(X=0) Liczba p, zwana proporcją jest równa prawdopodobieństwu posiadania wybranej cechy (własności) przez losowo wybraną jednostkę. Zauważmy, że µX=1*p+0*(1-p)=p, stąd też wynika że rozpatrywany wcześniej problem szacowania wartości średniej jest w tym konkretnym przypadku jednoznaczny z szacowaniem proporcji. Przykłady zastosowań: szacowanie proporcji produktów wadliwych wyprodukowanych w ciągu miesiąca, albo leworęcznych uczniów przychodzących do I klasy Rozkład częstości Częstością występowania w prostej próbie losowej nazywamy statystykę pˆ = ∑ n i =1 Xi n gdzie X1, X2 ,….., Xn jest prostą próbą losową z rozkładu dwupunktowego o wartościach 0 i 1. Statystykę p obliczoną dla konkretnych wartości w próbie nazywamy wartością częstości Twierdzenia o częstości występowania 1. Częstość występowania pomnożona przez liczność próby ma rozkład dwumianowy (Bernouliego) B (n, p). Ponadto µ pˆ = p σ 2pˆ = p (1 − p ) n 2. Dla dowolnych rzeczywistych a i b, gdy n→∞ P a ≤ pˆ − p ≤ b → Φ (b ) − Φ ( a ) p (1 − p ) n Przykład zastosowań • W populacji dorosłych Polaków 39% ma kłopoty ze snem. Jakie jest prawdopodobieństwo, że w próbie 100 elementowej , częstość osób mających kłopoty ze snem nie przekroczy 0,33. • Interesuje nas P ( pˆ ≤ 0,33) • Dane: a=-∞, b=33, n=100 33 + 0.5 − 39 P( pˆ ≤ 33 + 0.5) → Φ = Φ (−1.13) = 0.1292 100 * 0.39 * 0.61 Estymacja i estymatory. Techniki wnioskowania statystycznego W statystyce matematycznej stosowane są dwie techniki wnioskowania: • Estymacja polegająca na oszacowaniu z pewną dokładnością określonych wartości charakteryzujących rozkład badanej cechy np. częstości, wartości oczekiwanej, wariancji. • Weryfikacja hipotez statystycznych polegająca na sprawdzeniu słuszności przypuszczeń dotyczących postaci rozkładu cechy (testy zgodności) bądź wartości jego parametrów (parametryczne testy istotności) Obie wymienione techniki uzupełniają się wzajemnie. Co to jest estymator • Zakładamy, że rozkład badanej cechy w populacji generalnej jest opisany za pomocą dystrybuanty F (x;Θ), gdzie Θ oznacza parametr od którego zależy ta dystrybuanta (taki jak np. λ w rozkładzie Poissona). • Nieznana wartość parametru Θ będzie szacowana (obliczona) na podstawie próby n-elementowej (X1,. ,Xn) Definicja estymatora • Estymatorem Tn parametru Θ rozkładu populacji generalnej nazywa się statystykę (dowolną) z próby Tn= t (X1,.... ,Xn), która służy do oszacowania wartości liczbowej tego parametru. • Skoro szacunku parametru dokonuje się w oparciu o dane z próby, zatem istnieje możliwość popełnienia błędu ( niech go oznacza litera d), który nazywany jest błędem szacunku (estymacji) parametru Θ d = Tn - Θ Błąd estymacji Błąd d jest też zmienną losową ( zależną od próby losowej), a za miarę tego błędu przyjmuje się ∆ = E (Tn – Θ)2 Zauważmy, że jeśli E (Tn) = Θ wtedy wyrażenie określające ∆, jest wariancją D2(Tn) estymatora Tn,, a odchylenie standardowe D(Tn) jest średnim (standardowym) błędem szacunku parametru Θ, błędem względnym oszacowania jest iloraz D(Tn) / Θ Estymacja i estymatory Rozpatrywane dotychczas statystyki: średnia i częstość należą do najczęściej stosowanych w praktyce. W przypadku gdy statystyki używane są do szacowania (przybliżania) nieznanych parametrów rozkładu zmienne losowej noszą specjalną nazwę: • Statystykę T(X1, X2 ,….., Xn ), służącą do oszacowania nieznanego parametru populacji nazywamy estymatorem. • Dla konkretnych wartości próby X1=x1, X2=x2 , ….., Xn= xn liczbę T(X1, X2 ,….., Xn ) nazywamy wartością estymatora Estymacja i estymatory W zależności od tego co chcemy oszacować rozróżnia się • estymację parametryczną, gdy szacowane są parametry rozkładu zmiennej X (np. E(X), D2(X)) • Estymację nieparametryczną, gdy próbujemy wnioskować o postaci rozkładu cechy X w populacji. Podstawy teorii estymacji sformułował Karl Pearson na przełomie XIX i XX wieku. 1. Pierwszym krokiem w estymacji jest wylosowanie z populacji n - elementowej próby, po czym 2. na podstawie badań próby - obliczeń wykonanych na danych zawartych w próbce 3. wyciągamy wnioski dotyczące badanej cechy w całej populacji. Rodzaje estymacji wg kryterium wyniku • Estymacja punktowa – ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji • Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego, w którym, z określonym prawdopodobieństwem, zawiera się wartość szacowanego parametru Podstawowym narzędziem szacowania nieznanego parametru jest estymator obliczony na podstawie próby. np. dla wartości oczekiwanej jest to średnia arytmetyczna, albo średnia ważona. Liczba możliwych estymatorów konkretnego parametru rozkładu może być duża ale, bierze się pod uwagę tylko te, które posiadają określone właściwości (cechy). Cechy dobrego estymatora • Zgodny • Nieobciążony • Najefektywniejszy Estymator jest zgodny jeśli jest stochastycznie zbieżny z szacowanym parametrem. W praktyce oznacza to, że im większa próba (liczność próbki) tym większe prawdopodobieństwo, że estymator przyjmie wartości bliższe szacowanemu parametrowi. Przykład im więcej ćwiczymy tym bardziej prawdopodobny sukces. Zbieżność stochastyczna Ciąg zmiennych losowych (X1, X2 ,….., Xn )={Xn} jest stochastycznie zbieżny do stałej c, jeśli dla dowolnego ε>0, jest spełniona zależność lim P( X n →∞ n −c < ε)=1 Oznacza to, że prawdopodobieństwo zdarzenia (X n −c <ε) wzrasta do 1, co nie oznacza zbieżności w sensie analizy matematycznej Estymator zgodny Estymator Tn jest zgodny jeśli dla dowolnego ε>0. lim n→ ∞ P{ Tn − Θ < ε } = 1 Jeśli wybrany estymator nie jest zgodny to zwiększenie liczebności próby może go oddalić od wartości szacowanej. Przykład estymatorem średnich wyników grupy jest średnia ocena najlepszego studenta, tak skrajnie zdefiniowany estymator nie jest zgodny, bo zwiększenie liczności grupy zwiększa prawdopodobieństwo oddalania go od średniej oceny w całej grupie. Jeśli estymator jest zgodny to jest asymptotycznie nieobciążony Podstawowe własności estymatorów • Tw.2: Jeśli estymator jest nieobciążony lub asymptotycznie nieobciążony oraz jego wariancja spełnia relację 2 D lim (Tn ) = 0 n →∞ to jest on estymatorem zgodnym • Estymator Tn parametru Θ jest nieobciążony jeśli spełniona jest relacja E (Tn) = Θ Jeśli ta relacja nie zachodzi, to estymator nazywamy obciążonym , a wielkość b (Tn) = E (Tn) - Θ nazywamy obciążeniem estymatora Cechy dobrego estymatora - Nieobciążoność • Nieobciążoność estymatora oznacza, że wartość oczekiwana estymatora nieobciążonego jest dokładnie równa wartości szacowanego parametru. • Obciążoność oznacza, że wartości dostarczane przez taki estymator obciążone są błędem systematycznym • Cechy dobrego estymatora - Efektywność • Efektywność – estymator jest tym efektywniejszy im mniejsza jest jego wariancja. • Spośród wszystkich estymatorów, które są zgodne i nieobciążone wybieramy ten, który ma najmniejszą wariancję, jest najefektywniejszy. Własności estymatora - podsumowanie Jeśli dany jest zbiór estymatorów Tn1,... Tnr nieobciążonych, to ten estymator, który ma w tym zbiorze najmniejsza wariancję, jest estymatorem najefektywniejszym. Tw. Estymator parametru statystycznego powinien być: • nieobciążony • zgodny • najefektywniejszy Metody wyznaczania estymatorów: metoda momentów, metoda największej wiarygodności