Zagadnienia estymacji — Punktem wyjścia badania statystycznego jest wylosowanie z całej populacji pewnej skończonej liczby n elementów i zbadanie ich ze względu na zmienną losową (cechę) X. Uzyskane w ten sposób wartości x1 , x2 , . . . , xn badanej cechy X są zaobserwowanymi wartościami n-elementowej próby. — Statystyka opisowa ogranicza się do opisu uzyskanych wyników próby, bez wyciągania wniosków o całej populacji. — W statystyce matematycznej, na podstawie wyników badania próbnego, wyciąga się wnioski dotyczące badanej cechy w całej populacji. Wnioskowanie statystyczne — Do najważniejszych form wnioskowania statystycznego należą: — estymacja (ocena) nieznanych parametrów bądź ich funkcji, które charakteryzują rozkład badanej cechy populacji; — weryfikacja (badanie prawdziwości) postawionych hipotez statystycznych. — Wnioskowanie statystyczne jest oparte na częściowej informacji, więc dostarcza jedynie wniosków wiarygodnych, a nie absolutnie prawdziwych. — Wnioski wiarygodne, to wnioski prawdziwe z pewnym zadanym prawdopodobieństwem. Próba losowa — Dowolne dwie n-elementowe próbki z tej samej populacji są na ogół różne. — Dlatego wygodnie jest traktować ciąg liczbowy x1 , . . . , xn jako realizację ciągu X1 , . . . , Xn , gdzie Xi dla i ∈ {1, 2, . . . , n} jest zmienną losową. — Ciąg zmiennych losowych X1 , . . . , Xn nazywamy n-elementową próbą losową. — Jeśli zmienne losowe X1 , . . . , Xn są niezależne i każda z nich ma rozkład taki, jak rozkład badanej cechy populacji, to próbę nazywamy próbą prostą. — Ciąg liczb x1 , . . . , xn nazywamy zaobserwowaną próbą losową lub próbką. Estymacja punktowa — W estymacji punktowej za ocenę wartości parametru przyjmuje się jedną konkretną wartość otrzymaną na podstawie wyników próby. — Niech rozkład badanej cechy zależy od nieznanego parametru θ. — Parametr ten będziemy szacowali na podstawie n-elementowej próby prostej X1 , . . . , Xn . — Funkcję g(X1 , . . . , Xn ) będącą funkcją próby losowej X1 , . . . , Xn nazywamy statystyką. — Statystyka jest funkcją zmiennych losowych, jest też zmienną losową mającą swój własny rozkład zależny od postaci funkcji g i od rozkładu zmiennych X1 , . . . , Xn . Przykłady statystyk — średnia arytmetyczna X z próby n X= 1X Xi n i=1 wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = n 1X xi , gdzie x1 , x2 , . . . , xn są wynikami próby n i=1 — wariancja z próby n 1X S2 = (Xi − X)2 n i=1 wartością tej statystyki jest wariancja empiryczna n s2 = 1X (xi − x)2 n i=1 1 Przykłady statystyk — wariancja z próby n 1 X (Xi − X)2 n − 1 i=1 Ŝ 2 = wartością tej statystyki jest wariancja empiryczna n ŝ2 = 1 X (xi − x)2 n − 1 i=1 √ — odchylenie standardowe S = S 2 z próby wartość tej statystyki nazywana p jest empirycznym odchyleniem standardowym i oznaczana jest symbolem s — odchylenie standardowe Ŝ = Ŝ 2 z próby wartość tej statystyki nazywana jest empirycznym odchyleniem standardowym i oznaczana jest symbolem ŝ Estymatory — Każdą statystykę θ̂n (X1 , . . . , Xn ), której wartości przyjmujemy do oceny (przybliżenia) nieznanego parametru θ, nazywamy estymatorem parametru θ. — Otrzymaną na podstawie realizacji konkretnej próby wartość estymatora nazywamy oceną (przybliżeniem, oszacowaniem) tego parametru. — Dla danego parametru θ można oczywiście utworzyć wiele estymatorów θ̂n (X1 , . . . , Xn ), ale dla uzyskania estymatora o możliwie najlepszych własnościach pożądane jest, aby spełniał on pewne warunki. — Oczywiście wraz ze wzrostem liczności próby zwiększa się dokładność oszacowania parametru θ. Estymatory — Estymator θ̂n nazywamy estymatorem zgodnym parametru θ, jeżeli dla każdej liczby ε > 0 spełniony jest warunek lim P θ̂n − θ < ε = 1. n→∞ — Estymator θ̂n nazywamy estymatorem nieobciążonym parametru θ, jeżeli dla każdego n zachodzi warunek E(θ̂n ) = θ. — Jeżeli istnieje n takie, że E(θ̂n ) 6= θ, to estymator θ̂n nazywamy estymatorem obciążonym parametru θ, a różnicę Bn (θ) = E(θ̂n ) − θ nazywamy obciążeniem estymatora. Estymatory — Jeżeli h i lim Bn (θ) = lim E(θ̂n ) − θ = 0 n→∞ n→∞ (lub inaczej lim E(θ̂n ) = θ), to estymator θ̂n nazywamy estymatorem asymptotycznie nieobciążonym n→∞ parametru θ. — Nieobciążony estymator θ̂n parametru θ nazywamy efektywnym lub najefektywniejszym, jeżeli ma najmniejszą wariancję spośród nieobciążonych estymatorów tego parametru. Estymatory — Jeżeli istnieje estymator efektywny θ̃n parametru θ, zaś θ̂n jest innym estymatorem nieobciążonym tego parametru, to efektywnością estymatora θ̂n jest liczba ef θ̂n = D2 θ̃n D2 θ̂n . — Oczywiście zachodzi nierówność 0 < ef θ̂n 6 1, przy czym równość ma miejsce jedynie dla estymatora efektywnego. 2 — Estymator θ̂n nazywamy estymatorem asymptotycznie efektywnym parametru θ, jeżeli lim ef θ̂n = 1. n→∞ Przykłady estymatorów — Statystyka X = — Statystyka X = 1 n n X Xi jest zgodnym i nieobciążonym estymatorem parametru µ (wartości średniej). i=1 n X 1 n Xi jest najefektywniejszym estymatorem parametru µ populacji generalnej o rozkładzie i=1 N (µ, σ). n 1X (Xi − X)2 jest obciążonym estymatorem wariancji σ 2 . n i=1 n 1 X — Statystyka Ŝ 2 = (Xi − X)2 jest nieobciążonym estymatorem wariancji σ 2 . n − 1 i=1 — Statystyka S 2 = Estymacja przedziałowa — Estymacja przedziałowa polega na podaniu tzw. przedziałów ufności dla nieznanych parametrów danego rozkładu (bądź funkcji tych parametrów). — Przedziałem ufności dla parametru θ na poziomie ufności 1 − α, gdzie 0 < α < 1, nazywamy przedział (θ1 , θ2 ) spełniający warunki: — końce przedziału θ1 = θ1 (X1 , . . . , Xn ) oraz θ2 = θ2 (X1 , . . . , Xn ) są funkcjami próby losowej i nie zależą od szacowanego parametru θ; — prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru θ jest równe 1 − α, tzn. P (θ1 < θ < θ2 ) = 1 − α. — Liczbę 1 − α nazywamy współczynnikiem ufności. Przedział ufności dla wartości średniej Model I — Cecha X populacji generalnej ma rozkład normalny N (µ, σ). Szacujemy metodą przedziałową nieznaną wartość średnią µ przy założeniu, że znane jest odchylenie standardowe σ = σ0 . Liczebność próby jest dowolna. √ — W teorii statystyki dowodzi się, że jeżeli zmienna losowa X ma rozkład N (µ, σ), to zmienna losowa U = X−µ n σ ma rozkład normalny N (0, 1). — Oznacza to, że istnieje taka liczba uα , że dla ustalonego współczynnika ufności 1 − α będzie spełniony warunek X − µ√ P n < uα = 1 − α. σ Przedział ufności dla wartości średniej Model I c.d. — Liczba uα jest wyznaczona w oparciu o wzór P (|U | < uα ) = 1 − α lub P (|U | > uα ) = α lub Φ(uα ) = 1 − α . 2 — Wartość uα jest wartością standaryzowanego rozkładu normalnego N (0, 1) odczytaną z tablic statystycznych. — Przy ustalonym współczynniku ufności 1 − α przedział ufności dla parametru µ przyjmuje postać σ0 σ0 µ ∈ X − uα √ , X + uα √ . n n 3 Przedział ufności dla wartości średniej Model II — Cecha X populacji generalnej ma dowolny rozkład. Liczebość próby jest duża (n > 30). Szacujemy metodą przedziałową nieznaną wartość średnią µ przy założeniu, że znane jest odchylenie standardowe σ = σ0 . — W teorii statystyki dowodzi się, że średnia z próby X ma graniczny rozkład normalny N (µ, √σn ). Zmienna losowa √ U = X−µ n ma rozkład normalny N (0, 1). σ — Otrzymujemy więc przedział ufności dla parametru µ jak w modelu I: σ0 σ0 µ ∈ X − uα √ , X + uα √ . n n Przedział ufności dla wartości średniej Model III — Cecha X populacji generalnej ma dowolny rozkład o skończonej, ale nieznanej wariancji σ 2 . Liczebość próby jest duża (n > 30). Szacujemy metodą przedziałową nieznaną wartość q średnią µ. n — Ze względu na fakt, że próba jest duża można przyjąć, że σ ≈ Ŝ, gdzie Ŝ = n−1 S. Przedział ufności przyjmuje więc postać jak w modelu I, przy czym nieznane odchylenie standardowe jest zastąpione estymatorem Ŝ ! Ŝ Ŝ µ ∈ X − uα √ , X + uα √ . n n Przedział ufności dla wartości średniej Model III c.d. — Z uwagi na równość √Ŝ n = √S n−1 wyznaczony przedział ufności może być zastąpiony przedziałem równoważnym µ∈ X − uα √ S S , X + uα √ n−1 n−1 . Przedział ufności dla wartości średniej Model IV — Cecha X populacji generalnej ma rozkład normalny N (µ, σ) o nieznanym odchyleniu standardowym σ. — Szacujemy metodą przedziałową nieznaną wartość średnią µ przy założeniu, że liczebność próby jest mała (n < 30). Nie można więc przyjąć założenia σ ≈ Ŝ. — Budowa przedziału ufności dla tego przypadku opiera się na statystyce T = X − µ√ n − 1, S która ma rozkład t-Studenta o n − 1 stopniach swobody. Przedział ufności dla wartości średniej Model IV c.d. — Oznacza to, że w tablicach rozkładu t-Studenta możemy znaleźć wartość tα dla n−1 stopni swobody przy ustalonym współczynniku ufności 1 − α, dla której spełniony będzie warunek X − µ√ P n − 1 < tα = 1 − α. S — Liczna tα jest wyznaczona w oparciu o wzór P (|T | < tα ) = 1 − α lub P (|T | > tα ) = α. 4 Przedział ufności dla wartości średniej Model IV c.d. — W wyniku przekształceń otrzymujemy przedział ufności dla parametru µ S S µ ∈ X − tα √ , X + tα √ . n−1 n−1 — Z uwagi na równość √Ŝ n = √S n−1 wyznaczony przedział ufności może być zastąpiony przedziałem równoważnym: Ŝ Ŝ X − t α √ , X + tα √ n n µ∈ ! . Rozkład t-Studenta — Zmienna losowa T ma rozkład t-Studenta o n stopniach swobody, jeżeli jej funkcja gęstości wyraża się wzorem f (t) = √ 1 nB 1 n 2, 2 t2 1+ n − n+1 2 , gdzie B jest funkcją beta Z1 B(x, y) = tx−1 (1 − t)y−1 dt, x > 0, y > 0. 0 — Dla funkcji gęstości rozkładu t-Studenta spełniony jest warunek f (−t) = f (t), a dla dystrybuanty F (−t) = 1−F (t). Rozkład t-Studenta +∞ Z — Liczbę tα taką, że P (|T | > tα ) = 2 f (t)dt = α nazywamy wartością krytyczną rozkładu zmiennej losowej tα T. 1 — Mamy przy tym P (T 6 −tα ) = P (T > tα ) = α. 2 — Wartości krytyczne tα dla danego α i danej liczby stopni swobody n są stablicowane. — Przy n → ∞ rozkład t-Studenta dąży do rozkładu normalnego standaryzowanego N (0, 1). 5