WYKŁAD 2 Podstawy teorii estymacji TWIERDZENIA GRANICZNE • W twierdzeniach tych rozpatruje się ciągi zmiennych losowych {Xn}, których rozkłady – przy wzroście wskaźnika n do nieskończoności – mogą być zbieżne do pewnego rozkładu. • Taki rozkład jest nazywany rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych {Xn}. • Twierdzenia graniczne formułują warunki, przy zachowaniu, których dla ciągu zmiennych losowych istnieje asymptotyczny rozkład oraz określają, jaka jest postać tego rozkładu. TWIERDZENIA GRANICZNE Wyróżniamy dwa rodzaje twierdzeń granicznych: twierdzenia lokalne twierdzenia integralne dotyczą zbieżności ciągu funkcji prawdopodobieństw zmiennych losowych typu skokowego lub zbieżności ciągu funkcji gęstości zmiennych losowych typu ciągłego dotyczą zbieżności ciągu dystrybuant zmiennych losowych TWIERDZENIA GRANICZNE • Wśród twierdzeń granicznych ważną rolę odgrywają twierdzenia o rozkładach granicznych sum niezależnych zmiennych losowych, w tym o zbieżności dystrybuant standaryzowanych sum niezależnych zmiennych losowych do dystrybuanty rozkładu normalnego. • Poza twierdzeniami o zbieżności do rozkładu normalnego istotne znaczenie mają tzw. prawa wielkich liczb, w których rozkładem granicznym jest rozkład jednopunktowy. TWIERDZENIA GRANICZNE Abraham de Moivre (1667-1754) Integralne twierdzenie graniczne – twierdzenie mówiące o zbieżności ciągu dystrybuant Twierdzenie de Moivre`a - Laplace`a Pierre Simon de Laplace (1749-1827) Niech {Xn} będzie ciągiem zmiennych losowych o rozkładzie dwumianowym z parametrami n i 0<p<1 oraz niech {Un} będzie ciągiem standaryzowanych zmiennych Xn : X np Un n npq , Wtedy dla ciągu dystrybuant {Fn (u)} zmiennych losowych Un zachodzi dla każdej wartości u TWIERDZENIA GRANICZNE Twierdzenie de Moivre`a - Laplace`a • Wniosek 1 Ciąg zmiennych losowych {Xn} o rozkładzie dwumianowym z parametrami n i p (niestandaryzowanych) jest zbieżny do rozkładu normalnego N np; npq • Wniosek 2 Xn n Jeśli rozpatrzymy ciąg zmiennych , to z twierdzenia de Moivre'a-Laplace'a wynika, że zmienna ta ma asymptotyczny rozkład normalny N p, pq | n TWIERDZENIA GRANICZNE J.W.Lindeberg (1876-1932) Integralne twierdzenie graniczne – twierdzenie mówiące o zbieżności ciągu dystrybuant Paul Levy (1886-1971) Centralne twierdzenie graniczne Lindeberga-Levy`ego Jeśli {Xk} jest ciągiem niezależnych zmiennych losowych o jednakowych rozkładach (identycznych wartościach oczekiwanych E(Xk)=E(X) oraz skończonych wariancjach D²(Xk)=D²(X), to ciąg dystrybuant {Fn(t)} zmiennych losowych T określonych wzorem spełnia: Z n nE ( X ) Tn D( X ) n Dla każdej wartości t TWIERDZENIA GRANICZNE Centralne twierdzenie graniczne Lindeberga-Levy`ego Wniosek 1 Zmienna losowa Zn określona wzorem ma asymptotyczny rozkład normalny Wniosek 2 Jeśli dla określonych wyżej zmiennych losowych Zn rozpatrzymy zmienną o wartości oczekiwanej i wariancji to z twierdzenia L-L otrzymujemy, że ciąg zmiennych {Vn} jest zbieżny do rozkładu normalnego PRÓBA LOSOWA Próbą losową prostą nazywamy ciąg n-zmiennych losowych niezależnych i posiadających jednakowe rozkłady takie jak rozkład zmiennej losowej X w populacji generalnej Populacja generalna Próba losowa STATYSTYKI Z PRÓBY STATYSTYKA (z próby) Statystyką (z próby) nazywamy zmienną losową Zn będącą funkcją zmiennych losowych X1 , X2 ,… Xn stanowiących próbę losową Przykłady: wyznaczone z danych z próby losowej np.: •średnia arytmetyczna, •częstość względna, •wariancja STATYSTYKI Z PRÓBY STATYSTYKA (z próby) Statystyka jako funkcja zmiennych losowych sama jest zmienną losową, która posiada pewien rozkład Rozkład statystyki Zn =z(X1 , X2 , X3,… Xn) nazywa się rozkładem z próby Rozkład statystyki z próby zależy od: •rozkładu zmiennej losowej X w populacji generalnej •liczebności próby STATYSTYKI Z PRÓBY STATYSTYKA (z próby) Rozkład statystyki z próby przy ustalonym n nazywamy dokładnym rozkładem statystyki. Rozkłady dokładne są wykorzystywane w przypadku tzw. małych prób. Rozkład graniczny statystyki (o ile taki istnieje) jest wykorzystywany, gdy nie można znaleźć dokładnego rozkładu statystyki z próby. Wymaga to tzw. dużej próby. STATYSTYKI Z PRÓBY ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA POPULACJI NORMALNEJ ZE ZNANYM ODCHYLENIEM STANDARDOWYM ROZKŁAD DOKŁADNY Założenia • X ma rozkład N(m,σ) • Pobieramy n-elementową próbę losową prostą (X1, X2,…Xn) Średnia arytmetyczna z próby posiada rozkład normalny o standardowym i odchyleniu STATYSTYKI Z PRÓBY ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA POPULACJI NORMALNEJ ZE ZNANYM ODCHYLENIEM STANDARDOWYM ROZKŁAD DOKŁADNY f(x) X:N(5;2) X:N(5;0,2) n=100 STATYSTYKI Z PRÓBY ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ Z PRÓBY DLA POPULACJI NORMALNEJ Z NIEZNANYM ODCHYLENIEM STANDARDOWYM mała próba Założenia: • Cecha X ma w populacji rozkład normalny ze średnia m i odchyleniem standardowym σ, • Z populacji pobieramy n-elementową losową próbę (X1 , X2 ,…, Xn ) • Nie znamy wartości σ ? Standaryzacja średniej STATYSTYKI Z PRÓBY ROZKŁAD ROZKŁAD ŚREDNIEJ ŚREDNIEJ ARYTMETYCZNEJ ARYTMETYCZNEJ ZZ PRÓBY PRÓBY DLA DLA POPULACJI POPULACJI NORMALNEJ NORMALNEJ ZZ NIEZNANYM NIEZNANYM ODCHYLENIEM ODCHYLENIEM STANDARDOWYM STANDARDOWYM ROZKŁAD mała DOKŁADNY próba W.S.Gosset odkrył w 1908r rozkład statystyczny zależny od pomiarów xi, a niezależny od wariancji William Sealy Gosset (1876-1937). => rozkład t-Studenta. Założenia: • Cecha X ma w populacji rozkład normalny ze średnia m i odchyleniem standardowym σ, • Z populacji pobieramy n-elementową losową próbą (X1 , X2 ,…, Xn ) • Do wnioskowania o średniej korzystamy ze statystyki t-Studenta: STATYSTYKI Z PRÓBY Liczba stopni swobody v – liczba niezależnych wyników obserwacji pomniejszona o liczbę niezależnych związków, które łączą te wyniki ze sobą. np.: gdy n=2 i gdy X1 =5 to X2 =? lub X1 =3 to X2 =? to ∑X = 2∙ X = X1 + X2 = 2∙5 = 10 5 + ? = 10 5+5=10 3 + ? = 10 3 + 7=10 v = n-1 = 2-1 =1 np.: gdy stopni n=3 i swobody to ∑X = 3∙ Xutożsamiać = X1 + X2 + X3 z= liczbą 3∙5 =15 Liczbę można gdy X1 =4 i X2 =3 to X3 =? 4+3+?= 15które wpływają 4+3+8=15 niezależnych zmiennych losowych, v = n-1 = 3-1 =2 na wynik. STATYSTYKI Z PRÓBY Rozkład t-Studenta n≤30 STATYSTYKI Z PRÓBY Zmienna X~ N(m, σ) Statystyka średnia X : N m; n x X~ N(m, ?) średnia mała próba n ≤ 30 X~ nieznany rozkład Standaryzacja U N(0; 1) n X : N m; n t-Student średnia X : N m; n U częstość X m N(0; 1) n duża próba n > 30 duża próba n ≥ 100 X m v=n-1 n→∞ X~ dwumianowy Rozkład X W n U Wp p(1 p ) n N(0; 1) STATYSTYKI Z PRÓBY Zmienna X1~ N(m1, σ1) X2~ N(m2, σ2) X1~ N(m1, σ1) X2~ N(m2, σ2) Statystyka Standaryzacja różnica dwóch średnich X 1 X 2 : N m1 m2 , n1 n2 12 x 22 U 1 1 t X 1 różnica dwóch średnich rozkłady U duża próba n1 +n2 > 30 n1, n2 →∞ X1 , X2 ~ różnica dwóch częstości dwumianowe rozkłady duża próba n1 +n2 ≥ 100 2 n1, n2 →∞ p2 1 p2 U n2 2 n2 1 1 s 2p n1 n2 X 1 X 2 m1 m2 1 2 n1 p1 1 p1 W1 W2 : N p1 p2 ; n1 N(0; 1) 2 X 2 m1 m2 mała próba n ≤30 X1 , X2 ~ nieznane X 2 m1 m2 n1 różnica dwóch średnich 12 22 X 1 X 2 : N m1 m2 , n n2 1 X Rozkład 2 2 t-Student v=n1+n2-2 N(0; 1) n2 (W1 W2 ) ( p1 p2 ) p1 (1 p1 ) p2 (1 p2 ) n1 n2 N(0; 1) ESTYMACJA Estymacją nazywamy szacowanie wartości parametrów, ewentualnie postaci rozkładu zmiennej losowej w populacji generalnej, na podstawie obserwacji uzyskanych w próbie Karl Pearson (1857-1936) losowej. Estymacja parametryczna – szacowanie wartości parametrów rozkładu populacji generalnej. estymacja punktowa – za ocenę wartości parametru przyjmuje się jedną konkretną wartość otrzymaną na podstawie wyników z próby. estymacja przedziałowa – wyznacza się liczbowy przedział, w którym z określonym prawdopodobieństwem zawiera się wartość szacowanego parametru. Estymacja nieparametryczna – szacowanie postaci rozkładu ESTYMACJA Założenia • rozkład zmiennej losowej X w populacji generalnej jest opisany za pomocą dystrybuanty F(x,θ), gdzie θ jest parametrem rozkładu, od którego zależy ta dystrybuanta, • nieznaną wartość parametru θ szacujemy na podstawie n-elementowej próby losowej (X1, X2,…, Xn) Estymatorem Tn parametru θ rozkładu populacji generalnej nazywamy statystykę z próby Tn = t(X1, X2,…, Xn) , która służy do oszacowania wartości tego parametru. ESTYMACJA Estymator jest zmienną losową i ma pewien rozkład można obliczyć jego : - wartość oczekiwaną = E(Tn ) - odchylenie standardowe = D(Tn ) nazywane średnim błędem szacunku. Błędem szacunku (estymacji) parametru θ nazywamy różnicę pomiędzy estymatorem a wartością parametru oznaczoną przez: d = Tn – θ a za miarę tego błędu przyjmuje się wyrażenie ∆ = E(Tn – θ)² , które jest wariancją D²(Tn ) estymatora Tn Względny błąd szacunku to ESTYMACJA Podstawowe pojęcia: θ Tn tn parametr estymator (funkcja) wartość estymatora = ocena parametru θ E(Tn ) wartość oczekiwana Tn D(Tn) średni błąd szacunku parametru θ uα •D(Tn) maksymalny błąd szacunku parametru θ ESTYMACJA METODY UZYSKIWANIA ESTYMATORA • Metoda momentów • Metoda największej wiarygodności MNW • Metoda najmniejszych kwadratów MNK ESTYMACJA WŁASNOŚCI ESTYMATORÓW • Nieobciążoność • Zgodność • Efektywność • Dostateczność ESTYMACJA WŁASNOŚCI ESTYMATORÓW- NIEOBCIĄŻONOŚĆ Estymator jest nieobciążony jeśli: E(Tn)=θ W przeciwnym przypadku jest to estymator obciążony Obciążenie estymatora: b(Tn)=E(Tn) – θ Estymator asymptotycznie nieobciążony Interpretacja Własność nieobciążoności oznacza, że przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony równa się wartości szacowanego parametru. Własność ta gwarantuje otrzymanie za jego pomocą ocen wolnych od błędu systematycznego ESTYMACJA WŁASNOŚCI ESTYMATORÓW- ZGODNOŚĆ • Mówimy, że estymator Tn parametru θ jest zgodny, jeśli spełnia relację: P T 1 n lim n • dla dowolnego ε > 0 ESTYMACJA WŁASNOŚCI ESTYMATORÓW- EFEKTYWNOŚĆ Jeśli dany jest zbiór wszystkich nieobciążonych 1 2 N T , T ,..., T estymatorów n n n parametru θ, to estymator * Tn ,który ma w tym zbiorze najmniejszą wariancję, 2 * 2 i D T D Tn tzn. , i=1,...,r, nazywamy n najefektywniejszym estymatorem parametru θ Wyrażenie: i e Tn 2 * D Tn 2 i D Tn i nazywamy efektywnością estymatora Tn parametru θ ESTYMACJA WŁASNOŚCI ESTYMATORÓW-DOSTATECZNOŚĆ Dostateczność (wystarczalność)– estymator Tn parametru θ jest dostateczny, jeśli zawiera wszystkie informacje, jakie można uzyskać na temat parametru θ na podstawie próby i żaden inny estymator nie umożliwia otrzymania dodatkowych informacji o szacowanym parametrze. ESTYMACJA PRZEDZIAŁ UFNOŚCI Założenia • cecha X ma w populacji generalnej rozkład z nieznanym parametrem θ, • na podstawie próby losowej X1 , X 2 ,..., X n Jerzy Spława-Neyman 1894-1981 pochodzącej z populacji wyznaczamy takie dwie funkcje X1, X 2 ,..., X n i X1, X 2 ,..., X n , że dla każdej realizacji próby x1, x2 ,..., xn jest i dla, z góry przyjętego, prawdopodobieństwa 1- α zachodzi: P X1, X 2 ,..., X n X1, X 2 ,..., X n 1 ESTYMACJA PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ m W POPULACJI NORMALNEJ ZE ZNANYM ODCHYLENIEM STANDARDOWYM Założenia - zmienna X ma w populacji rozkład N m, , gdzie średnia m jest nieznana, natomiast odchylenie standardowe jest znane, - opierając się na próbie losowej X 1, X 2 ,..., X n pobranej z populacji szukamy przedziału ufności dla m przyjmując współczynnik ufności 1- ESTYMACJA Budowa przedziału ufności dla wartości oczekiwanej m Estymatorem jest średnia arytmetyczna mająca rozkład • standaryzujemy uzyskując gdzie U: N(0,1) • definiujemy uα jako wartość w standardowym rozkładzie normalnym, dla której spełniony jest warunek ESTYMACJA Pobieramy próby n1 i n2 o tej samej liczebności z tej samej populacji Szerokość przedziału ufności wzrasta wraz z poziomem ufności! n2 1-α=0,99 n1 1-α=0,90 • Większy poziom ufności → Szerszy przedział • Mniejszy poziom ufności →Węższy przedział ESTYMACJA Pobieramy próby z tej samej populacji, przy ustalonym współczynniku ufności Szerokość przedziału ufności zmniejsza się wraz ze wzrostem rozmiaru próby! • Większa próba → zwykle węższy przedział • Mniejsza próba → zwykle szerszy przedział Budowa przedziałów ufności dla wartości oczekiwanej m X ma dowolny rozkład (n>30) X ma rozkład normalny tak nie σ znane ? x u n rozkład dwumianowy (n≥100) n>30 ? nie s( x ) x t , v n tak s( x ) x u n ESTYMACJA Dokładność dopasowania Bezwzględny (maksymalny) błąd szacunku, czyli połowa przedziału ufności 2 Względny błąd estymacji * *100 *100 tn 2tn Minimalna liczebność próby przy szacowaniu p • minimalna liczebność próby zapewnia, przy danym 1-, nie przekroczenie przez względny (maksymalny) błąd szacunku z góry założonej wielkości d: u pˆ (1 pˆ ) n 2 d 2