STATYSTYKA MATEMATYCZNA Wnioskowanie statystyczne - estymacja treść • Próba - reprezentatywność próby schematy losowania • Rozkłady z próby • Estymacja statystyczna - punktowa, przedziałowa, wyznaczanie liczebności próby Obserwacja statystyczna moŜe być pełna (obejmująca wszystkie jednostki populacji) - metody wnioskowania statystycznego nie mają tu zastosowania, stosujemy metody opisu. Obserwacja statystyczna moŜe być częściowa (obejmująca część jednostek populacji - próbę) - metody wnioskowania są tu niezbędne. Dlaczego prowadzi się badania na podstawie próby? • populacja nieskończona • populacja skończona ale bardzo liczna • określenie wartości cechy jest niszczące Próba uŜyta do oceny populacji musi być reprezentatywna, nie moŜe być tendencyjna. Reprezentatywność próby uzyskuje się poprzez losowe pobranie jednostek z populacji, powstaje w ten sposób próba losowa. Struktura próby losowej moŜe, co najwyŜej, losowo róŜnić się od struktury populacji. Idealna próba reprezentatywna powinna dać idealny obraz populacji. Oznacza to, Ŝe rozkład liczebności względnych (empirycznego prawdopodobieństwa) powinien być taki sam jak w populacji. MoŜliwe to jest tylko wtedy, kiedy znamy rozkład populacji. Próba losowa - jednostki trafiają do próby w sposób losowy. Prosta próba losowa (wygodna do rozwaŜań teoretycznych) - w trakcie losowania wszystkie jednostki populacji mają takie same prawdopodobieństwo wejścia do próby. Schematy losowania (ogólne): - losowanie niezaleŜne - losowanie ze zwracaniem (powstaje prosta próba losowa) - losowanie zaleŜne - losowanie bez zwracania. RóŜnica między tymi schematami stopniowo zanika przy duŜych i rosnących liczebnościach populacji. Opracowywaniem szczegółowych sposobów (schematów) losowania dla zróŜnicowanych zadań wnioskowania statystycznego zajmuje się wydzielony dział statystyki matematycznej pod nazwą Metoda reprezentacyjna. Stosując odpowiedni dla danego zadania sposób losowania próby uzyskujemy lepsze oszacowanie parametrów populacji - zmniejszamy błąd wnioskowania. Przykładowe schematy stosowane w leśnictwie: - losowanie warstwowe - losowanie systematyczne - losowanie dwufazowe - losowanie wielostopniowe Rozkłady z próby (rozkłady statystyk) KaŜda funkcja wyznaczona na podstawie wyników próby nosi nazwę statystyki z n-elementowej próby. NajwaŜniejszą statystyką jest średnia z próby: 1 x = ∑ xi n Parametr populacji (np. µ) jest wielkością stałą nieznaną co do wartości liczbowej. Parametr próby (statystyka np. x ) jest zmienną o określonym rozkładzie z próby (chociaŜ dla danej próby stałą). Pojęcie rozkładu statystyki (rozkładu z próby) wyjaśnimy na przykładzie średniej z próby. Rozkład średniej z próby Rozkład taki moglibyśmy uzyskać pobierając z populacji bardzo wiele n-elementowych prób i obliczając średnie arytmetyczne dla tych prób. Powstanie w ten sposób populacja (wirtualna), w której jednostką będzie pojedyncza próba a cechą (zmienną) będzie wyznaczona statystyka czyli średnia z próby. Populacja taka będzie miała określony rozkład i określone parametry: średnią arytmetyczną (EX) zwaną nadzieją matematyczną lub wartością oczekiwaną, wariancję (D2X) oraz odchylenie standardowe (DX) zwane błędem standardowym. WaŜne twierdzenie: JeŜeli rozkład zmiennej losowej X jest normalny, co zapisujemy N(EX ; DX) to rozkład statystyki X dla n-elementowej próby jest równieŜ normalny, co zapisujemy DX N EX ; 1 n DX = DX czyli 1 n D2 X = D2 X EX = EX n Dla cechy statystycznej o rozkładzie: N(µ ; σ) rozkład średniej z próby będzie: N µ ; σ n Natomiast dla dowolnego rozkładu, przy wzroście liczebności próby, rozkład średniej z próby dąŜy do rozkładu normalnego. Podsumujmy; Rozkład teoretyczny średniej z próby, w wielu przypadkach, moŜe być przedstawiany za pomocą funkcji gęstości rozkładu normalnego o parametrach: EX = µ DX = σ n fx fx σ σ x − EX x − µ = z= σ DX n z= σ n x µ Ex x µ x−µ σ DX = fz DZ = 1 n -3 -2 -1 0 1 2 3 z Inne waŜne rozkładu statystyk (z próby): Rozkład Studenta (W. Gosset) ∑ (x − x ) 2 x−µ n t= s i s= k = n −1 n −1 ft -4 -3 -2 -1 0 1 2 3 4 t fχ2 Rozkład χ2 n χ = ∑ zi 2 2 1 k=n χ2 Rozkład F-Snedecora fF 2 s1 F= 2 s2 dla 2 s1 > s2 2 k1 = n1 − 1 k 2 = n2 − 1 F Estymacja statystyczna jest rodzajem wnioskowania o wartościach parametrów populacji generalnej na podstawie statystyk określonych z n-elementowych prób losowych. Statystyka, na podstawie której szacujemy parametr populacji Θ nazywamy estymatorem Tn parametru Θ. Dobry estymator to taki, który daje moŜliwie najlepsze oszacowanie parametru populacji. Cechy dobrego estymatora: 1. NieobciąŜoność ETn = Θ 2. Zgodność lim P[Tn − Θ < ε ] = 1 n →∞ lim ETn → Θ n →∞ 3. Efektywność Estymator efektywny to taki, który ma najmniejszą zmienność (wariancję). Estymacja punktowa polega na punktowym oszacowaniu parametru Θ populacji generalnej na podstawie estymatora Tn. Szacunek taki moŜe być uzupełniony określeniem błędu standardowego estymatora. Θ = Tn ; DTn lub pTn pTn - błąd standardowy procentowy (tzw. błąd średni) JeŜeli musimy stosować estymatory obciąŜone, to naleŜy dodatkowo określić obciąŜenie BTn. Θ = Tn - BTn ; DTn W odniesieniu do średniej arytmetycznej: µ=x ; σ n Dx lub w n px Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego takiego, Ŝe z załoŜonym duŜym prawdopodobieństwem moŜemy oczekiwać, iŜ szacowany parametr populacji ma wartość liczbową z tego przedziału. Przedział taki nazywamy - przedziałem ufności, to duŜe prawdopodobieństwo - poziomem ufności (1 - α), a dopełnienie poziomu ufności do jedności - poziomem istotności (α) Estymacja przedziałowa, której teorię opracował Jerzy Spława-Neyman jest znacznym krokiem do przodu w porównaniu z estymacją punktową. PrzecieŜ prawdopodobieństwo tego, Ŝe wartość estymatora będzie dokładnie równa wartości szacowanego parametru będzie równa zeru [P(Tn = Θ) = 0]. Podanie błędu standardowego trochę ten mankament łagodzi. JeŜeli n dąŜy do nieskończoności to rozkład estymatora Tn dąŜy do rozkładu normalnego; N(ETn ; DTn). Dla niobciąŜonego estymatora: ETn = Θ Wprowadźmy pojęcie zmiennej standaryzowanej estymatora Tn parametru Θ Tn − ETn Tn − Θ z= = DTn DTn i wyznaczmy przedział tak, aby wartość statystyki z znalazła się w nim z prawdopodobieństwem (1 - α ) (załoŜony poziom ufności) P( z ∈< − zα / 2 ; zα / 2 > ) = 1 − α 1-α α/2 α/2 - zα/2 0 zα/2 Tn − Θ P ∈< − zα / 2 ; zα / 2 DTn > = 1−α P[(Tn − Θ ) ∈< − zα / 2 DTn ; zα / 2 DTn >] = 1 − α P[Θ ∈< Tn − zα / 2 DTn ; Tn + zα / 2 DTn >] = 1 − α Dla średniej pod warunkiem, Ŝe znamy σ populacji generalnej σ σ P µ ∈< x − zα / 2 ; x + zα / 2 > = 1−α n n a jeŜeli mała próba to tylko z populacji o rozkładzie normalnym JeŜeli nie znamy σ populacji generalnej to: - dla duŜej próby moŜna przyjąć, Ŝe s = σ s s P µ ∈< x − zα / 2 ; x + zα / 2 > = 1−α n n - dla małej próby, ale tylko w przypadku jeŜeli rozkład populacji jest normalny, przedział ufności moŜemy zbudować posługując się rozkładem Studenta s s P µ ∈< x − tα / 2 ; x + tα / 2 > = 1−α n n Dla dowolnego rozkładu moŜemy posłuŜyć się nierównością Czebyszewa s s 1 P µ ∈< x − ε ; x +ε > ≥ 1− 2 ε n n Wyznaczanie liczebności próby - dla średniej przy znanej σ populacji generalnej maksymalny błąd absolutny szacunku przy załoŜonym poziomie istotności α będzie równy połowie przedziału ufności x − µ = ∆ = zα / 2 σ n lub ∆ n = zα / 2σ jeŜeli: zα / 2σ n= ∆ zα / 2σ n= ∆ 2 zα / 2 w n= d ∆ d = 100% 2 µ σ w = 100% µ - dla średniej jeŜeli nie znamy σ populacji generalnej tα / 2 s n= ∆ 2 lub tα / 2 w n= d 2 ale poniewaŜ t zaleŜy od α oraz k = n - 1 liczebność wyznaczamy metodą kolejnych przybliŜeń. Przykłady: * ZałóŜmy, Ŝe rozkład wysokości w starszych drzewostanach sosnowych jest normalny o odchyleniu standardowym σ = 2 m. Oszacować średnią wysokość drzewostanu składającego się z 450 drzew na podstawie próby losowej o liczebności n = 9. Wyniki pomiaru: 18.5; 22; 23.5; 21.5; 20.5; 22.5; 19; 20.5; 21 µ = x ; Dx = 189m x= = 21m ; 9 σ n ; Dx = σ n N −n N −1 2 441 Dx = = 0,67 m ; D x = 0,67 = 0,66 449 9 µ = 21m ; D x = 0,67 m ; D x = 0,66m * Oszacować średnią pierśnicę drzewostanu na podstawie próby prostej o liczebności n = 64 drzewa, jeŜeli średnia z tej próby x = 28 oraz wiemy, Ŝe współczynnik zmienności pierśnic w podobnych drzewostanach w = 20%. w µ = x ; px = ; n 20 µ = 28 ; p x = = 2,5% 8 * ZałóŜmy, Ŝe rozkład 5-letniego przyrostu wysokości w drzewostanach sosnowych jest normalny o odchyleniu standardowym σ = 0,2m. Wyznaczyć, przyjmując poziom ufności 1 - α = 0,95, przedział ufności dla średniego przyrostu wysokości drzewostanu, jeŜeli średnia obliczona na podstawie próby prostej o liczebności n = 16 drzew x = 0,8m. σ σ P µ ∈< x − zα / 2 ; x + zα / 2 > = 1−α n n α 0,05 F (− zα / 2 ) = = = 0,025 → zα / 2 = 1,96 ≈ 2 2 2 F ( zα / 2 ) = 1 − α 2 = 1 − 0,025 = 0,975 → zα / 2 = 1,96 ≈ 2 0,2 0,2 P µ ∈< 0,8 − 2 ; 0,8 + 2 > = 0,95 16 16 P(µ ∈< 0,8 − 0,1; 0,8 + 0,1 > ) = 0,95 P(µ ∈< 0,7 ; 0,9 > ) = 0,95 * ZałóŜmy, Ŝe rozkład wysokości drzew drzewostanu robiniowego jest normalny. Wyznaczyć przedział ufności dla średniej wysokości tego drzewostanu, przy poziomie ufności 1 - α = 0,95, jeŜeli określone na podstawie próby prostej o liczebności n = 9: średnia x = 18m, odchylenie standardowe s = 2m. s s P µ ∈< x − tα / 2 ; x + tα / 2 = 1−α n n tα/2 odczytujemy z tablic rozkładu Studenta na podstawie α i k = n - 1 2 2 tα / 2 = 2,31; P µ ∈< 18 − 2,31 ; 18 + 2,31 > = 0,95 9 9 P(µ ∈< 18 − 1,55 ; 18 + 1,55 > ) = 0,95 ; P(µ ∈< 16,45 ; 19,55 > ) = 0,95 * Wyznaczyć liczebność próby prostej tak aby z prawdopodobieństwem 0,90 moŜna było oczekiwać, Ŝe błąd określenia średniego pola przekroju pierśnicowego drzew pg w danym drzewostanie nie przekroczy 5%, jeŜeli współczynnik zmienności pierśnicowego pola przekroju drzew wg = 40%. 1 − α = 0,9 ; α = 0,1; Fzα / 2 = 1 − α / 2 = 0,95 ; zα / 2 = 1,65 2 2 zα / 2 w 1,65 * 40 2 n= = = 13,2 = 174,24 ≅ 175 5 p