Rozkłady zmiennych losowych Dane zbierane podczas pomiarów zawsze układają się w pewien określony sposób. To w jaki, zależy przede wszystkim od zjawiska, które jest obserwowane. Sposób, w jaki układają się dane- rozkład zmiennej losowej. Model probabilistyczny Opisujemy rozkład empiryczny (doświadczalny) pewną krzywą ciągłą- sprawdzamy, czy nasze wyniki można opisać rozkładem teoretycznym. Nasze wyniki traktujemy jak zmienną losową. Rozkłady zmiennych losowych -Bernoulliego - Beta - Dwumianowy - Chi-kwadrat - Wykładniczy - F (Fischera-Snedeckora) - Gamma - Geometryczny - Gompertza - Logistyczny -Logarytmicznonormalny - Pareto -Poissona - Prostokątny - Rayleigha - Średniej - t-studenta - Weibulla - Normalny Rozkład normalny Krzywa Gaussa: Rozkład o charakterystycznym kształcie "krzywej dzwonowej", symetrycznej w stosunku do średniej. m Rozkład normalny Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy: -Występuje silna tendencja do przyjmowania wartości położonych blisko środka rozkładu; m Rozkład normalny Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy: - Dodatnie i ujemne odchylenia od środka rozkładu są jednakowo prawdopodobne; m Rozkład normalny Ogólnie jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy: - Liczność odchyleń gwałtownie spada wraz ze wzrostem ich wielkości. m Rozkład normalny Podstawowy mechanizm tworzący rozkład normalny: nieskończoną liczbę niezależnych zdarzeń losowych które generują wartości danej zmiennej. m Rozkład normalny Przykład: istnieje prawdopodobnie prawie nieograniczona liczba czynników determinujących wzrost człowieka. Należy spodziewać się, że w populacji wzrost podlega rozkładowi normalnemu. Rozkład normalny Najważniejszy rozkład zmiennej losowej ciągłej, ponieważ • przy nieograniczonym wzroście l-by niezależnych doświadczeń statystycznych WSZYSTKIE znane teoretyczne rozkłady zmiennych losowych ciągłych i dyskretnych są SZYBKO ZBIEŻNE do rozkładu normalnego •w badaniu prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub zbliżony do normalnego Rozkład normalny Gęstość prawdopodobieństwa 𝑥−𝜇 2 𝑓 𝑥 = exp (− ) 𝑥 −2𝜎 𝜇 2 𝜎1 2𝜋 𝑓 𝑥 = exp (− ) 𝜎 rozkładu 2𝜋 m i to parametry (mając2𝜎 ich wartości 1 uzyskamy gotową krzywą Gaussa) Rozkład ten jest określony w przedziale (-,+ ) Rozkład normalny Gęstość prawdopodobieństwa 𝑥−𝜇 2 𝑓 𝑥 = exp (− ) 𝑥 −2𝜎 𝜇 2 𝜎1 2𝜋 𝑓 𝑥 = exp (− ) 2𝜎 𝜎 2𝜋 1 m=E(X) - wartość oczekiwana (średnia arytm.) =D(X) - odchylenie standardowe m Rozkład normalny Zasada 3 : 68% wartości cechy leży w odległości od m; 95,5% wartości cechy leży w odległości 2 od m; 99,7% wartości cechy leży w odległości 3 od m; Tablice- standaryzowany R.N. W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego. x−μ u= σ Wtedy gęstość rozkładu: μ2 f u = exp − 2 2π 1 Tablice- standaryzowany R.N. W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego. Wtedy m=0 i =1: Tablice- standaryzowany R.N. W TABLICACH rozkład normalny sprowadza się do standaryzowanego rozkładu normalnego. A dystrybuanta: ∞ F u = 1 2π −∞ μ2 exp − 2 du Tablice- standaryzowany R.N. Po co jest potrzebna operacja standaryzacji? Jeśli poszukujemy p-stwa znalezienia wyników w przedziale (x1,x2) to: x1 − μ u1 = σ x2 − μ u2 = σ P(x1<x<x2)=F(x2)-F(x1)=F(u2)-F(u1) Tablice- standaryzowany R.N. Estymatory Jeżeli nie wiemy, ile naprawdę wynosi m rozkładu normalnego i (dla całej populacji) a jedynie liczymy średnią arytmetyczną i odchylenie z pomiarów, to wyliczone przybliżone parametry są obarczone błędem. E(x) = m x D(x) = 𝜎 E(x)- wartość oczekiwana rozkładu teoretycznego D(x)- odchylenie standardowe rozkładu teoretycznego Estymatory Błąd standardowy średniej: 𝜎𝑥 = 𝜎 𝑛 Przedział, gdzie znajduje się wartość oczekiwana: 𝜇 = 𝑥 ± 𝜎𝑥 (𝑥 − 𝜎𝑥 ; 𝑥 + 𝜎𝑥 ) Rozkład t-studenta Definicja zmiennej losowej t-studenta 𝑥−𝜇 𝑡= ∙ 𝑛 𝜎 Gdzie: 𝜎 Rozkład t-studenta Lub inaczej: 𝑥−𝜇 𝑥−𝜇 𝑡= = ∙ 𝑛−1 𝜎𝑥 𝜎 Gdzie: 𝜎= 1 𝑛 𝑛 𝑥𝑖 − 𝑥 𝑖=1 2 Rozkład t-studenta 𝑥−𝜇 𝑥−𝜇 𝑡= = ∙ 𝑛−1 𝜎𝑥 𝜎 Rozkład t-studenta ma jeden parametr – liczbę stopni swobody – od niego zależy kształt rozkładu f=df=n-1 Rozkład t-studenta Rozkład t-studenta Dla df= rozkład tstudenta jest rozkładem normalnym! Rozkład t-studenta - tablice Przedział ufności Definicja: Niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X1, X2, ..., Xn). Przedziałem ufności (θ - θ1, θ + θ2) o współczynniku ufności 1 - α nazywamy taki przedział (θ - θ1, θ + θ2), który spełnia warunek: P(θ1 < θ < θ2) = 1 − α gdzie θ1 i θ2 są funkcjami wyznaczonymi na podstawie próby losowej. Przedział ufności Definicja: Definicja pozwala na dowolność wyboru funkcji z próby ALE zazwyczaj będziemy poszukiwać przedziałów najkrótszych. Przedział ufności Współczynnik ufności 1-a: Prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru θ w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 - α, tym większa dokładność estymacji, ale jednocześnie tym węższy przedział ufności. Przedział ufności Współczynnik ufności 1-a: Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości 1-a: 0,99; 0,95 lub 0,90 WTEDY a (poziom ufności): 0,01; 0,05; 0,1 Przedział ufności Współczynnik ufności 1-a: 0,95 oznacza to, że średnio na każde 100 przedziałów ustalonych na 100 prób losowych, w 95 przypadkach prawdziwa wartość parametru znajduje się wewnątrz przedziału, natomiast w 5 przypadkach znajduje się poza przedziałem Przedział ufności Ponieważ szukamy jak najkrótszych przedziałów ufności, to przy wyznaczaniu przedziału staramy się wykorzystać jak najwięcej dostępnych informacji o rozkładzie cechy w populacji. Przedział ufności • Najlepiej, gdy zmienna ma rozkład normalny z odchyleniem standardowym σ – wzór na najdokładniejszy przedział ufności • Przy nieznanym σ – wzór wtedy stosowany daje przedział szerszy, czyli mniej dokładny • Wzory ogólniejsze, np. dla nieznanego rozkładu, często korzystają z rozkładów granicznych estymatorów i dlatego wymagają dużej liczebności próby. Przedział ufności POPULACJA GENERALNA m, Próba 𝑥, 𝜎 Przedział ufności Przedział ufności dla średniej Znane odchylenie standardowe populacji Nieznane odchylenie standardowe populacji + mała próba (n30) Nieznane odchylenie standardowe + duża próba (n>30) Przedział ufności Przedział ufności dla średniej Znane odchylenie standardowe populacji Nieznane odchylenie standardowe populacji + mała próba (n30) Nieznane odchylenie standardowe + duża próba (n>30) < Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane: 𝑃 𝑥 − 𝑢𝛼 ∙ 𝜎 𝑛 <𝜇<𝑥− + 𝑢𝛼 ∙ 𝜎 𝑛 =1−𝛼 gdzie: n - liczebność próby 𝜎 losowej oznacza próby 𝑥- − 𝑢𝛼 ∙średnią z = 1 losowej −𝛼 σ - odchylenie standardowe populacji 𝑛 uα - statystyka, spełniającą warunek: P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym N(0,1). 𝛼 CZYLI kwantyl rozkładu N(0,1) rzędu 1− 2 Przedział ufnościufności dla średniej Przedział P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym N(0,1). CZYLI ua to kwantyl rozkładu N(0,1) rzędu 𝛼 1− 2 Niech a=0,05 P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95 Przedział ufnościufności dla średniej Przedział P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95 Jak znaleźć ua? Przedział ufnościufności dla średniej Przedział P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95 P(u<ua) = 1-a/2 = 1-0,05/2 = 1-0,025 = 0,975 P(u<ua) = P(-<u<ua) = F(ua) – F(-) = F(ua) u0,05=-1,96 -u0,05=-1,96 Przedział ufności ufności dla średniej Przedział Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane: 𝜇 = 𝑥 ± 𝑢𝛼 ∙ gdzie: n - liczebność 𝜎 próby losowej 𝑥 -−oznacza 𝑢𝛼 ∙średnią z= 1− 𝛼 próby losowej σ - odchylenie standardowe populacji 𝑛 𝛼 uα - kwantyl rozkładu N(0,1) rzędu 1− 2 𝜎 𝑛 Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe populacji jest znane: Taka sytuacja występuje bardzo rzadko (musieli byśmy zbadać CAŁĄ populację generalną) Przedział ufności Przedział ufności dla średniej Znane odchylenie standardowe populacji Nieznane odchylenie standardowe populacji + mała próba (n30) Nieznane odchylenie standardowe + duża próba (n>30) Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane a znamy tylko odchylenie stand, próbki 𝜎 (n30): 𝑃 𝑥 − 𝑡 𝛼, 𝑓 ∙ 𝜎 𝑛−1 < 𝜇 < 𝑥 + 𝑡(𝛼, 𝑓) ∙ 𝜎 𝑛−1 =1−𝛼 gdzie: n - liczebność próby losowej X - średnia z próby losowej 𝜎σ - odchylenie standardowe z próby t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1 stopniami swobody Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane a znamy tylko odchylenie stand, próbki 𝜎 (n30): 𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼, 𝑓) ∙ 𝜎 𝑛−1 gdzie: n - liczebność próby losowej X - średnia z próby losowej 𝜎σ - odchylenie standardowe z próby t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1 stopniami swobody Przedział ufnościufności dla średniej Przedział f f f Przedział ufności dla średniej Przedział ufności Do obliczeń wykorzystujemy tablice t-studenta dla danego a i f=df=n-1 Przedział ufnościufności dla średniej Przedział 𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼, 𝑓) ∙ 𝜎 𝑛−1 Zwykle stosuje się ten wzór dla małej próby (n<30). Tak naprawdę działa on dla każdej wielkości próby, jednak dla dużych prób można przybliżyć rozkład t Studenta rozkładem normalnym, co jest łatwiejsze do wyliczenia a dające niemal takie same wartości Przedział ufności Przedział ufności dla średniej Znane odchylenie standardowe populacji Nieznane odchylenie standardowe populacji + mała próba (n30) Nieznane odchylenie standardowe + duża próba (n>30) Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane (znamy tylko 𝜎 próby) a próba jest duża (n>30): 𝑃 𝑥 − 𝑢𝛼 ∙ 𝜎 𝑛 < 𝜇 < 𝑥 + 𝑢𝛼 ∙ 𝜎 𝑛 =1−𝛼 gdzie: n - liczebność próby losowej X - oznacza średnią z próby losowej 𝜎σ - odchylenie standardowe z próby ua - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu normalnego N(0,1) Przedział ufnościufności dla średniej Przedział Cecha ma w populacji rozkład normalny N(m,), przy czym odchylenie standardowe jest nieznane (znamy tylko 𝜎 próby) a próba jest duża (n>30): Czyli: 𝜇 = 𝑥 ± 𝑢(𝑃 = 1 − 𝛼) ∙ 𝜎𝑥 gdzie: n - liczebność próby losowej X - oznacza średnią z próby losowej ) ∙ 𝜎𝑥 – błąd standardowy średniej u(P=1-a) - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu normalnego N(0,1) Przedział ufnościufności dla średniej Przedział Do obliczeń wykorzystujemy tablice t-studenta dla danego a i f=df= Rozkład chi-kwadrat Definicja zmiennej losowej 2 Gdy Xi są zmiennymi losowymi losowanymi z rozkładu normalnego f N(0,1), to 2 X i 1 i ma rozkład chi-kwadrat o f stopniach swobody. Gdy losowanie odbywa się z rozkładu normalnego N(m,), to: f 2 i 1 X i m ) 2 2 1 parametr rozkładu: f=n-1 (liczba stopni swobody) Rozkład chi-kwadrat Definicja zmiennej losowej 2 f x 1 1 2 2 x e dla x 0 f k f ( x ) 2 2 2 dla x 0 0 - funkcja gamma Eulera f – liczba stopni swobody Rozkład chi-kwadrat f<2 - funkcja jest malejącą dla x>0, f=1 f>2 - funkcja ma maksimum przy x=f – 2 Dla dużych f funkcja jest zbliżona do krzywej rozkładu normalnego f=2 f=3 f=4 f=5 Rozkład chi-kwadrat Przedział ufności Przedział ufności dla wariancji Mała próba n30 Duża próba n>30 Przedział ufności Przedział ufności dla wariancji Mała próba n<30 Duża próba n>30 Przedział ufności Przedział ufności dla wariancji Cecha ma w populacji rozkład normalny N(m,), a n30: nˆ 2 2 P 2 1a ,n1 2 1 a 2 a ,n1 2 nˆ 2 gdzie: n - liczebność próby losowej σ𝜎- odchylenie standardowe z próby a ,n1 12 a n1 2 2 2 kwantyle rzędu a/2 i 1-a/2 rozkładu 2 z f=df=n-1 stopniami swobody Przedział ufności Przedział ufności dla wariancji Czyli: 𝜎2𝑑 𝑛 ∙ 𝜎2 = 2 𝜒 (𝑃 = 1 − 𝛼, 𝑓 = 𝑛 − 1) 𝜎 2𝑔 𝑛 ∙ 𝜎2 = 2 𝜒 (1 − 𝑃, 𝑓 = 𝑛 − 1) Przedział ufności Przedział ufności dla wariancji Do obliczeń wykorzystujemy tablice wartości krytycznych rozkładu chi-kwadrat dla danego a i f=df=n-1 Przedział ufności Przedział ufności dla odchylenia standardowego Cecha ma w populacji rozkład normalny N(m,), a n30: P nˆ 2 12a ,n1 2 nˆ 2 1a a ,n1 2 2 Przedział ufności Przedział ufności dla wariancji Mała próba n<30 Duża próba n>30 Przedział ufności Przedział ufności dla odch. stand, (wariancji) Cecha ma w populacji rozkład normalny N(m,), a n>30: ˆ ˆ P 1 ua 1 ua 1 a 2n 2n gdzie: n - liczebność próby losowej σ𝜎- odchylenie standardowe z próby uα – kwantyl rzędu 1-a/2 standaryzowanego rozkładu normalnego N(0,1) Przedział ufności Przedział ufności dla odch. stand, (wariancji) Do obliczeń wykorzystujemy tablice t-studenta dla danego a i f=df=