Metody probabilistyczne Populacja generalna – zbiór dowolnych elementów nieidentycznych z punktu widzenia badanej cechy (zbiorowość statycztyczna); Próba (próbka) – podzbiór populacji (część), podlegający badaniu ze względu na określoną cechę w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechu w populacji; Liczebność próby – gdy n < 30 to próba jest mała; Próba reprezentacyjna – „miniatura” populacji generalnej Losowanie: zależne (element w próbie może się powtórzyć), niezależne (nie może się powtórzyć), nieograniczone, warstwowe; Wyniki próby – zaobserwowane wartości; Przestrzeń próby – zbiór wszystkich możliwych wyników próby o liczebności n; Rozkład populacji; Parametry populacji, podział parametrów populacji: miary skupienia, miary rozproszenia, rozrzutu, miary asymetrii, miary korelacji; Statystyka próby; [asymetryczny] Rozkład statystyki; typy: dwupunktowy, dwumianowy; Typy rozkładów statystycznych Rozkład dwupunktowy (zero-jedynkowy) – teoretyczny rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem: [wzór nieistotny]; rozkład używany w statystyce przy badaniu cech niemiarzalnych (jakościowych). Rozkład dwumianowy (in. rozkład Bernoulliego) – rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem [wzór jest] Rozkład Poissona – rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem [wzór] Rozkład normalny – najważniejszy w statystyce rozkład zmiennej losowej ciągłej o X funkcji prawdopodobieństwa określonej wzorem [wzór]; często rozkład normalny oznacza się symbolem N(m, σ), gdzie m jest wartością oczekiwaną (średnią), a σ odchyleniem standardowym w tym rozkładzie. Rozkład normalny standaryzowany – rozkład normalny N(0, 1) o funkcji gęstości określonej 1 1 2u2 wzorem (u ) ; wykresem jest krzywa Gaussa, a zmienna losowa U mająca e 2 rozkład N(0, 1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej. Metody probabilistyczne Rozkład X2 (chi-kwadrat) o k stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji gęstości prawdopodobieństwa określonej wzorem [wzór] Rozkład t Studenta o k stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji 1 k 1 1 k 1 2 2 2 gęstości prawdopodobieństwa określonej wzorem f (t ) 1 t k 1 k k 2 Rozkład F Snedecora o k1 i k2 stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji gęstości prawdopodobieństwa określonej wzorem [wzór przesrany] Estymacja i ufność Estymacja – dowolna statystyka Z służąca do szacowania nieznanej wartości parametru θ populacji generalnej; Rozkład estymatora – rozkład prawdopodobieństwa statstyki będącej estymatorem parametru θ; Parametry rozkładu estymatora; Eestymacja punktowa (praktycznie niestosowana); Estymacja przedziałowa – estymacja parametru θ polegająca na budowaniu tzw. przedziału ufności dla tego parametru; Przedział ufności – losowy przedział wyznaczony za pomocą rozkłady estymatora mający tę właściwość, że z dużym (zadanym) prawdopodobieństwem, pokrywa wartość szacowanego parametru θ...; Współczynnik ufności; Metody probabilistyczne Estymacja przedziałowa parametrów 1) Przedział ufności dla średniej MODEL I Założenia: populacja generalna ma rozkład N(m, σ), wartość średnia m jest nieznana, próba losowana niezależnie. Wzór przedziału dla średniej m: 1 m x u x u n n Wartość uα dla danego współczynnika ufności 1-alfa, wyznaczana jest z tablicy dystrybuanty rozkładu normalnego N(0, 1), tak aby: P{-uα < m < +uα} = 1 – α MODEL II Założenia: populacja generalna ma rozkład N(m, σ), wartość średnia m jest nieznana, odchylenie standardowe sigma jest nieznane, próba losowana niezależnie, liczebność próby mała (n < 30). Wzór przedziału ufności dla średniej m: x t s n 1 mx 1 n 1 s sˆ sˆ x t m x t 1 n n Odchylenia standardowe: n s 2 xi x i 1 n n sˆ (x i 1 i x)2 n 1 s – odchylenie standardowe populacji, ŝ – odchylenie standardowe próbki. Wartość tα dla danego współczynnika ufności 1-α oraz k=n-1 liczby stopni swobody, wyznaczana jest z tablicy dystrybuanty rozkładu t Studenta MODEL III Założenia: Metody probabilistyczne populacja generalna ma rozkład N(m, σ), wartość średnia m jest nieznana, wariancja σ2 nieznana, próba losowana niezależnie, liczebność próby duża. Wzór przedziału ufności dla średniej m: m x u s x u s 1 n n s 1 r x j x 2 m j n j 1 x 1 r x j n j n j 1 Ponieważ n jest duże, wyniki próby grupuje się w szereg rozdzielczy o r klasach, tak aby: ẋ – środek przedziału klasowego nj – liczebność w konkretnej klasie r – liczba klas 2) Przedział ufności dla wariancji Najczęściej używanymi estymatorami wariancji σ2 populacji generalnej są statystyki określone wzorami: s2 1 n xi xˆ 2 n i 1 sˆ 2 1 n xi xˆ 2 n 1 i 1 s2 – wariancja populacji (estymator próbki) ŝ2 – wariancja próbki (estymator nieobciążony) W przypadku wyznaczania przedziału ufności dla wariancji oba estymatory s2, ŝ2 są równoważne n ns 2 n 1sˆ 2 xi xˆ i 1 MODEL I Założenia: populacja generalna ma rozkład N(m, σ), wartość średnia m jest nieznana, odchylenie standardowe σ nieznane, próba losowana niezależnie, liczebność próby mała (n < 30) Wzór przedziału ufności dla wariancji σ2: 2 Metody probabilistyczne ns 2 ns 2 2 1 c1 c2 (n 1) sˆ 2 (n 1) sˆ 2 2 1 c1 c2 c1, c2 – wartość zmiennej χ2 wyznaczone z tablicy rozkładu χ2 dla k=n-1 stopni swobody oraz współczynniku unfości 1-α, tak aby: P{χ2 ≥ c1} = ½ α P{χ2 < c2} = ½ α Ponieważ używane powszednie tablice rozkładu podają prawdopodobieństwo P{χ2 ≥ χ2α}, zatem wartość c1 odczytamy z tablic rozkładu χ2 dla prawdopodobieństwa 1-½α zamiast c2, dla ½α MODEL II Założenia: populacja generalna ma rozkład N(m, σ), wartość średnia m jest nieznana, odchylenie standardowe σ nieznane, próba losowana niezależnie, liczebność próby duża (n ≥ 30) Wzór przedziału ufności dla odchylenia standardowego populacji σ: s s 1 u 1 u 1 2n 2n Wartość uα dl danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty rozkładu normalnego N(0, 1), tak aby: P{-uα < u < +uα} – 1 = α 3) Przedział ufności dla procentu (wskażnika struktury) MODEL Założenia: populacja generalna ma rozkład dwupunktowy, frakcja elementów wyróżnionych p > 0,05, próba losowana niezależnie, liczebność próby duża (n>100). Wzór przedziału ufności dla wskaźnika struktury p populacji generalnej: m u n m n (1 m n ) m p u n n m n (1 m n ) 1 n Metody probabilistyczne Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty rozkładu normalnego N(0, 1), tak aby: P{-uα < U < +uα} = 1 – α 4) Wyznaczanie niezbędnej liczby pomiarów do próby Wsprowadzenie Szacując metodą przedziałową parametr θ populacji generalnej, wyznacza się dla niego przedział ufności w oparciu o rozkład estymatora , w oparciu o wyniki próby o ustalonej z góry liczebności n. Może okazać się, że połowa długości przedziału ufności d, która jest miarą maksymalnego błędu szacunku parametru θ, dyskredytuje dokonany szacunek parametru ze względu na swą wielkość. Aby zapewnić zadaną z góry dobrą dokładnośc szacunku parametru θ, należy przy założonym współczynniku ufności 1-α, odpowiednio dobrać liczebność próby n! Obliczenia da się przeprowadzić dla szacunku średniej m oraz frakcji p. Nie można zastosować takiego rozumowania dla szacunku wariancji σ2. MODEL I Założenia: populacja generalna ma rozkład N(m, σ), wariancja populacji σ2 jest znana, szacowanie nieznanej średniej m populacji z próby o n elementach, losowanych niezależnie. Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d: U 2 2 n d2 Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty P{-uα < uc + uα} = 1 – α MODEL II Założenia: populacja generalna ma rozkład N(m, σ), wariancja populacji σ2 jest nieznana, znana statystyka ŝ2 uzyskana z małej próby wstępnej, próba wstępna losowana niezależnie o liczebności n0, szacowanie nieznanej średniej m populacji z próby o n elementach, losowanych niezależnie. Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d: t sˆ 2 n d2 2 Wartość tα dla danego spółczynnika ufności 1-α oraz k=n0-1 liczby stopni swobody, wyznaczana jest z tablicy dystrybuanty rozkładu tStrudenta, tab aby: Metody probabilistyczne P{-tα < t < +tα} = 1 – α sˆ 2 n0 1 n0 1 x i 1 x 2 i Jeżeli n≤n0 (obliczoną wartość n zaokrąglamy do całości, zawsze „w górę”), to próba wstępna jest wystarczająca (spełnia założoną dokładnośc szacunku średniej m). Jeżeli n>n0 to należy jeszcze dolosować do właściwej próby n-n0 elementów. MODEL III Założenia: populacja generalna ma rozkład dwupunktowy, szacowanie nieznanej frakcji p populacji z próby o n elementach, losowanych niezależnie. Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d: a) Jeżeli mamy spodziewany rząd wielkości szacowanej frakcji p 2 n n pq d2 q=1-p b) Jeżeli nie znamy spodziewanego rzędu wielkości szacowanej frakcji p, zakłada się największą wartość iloczynu pq = ¼ . 2 u n 2 4d Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty rozkładu normalnego N(0, 1), tak aby: P{-uα < U < +uα} = α PARAMETRYCZNE TESTY ISTOTNOŚCI Pojęcia podstawowe Hipoteza statystyczna – jakiekolwiek przypuszczenie dotyczące rozkładu populacji generalnej; Hipoteza parametryczna – hipoteza statystyczna precyzująca wartość parametru w rozkładzie populacji generalnej znanego typu; Hipoteza nieparametryczna – hipoteza statystyczna precyzująca typ rozkładu populacji generalnej; Hipoteza zerowa – podstawowa hipoteza statystyczna sprawdzana danym testem (oznaczenie H0); [m = 4,5] Hipoteza alternatywna – hipoteza statystyczna konkurencyjna w stosunku do H0 w tym sensie, że jeżeli odrzuca się hipotezę zerową, to przyjmuje się hipotezę alternatywną (oznaczenie H1); [hipotezy dla testów parametrycznych (?): m > 4,5 || m < 4,5 || m != 4,5] Błąd pierwszego rodzaju – możliwy do popełnienia przy weryfikacji hipotezy, polegający na odrzuceniu testowanej hipotezy prawdziwej; Metody probabilistyczne Błąd drugiego rodzaju – możliwy do popełnienia przy weryfikacji hipotezy, polegajązy na przyjęciu testowanej hipotezy fałszywej; Poziom istotności – prawdopodobieństwo popełnienia błędu pierwszego rodzaju w postępowaniu testującym hipotezę (oznaczenie α, najczęściej przyjmowane wartości: 0,1; 0,05; 0,01; 0,001); Test statystyczny – reguła postępowania, która na podstawie wyników próby ma doprowadzić do decyzji przyjęcia bądź odrzucenia podstawowej hipotezy; Test istotności – typ testu na odrzucenie hipotezy z małym ryzykiem popełnienia błędu (mierzony wartością α). Ponieważ uwzględniony jest w teście jedynie błąd pierwszego rodzaju (błąd drugiego rodzaju nie jest rozpatrywany), to wynikiem testu jest decyzja o odrzuceniu hipotezy zerowej H0 lub braku podstaw do jej odrzucenia (nie jest równoznaczne z jej przyjęciem) Parametryczny test istotności – weryfikuje hipotezę H0 precyzującą wartość parametru w ustalonym typie rozkładu populacji generalnej; Nieparametryczny test istotności – weryfikuje hipotezę H0 precyzującą ogólny typ, postać rozkładu populacji generalnej; Obszar krytyczny testu – podzbiór przestrzeni próby o tej własności, że jeżeli otrzymamy w próbie punkt przestrzeni próby należący do tego podzbiory, to podejmuje się decyzję odrzucenia hipotezy zerowej; Obszar krytyczny dwustronny Obszar krytyczny jednostronny 1) Test dla wartości średniej populacji MODEL I Założenia: populacja generalna ma rozkład N(m, σ), odchylenie standardowe σ znane, m0 – hipotetyczna wartość średniej, weryfikacja na podstawie próby losowej hipotezy H0: m=m0, hipoteza alternatywna H1: m≠m0 Wzór na wartość zmiennej normalnej standaryzowanej u: u x m0 n Z tablicy rozkładu N(0, 1), przy założonym poziomie istotności α, wyznacza się wartość krytyczną uα, tak aby zachodziła równość: P{|U| ≥ uα} = α Zbiór wartości U okrześlony jako |U|≥uα jest obszarem krytycznym, tzn. jeżeli: |u| ≥ uα – hipotezę H0 należy odrzucić, |u| < uα – nie ma podstaw do odrzucenia hipotezy H0. Uwaga Model I opisuje dwustronny obszar krytyczny (H1: m≠m0). Metody probabilistyczne Jeżeli hipoteza H1: m<m0 – test z lewostronnym obszarem krytycznym, tzn U≤uα oraz uα wyznaczamy tak, aby: P{U ≤ uα} = α Jeżeli hipoteza H1: m>m0 – test z prawostronnym obszarem krytycznym, tzn. U≥uα oraz uα wyznaczamy tak, aby: P{U ≥ uα} = α MODEL II Założenia: populacja generalna ma rozkład N(m, σ), odchylenie standardowe σ nieznane, m0 – hipotetyczna wartość średniej, weryfikacja na podstawie próby losowej hipotezy H0: m=m0, hipoteza alternatywna H1: m≠m0, próba losowa jest mała (n<30). Wzór na wartość statystyki t: t x m0 s n 1 x m0 sˆ n Z tablicy rozkładu tStudenta, przy założonym poziomie istotności α oraz k=n-1 stopniach swobody, wyznacza się wartość krytyczną tα tak, aby zachodziła równość: P{|t| ≥ tα} = α Zbiór wartości U określony jako |t|≥tα jest obszarem krytycznym, tzn. jeżeli: |t| ≥ tα – hipotezę H0 należy odrzucić, |t| < tα – nie ma podstaw do odrzucenia hipotezy H0. Uwaga Model II opisuje dwustronny obszar krytyczny (H1: m≠m0). Jeżeli hipoteza H1: m<m0 – test z lewostronnym obszarem krytycznym, tzn. t≤tα oraz tα wyznaczamy tak, aby: P{t ≤ tα} = α Jeżeli hipoteza H1: m>m0 – test z prawostronnym obszarem krytycznym, tzn. t≥tα oraz tα wyznaczamy tak, aby: P{t ≥ tα} = α