Populacja generalna

advertisement
Metody probabilistyczne
Populacja generalna – zbiór dowolnych elementów nieidentycznych z punktu widzenia
badanej cechy (zbiorowość statycztyczna);
Próba (próbka) – podzbiór populacji (część), podlegający badaniu ze względu na określoną
cechę w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechu
w populacji;
Liczebność próby – gdy n < 30 to próba jest mała;
Próba reprezentacyjna – „miniatura” populacji generalnej Losowanie:

zależne (element w próbie może się powtórzyć),

niezależne (nie może się powtórzyć),

nieograniczone,

warstwowe;
Wyniki próby – zaobserwowane wartości;
Przestrzeń próby – zbiór wszystkich możliwych wyników próby o liczebności n;
Rozkład populacji;
Parametry populacji, podział parametrów populacji:

miary skupienia,

miary rozproszenia, rozrzutu,

miary asymetrii,

miary korelacji;
Statystyka próby;
[asymetryczny] Rozkład statystyki; typy:

dwupunktowy,

dwumianowy;
Typy rozkładów statystycznych
Rozkład dwupunktowy (zero-jedynkowy) – teoretyczny rozkład prawdopodobieństwa
zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem: [wzór
nieistotny]; rozkład używany w statystyce przy badaniu cech niemiarzalnych
(jakościowych).
Rozkład dwumianowy (in. rozkład Bernoulliego) – rozkład prawdopodobieństwa zmiennej
losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem [wzór jest]
Rozkład Poissona – rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji
prawdopodobieństwa określonej wzorem [wzór]
Rozkład normalny – najważniejszy w statystyce rozkład zmiennej losowej ciągłej o X funkcji
prawdopodobieństwa określonej wzorem [wzór]; często rozkład normalny oznacza się
symbolem N(m, σ), gdzie m jest wartością oczekiwaną (średnią), a σ odchyleniem
standardowym w tym rozkładzie.
Rozkład normalny standaryzowany – rozkład normalny N(0, 1) o funkcji gęstości określonej
1
1  2u2
wzorem  (u ) 
; wykresem jest krzywa Gaussa, a zmienna losowa U mająca
e
2
rozkład N(0, 1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej.
Metody probabilistyczne
Rozkład X2 (chi-kwadrat) o k stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji
gęstości prawdopodobieństwa określonej wzorem [wzór]
Rozkład t Studenta o k stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji
 1 k  1
 1  k 1
2
2
2
gęstości prawdopodobieństwa określonej wzorem f (t ) 
1 t
k
 1 k k
2


 

Rozkład F Snedecora o k1 i k2 stopniach swobody – rozkład zmiennej losowej ciągłej o funkcji
gęstości prawdopodobieństwa określonej wzorem [wzór przesrany]
Estymacja i ufność
Estymacja – dowolna statystyka Z służąca do szacowania nieznanej wartości parametru θ
populacji generalnej;
Rozkład estymatora – rozkład prawdopodobieństwa statstyki będącej estymatorem parametru
θ;
Parametry rozkładu estymatora;
Eestymacja punktowa (praktycznie niestosowana);
Estymacja przedziałowa – estymacja parametru θ polegająca na budowaniu tzw. przedziału
ufności dla tego parametru;
Przedział ufności – losowy przedział wyznaczony za pomocą rozkłady estymatora mający tę
właściwość, że z dużym (zadanym) prawdopodobieństwem, pokrywa wartość
szacowanego parametru θ...;
Współczynnik ufności;
Metody probabilistyczne
Estymacja przedziałowa parametrów
1) Przedział ufności dla średniej
MODEL I
Założenia:

populacja generalna ma rozkład N(m, σ),

wartość średnia m jest nieznana,

próba losowana niezależnie.
Wzór przedziału dla średniej m:
  1

 m  x  u 
 x  u 

n
n

Wartość uα dla danego współczynnika ufności 1-alfa, wyznaczana jest z tablicy dystrybuanty
rozkładu normalnego N(0, 1), tak aby:
P{-uα < m < +uα} = 1 – α
MODEL II
Założenia:

populacja generalna ma rozkład N(m, σ),

wartość średnia m jest nieznana,

odchylenie standardowe sigma jest nieznane,

próba losowana niezależnie,

liczebność próby mała (n < 30).
Wzór przedziału ufności dla średniej m:

  x  t

s
n 1
mx

  1
n 1
s

sˆ
sˆ 
  x  t
 m  x  t
  1
n
n

Odchylenia standardowe:
n
s
2
  xi  x 
i 1
n
n
sˆ 
 (x
i 1
i
 x)2
n 1
s – odchylenie standardowe populacji, ŝ – odchylenie standardowe próbki.
Wartość tα dla danego współczynnika ufności 1-α oraz k=n-1 liczby stopni swobody,
wyznaczana jest z tablicy dystrybuanty rozkładu t Studenta
MODEL III
Założenia:
Metody probabilistyczne

populacja generalna ma rozkład N(m, σ),

wartość średnia m jest nieznana,

wariancja σ2 nieznana,

próba losowana niezależnie,

liczebność próby duża.
Wzór przedziału ufności dla średniej m:

 m  x  u s 
 x  u s
  1
n
n

s
1 r
x j  x 2 m j

n j 1
x
1 r
 x j n j
n j 1
Ponieważ n jest duże, wyniki próby grupuje się w szereg rozdzielczy o r klasach, tak aby:
ẋ – środek przedziału klasowego
nj – liczebność w konkretnej klasie
r – liczba klas
2) Przedział ufności dla wariancji
Najczęściej używanymi estymatorami wariancji σ2 populacji generalnej są statystyki
określone wzorami:
s2 
1 n
xi  xˆ 2

n i 1
sˆ 2 
1 n
xi  xˆ 2

n  1 i 1
s2 – wariancja populacji (estymator próbki)
ŝ2 – wariancja próbki (estymator nieobciążony)
W przypadku wyznaczania przedziału ufności dla wariancji oba estymatory s2, ŝ2 są
równoważne
n
ns 2  n  1sˆ 2    xi  xˆ 
i 1
MODEL I
Założenia:

populacja generalna ma rozkład N(m, σ),

wartość średnia m jest nieznana,

odchylenie standardowe σ nieznane,

próba losowana niezależnie,

liczebność próby mała (n < 30)
Wzór przedziału ufności dla wariancji σ2:
2
Metody probabilistyczne
 ns 2
ns 2 

2 
  1
c1 
 c2
 (n  1) sˆ 2
(n  1) sˆ 2 

2 
  1
c1 
 c2
c1, c2 – wartość zmiennej χ2 wyznaczone z tablicy rozkładu χ2 dla k=n-1 stopni swobody oraz
współczynniku unfości 1-α, tak aby:
P{χ2 ≥ c1} = ½ α
P{χ2 < c2} = ½ α
Ponieważ używane powszednie tablice rozkładu podają prawdopodobieństwo P{χ2 ≥ χ2α},
zatem wartość c1 odczytamy z tablic rozkładu χ2 dla prawdopodobieństwa 1-½α zamiast
c2, dla ½α
MODEL II
Założenia:

populacja generalna ma rozkład N(m, σ),

wartość średnia m jest nieznana,

odchylenie standardowe σ nieznane,

próba losowana niezależnie,

liczebność próby duża (n ≥ 30)
Wzór przedziału ufności dla odchylenia standardowego populacji σ:




s
s

 
  1
u
1  u

1
2n
2n 

Wartość uα dl danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty
rozkładu normalnego N(0, 1), tak aby:
P{-uα < u < +uα} – 1 = α
3) Przedział ufności dla procentu (wskażnika struktury)
MODEL
Założenia:

populacja generalna ma rozkład dwupunktowy,

frakcja elementów wyróżnionych p > 0,05,

próba losowana niezależnie,

liczebność próby duża (n>100).
Wzór przedziału ufności dla wskaźnika struktury p populacji generalnej:
m
   u
n
m
n
 (1  m n )
m
 p   u
n
n
m
n
 (1  m n ) 
  1
n

Metody probabilistyczne
Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty
rozkładu normalnego N(0, 1), tak aby:
P{-uα < U < +uα} = 1 – α
4) Wyznaczanie niezbędnej liczby pomiarów do próby
Wsprowadzenie
Szacując metodą przedziałową parametr θ populacji generalnej, wyznacza się dla niego
przedział ufności w oparciu o rozkład estymatora , w oparciu o wyniki próby o ustalonej
z góry liczebności n. Może okazać się, że połowa długości przedziału ufności d, która
jest miarą maksymalnego błędu szacunku parametru θ, dyskredytuje dokonany szacunek
parametru ze względu na swą wielkość.
Aby zapewnić zadaną z góry dobrą dokładnośc szacunku parametru θ, należy przy założonym
współczynniku ufności 1-α, odpowiednio dobrać liczebność próby n!
Obliczenia da się przeprowadzić dla szacunku średniej m oraz frakcji p.
Nie można zastosować takiego rozumowania dla szacunku wariancji σ2.
MODEL I
Założenia:

populacja generalna ma rozkład N(m, σ),

wariancja populacji σ2 jest znana,

szacowanie nieznanej średniej m populacji z próby o n elementach, losowanych
niezależnie.
Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d:
U 2 2
n
d2
Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty
P{-uα < uc + uα} = 1 – α
MODEL II
Założenia:

populacja generalna ma rozkład N(m, σ),

wariancja populacji σ2 jest nieznana,

znana statystyka ŝ2 uzyskana z małej próby wstępnej,

próba wstępna losowana niezależnie o liczebności n0,

szacowanie nieznanej średniej m populacji z próby o n elementach, losowanych
niezależnie.
Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d:
t sˆ 2
n
d2
2
Wartość tα dla danego spółczynnika ufności 1-α oraz k=n0-1 liczby stopni swobody,
wyznaczana jest z tablicy dystrybuanty rozkładu tStrudenta, tab aby:
Metody probabilistyczne
P{-tα < t < +tα} = 1 – α
sˆ 2 
n0
1
n0 1
 x
i 1
 x
2
i
Jeżeli n≤n0 (obliczoną wartość n zaokrąglamy do całości, zawsze „w górę”), to próba wstępna
jest wystarczająca (spełnia założoną dokładnośc szacunku średniej m).
Jeżeli n>n0 to należy jeszcze dolosować do właściwej próby n-n0 elementów.
MODEL III
Założenia:

populacja generalna ma rozkład dwupunktowy,

szacowanie nieznanej frakcji p populacji z próby o n elementach, losowanych
niezależnie.
Wzór na niezbędną liczebność próby n, przy założonym maksymalnym błędzie szacunku d:
a) Jeżeli mamy spodziewany rząd wielkości szacowanej frakcji p
2
n
n pq
d2
q=1-p
b) Jeżeli nie znamy spodziewanego rzędu wielkości szacowanej frakcji p, zakłada się
największą wartość iloczynu pq = ¼ .
2
u
n 2
4d
Wartość uα dla danego współczynnika ufności 1-α, wyznaczana jest z tablicy dystrybuanty
rozkładu normalnego N(0, 1), tak aby:
P{-uα < U < +uα} = α
PARAMETRYCZNE TESTY ISTOTNOŚCI
Pojęcia podstawowe
Hipoteza statystyczna – jakiekolwiek przypuszczenie dotyczące rozkładu populacji
generalnej;
Hipoteza parametryczna – hipoteza statystyczna precyzująca wartość parametru w rozkładzie
populacji generalnej znanego typu;
Hipoteza nieparametryczna – hipoteza statystyczna precyzująca typ rozkładu populacji
generalnej;
Hipoteza zerowa – podstawowa hipoteza statystyczna sprawdzana danym testem (oznaczenie
H0); [m = 4,5]
Hipoteza alternatywna – hipoteza statystyczna konkurencyjna w stosunku do H0 w tym
sensie, że jeżeli odrzuca się hipotezę zerową, to przyjmuje się hipotezę alternatywną
(oznaczenie H1); [hipotezy dla testów parametrycznych (?): m > 4,5 || m < 4,5 || m !=
4,5]
Błąd pierwszego rodzaju – możliwy do popełnienia przy weryfikacji hipotezy, polegający na
odrzuceniu testowanej hipotezy prawdziwej;
Metody probabilistyczne
Błąd drugiego rodzaju – możliwy do popełnienia przy weryfikacji hipotezy, polegajązy na
przyjęciu testowanej hipotezy fałszywej;
Poziom istotności – prawdopodobieństwo popełnienia błędu pierwszego rodzaju w
postępowaniu testującym hipotezę (oznaczenie α, najczęściej przyjmowane wartości:
0,1; 0,05; 0,01; 0,001);
Test statystyczny – reguła postępowania, która na podstawie wyników próby ma doprowadzić
do decyzji przyjęcia bądź odrzucenia podstawowej hipotezy;
Test istotności – typ testu na odrzucenie hipotezy z małym ryzykiem popełnienia błędu
(mierzony wartością α). Ponieważ uwzględniony jest w teście jedynie błąd pierwszego
rodzaju (błąd drugiego rodzaju nie jest rozpatrywany), to wynikiem testu jest decyzja o
odrzuceniu hipotezy zerowej H0 lub braku podstaw do jej odrzucenia (nie jest
równoznaczne z jej przyjęciem)
Parametryczny test istotności – weryfikuje hipotezę H0 precyzującą wartość parametru w
ustalonym typie rozkładu populacji generalnej;
Nieparametryczny test istotności – weryfikuje hipotezę H0 precyzującą ogólny typ, postać
rozkładu populacji generalnej;
Obszar krytyczny testu – podzbiór przestrzeni próby o tej własności, że jeżeli otrzymamy w
próbie punkt przestrzeni próby należący do tego podzbiory, to podejmuje się decyzję
odrzucenia hipotezy zerowej;
Obszar krytyczny dwustronny
Obszar krytyczny jednostronny
1) Test dla wartości średniej populacji
MODEL I
Założenia:

populacja generalna ma rozkład N(m, σ),

odchylenie standardowe σ znane,

m0 – hipotetyczna wartość średniej,

weryfikacja na podstawie próby losowej hipotezy H0: m=m0,

hipoteza alternatywna H1: m≠m0
Wzór na wartość zmiennej normalnej standaryzowanej u:
u
x  m0

n
Z tablicy rozkładu N(0, 1), przy założonym poziomie istotności α, wyznacza się wartość
krytyczną uα, tak aby zachodziła równość:
P{|U| ≥ uα} = α
Zbiór wartości U okrześlony jako |U|≥uα jest obszarem krytycznym, tzn. jeżeli:
|u| ≥ uα – hipotezę H0 należy odrzucić,
|u| < uα – nie ma podstaw do odrzucenia hipotezy H0.
Uwaga
Model I opisuje dwustronny obszar krytyczny (H1: m≠m0).
Metody probabilistyczne
Jeżeli hipoteza H1: m<m0 – test z lewostronnym obszarem krytycznym, tzn U≤uα oraz uα
wyznaczamy tak, aby:
P{U ≤ uα} = α
Jeżeli hipoteza H1: m>m0 – test z prawostronnym obszarem krytycznym, tzn. U≥uα oraz uα
wyznaczamy tak, aby:
P{U ≥ uα} = α
MODEL II
Założenia:

populacja generalna ma rozkład N(m, σ),

odchylenie standardowe σ nieznane,

m0 – hipotetyczna wartość średniej,

weryfikacja na podstawie próby losowej hipotezy H0: m=m0,

hipoteza alternatywna H1: m≠m0,

próba losowa jest mała (n<30).
Wzór na wartość statystyki t:
t
x  m0
s
n 1 
x  m0
sˆ
n
Z tablicy rozkładu tStudenta, przy założonym poziomie istotności α oraz k=n-1 stopniach
swobody, wyznacza się wartość krytyczną tα tak, aby zachodziła równość:
P{|t| ≥ tα} = α
Zbiór wartości U określony jako |t|≥tα jest obszarem krytycznym, tzn. jeżeli:
|t| ≥ tα – hipotezę H0 należy odrzucić,
|t| < tα – nie ma podstaw do odrzucenia hipotezy H0.
Uwaga
Model II opisuje dwustronny obszar krytyczny (H1: m≠m0).
Jeżeli hipoteza H1: m<m0 – test z lewostronnym obszarem krytycznym, tzn. t≤tα oraz tα
wyznaczamy tak, aby:
P{t ≤ tα} = α
Jeżeli hipoteza H1: m>m0 – test z prawostronnym obszarem krytycznym, tzn. t≥tα oraz tα
wyznaczamy tak, aby:
P{t ≥ tα} = α
Download