Document

advertisement
Rozkłady zmiennych losowych
Dane zbierane podczas pomiarów zawsze
układają się w pewien określony sposób.
To w jaki, zależy przede wszystkim od zjawiska,
które jest obserwowane.
Sposób, w jaki układają się dane- rozkład
zmiennej losowej.
Model probabilistyczny
Opisujemy rozkład empiryczny (doświadczalny) pewną
krzywą ciągłą- sprawdzamy, czy nasze wyniki można opisać
rozkładem teoretycznym.
Nasze wyniki
traktujemy jak
zmienną
losową.
Rozkłady zmiennych losowych
-Bernoulliego
- Beta
- Dwumianowy
- Chi-kwadrat
- Wykładniczy
- F (Fischera-Snedeckora)
- Gamma
- Geometryczny
- Gompertza
- Logistyczny
-Logarytmicznonormalny
- Pareto
-Poissona
- Prostokątny
- Rayleigha
- Średniej
- t-studenta
- Weibulla
- Normalny
Rozkład normalny
Krzywa Gaussa: Rozkład o charakterystycznym
kształcie "krzywej dzwonowej", symetrycznej w
stosunku do średniej.
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu
zmiennej losowej, w sytuacji gdy:
-Występuje silna tendencja do przyjmowania
wartości położonych blisko środka rozkładu;
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu
zmiennej losowej, w sytuacji gdy:
- Dodatnie i ujemne odchylenia od środka rozkładu
są jednakowo prawdopodobne;
m
Rozkład normalny
Ogólnie jest dobrym modelem dla rozkładu
zmiennej losowej, w sytuacji gdy:
- Liczność odchyleń gwałtownie spada wraz ze
wzrostem ich wielkości.
m
Rozkład normalny
Podstawowy mechanizm tworzący
rozkład normalny: nieskończoną liczbę
niezależnych zdarzeń losowych które
generują wartości danej zmiennej.
m
Rozkład normalny
Przykład: istnieje prawdopodobnie prawie nieograniczona
liczba czynników determinujących wzrost człowieka.
Należy spodziewać się, że w populacji wzrost podlega
rozkładowi normalnemu.
Rozkład normalny
Najważniejszy rozkład zmiennej losowej ciągłej, ponieważ
• przy nieograniczonym wzroście l-by niezależnych
doświadczeń statystycznych WSZYSTKIE znane
teoretyczne rozkłady zmiennych losowych ciągłych i
dyskretnych są SZYBKO ZBIEŻNE do rozkładu normalnego
•w badaniu prób losowych popełniane są błędy
przypadkowe, których rozkład jest normalny lub zbliżony
do normalnego
Rozkład normalny
Gęstość prawdopodobieństwa
𝑥−𝜇 2
𝑓 𝑥 =
exp⁡
(−
)
𝑥 −2𝜎
𝜇 2
𝜎1 2𝜋
𝑓 𝑥 =
exp⁡
(−
)
𝜎 rozkładu
2𝜋
m i  to parametry
(mając2𝜎
ich wartości
1
uzyskamy gotową krzywą Gaussa)
Rozkład ten jest określony w przedziale (-,+ )
Rozkład normalny
Gęstość prawdopodobieństwa
𝑥−𝜇 2
𝑓 𝑥 =
exp⁡
(−
)
𝑥 −2𝜎
𝜇 2
𝜎1 2𝜋
𝑓 𝑥 =
exp⁡
(−
)
2𝜎
𝜎 2𝜋
1
m=E(X) - wartość
oczekiwana (średnia
arytm.)
=D(X) - odchylenie
standardowe
m
Rozkład normalny
Zasada 3 :
68% wartości cechy leży w odległości  od m;
95,5% wartości cechy leży w odległości  2 od m;
99,7% wartości cechy leży w odległości  3 od m;
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do
standaryzowanego rozkładu normalnego.
x−μ
u=
σ
Wtedy gęstość rozkładu:
μ2
f u =
exp −
2
2π
1
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do
standaryzowanego rozkładu normalnego.
Wtedy m=0 i =1:
Tablice- standaryzowany R.N.
W TABLICACH rozkład normalny sprowadza się do
standaryzowanego rozkładu normalnego.
A dystrybuanta:
∞
F u =
1
2π
−∞
μ2
exp −
2
du
Tablice- standaryzowany R.N.
Po co jest potrzebna operacja standaryzacji?
Jeśli poszukujemy p-stwa znalezienia wyników w
przedziale (x1,x2) to:
x1 − μ
u1 =
σ
x2 − μ
u2 =
σ
P(x1<x<x2)=F(x2)-F(x1)=F(u2)-F(u1)
Tablice- standaryzowany R.N.
Estymatory
Jeżeli nie wiemy, ile naprawdę wynosi m rozkładu
normalnego i  (dla całej populacji) a jedynie
liczymy średnią arytmetyczną i odchylenie z
pomiarów, to wyliczone przybliżone parametry są
obarczone błędem.
E(x) = m  x
D(x) =  
𝜎
E(x)- wartość oczekiwana rozkładu teoretycznego
D(x)- odchylenie standardowe rozkładu teoretycznego
Estymatory
Błąd standardowy średniej:
𝜎𝑥 =
𝜎
𝑛
Przedział, gdzie znajduje się wartość oczekiwana:
𝜇 = 𝑥 ± 𝜎𝑥
(𝑥 − 𝜎𝑥 ; 𝑥 + 𝜎𝑥 )
Rozkład t-studenta
Definicja zmiennej losowej t-studenta
𝑥−𝜇
𝑡=
∙ 𝑛
𝜎
Gdzie:
𝜎
Rozkład t-studenta
Lub inaczej:
𝑥−𝜇 𝑥−𝜇
𝑡=
=
∙ 𝑛−1
𝜎𝑥
𝜎
Gdzie:
𝜎=
1
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
2
Rozkład t-studenta
𝑥−𝜇 𝑥−𝜇
𝑡=
=
∙ 𝑛−1
𝜎𝑥
𝜎
Rozkład t-studenta ma jeden parametr – liczbę
stopni swobody – od niego zależy kształt rozkładu
f=df=n-1
Rozkład t-studenta
Rozkład t-studenta
Dla df= rozkład tstudenta jest
rozkładem
normalnym!
Rozkład t-studenta - tablice
Przedział ufności
Definicja:
Niech cecha X ma rozkład w populacji z nieznanym
parametrem θ. Z populacji wybieramy próbę losową (X1, X2,
..., Xn).
Przedziałem ufności (θ - θ1, θ + θ2) o współczynniku
ufności 1 - α nazywamy taki przedział (θ - θ1, θ + θ2),
który spełnia warunek:
P(θ1 < θ < θ2) = 1 − α
gdzie θ1 i θ2 są funkcjami wyznaczonymi na
podstawie próby losowej.
Przedział ufności
Definicja:
Definicja pozwala na dowolność wyboru funkcji z
próby
ALE
zazwyczaj będziemy poszukiwać przedziałów
najkrótszych.
Przedział ufności
Współczynnik ufności 1-a:
Prawdopodobieństwo wyznaczenia takiego przedziału, że
rzeczywista wartość parametru θ w populacji znajdzie się w
tym przedziale.
Im większa wartość tego współczynnika, tym szerszy przedział
ufności, a więc mniejsza dokładność estymacji parametru.
Im mniejsza wartość 1 - α, tym większa dokładność estymacji,
ale jednocześnie tym węższy przedział ufności.
Przedział ufności
Współczynnik ufności 1-a:
Wybór odpowiedniego współczynnika jest więc
kompromisem pomiędzy dokładnością estymacji a
ryzykiem błędu.
W praktyce przyjmuje się zazwyczaj wartości 1-a:
0,99; 0,95 lub 0,90
WTEDY a (poziom ufności):
0,01; 0,05; 0,1
Przedział ufności
Współczynnik ufności 1-a:
0,95
oznacza to, że średnio na każde 100 przedziałów
ustalonych na 100 prób losowych, w 95 przypadkach
prawdziwa wartość parametru znajduje się wewnątrz
przedziału, natomiast w 5 przypadkach znajduje się
poza przedziałem
Przedział ufności
Ponieważ szukamy jak najkrótszych przedziałów
ufności, to przy wyznaczaniu przedziału staramy się
wykorzystać jak najwięcej dostępnych informacji o
rozkładzie cechy w populacji.
Przedział ufności
• Najlepiej, gdy zmienna ma rozkład normalny z
odchyleniem standardowym σ – wzór na
najdokładniejszy przedział ufności
• Przy nieznanym σ – wzór wtedy stosowany daje
przedział szerszy, czyli mniej dokładny
• Wzory ogólniejsze, np. dla nieznanego rozkładu,
często korzystają z rozkładów granicznych
estymatorów i dlatego wymagają dużej liczebności
próby.
Przedział ufności
POPULACJA GENERALNA
m, 
Próba
𝑥, 𝜎
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie
standardowe
populacji
Nieznane odchylenie
standardowe populacji
+
mała próba
(n30)
Nieznane
odchylenie
standardowe + duża
próba (n>30)
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie
standardowe
populacji
Nieznane odchylenie
standardowe populacji
+
mała próba
(n30)
Nieznane
odchylenie
standardowe + duża
próba (n>30)
<
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe populacji  jest znane:
𝑃 𝑥 − 𝑢𝛼 ∙
𝜎
𝑛
<𝜇<𝑥−
+ 𝑢𝛼 ∙
𝜎
𝑛
=1−𝛼
gdzie:
n - liczebność próby
𝜎 losowej
oznacza
próby
𝑥- −
𝑢𝛼 ∙średnią z =
1 losowej
−𝛼
σ - odchylenie standardowe
populacji
𝑛
uα - statystyka, spełniającą warunek:
P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym
N(0,1).
𝛼
CZYLI kwantyl rozkładu N(0,1) rzędu
1−
2
Przedział
ufnościufności
dla średniej
Przedział
P( − uα < U < uα) = 1 − α, gdzie U jest zmienną losową o rozkładzie normalnym N(0,1).
CZYLI ua to kwantyl rozkładu N(0,1) rzędu
𝛼
1−
2
Niech a=0,05
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
Przedział
ufnościufności
dla średniej
Przedział
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
Jak znaleźć ua?
Przedział
ufnościufności
dla średniej
Przedział
P( − u0,05 < U < u0,05) = 1 − 0,05 = 0,95
P(u<ua) = 1-a/2 = 1-0,05/2 = 1-0,025 = 0,975
P(u<ua) = P(-<u<ua) = F(ua) – F(-) = F(ua)
u0,05=-1,96
-u0,05=-1,96
Przedział
ufności ufności
dla średniej
Przedział
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe populacji  jest znane:
𝜇 = 𝑥 ± 𝑢𝛼 ∙
gdzie:
n - liczebność 𝜎
próby losowej
𝑥 -−oznacza
𝑢𝛼 ∙średnią z=
1−
𝛼
próby
losowej
σ - odchylenie standardowe
populacji
𝑛
𝛼
uα - kwantyl rozkładu N(0,1) rzędu
1−
2
𝜎
𝑛
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe populacji  jest znane:
Taka sytuacja występuje bardzo rzadko (musieli byśmy zbadać
CAŁĄ populację generalną)
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie
standardowe
populacji
Nieznane odchylenie
standardowe populacji
+
mała próba
(n30)
Nieznane
odchylenie
standardowe + duża
próba (n>30)
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe  jest nieznane a znamy tylko
odchylenie stand, próbki 𝜎 (n30):
𝑃 𝑥 − 𝑡 𝛼, 𝑓 ∙
𝜎
𝑛−1
< 𝜇 < 𝑥 + 𝑡(𝛼, 𝑓) ∙
𝜎
𝑛−1
=1−𝛼
gdzie:
n - liczebność próby losowej
X - średnia z próby losowej
𝜎σ - odchylenie standardowe z próby
t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1
stopniami swobody
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe  jest nieznane a znamy tylko
odchylenie stand, próbki 𝜎 (n30):
𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼, 𝑓) ∙
𝜎
𝑛−1
gdzie:
n - liczebność próby losowej
X - średnia z próby losowej
𝜎σ - odchylenie standardowe z próby
t(a,f) – kwantyl rzędu 1 - a/2 rozkładu t-studenta z df=f=n-1
stopniami swobody
Przedział
ufnościufności
dla średniej
Przedział
f
f
f
Przedział
ufności
dla średniej
Przedział
ufności
Do obliczeń wykorzystujemy tablice t-studenta dla danego a i
f=df=n-1
Przedział
ufnościufności
dla średniej
Przedział
𝜇 = 𝑥 ± 𝑡(𝑃 = 1 − 𝛼, 𝑓) ∙
𝜎
𝑛−1
Zwykle stosuje się ten wzór dla małej próby (n<30).
Tak naprawdę działa on dla każdej wielkości próby, jednak dla
dużych prób można przybliżyć rozkład t Studenta rozkładem
normalnym, co jest łatwiejsze do wyliczenia a dające niemal
takie same wartości
Przedział ufności
Przedział ufności dla średniej
Znane odchylenie
standardowe
populacji
Nieznane odchylenie
standardowe populacji
+
mała próba
(n30)
Nieznane
odchylenie
standardowe + duża
próba (n>30)
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe  jest nieznane (znamy tylko 𝜎
próby) a próba jest duża (n>30):
𝑃 𝑥 − 𝑢𝛼 ∙
𝜎
𝑛
< 𝜇 < 𝑥 + 𝑢𝛼 ∙
𝜎
𝑛
=1−𝛼
gdzie:
n - liczebność próby losowej
X - oznacza średnią z próby losowej
𝜎σ - odchylenie standardowe z próby
ua - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu normalnego
N(0,1)
Przedział
ufnościufności
dla średniej
Przedział
Cecha ma w populacji rozkład normalny N(m,), przy czym
odchylenie standardowe  jest nieznane (znamy tylko 𝜎
próby) a próba jest duża (n>30):
Czyli:
𝜇 = 𝑥 ± 𝑢(𝑃 = 1 − 𝛼) ∙ 𝜎𝑥
gdzie:
n - liczebność próby losowej
X - oznacza średnią z próby losowej
) ∙ 𝜎𝑥 – błąd standardowy średniej
u(P=1-a) - kwantyl rzędu 1 – a/2 standaryzowanego rozkładu
normalnego N(0,1)
Przedział
ufnościufności
dla średniej
Przedział
Do obliczeń wykorzystujemy tablice t-studenta dla danego a i
f=df=
Rozkład chi-kwadrat
Definicja zmiennej losowej 2
Gdy Xi są zmiennymi losowymi losowanymi z rozkładu normalnego
f
N(0,1), to
2
X
i 1
i
ma rozkład chi-kwadrat o f stopniach swobody.
Gdy losowanie odbywa się z rozkładu normalnego N(m,), to:
f
 
2
i 1
X i  m )
2

2
1 parametr rozkładu:
f=n-1 (liczba stopni
swobody)
Rozkład chi-kwadrat
Definicja zmiennej losowej 2
f
x

1


1
2
2
x
e
dla x  0

f
 k
f ( x )     2 2
 2

dla x  0
 0
- funkcja gamma Eulera
f – liczba stopni swobody
Rozkład chi-kwadrat
f<2 - funkcja jest malejącą dla
x>0,
f=1
f>2 - funkcja ma maksimum
przy x=f – 2
Dla dużych f funkcja jest
zbliżona do krzywej rozkładu
normalnego
f=2
f=3
f=4
f=5
Rozkład chi-kwadrat
Przedział ufności
Przedział ufności dla wariancji
Mała próba n30
Duża próba n>30
Przedział ufności
Przedział ufności dla wariancji
Mała próba n<30
Duża próba n>30
Przedział ufności
Przedział ufności dla wariancji
Cecha ma w populacji rozkład normalny N(m,), a n30:
 nˆ 2
2
P  2   
1a ,n1
 2



1

a
2
 a ,n1 
2

nˆ 2
gdzie:
n - liczebność próby losowej
σ𝜎- odchylenie standardowe z próby
 a ,n1  12 a n1
2
2
2
kwantyle rzędu a/2 i 1-a/2 rozkładu 2 z
f=df=n-1 stopniami swobody
Przedział ufności
Przedział ufności dla wariancji
Czyli:
𝜎2𝑑
𝑛 ∙ 𝜎2
= 2
𝜒 (𝑃 = 1 − 𝛼, 𝑓 = 𝑛 − 1)
𝜎 2𝑔
𝑛 ∙ 𝜎2
= 2
𝜒 (1 − 𝑃, 𝑓 = 𝑛 − 1)
Przedział ufności
Przedział ufności dla wariancji
Do obliczeń wykorzystujemy tablice wartości krytycznych
rozkładu chi-kwadrat dla danego a i f=df=n-1
Przedział ufności
Przedział ufności dla odchylenia standardowego
Cecha ma w populacji rozkład normalny N(m,), a n30:

P

nˆ
2
12a ,n1
2

nˆ
   2  1a
a ,n1
2

2
Przedział ufności
Przedział ufności dla wariancji
Mała próba n<30
Duża próba n>30
Przedział ufności
Przedział ufności dla odch. stand, (wariancji)
Cecha ma w populacji rozkład normalny N(m,), a n>30:
 ˆ
ˆ 
P 1 ua    1 ua   1  a
2n 
 2n
gdzie:
n - liczebność próby losowej
σ𝜎- odchylenie standardowe z próby
uα – kwantyl rzędu 1-a/2 standaryzowanego rozkładu normalnego N(0,1)
Przedział ufności
Przedział ufności dla odch. stand, (wariancji)
Do obliczeń wykorzystujemy tablice t-studenta dla danego a i
f=df=
Download