Rozkład normalny Parametry rozkładu zmiennej losowej

advertisement
Statystyka i opracowanie danych – W4
Rozkład normalny
Parametry rozkładu zmiennej losowej
Zmienne losowe wielowymiarowe
Dr Anna ADRIAN
Paw B5, pok 407
[email protected]
Rozkład normalny – wykres funkcji
gęstości i interpretacja
f(x)
σ
x
µ
Parametry rozkładu N(µ,σ),
µ - Wartość oczekiwana
σ2 - Wariancja
Cechy charakterystyczne funkcji gęstości
rozkładu normalnego
Funkcja gęstości w rozkładzie normalnym:
• jest symetryczna względem prostej x = µ
• w punkcie x = µ osiąga wartość maksymalną
• ramiona funkcji mają punkty przegięcia dla x = µ - σ
oraz x = µ + σ
Kształt funkcji gęstości zależy od wartości parametrów: µ, σ :
parametr µ decyduje o przesunięciu krzywej,
-
parametr σ decyduje o „smukłości” krzywej.
Rozkład normalny
Reguła 3 sigma
Jeżeli zmienna losowa ma rozkład normalny N(µ,σ) to:
- 68,3 % populacji mieści się w przedziale (µ - σ; µ + σ)
- 95,5 % populacji mieści się w przedziale (µ - 2σ; µ + 2σ)
- 99,7 % populacji mieści się w przedziale (µ - 3σ; µ + 3σ)
Prawdopodobieństwo w rozkładzie normalnym
Prawdopodobieństwo w rozkładzie normalnym ( podobnie jak
w każdym innym rozkładzie ciągłym) wyznaczane jest dla
wartości zmiennej losowej z określonego przedziału, P(a<X≤ b)
P(a<X≤ b) = F(b)- F(a),
Dla uproszczenia obliczeń prawdopodobieństwa P(a<X≤ b) dla
zmiennej losowej o rozkładzie normalnym, z wartością
oczekiwaną µ i odchyleniem standardowym σ, dokonuje się
standaryzacji zmiennej losowej.
Rozkład normalny - standaryzacja
Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego N(µ, σ),
o danych parametrach µ i σ do rozkładu standaryzowanego (modelowego)
o wartości oczekiwanej µ = 0 i odchyleniu standardowym σ = 1.
Zmienną X zastępuje się zmienną standaryzowaną U
u =
x − µ
σ
która ma rozkład N(0,1)
Wtedy otrzymujemy następujące zależności :
f(x)→ϕ(u), F(x) →Φ(u), czyli:
P( X ≤ x) = F ( x) = Φ (
x−µ
σ
)
Własności dystrybuanty
standaryzowanego rozkładu normalnego:
F ( x ) = P ( X ≤ x ) = P (U ≤ u ) = Φ (u )
P (U ≤ − u ) = Φ ( − u ) = 1 − Φ (u )
P (U > u ) = 1 − P (U ≤ u ) = 1 − Φ (u )
P (U > − u ) = Φ (u )
Obliczanie prawdopodobieństwa
w rozkładzie normalnym
Obliczanie prawdopodobieństwa, że zmienna losowa X,
o rozkładzie N (µ, σ), przyjmie wartości z przedziału (a, b)
X − µ
b − µ 
 a − µ
P (a < X ≤ b ) = P 
<
≤
 =
σ
σ
σ


b − µ 
 a − µ
 b − µ 
 a − µ 
=
Φ
−
Φ
= P
< U ≤





σ
σ
σ
σ






 b − µ 
 a − µ 
P ( a < X ≤ b ) = F (b ) − F ( a ) = Φ 
−
Φ



σ
σ




gdzie Φ(u) oznacza wartości dystrybuanty standaryzowanego rozkładu
normalnego N(0,1) Wartości te znajdziemy w tablicach statystycznych
Zadanie:
Wzrost kobiet w pewnej populacji ma rozkład normalny
N(165,15). Oznacza to, iż zmienna losowa jaką jest
wzrost kobiet ma rozkład normalny ze średnią równą 165
cm odchyleniem standardowym równym 15 cm.
Jaki jest udział w populacji kobiet o wzroście:
a)
do 160 cm,
b)
w przedziale 165-170 cm,
c)
powyżej 175 cm
d)
dokładnie 150 cm
Rozwiązanie:
a) do 160 cm
 X −165 160−165
P( X ≤ 160) = P
≤
 = P(U ≤ −0,33) =
15 
 15
= Φ(−0,33) = 1− Φ(0,33) = 1− 0,6293= 0,3707
a) innym sposobem
 160 − 165 
P ( X ≤ 160) = F (160) = Φ
=
 15

= Φ (−0,33) = 1 − Φ (0,33) = 1 − 0,6293 = 0,3707
Rozwiązanie:
b)
w przedziale 165-170 cm
 165 − 165 X − 165 170 − 165 
P (165 < X ≤ 170) = P
<
≤
=
15
15
 15

= P (0 < U ≤ 0,33) = Φ (0,33) − Φ (0) = 0,6293 − 0,5 = 0,1293
c)
powyżej 175 cm.
 X − 165 175 − 165 
P( X > 175) = P
>
 = P (U > 0,67) =
15
 15

= 1 − P (U ≤ 0,67) = 1 − Φ (0,67) = 1 − 0,748571 = 0,251429
d)
dokładnie 150 cm.
P ( X = 150) = P (150 ≤ X ≤ 150) = F (150) − F (150) = 0
Parametry pozycyjne rozkładu zmiennej losowej
Moda –Dominanta. Mediana.
• Modą Mo ( Dominantą Do) zmiennej losowej X nazywamy
tę wartość zmiennej losowej, której odpowiada:
– Największe prawdopodobieństwo – w przypadku
zmiennej dyskretnej
– Maksimum lokalne funkcji gęstości w przypadku
zmiennej losowej ciągłej.
• Medianą Me zmiennej losowej X nazywamy wartość x,
spełniającą nierówności
P(X≤x)≥0,5 i P (X ≥ x) ≥ 0,5
natomiast dla dystrybuanty mamy
0,5 ≤ F(x) ≤ 0,5+P(X=x)
dla zmiennej dyskretnej
F(x)=0,5
dla zmiennej ciągłej
Symetria rozkładu zmiennej losowej
Zmienna losowa ma rozkład symetryczny jeśli istnieje taka
wartość a, że:
– W przypadku zmiennej dyskretnej każdemu punktowi
skokowemu xi ≤ a odpowiada punkt xj ≥ a, taki, że
P(X= xi )= P(X= xj)
oraz a- xi = xj-a
– W przypadku zmiennej losowej ciągłej o funkcji gęstości f(x) :
f(a-x)=f(a+x) dla każdego x w punktach ciągłości f(x).
Punkt a nosi nazwę środka symetrii, a prosta x=a jest osią
symetrii rozkładu zmiennej losowej .
– Jeśli rozkład jest symetryczny, to środkiem symetrii jest
wartość oczekiwana
– W rozkładzie symetrycznym wszystkie momenty centralne
nieparzystego rzędu równe są zero
Asymetria rozkładu zmiennej losowej
• Zmienna losowa ma rozkład asymetryczny jeśli nie istnieje
taka wartość a (taki punkt a), który spełnia warunki rozkładu
symetrycznego.
• Ze względu na to, że w rozkładzie asymetrycznym momenty
centralne rzędu nieparzystego są różne od zera, do określenia
współczynnika asymetrii (skośności) rozkładu wykorzystuje się
trzeci moment centralny µ3, mianowicie
γ =
µ3
D 3(X )
• Jeśli γ>0, asymetria rozkładu jest dodatnia prawostronna
(wydłużenie w kierunku dużych wartości)
• Jeśli γ<0, asymetria rozkładu jest ujemna - lewostronna
(wydłużenie w kierunku małych wartości)
Wyznaczyć wskaźniki położenia zmiennej X:
wartość oczekiwaną, modę, medianę, kwantyl rzędu 0,75,
Dla zmiennej losowej, której funkcja gęstości dana jest
wzorem
2


f ( x) =  x 2 + 3

0


0 < x <1

wprzeciwnymprzypadku 
E(X) = 7/12
Mo = 1
Me obliczę z równania F(Me) = 1/2; Me = 9/24
Q3 ← F(Q3 ) = 3/4 stąd Q3
=41/64
Zmienna losowa wielowymiarowa
• Dana jest przestrzeń probabilistyczna (Ω, S, P)
i w tej przestrzeni n zmiennych losowych X1,X2,...,Xn
Definicja
Uporządkowany układ n zmiennych losowych, oznaczony
X= (X1,X2,...,Xn) nazywamy wektorem losowym lub
n -wymiarową zmienną losową, co oznacza, że każdemu
zdarzeniu ω ∈ Ω przyporządkowano punkt przestrzeni
euklidesowej Rn
Funkcję PX(A) = P({ω: X(ω) ∈A}) nazywamy rozkładem
prawdopodobieństwa wektora losowego X, a jego
dystrybuanta jest określona wzorem
FX(x) = P(X1<x1,X2<x2,...,Xn<xn )
Przykłady
• Badamy trzy cechy człowieka :
– wiek , ω1 ∈ [18,100] [lat]
– wzrost, ω2 ∈ [140, 210][cm]
– waga, ω3 ∈ [40,150][kg]
ω = (ω1, ω2 , ω3 )∈ Ω
Zmienne losowe definiuję następująco:
X1( ω)= ω1
X2 ( ω)= ω2
...
Xn ( ω)= ωn
Tablicowa reprezentacja dwuwymiarowego
rozkładu zmiennej losowej skokowej
X= x1
X= x2
X= x1
Rozkład
brzegowy
zmiennej Y
Y=y1
Y= y2
Y= y3
Y= y4
Y= y5
Y= y6
Rozkład
brzegowy
zmiennej X
p11
p12
p13
p14
p15
p16
p1.
p22
p23
p24
p25
p31
...
...
...
...
...
p3.
p.1
p.2
p.3
p.4
p.5
p.6
1
p21
p26
p2.
Dwuwymiarowa zmienna losowa
(para zmiennych) typu skokowego
• Def. Dwuwymiarowa zmienna losowa jest typu skokowego jeśli przyjmuje
skończoną lub co najwyżej przeliczaną liczbę wartości (x1,yj), (i,j=1,2,…. )
odpowiednio z prawdopodobieństwami pi,j
• Zachodzi przy tym warunek:
(*)
∑
∑
i
j
gdzie
pi
j
p
i j
= 1
= P (X = x i , Y = y
j
)(i ,
j = 1 , 2 ,...
)
Uwaga, w celu właściwej interpretacji wartości p i,j , należy pamiętać,
że zapis (X=xi,Y=yj) oznacza iloczyn zdarzeń X=xi i Y=yj
Niezależność zmiennych losowych
typu skokowego
Para (X, Y) jest dwuwymiarową
zmienną losową typu skokowego,
Zmienne X i Y nazywamy niezależnymi,
jeśli dla każdej pary wartości (xi, yj)
spełniony jest warunek:
P(X=xi,Y=yj)= P(X=xi) *P(Y=yj)
Dla zmiennych niezależnych
musi być spełniony warunek:
P( X = xi | Y = y j ) =
pij
p. j
= pi. = P( X = xi )
czyli
pij= pi. * p.j
Oznacza to, że zmienne losowe X i Y są
niezależne jeśli prawdopodobieństwa
w łącznym rozkładzie tych zmiennych są
równe iloczynowi odpowiednich
prawdopodobieństw ich rozkładów
brzegowych.
oraz
P (Y = y j | X = xi ) =
pij
pi.
= p. j = P (Y = y j )
Dystrybuanta dwuwymiarowej zmiennej losowej
Dystrybuantą dwuwymiarowej zmiennej losowej
rzeczywistą określoną wzorem:
nazywamy funkcję
• dla zmiennej losowej typu skokowego
F ( x, y ) = ∑ ∑ pi j
xi ≤ x y j ≤ y
• dla zmiennej losowej typu ciągłego
x
y
F ( x , y ) = P ( X ≤ x ,Y ≤ y ) = ∫ ∫ f ( u, v) dudv
−∞ −∞
Rozkład dwuwymiarowej zmiennej
losowej typu ciągłego
• Funkcją gęstości dwuwymiarowej zmiennej losowej (X,Y) typu
ciągłego nazywamy funkcję rzeczywistą określoną wzorem:
P( x < X < x + ∆x , y < Y < y + ∆y)
f ( x , y) = lim
∆x →0
∆x ∆y
,,
∆y→0
o następujących własnościach:
f (x , y) ≥ 0
dla
x, y ∈ R
x 2 y2
∫ ∫ f ( x , y ) dx dy = P ( x1 < X ≤ x 2, y1 < Y ≤ y2 )
x1 y1
+ ∞ + ∞
∫
∫
− ∞ − ∞
f
(x
, y
)d
x d y = 1
Dwuwymiarowy rozkład normalny
Funkcja gęstości dwuwymiarowego rozkładu normalnego
N(µ1,µ2,σ1,σ2,ρ)
Brzegowe funkcje gęstości
+∞
f1 ( x ) = ∫ f ( x , y ) dy;
−∞
+∞
f2 ( y ) = ∫ f ( x , y ) dx
−∞
Warunkowe funkcje gęstości:
f
(x
/ y
)
=
f
(x , y );
f2 ( y )
f (x, y)
f (y / x) =
f1 ( x )
Niezależność dwuwymiarowych zmiennych
losowych ciągłych
Zmienne losowe X i Y typu ciągłego są niezależne,
jeśli dla dowolnej pary liczb rzeczywistych (x,y)
zachodzi równość:
f (x , y ) = f1 (x ) f 2 ( y )
Momenty zwykłe
dwuwymiarowej zmiennej losowej
Momentem zwykłym rzędu kl, dwuwymiarowej
zmiennej losowej (X, Y) nazywamy wyrażenie
(
m kl = E X k Y
l
)
k
l

∑ ∑ xi y j pi j
i
j

=  ∞ ∞
k
l
x
y
f ( x , y ) dxdy
 ∫ ∫
 −∞−∞
Na przykład
m 11 = E ( XY
)=
E ( X )E (Y
)=
m 10 m 01
Parametry rozkładu dwuwymiarowej
zmiennej losowej typu skokowego
Wartością oczekiwaną dwuwymiarowej zmiennej
losowej typu skokowego nazywamy wyrażenie:
E ( X , Y ) = E ( X )E (Y ) = ∑ ∑ x i y j p i j
i
j
Wariancją dwuwymiarowej zmiennej losowej
typu skokowego nazywamy wyrażenie:
D ( X , Y ) = E [X − E ( X )] [Y − E (Y )] =
2
2
[
2
]
= ∑ ∑ [x i − E ( X )]2 y j − E (Y ) 2 p i j
i
j
Momenty centralne
dwuwymiarowej zmiennej losowej
Momentem centralnym rzędu k+l (k,l= 0,1,2,... )
dwuwymiarowego rozkładu zmiennej losowej (X,Y)
nazywamy wyrażenie
µ kl = E (( X − m 10 ) k ( Y − m 01 ) l ) =
Wzór dla zmiennej skokowej
∑ ∑ ( x i − m 10 ) k ( y j − m 01 ) l p i
i
j
j
Wzór dla zmiennej ciągłej
∞
∞
∫ ∫
−∞−∞
( x − m 10 ) k ( y − m 01 ) l f ( x , y ) dxdy
Parametry dwuwymiarowych zmiennych
losowych Kowariancja
Def.
Kowariancją zmiennej losowej dwuwymiarowej (X,Y)
nazywamy wyrażenie:
cov ( X , Y ) = E ( [ X − E ( X
cov ( X , Y ) = cov
xy
)][Y
= µ 11 = σ
xy
− E (Y
)])
Wzory na obliczanie kowariancji
dla zmiennej losowej skokowej
)][y j
cov( X , Y ) = ∑ ∑ [x i − E ( X
i
j
− E (Y
)]p i j
dla zmiennej losowej ciągłej
σ
xy
=
+∞
∫
− ∞



+∞
∫ (x
− m
x
)( y
− ∞
− m
y

) f ( x ) dx  dy

dla danych empirycznych
1 n
S xy =
∑ ( x i − x )( y i − y )
n i =1
Jeśli zmienne X i Y są niezależne to cov(X,Y)=0,
Twierdzenie odwrotne w ogólności nie jest prawdziwe
Parametry dwuwymiarowych zmiennych losowych
Współczynnik korelacji liniowej
cov( X , Y )
ρ=
D ( X ) D (Y )
ρ =
µ 11
µ 02 µ
20
Współczynnik korelacji liniowej
• Współczynnik korelacji opisuje siłę liniowego związku
pomiędzy dwiema zmiennymi.
• Przyjmuje on wartości z przedziału domkniętego <-1; 1>.
• Wartość -1 oznacza występowanie doskonałej korelacji
ujemnej (to znaczy sytuację, w której punkty leżą
dokładnie na prostej, skierowanej w dół), a wartość 1
oznacza doskonałą korelację dodatnią (punkty leżą
dokładnie na prostej, skierowanej w górę).
• Wartość 0 oznacza brak korelacji liniowej
Przykłady układów punktów przy różnych wartościach współczynnika
korelacji liniowej
Analiza rozkładu łącznego –
zmiennej dwuwymiarowej (X,Y)
Y=
pęknięcie
Y=
zgorzelina
Y=
mat.pow
Y=
wżery
Y=
skaza
Y=
inne
Rozkład
zmiennej
X
X= duże
0.05
0.01
0.02
0.01
0.11
0.06
0.26
X=
średnie
0.1
0.03
0.06
0.02
0.09
0.03
0.33
X= małe
0.1
0.06
0.01
0.03
0.20
0.01
0.41
Rozkład
zmiennej
Y
0.25
0.1
0.09
0.06
0.40
0.10
1
Rozkłady brzegowe zmiennych losowych Y i X
Analiza rozkładu łącznego – (JPD)
zmiennej dwuwymiarowej (X,Y)
• Na podstawie tablicy JPD można obliczać prawdopodobieństwa
dowolnych zdarzeń losowych (każde zdarzenie jest sumą zdarzeń
elementarnych/atomowych)
• W wierszu j oraz kolumnie i tabeli JPD, znajduje się
prawdopodobieństwo zdarzenia atomowego polegającego na
jednoczesnym przyjęciu wartości yi przez zmienną Y oraz wartości
xj przez zmienną X, np. P(X = średnia,Y= skaza) = 0.09.
• W ostatnim wierszu tabeli nr 1 zamieszczono rozkład zmiennej Y,
który uzyskuje się w wyniku sumowania wartości pól w kolumnach,
• W ostatniej kolumnie zamieszczono rozkład zmiennej X, uzyskany
w wyniku sumowania wartości pól w wierszach, są to rozkłady
brzegowe zmiennej (X,Y).
• Suma prawdopodobieństw wszystkich zdarzeń atomowych wynosi 1
(jest to warunek konieczny, wynikający z definicji rozkładu
prawdopodobieństw)
Zastosowania tablicowej reprezentacji JPD
• Prawdopodobieństwo zdarzenia polegającego na tym, że
wylosowano wyrób ze skazą lub jakąkolwiek małą wadą
(Y = skaza lub X = mała) można obliczyć z tabeli JPD
dodając wszystkie wartości w kolumnie Y = skaza
i wierszu X = mała, licząc zawartość pola na przecięciu
kolumny „skaza” i wiersza „mała’ tylko jeden raz.
0.1 + 0.06 + 0.01 + 0.03 + 0.2 +0.01+ 0.09 + 0.11 =
0.61
• Wynik ten jest taki sam jak dla prawdopodobieństwa
sumy zdarzeń (X ∪ Y), bo:
P (X ∪ Y) = P(X) + P(Y) – P(X ,Y)
= 0.41 + 0.4 - 0.2 = 0.61
Prawdopodobieństwo warunkowe
Prawdopodobieństwo łączne
Prawdopodobieństwa warunkowe można obliczyć
korzystając z tablicy JPD, np.
• P(pęknięcie/małe) = P(pęknięcie,małe) : P(małe)
= 0,1 : 0,41
= 0,244
• P(małe /pęknięcie) = P(pęknięcie,małe)
:P(pęknięcie)
= 0,1: 0,25
= 0,4
• Prawdopodobieństwo łączne:
P(A,B) = P(A ∩ B)= P(A/B) * P(B)
Zadanie
• Dany jest rozkład zmiennej losowej (X,Y)
Y
1
2
3
3
0,2
0,2
0
4
0,1
0,2
0,3
X
1.
2.
3.
Znaleźć rozkłady brzegowe i obliczyć E(X) i D(X).
Wyznaczyć rozkład warunkowy P(X/Y=1) i obliczyć wartość
oczekiwaną w tym rozkładzie.
O czym świadczy porównanie wyników E(X) i E(X/Y=1) ?
Zadanie 2
Dwuwymiarowa zmienna losowa (XY) posiada następujący rozkład:
yj
xi
0
1
1
0,1
0,1
4
0,1
0,2
7
0,0
0,5
Wyznaczyć momenty zwykłe rzędu pierwszego zmiennej losowej X oraz (X/Y=0).
Jaki wniosek wynika
z porównania obliczonych wartości?
Wyznaczyć wartość oczekiwaną zmiennej losowej (XY)
Wiedząc, że E(Y)=0,8 obliczyć kowariancję w tym rozkładzie.
Czy jej wynik potwierdza wniosek z punktu a)?
Download