Wielowymiarowe zmienne losowe

advertisement
Rozkłady wywodzące się z rozkładu normalnego
standardowego
Bardzo ważną rolę w statystyce odgrywają trzy rozkłady
zmiennych losowych bazujące na zmiennych o standardowych rozkładach normalnych. Są to następujące rozkłady:
1. 2 - (Chi-kwadrat)
2. t-Studenta
3. F-Fishera-Snedecora.
Ze statystykami opartymi na tych rozkładach związane są
takie działy statystyki jak: przedziały ufności, weryfikacja
hipotez, analiza wariancji i regresji.
1
Rozkład Chi-kwadrat
Zmienna losowa X ma rozkład Chi-kwadrat Pearsona,
jeżeli jej funkcja gęstości prawdopodobieństwa dana jest
wzorem:
dla x  0
0
f ( x)    2v 1 v 2v 1  2x
dla x  0
2   2  x e
Wielkość v występująca w podanym wyżej wzorze jest
jednocześnie wartością oczekiwaną tej zmiennej, a jej
podwojona wartość jest wariancją zmiennej:
E 2  v
D2  2  2v
2
Rozkład Chi-kwadrat (c.d.)
Jeżeli zmienne xi mają wszystkie standardowy rozkład
normalny N(0; 1) i są niezależne, to zmienna:
v
 2v   xi2
dla
i  1, 2, . . . , v
i 1
ma rozkład chi-kwadrat.
Liczbę v nazywamy liczbą stopni swobody, wskazuje
ona liczbę niezależnych składników zmiennej  2v , jest
jednocześnie wartością oczekiwaną tej zmiennej
losowej. Wariancja tej zmiennej jest równa 2v.
3
Rozkład Chi-kwadrat (c.d.)
Poniżej podane są wykresy funkcji gęstości prawdopodo-
bieństwa zmiennej dla trzech wybranych stopni swobody.
4
Rozkład t-Studenta
Zmienna losowa t ma rozkład t-Studenta, jeśli jej funkcja
gęstości prawdopodobieństwa dana jest wzorem:
1 ( v v1 )  t 
f v (t ) 
1  
v
v
v  ( 2 ) 
2
 vv1
dla t  R i v  N
Liczba v jest liczbą stopni swobody, a parametrami
rozkładu tej zmiennej losowej są odpowiednio:
Et  0 dla v  1
v
Dt
v2
2
dla v  2
5
Rozkład t-Studenta (c.d.)
Jeżeli zmienne losowe X 0 , X 1 , X 2 , . . . , X v są niezależnymi zmiennymi losowymi o standardowym
rozkładzie normalnym, to zmienna:
X0
t
v
1
v
2
X
 i
i 1
ma rozkład t-Studenta z liczbą stopni swobody v.
6
Rozkład t-Studenta (c.d.)
Poniżej podane są przykładowe wykresy funkcji gęstości
rozkładu t-Studenta dla trzech wybranych stopni swobody.
0.4
v=30
v=4
0.3
v=1
0.2
0.1
0
-3
-2
-1
0
1
2
3
7
Rozkład F-Fishera-Snedecora
Zmienna losowa X ma rozkład F-Fishera-Snedecora, jeżeli jej
funkcja gęstości prawdopodobieństwa dana jest wzorem:
0
u 1
 u v  uv

x2
f u ,v ( x )   2 2
2 
uv

uv
u
v

2






(
ux

v
)
2
2

dla
x0
dla
x0
gdzie u i v są liczbami stopni swobody.
Parametrami zmiennej losowej F-Fishera-Snedecora są
odpowiednio:
v
EF 
v2
dla v  2
2
2
v
(u  v  2)
D2 F 
u(v  2) 2 (v  4)
dla v  4
8
Rozkład F-Fishera-Snedecora (c.d.)
Jeżeli zmienne losowe X 1 , X 2 , . . . , X u i Y1 , Y2 , . . . , Yv
są niezależnymi zmiennymi losowymi o standardowym
rozkładzie normalnym, to zmienna:
u
1
u
2
X
 i
i 1
v
1
v
Y
2
i
i 1
ma rozkład F-Fishera-Snedecora z liczbami stopni swobody
u i v.
9
Rozkład F-Fishera-Snedecora (c.d.)
Poniżej podane są przykładowe wykresy funkcji gęstości
rozkładu F-Fischera-Snedecora dla trzech wybranych par
stopni swobody
10
Wielowymiarowe
zmienne
losowe
11
Wprowadzenie
Niech E będzie zbiorem zdarzeń elementarnych danego eksperymentu. Układ n funkcji (X1, X2, ..., Xn) przyporządkowujących
każdemu zdarzeniu elementarnemu eE n liczb rzeczywistych (x1,
x2, ..., xn) nazywamy zmienną losową n-wymiarową.
Przykład: W badaniach sytuacji finansowej rodzin analizujemy
takie cechy jak:
x1 - liczbę członków rodziny;
x2 - dochód na członka;
x3 - liczbę izb w mieszkaniu.
Wyniki pomiarów dla poszczególnych rodzin, uporządkowane w
podany wyżej sposób można traktować jako realizację 3-wymiarowej zmiennej losowej (X1, X2, X3).
12
Dwuwymiarowe zmienne losowe
Zmienne losowe (dwuwymiarowe) wielowymiarowe mogą być
zarówno skokowe jak i ciągłe.
Dwuwymiarowa zmienna losowa (X, Y) jest typu skokowego,
jeżeli przyjmuje skończoną lub przeliczalną liczbę wartości (xi,
yj) z odpowiednimi prawdopodobieństwami pij.
Rozkład dwuwymiarowej zmiennej losowej typu skokowego
może być określony funkcją rozkładu prawdopodobieństwa:
P( X  xi  Y  y j )  pij
gdzie  pij  1
i, j
13
Dwuwymiarowe zmienne losowe
Rozkład dwuwymiarowej zmiennej losowej typu skokowego
może być także określony funkcją dystrybuanty:
F ( x , y )  P( X  x  Y  y ) 
   P( X  xi  Y  y j )
xi  x y j  y
14
Przykład liczbowy
Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X
jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu.
Niech f.r.p. tej zmiennej będzie dana tabelką
X
1
2
3
4
p.j
Y
1
0,06
0,07
0,07
0,05
0,25
2
0,03
0,04
0,06
0,12
0,25
3
0,04
0,13
0,20
0,13
0,50
pi.
0,13
0,24
0,33
0,30
1,00
15
Rozkłady brzegowe
Rozkład jednej tylko zmiennej, X lub Y, bez względu na
rozkład drugiej, będziemy nazywali rozkładem brzegowym
tej zmiennej.
Rozkłady brzegowe są rozkładami jednowymiarowymi, a ich
f.r.p. określone są następująco:
P ( X  xi )  pi .   pij
j
P (Y  y j )  p. j   pij
i
16
Niezależność zmiennych losowych
Dwuwymiarowe zmienne losowe skokowe (X,Y) są
niezależne, jeżeli:
dla każdego i,j. pij  pi .  p. j
Dla dwuwymiarowych zmiennych losowych dowolnego typu
warunek niezależności można zdefiniować następująco:
zmienne losowe (X,Y) są niezależne wtedy i tylko wtedy,
gdy F(x,y)=F(x)F(y)
17
Rozkłady warunkowe
W przypadku rozkładów dwuwymiarowych istnieje możliwość określenia rozkładu jednej zmiennej pod warunkiem, że
druga zmienna przyjmie określone wartości.
Warunkowe funkcje rozkładu prawdopodobieństwa
określone są następująco:
P ( X  xi Y  y j ) 
P (Y  y j X  xi ) 
pij
p. j
pij
pi .
18
Warunkowe funkcje prawdopodobieństwa
Obliczając warunkowe f.r.p. dla zmiennej losowej Y w
naszym przykładzie otrzymamy:
pij
Y

X  xi
1
2
3
4
1
0,46
0,29
0,21
0,17
2
0,23
0,17
0,18
0,40
3
0,31
0,54
0,61
0,43
j
pi .
1
1
1
1
19
Parametry rozkładu dwuwymiarowej zmiennej losowej
Momentem zwykłym rzędu k+l (k, l = 0, 1,...) dwuwymiarowej
zmiennej losowej (X,Y) typu skokowego nazywamy wyrażenie:
mkl  EX k Y l    xik y lj pij
i
j
Z powyższego wynika, że istnieją dwa momenty rzędu pierwszego
m10 i m01, przy czym
m10=EX oraz m01=EY,
tym samym momenty te są wartościami oczekiwanymi w
rozkładach brzegowych zmiennych X i Y.
20
Parametry rozkładu (c.d.)
Podobnie istnieją trzy momenty rzędu drugiego:
m20=EX2; m02=EY2; m11=EXY
Przykład: Obliczając momenty rzędu pierwszego i drugiego w
naszym przykładzie otrzymujemy:
m10=EX=1 • 0,13 + 2 • 0,24 + 3 • 0,33 + 4 • 0,30 = 2,8
m01=EY=1 • 0,25 + 2 • 0,25 + 3 • 0,50 = 2,25
m20=EX2=12 • 0,13+22 • 0,24+32 • 0,33+42 • 0,30 = 0,13+0,96+2,97+4,80 = 8,86
m02=EY2=12 • 0,25 + 22 • 0,25 + 32 • 0,50 = 0,25 + 1,00 + 4,50 = 5,75
m11=EXY=1 • 1 • 0,06 + 1 • 2 • 0,03 +1 • 3 • 0,04+2 • 1 • 0,07+ 2 • 2 • 0,04 +
+ 2 • 3 • 0,13 +3 • 1 • 0,07 +3 • 2 • 0,06 +3 • 3 • 0,20+
+ 4 • 1 • 0,05 + 4 • 2 • 0,12 + 4 • 3 • 0,13 = 0,24 + 1,08 + 2,37 + 2,72 = 6,41
21
Parametry rozkładu (c.d.)
Momentem centralnym rzędu k+l (k, l = 0, 1,...) dwuwymiarowego rozkładu zmiennej losowej (X,Y) typu skokowego
nazywamy wyrażenie:
 kl  E ( X  m10 ) k (Y  m01 ) l 
   ( xi  m10 ) k ( y j  m01 ) l pij
i
j
22
Obliczanie momentów centralnych
Z definicji momentu centralnego wynika, że:
 10  E ( X  m10 )  0,
 01  E (Y  m01 )  0
 20  E ( X  m10 ) 2  D2 X ,  02  E (Y  m02 ) 2  D2Y
Istnieje jeszcze jeden moment centralny rzędu
drugiego:
 11  E ( X  m10 )(Y  m01 )
Moment ten nazywamy kowariancją i oznaczamy
symbolem CXY.
23
Związki między momentami
Między momentami
zachodzą związki:
centralnymi
a
zwykłymi
 20  m20  m102
 02  m02  m012
 11  m11  m10m01  EXY  EX  EY
Można udowodnić, że jeżeli zmienne losowe (X,Y)
są niezależne, to kowariancja jest równa zero. O
zmiennych (X,Y), dla których CXY=0 mówimy, że są
nieskorelowane.
24
Współczynnik korelacji
Z kowariancją związany jest jeszcze jeden parametr rozkładu
dwuwymiarowego, tzw. współczynnik korelacji zmiennych
losowych (X,Y):
CXY

DX  DY
Z własności kowariancji wynika następująca własność
współczynnika korelacji:
1    1
Współczynnik korelacji jest miarą siły związku między
zmiennymi losowymi.
25
Obliczenia momentów centralnych i
współczynnika korelacji
Korzystając ze związków między momentami otrzymujemy
w naszym przykładzie:
 20  8,86  2,82  8,86  7,84  1,02
 02  5,75  2,252  5,75  5,0625  0,6875
 11  6,41  2,8  2,25  6,41  6,3  0,11
Możemy już obliczyć współczynnik korelacji:
0,11
0,11


 0,131
1,02  0,6815 0,834
26
Warunkowe wartości oczekiwane
Warunkową wartością oczekiwaną zmiennej losowej Y przy
warunku, że zmienna X = xi nazywamy wyrażenie:
E (Y X  xi )   y j
j
pij
pi .
Analogicznie definiujemy warunkową wartość oczekiwaną
zmiennej X:
E ( X Y  y j )   xi
i
pij
p. j
27
Obliczanie warunkowych wartości oczekiwanych
Obliczmy warunkowe wartości oczekiwane zmiennej losowej
Y w naszym przykładzie. Kolejno otrzymujemy:
E(Y/X=1)=10,46+20,23+30,31=1,85
E(Y/X=2)=10,29+20,17+30,54=2,25
E(Y/X=3)=10,21+20,18+30,61=2,40
E(Y/X=4)=10,17+20,40+30,43=2,26
28
Funkcja regresji I rodzaju
Warunkowe wartości oczekiwane zmiennej Y zależą od wartości
zmiennej X, są pewną funkcją tej zmiennej. Funkcję tę możemy
zapisać następująco:
E (Y X  xi )  m( x )
Tak określoną funkcję nazywamy funkcją regresji I rodzaju
zmiennej losowej Y względem zmiennej losowej X.
W naszym przykładzie funkcję tę można zapisać następująco:
 1,85 dla x  1
2,25 dla x  2

m( x )  
2,40 dla x  3
2,26 dla x  4
29
Wykres funkcji regresji I rodzaju
2.50
2.00
1.50
1.00
0.50
0.00
0
1
2
3
4
30
Funkcja regresji II rodzaju
W praktyce najwygodniej jest zastąpić nieliniowe krzywe
regresji I rodzaju funkcjami liniowymi, jeżeli tylko takie
przybliżenie jest wystarczające.
Spośród wszystkich możliwych prostych wybieramy taką, dla
której średnie odchylenie kwadratowe wartości danej
zmiennej od tej prostej jest minimalne:
E {[Y  ( a  bX )] 2 }  min
31
Funkcja regresji II rodzaju (c.d.)
Rozwiązując ten warunek otrzymujemy:
CXY
b 2
a  EY  bEX
D X
Parametr b nazywamy współczynnikiem regresji liniowej
zmiennej Y względem X.
W naszym przykładzie otrzymujemy:
0,11
b
 0,1078 oraz
1,02
a  2,25  0,1078  2,8  1,9481
Tym samym prosta regresji ma postać:
~
Y  0,1078 X  1,9481
32
Wykres funkcji regresji II rodzaju
2.5
2
1.5
1
Ir
II r
0.5
0
0
1
2
3
4
33
Download