rp-stat-plan

advertisement
Rachunek prawdopodobieństw i statystyka.
I.
Wstęp – zdarzenia losowe, prawdopodobieństwo,
1. Pojęcia pierwotne: doświadczenie losowe, zdarzenie elementarne e , Przestrzeń
zdarzeń elementarnych Ω.
2. Zdarzenie losowe definicja: Zdarzeniem losowym nazywamy każdy element
przeliczalnie addytywnego ciała Z przestrzeni zdarzeń elementarnych (inaczej sigma
ciało zdarzeń).
Uwaga: Gdy Ω jest przeliczalne to każdy podzbiór Ω jest zdarzeniem losowym.
Przeliczalnie addytywne ciało zbioru Ω to niepusta klasa Z podzbiorów zbioru Ω taka, że
i.
ii.
iii.
Z
Jeśli A  Z to A '  Z - stąd wynika, że  Z - (dopełnienie należy do Z.)
Suma co najwyżej przeliczalnej liczby zbiorów Ai należących do Z również należy do Z
Jeśli Ai  Z to
Ai  Z i
stąd i z ii wynika też, że każda przeliczalna różnica należy do Z, oraz że każdy iloczyn
również należy do Z. Z nazywane jest też sigma-algebrą.
Maksymalna ilość elementów w Z to 2m , gdzie m to ilość zdarzeń elementarnych
3. Operacje na zdarzeniach losowych – algebra zbiorów.
a. Alternatywa (suma): A  B - zachodzi zdarzenie A lub B
b. Koniunkcja (iloczyn) A  B  AB - zachodzi zdarzenie A i B (niekoniecznie
jednocześnie w czasie)
c. Różnica A \ B - zachodzi zdarzenie A i nie zachodzi zdarzenie B
d. A '   \ A - zdarzenie przeciwne do A (lub dopełnienie A) stąd mamy:
A  A '   i AA '  
e. A  B - zdarzenie A pociąga za sobą (implikuje) zdarzenie B
f. A  B i B  A to A  B - zdarzenia są równe
g. A  B   zdarzenia rozłączne
h. Podziałem przestrzeni zdarzeń elementarnych jest rodzina
 At , t T 
At  Z taka, że At1 At2   dla t1  t2 i
At  
t
4. Własności działań na zdarzeniach
a. Przemienność AB  BA A  B  B  A
b. Łączność A( BC )  ( AB)C A  ( B  C )  ( A  B)  C
c. Rozdzielność koniunkcji wzg. alternatywy i alternatywy wzg. koniunkcji
A( B  C )  AB  AC A  ( BC )  ( A  B)( A  C )
d. Prawa de Morgana: ( AB) '  A ' B ' ( A  B) '  A ' B '
5. Definicja prawdopodobieństwa – aksjomatyczna (Kolmogorow):
Prawdopodobieństwo to funkcja określona na zbiorze Z i przyporządkowująca
każdemu elementowi tego zbioru liczbę P(A) zgodnie z następującymi warunkami:
i.
P(A)  0 dla każdego A  Z
ii.
P ()  1
iii.
Dla dowolnego ciągu parami rozłącznych zdarzeń Ai ( Ai Aj   dla i  j )
Ai )   P( Ai ) - stąd i z
należących do zbioru Z zachodzi: P(
i
i
poprzednich dwóch punktów wynika, że P : Z  [0,1]
6. Własności prawdopodobieństwa
a. P ()  0
b. Jeśli A  B to P ( A)  P ( B )
c.
d.
e.
f.
g.
P ( A)  1
Jeśli A  B to P(B\ A)  P( B)  P(A)
P( A)  P( A ')  1
P( A  B)  P( A)  P( B)  P( AB)
Jeśli przestrzeń zdarzeń elementarnych jest co najwyżej przeliczalna i
określone są prawdopodobieństwa wszystkich zdarzeń elementarnych to
P( A)  pi1  ...  pik jeśli zdarzenia elementarne ei1 ,..., eik sprzyjają
zdarzeniu A
h. Klasyczna definicja prawdopodobieństwa (Laplace)
Jeśli przestrzeń składa się z n zdarzeń elementarnych i wszystkie zdarzenia
elementarne są jednakowo prawdopodobne to P( A) 
n( A)
, gdzie n(A) to
n ( )
liczba zdarzeń elementarnych sprzyjających zdarzeniu A.  przykład 3
teleturniej 3 drzwi.
7. Przestrzeń probabilistyczna: (, Z , P)
8. Prawdopodobieństwo warunkowe: P( A | B) 
P( AB)
P( B)
9. Niezależność zdarzeń: P( AB)  P( A) P( B)
10. Prawdopodobieństwo zupełne
n
Jeśli Ai są parami rozłączne i
Ai   oraz P(Ai )  0 wówczas
i 1
n
P( B)   P( Ai ) P( B | Ai )
i 1
11. Twierdzenie Bayesa: P (A k | B) 
P ( Ak ) P ( B | A k )
n
 P( A ) P( B | A )
i 1
i
- prawdopodobieństwo a
i
priori i a posteriori.
a. czułość testu diag. (objawu): prawdopodobieństwo że test wypadnie
dodatnio zakładając, że pacjent jest rzeczywiście chory P(A|B) (A-jest objaw,
pozytywny wynik testu, B – pacjent jest chory na daną chorobę).
b. swoistość testu diag. (objawu): prawdopodobieństwo że test wypadnie
ujemnie zakładając, że pacjent nie jest chory. P(A’|B’)
12. Elementy kombinatoryki:
a. Ilość permutacji zbioru n-elementowego – n!
b. Ilość kombinacji k elementowych zbioru n elementowego (bez powtórzeń)
n
n!
Cnk    
 k  k !(n  k )!
c. Ilość kombinacji k elementowych zbioru n elementowego (z powtórzeniami)
k
 k  n  1
Cn  

 k 
n
k 
d. Ilość wariacji bez powtórzeń Vnk    k !
k
e. Ilość wariacji k-elementowych z powtórzeniami V n  n k
13. Prawdopodobieństwo w binarnych eksperymentach powtarzalnych
n
Pn,m    p m q n m gdzie p – prawdopodobieństwo sukcesu, q=1-p –
 m
II.
prawdopodobieństwo porażki, Pn,m – prawdopodobieństwo, że w n próbach będzie m
sukcesów.
Zmienna losowa – dyskretna i ciągła, rozkład prawdopodobieństwa zmiennej losowej.
1. Definicja zmiennej losowej:
Niech (, Z , P) będzie dowolną przestrzenią probabilistyczną. Zmienna losowa to
dowolna funkcja X określona na zbiorze zdarzeń elementarnych o wartościach ze
zbioru liczb rzeczywistych, taka że dla dowolnego ustalonego x
zbiór zdarzeń
elementarnych, dla których przyjmuje ona wartość mniejszą niż x jest zdarzeniem
losowym.
X : 
x 
{e : X (e)  x}  Z
a. Powyżej zdefiniowany podzbiór jest zdarzeniem losowym.
b. Zdarzeniem losowym są też zbiory: {e : X (e)  R} gdzie R to dowolny zbiór
borelowski na prostej.
2. Definicja dystrybuanty.
Niech (, Z , P) będzie dowolną przestrzeń probabilistyczną. Funkcję FX określoną
na zbiorze
wzorem:
FX ( x)  P( X  x) dla x
Nazywamy dystrybuantą zmiennej losowej X.
3. Własności dystrybuanty
a. 0  F ( x)  1 dla każdego x
b.
lim F ( x)  F ()  0 lim F ( x)  F ( )  1
x 
x 
c. F jest funkcją niemalejącą
d. F jest co najmniej lewostronnie ciągła lim F ( x)  F ( x0 )
x  x0
e.
P(a  X  b)  F(b)  F(a)
f.
P( X  x0 )  lim F ( x)  F ( x0 ) stąd wynika, że gdy F jest ciągła
x  x0
P(X  x0 )  0
g. Dowolna funkcja G o wartościach rzeczywistych spełniająca warunki b, c, d
jest dystrybuantą.
4. Zmienna losowa typu skokowego (dyskretnego)
a. Zmienna losowa jest typu dyskretnego, jeśli zbiór jej wartości
WX  {x1 , x2 ,...} jest przeliczalny lub skończony, oraz P( X  xi )  pi  0
dla każdego i, takie, że
p
i
 1 ( xi to punkty skokowe zmiennej X)
i
b. Funkcję p( xi )  P( X  xi )  pi nazywamy rozkładem
prawdopodobieństwa zmiennej losowej X.
c. Dystrybuanta zmiennej skokowej F ( x) 

 xi  x
pi
d. Znając dystrybuantę można łatwo obliczyć rozkład prawdopodobieństwa
korzystając z własności 3f.
5. Zmienna losowa typu ciągłego
a. Zmienną losową nazywamy ciągłą jeśli przyjmuje wszystkie wartości z
pewnego przedziału i istnieje taka nieujemna funkcja f, że dystrybuantę
zmiennej losowej X możemy przedstawić jako F ( x) 

x

f (t )dt . f nazywa
się gęstością prawdopodobieństwa, lub gęstością.
b. Jeżeli x jest punktem ciągłości f to F '( x)  f ( x)

c.

f (x)dx  1

d. c 
P(X  c)  0
b
e.
P(a  X  b)   f ( x)dx
a
6. Funkcje zmiennych losowych
a. Jeśli X jest zmienną losową, a g jest dowolną funkcją o wartościach
rzeczywistych określoną na zbiorze wartości zmiennej X to wtedy U  g (X)
( U (e)  g ( X (e)), e   ) jest zmienną losową o rozkładzie:
i. Dla zmiennej dyskretnej:
q j  q(u j )  P(U  u j ) 

{ xi :g ( xi ) u j }
p( xi )
xi WX , u j WU , u j  g ( xi )
ii. Dla zmiennej ciągłej.
Twierdzenie: Jeśli g(X) jest funkcją ściśle monotoniczną, oraz
g '( x)  0 dla x wówczas gęstość zmiennej U wyraża się
wzorem: fU (u )  f X ( g 1 (u )) ( g 1 (u)) ' , gdzie g
1
oznacza funkcję
odwrotną do g .
Dowód jest prosty. Załóżmy, że wybieramy odcinek (x1, x2), wówczas
zmiana zmiennych w całce poniżej pozwala szybko odnaleźć gęstość
zmiennej losowej u (przyjmujemy, że u1=g(x1) i u2=g(x2):
P(x1  x  x2 ) 
x2
f
u2
X
( x)dx   f X ( g 1 (u ))(g 1 (u)) 'du
x1
u1
Gdy g jest rosnąca (u2>u1) wyrażenie w ostatniej całce to gęstość
zmiennej losowej u. Jeśli g jest malejąca to należy zmienić kolejność
granic w ostatniej całce. Ponieważ monotoniczność funkcji
odwrotnej jest taka sama jak funkcji wyjściowej, więc ostatecznie
otrzymujemy: fU (u )  f X ( g 1 (u )) ( g 1 (u)) '
Twierdzenie: Jeśli u=g(x) jest funkcją przedziałami ściśle
monotoniczną, ai dla i=0,1,2,…,n to granice odpowiednich
przedziałów, a g  gi w tych przedziałach to gęstość zmiennej
losowej U wyraża się wzorem:
 f X ( gi1 (u )) ( gi1 (u)) ' c<u<d

fU (u )   i

0
dla pozostalych u
gdzie ci  g (a i ) dla i=1,2,…,n oraz c  min ci i d  max ci
i
i
Dowód jest bezpośrednim wnioskiem z poprzedniego twierdzenia.
7. Niezależność zmiennych losowych – Zmienne losowe X i Y określone na tej samej
przestrzeni zdarzeń losowych są niezależne jeśli zdarzenia { X  x} i {Y  y} są
niezależne, tzn. gdy zachodzi: P( X  x, Y  y )  P( X  x) P(Y  y )
a. Dla zmiennych losowych dyskretnych:
P( X  xi , Y  y j )  P( X  xi ) P(Y  y j ) x i WX i y j WY
b. Dla zmiennych losowych ciągłych P( X  x, Y  y )  FX ( x) FY ( y ) x, y
III.
Zmienna losowa – charakterystyki liczbowe i przykładowe rozkłady.
1. Miary położenia
  xi pi
 xi Wx
a. Wartość przeciętna, średnia, oczekiwana - E ( X )   
(zakładamy,
  xf ( x )dx
 
że całka i szereg są zbieżne) i jej własności (c to stała):
i. E (c)  c
E (c X )  cE ( X )
iii. E ( X  c)  E (X)  c
iv. E ( X  EX )  0
v. E ( X  Y )  E ( X )  E (Y )
vi. E ( XY )  E ( X ) E (Y ) gdy X i Y są niezależne
ii.
b. Mediana – każda liczba x0.5 , że
  pi  0.5   pi

xi  x0.5
F ( x0.5 )  0.5  F ( x0.5  0)   xi  x0.5

F ( x0.5 )  0.5
c. Kwantyl rzędu p – każda liczba x p , że
  pi  p   pi

xi  x p
F ( x p )  p  F ( x p  0)   xi  x p

F (xp )  p
d. Moda –wartość najbardziej prawdopodobna
2. Miary rozrzutu
  ( xi   ) 2 pi
 xi Wx
a. Wariancja V ( X )  E (( X  E ( X )) 2 )   
, właściwości
  ( x   ) 2 f ( x)dx
 
i. V (c)  0
ii. V (aX )  a V ( X )
2
iii. V ( X  c)  V ( X )
iv. V ( X  Y )  V ( X )  V (Y ) gdy X i Y są niezależne
v.
V( X )  E ( X 2 )  E 2 ( X )
b. Odchylenie standardowe   V (X)
c. Współczynnik zmienności  

E( X )
3. Momenty zwykłe mr  E (X r )
4. Moment centralny r  E (( X  E ( X )) r )
5. Współczynnik skośności AS 
3
3
6. Współczynnik skupienia – kurtoza K 
4
 3 (K>0 – leptokurtyczny, K<0 –
4
platokurtyczny)
7. Rozkłady skokowe:
a. Równomierny pi 
1 n
1 n
1
, E ( X )   xi , V ( X )   ( xi  E ( X )) 2
n
n i 1
n i 1
b. Jednopunktowy p1  P( x1 )  1 , E ( X )  x1 , V ( X )  0
c. Zero-jedynkowy, dwupunktowy, Bernoulliego
p1  P( X  0)  q  1  p, p2  P(X  1)  p , E ( X )  p, V(X)=pq
d. Rozkład dwumianowy zmiennej K=0,1,2,…,n – (k sukcesów w n etapowym
eksperymencie binarnym z rozkładem zero-jedynkowym)
n
P(k , n, p)    p k q nk , k  0,1,..., 2 q  1  p
k 
E ( K )  np, V ( K )  npq, 3  npq(1  2 p)
i. Dla n=1  rozkład zero-jedynkowy,
ii. dla n>1  K to suma zmiennych niezależnych o rozkładzie zerojedynkowym
iii. Dla n∞ (p stałe) rozkład dwumianowy dąży do rozkładu Gaussa.
iv. Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i
p0, tak, że np=λ
lim P(k , n, pn )  P(k ;  ) gdy npn    0
n 
e. Rozkład Poissona – (ilość zdarzeń w jednostce czasu – czas pojawienia się
zdarzenia określony jest rozkładem wykładniczym) zmienna losowa
K=0,1,2,3,… ma rozkład Poissona gdy:
P(k ;  )  e

k
k!
E ( K )   , V ( K )   , 3 =
i.
Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i
p0, tak, że np.=λ
lim P(k , n, pn )  P(k ;  ) gdy npn    0
n 
ii. Dla dużej wartości λ i dużych wartości k rozkład Poissona może być
przybliżony rozkładem Gaussa o średniej λ i wariancji λ.
8. Rozkłady ciągłe
a. Rozkład równomierny – skoncentrowany na przedziale [a,b]
 1
dla a  x  b

f ( x)   b  a
0 dla x  a  x>b
ab
1
E ( X )  x0.5 
, V ( X )  (b  a) 2
2
12
b. Rozkład wykładniczy – np. rozkład czasu bezawaryjnej pracy danego
elementu, lub czas w którym pojawi się samochód na jakiejś ulicy, lub czas
między jednym a drugim rozpadem jądra, prawdopodobieństwo przetrwania
jądra niestabilnego przez czas x, okres między trzęsieniami ziemi, itp.
Można go wyprowadzić wychodząc z założenia, że czas oczekiwania na
zdarzenie można modelować jako eksperyment Bernoulliego, w którym czas
oczekiwania jest podzielony na bardzo dużą ilość prób Bernoulliego n∞, a
prawd. porażki w każdej z tych prób jest liczbą stałą równą 1-t/(λn), gdzie t to
czas czekania. Wówczas prawdopodobieństwo, że czas oczekiwania jest
większy lub równy t wynosi: 1  t /  n   exp  t /   - z rozwinięcia
n
Taylora wzg. T=0 i w granicy n ∞. – Stąd prawd. że nastąpił sukces w czasie
krótszym niż t to 1-exp(-t/λ)
1
 x
 exp    dla x  0
f (x)   
 
0
dla x  0

F ( x)  1  exp( x /  ), E( X )  , V ( X )   2 λ to czas życia
Brak pamięci - a, b  0 P( X  a  b | X  a)  P( X  b)
Prawdopodobieństwo, że czas oczekiwania na zjawisko jest dłuższy
niż a+b pod warunkiem że minął już czas a jest takie samo jak
prawdopodobieństwo, że czas oczekiwania jest dłuższy niż b.
c. Rozkład normalny, Gaussa
i.
 ( x   )2 
1
exp  

2 2 
 2

E ( X )  x0.5  m1   , V ( X )   2
f ( x) 
Rozkład standaryzowany z 
x

 N(0,1)
d. Inne rozkłady ważne w statystyce: gamma, chi2, F-Snedecora, t- Studenta.
9. Rozkłady ucięte  prawdopodobieństwo warunkowe.
10. Centralne Twierdzenie Graniczne Lindeberga-Levy’ego:
Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o
skończonej wartości oczekiwanej µ i wariancji σ2>0, oraz Yn 
Xn 
to ciąg
/ n
1 n
standaryzowanych średnich arytmetycznych X n   X n wówczas ciąg
n i 1
dystrybuant Fn ( y) jest zbieżny do dystrybuanty rozkładu normalnego
standaryzowanego N(0,1).
lim Fn ( y ) 
n 
1
2
y
 1
 exp   2 t

2

 dt

Jeżeli przyjmiemy, że średnia X n 
1 n
 X n to średnia z próbki wówczas możemy
n i 1
powiedzieć, że bez względu na rozkład statystyczny cechy w danej populacji rozkład
średnich z próbek zbliża się do rozkładu normalnego wraz ze wzrostem rozmiaru
próbki.
Dowód wymaga odwołania się do funkcji charakterystycznej rozkładu.
11. Mocne prawo wielkich liczb Kołmogorowa:
Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o
skończonej wartości oczekiwanej µ, to wówczas zachodzi mocne prawo wielkich
liczb, tzn. że dla
Xn 
1 n
 X i zachodzi
n i 1
 
 
P lim X n  E (X)  0  1
n 
IV.
Mówiąc inaczej średnia z próbki jest dobrym przybliżeniem średniej z populacji jeśli próbka
jest dostatecznie duża. Oznacza to, że średnia z próbki jest zgodnym estymatorem.
Zmienna losowa dwuwymiarowa – korelacja i regresja.
1. Dwuwymiarowa zmienna losowa – Parę zmiennych (X,Y) zmiennych losowych X i Y
określonych nie koniecznie na tej samej przestrzeni probabilistycznej nazywamy
dwuwymiarową zmienną losową.
a. Dystrybuanta – Funkcja F :
2
 [0,1] taka, że
F ( x, y )  P( X  x, Y  y ) x, y 
i.
x 
ii.
lim F ( x, y)  1
, własności:
lim F ( x, y)  0, y 
lim F ( x, y)  0
y 
x 
x 
y 
iii. Dla dowolnych punktów (x1,y1) i (x2,y2) takich, że x1<x2 i y1<y2
zachodzi:
P( x1  X  x2 , y1  Y  y2 )  F ( x2 , y2 )  F ( x2 , y1 )  F ( x1 , y2 )  F ( x1 , y1 )  0
 Interpretacja geometryczna
iv. F jest niemalejąca i przynajmniej lewostronnie ciągła wzg. Każdego
argumentu.
b. Rozkłady brzegowe - F1 ( x)  lim F ( x, y)  P(X  x, Y  ) dystrybuanta
y 
X, gdy Y przyjmuje dowolne wielkości
F2 (y)  lim F ( x, y )  P(X  , Y  y) podobnie dla Y
x 
c. Dwuwymiarowa zmienna losowa typu skokowego -
P( X  xi , Y  yk )  pik i, k 
i zachodzi
p
1
ik
i ,k
i.
Rozkłady brzegowe: P( X  xi )  pi 
p
F1 ( x)   pi i
ik
xi  x
k
analogicznie dla P(Y=y) P(Y  yk )  p k 
p
ik
F2 (y) 
i
p
yk  y
k
ii. Rozkłady warunkowe – Jeśli wszystkie p.k są dodatnie to możemy
zdefiniować prawdopodobieństwo warunkowe jako:
P( X  xi | Y  yk ) 
pik
pk
F(x|yk )  P( X  x | Y  yk )  
xi  x
pik
pk
analogicznie dla P(Y=yk|X=xi)
d. Dwuwymiarowa zmienna losowa (X,Y) jest typu ciągłego jeśli istnieje taka
nieujemna funkcja f taka, że dystrybuantę tej zmiennej można przedstawić w
x
postaci: F ( x, y ) 
y

f (u, v)dudv x, y 
f to gęstość rozkładu
 
prawdopodobieństwa, a F(x,y) to odpowiednia objętość bryły pod wykresem
f.
i. Własności f
 


f (u, v)dudv  1
 

W punktach ciągłości (x,y) mamy
 2 F ( x, y)
 f ( x, y)
xy

Dla obszaru regularnego B 
mamy
2
P((X, Y)  B)   f ( x, y)dxdy , w szczególnym
B
przypadku, gdy B jest prostokątem o skrajnych
współrzędnych a,b,c,d, mamy:
b d
P((X, Y)  B)    f (x, y) dxdy
a c

x
ii. Rozkłady brzegowe - F1 ( x) 

f1 (u ) 
f1 (u )du


f (u, v)dv i

analogicznie dla F2(y)
x
iii. Rozkład warunkowy - F ( x | y ) 

f (u | y) du
f (u | y ) 

f (u, y )
f2 ( y)
2. Niezależność zmiennych losowych – Zmienne X i Y zdefiniowane na tej samej
przestrzeni zdarzeń elementarnych są niezależne jeśli dla dowolnych borelowskich
zbiorów A i B zdarzenia Z1  {e : X (e)  A} i Z 2  {e : Y(e)  B} są niezależne, czyli
P(Z1 , Z 2 )  P(Z1 ) P(Z 2 ) Stąd warunkiem koniecznym i wystarczającym, aby
zmienne losowe X i Y były niezależne jest:
f ( x, y)  f1 ( x) f 2 ( y)

F ( x, y)  F1 ( x) F2 ( y)  
 P( X  xi , Y  yk )  P( X  xi ) P(Y  yk )
3. Charakterystyki liczbowe dwuwymiarowej zmiennej losowej
a. Momenty zwykłe mieszane rzędu r+s  rs  E ( X rY s ) r , s  0,1, 2,...
b. Momenty centralne mieszane rzędu r+s
rs  E (( X  E ( X )) r (Y  E (Y )) s ) r , s  0,1, 2,...
Macierz momentów centralnych rzędu 2
11   V ( X )
cov( X , Y) 

M   20


V (Y ) 
 11 02   cov( X , Y)
cov( X , Y )  E ( XY )  E ( X ) E (Y ) - dla niezależnych zmiennych losowych
X i Y cov(X,Y)=0
c. Współczynnik korelacji liniowej – Jeśli V(X)>0 i V(Y)>0 to współczynnik

cov( X , Y )
jest miarą zależności liniowej między zmiennymi X i Y.
V ( X )V (Y )
Można wykazać, że jeśli istnieje liniowa zależność między zmiennymi X i Y to
 jest równe 1 lub -1 to z prawdopodobieństwem 1. Dowód łatwy – z
własności V i E.


cov( X , aX  b)
E ( X (aX  b))  E ( X ) E (aX  b)

V ( X )V (aX  b)
V ( X )a 2V ( X )
aE ( X 2 )  bE ( X )  aE 2 ( X )  bE(X) a ( E ( X 2 )  E 2 ( X ))
a


| a |V (X )
| a |V (X )
|a|
4. Funkcje zmiennych losowych – przypadek szczególny: suma, iloczyn
5. Linie regresji.
a. Linie regresji pierwszego rodzaju – określmy warunkowe wartości przeciętne
dla rozkładu skokowego:
E (Y | X  xi )   yk P(Y  yk | X  xi ) 
k
1
pi
y
k
k
pik i dla rozkładu


1
ciągłego: E (Y | X  x)   yf (y | x)dy 
 yf ( x, y)dy . Niech
f1 (x) 

E (Y | X  x)  m2 ( x) wówczas linią regresji pierwszego rodzaju zmiennej
losowej Y wzg. X nazywamy zbiór punktów (x,y) spełniających równanie:
y  m2 ( x) .
i.
Własność: Średnie odchylenie kwadratowe E ((Y  g (X)) )
zmiennej losowej Y od pewnej funkcji g(X) jest najmniejsze gdy
2
funkcja ta z prawdopodobieństwem 1 jest równa m2 (X) .
E ((Y  m2 (X)) 2 )  min
Dowód: Powyższa własność wynika z następującej nierówności:
V ( X )  E (( X  c)2 ) ,którą najpierw udowodnimy:
E (( X  c) 2 )  E ( X 2  2 Xc  c 2 )
 E ( X 2  E 2 ( X )  2 XE ( X )  E 2 ( X )  2 XE ( X )  2 Xc c 2 )
 V ( X )  E ( E 2 (X)  2 XE(X)  2 Xc c 2 )
 V(X)  E 2 ( X )  2 E 2 ( X )  2 E ( X )c  c 2
 V (X)  (E(X)  c) 2
Stąd wynika, że E((X-c)2) jest minimalne dla c=E(X). Dla ciągłych
zmiennych losowych:
 
E ((Y  g ( X )) ) 
2
  ( y  g ( x))
2
f ( x, y )dxdy
 






f1 ( x)   ( y  g ( x)) 2 f ( y | x) dy  dx
 

Wyrażenie w nawiasie jest analogiczne do E((X-c)2) ponieważ dla
ustalonego x g(x) jest wartością stałą. Wykorzystując udowodnioną
powyżej nierówność otrzymujemy oczekiwaną własność. Dla
skokowych zmiennych losowych dowód jest analogiczny.
b. Prostą regresji drugiego rodzaju zmiennej losowej Y wzg. zmiennej losowej X
nazywamy prostą o równaniu y=ax+b, której współczynniki minimalizują
średnią odległość kwadratową między zmiennymi losowymi Y i aX+b.
E ((Y  aX  b)2 )  min
Łatwo wykazać, że dla dowolnej dwuwymiarowej zmiennej losowej (X,Y)
współczynniki a i b określone są wzorami: a  
V.
Y

, b  Y   X Y
X
X
Dowód: Łatwy – wystarczy rozwinąć wyrażenie E((Y-aX-b)2) i zminimalizować
przez przyrównanie pierwszych pochodnych po a i b do zera.
i. Własność: Jeśli zmienne losowe X i Y mają rozkład normalny to linia
regresji pierwszego rodzaju jest równa prostej regresji drugiego
rodzaju.
Statystyka wstęp: statystyka opisowa, skale pomiarowe, estymatory punktowe, przedział
ufności.
1. Co to jest statystyka i czym się zajmuje?  opis i estymacja, czyli przewidywanie
parametrów dla całej populacji na podstawie badań na próbkach. Pojęcia
podstawowe: populacja, próbka, estymatory.
2. mierzone wielkości i skala pomiarowa: jakościowa i ilościowa. jakościowa:
nominalna, porządkowa. ilościowa: interwałowa (równomierna)  ciągła i dyskretna,
ilorazowa
a. nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć,
grupa krwi,
b. porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie
uporządkować, np.: stopień znajomości języka: podstawowy, średnio
zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma,
nadwaga, otyłość. Skala ta może być wyrażana przy pomocy cyfr, np. tak i nie
to 1 i 0, lub skala Apgar (0-10)
c. przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że
można obliczyć odległość między wynikami, większość pomiarów należy do
tej skali, np.: ciśnienie krwi, masa ciała, temperatura
d. ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje
bezwzględne zero), np. wiek,
3. Sposoby przedstawiania surowych danych (szeregi statystyczne: szeregi szczegółowe,
rozdzielcze i czasowe ):
a. histogramy, zwykłe i skumulowane - skala przedziałowa/ilorazowa - zmienne
ciągłe
b. wykresy słupkowe - zmienne dyskretne - realizowane w statistica przez
histogram
c. wykresy kołowe - wszystkie skale
d. łodyga i liście - skala przedziałowa /ilorazowa (diagram łodyga i liście - stat.
podstawowe)
e. wykresy rozrzutu - skala przedziałowa/ilorazowa
4. Statystyka opisowa  tak jak charakterystyki liczbowe zmiennej losowej, tylko, że dla
próbki. Zakładamy prawdopodobieństwo jednostajne, czyli pi=1/n
5. Estymatory, statystyki
a. Załóżmy że badamy cechę X pewnej populacji. Wówczas n-elementową
próbę prostą możemy przedstawić jako ciąg Xn niezależnych zmiennych
losowych o takim samym rozkładzie jak X.
b. Statystyka to dowolna funkcja g zdefiniowana na próbie g ( X1 ,..., X n )
c. Estymatorem nazywamy każdą statystykę ˆn ( X1 ,..., X n ) , której wartości
przyjmujemy jako oceny szukanego parametru rozkładu zmiennej X. Dla
danego parametru można skonstruować wiele estymatorów. Estymator jest
zmienną losową (ponieważ jest funkcją zmiennych losowych) i ma swój
rozkład. Optymalny estymator jest:
nieobciążony, czyli E (ˆn )  
ii. zgodny lim P(| ˆn   |  )  0   0
i.
n 
iii. efektywny – najmniejsza wariancja V (ˆn )  min
1 n
 X i jest zgodnym (na mocy
n i 1
1 n
twierdzenia wielkich liczb) nieobciążonym ( E ( X )   E ( X i )  E ( X ) )
n i 1
d. Przykład 1: średnia z próbki X 
2
estymatorem średniej z populacji o wariancji V ( X ) 
- dla rozkładu
n
normalnego jest to także estymator efektywny.
e. Przykład 2: wariancja S 2 
1 n
 (Xi  X )2 jest estymatorem obciążonym:
n i 1
  E (X)  2  V ( X )
1 n
1 n
E ( S 2 )   E (( X i      X ) 2 )   E ((( X i   )  (   X )) 2 )
n i 1
n i 1
n
1
2 n
  E (( X i   ) 2 )  E((   X ) 2 )   E (( X i   )(   X ))
n i 1
n i 1
1 n
  E (( X i   ) 2 )  E ((X   ) 2 )
n i 1
 
2
2
n

n 1 2
 2
n
ponieważ
1 n
 1
E ((X   ) 2 )  V ( X )  V   Xi   2
 n i 1  n
n
2
i 1
n
 V(Xi ) 
Jest to estymator asymptotycznie nieobciążony, ponieważ lim E ( S 2 )   2
n
Estymatorem nieobciążonym wariancji z populacji jest
S *2 
1 n
 (Xi  X )2 , który jest także asymptotycznie efektywny. Oba
n  1 i 1
estymatory są zgodne.
f. Uwaga jeśli dany estymator ˆn ( X1 ,..., X n ) ma pewne pożądane własności,
to inny estymator będący funkcją tego estymatora wcale nie musi ich mieć.
Np. S * jest obciążonym estymatorem odchylenia standardowego, mimo że
S *2 jest nieobciążonym estymatorem wariancji.
6. Sposoby znajdowania estymatorów.
a. Metoda największej wiarogodności – Jeśli chcemy oszacować k parametrów
 na podstawie n-elementowej próby wówczas możemy użyć funkcji
wiarogodności L
L  f ( x1;1 ,...,k )... f ( xn ;1 ,...,k )
Gdzie f to gęstość prawdopodobieństwa (zmienne ciągłe), lub funkcja
rozkładu prawdopodobieństwa (zmienne dyskretne). Estymatory otrzymuje
się przez maksymalizację L, a dokładniej ln(L) co jest wygodniejsze.
 ln L
0
i
i  1,..., k , oraz macierz
 2 ln L
jest negatywnie określona,
 i  j
czyli wszystkie jej wartości własne są ujemne.
Estymatory otrzymane tą metodą nie zawsze są optymalne, ale przy
dostatecznie regularnych funkcjach rozkładu są zgodne.
b. Metoda momentów – obliczamy momenty (zwykle kilka pierwszych) dla
próby i przyrównujemy je do momentów otrzymanych z modelowanego
rozkładu. W ten sposób otrzymujemy równania, z których wyliczamy
parametry rozkładu. Ilość użytych momentów musi być oczywiście co
najmniej równa ilości estymowanych parametrów.
c. Metoda najmniejszych kwadratów  przy okazji regresji.
7. Inne estymatory:
a. Wskaźnik struktury p – ˆn 
k
- zgodny, nieobciążony, efektywny - tylko
n
dla rozkładu Bernoulliego.
b. Współczynnik zmienności - V 
S
X
8. Estymacja przedziałowa średniej
a. Na mocy centralnego twierdzenia granicznego dla dostatecznie dużych
próbek średnia z próbki ma rozkład normalny X N (  ,  / n) .
b. Zakładamy, że w realnym eksperymencie (pomiarze) nie otrzymamy wartości
zmiennej losowej X, które są bardzo mało prawdopodobne. Wówczas
2
możemy przyjąć, że zredukowana zmienna losowa Z 
X 
znajdzie się
/ n
w przedziale [ z /2 , z /2 ] , gdzie z /2 to kwantyl rzędu 1   / 2
standaryzowanego rozkładu normalnego. Stąd otrzymujemy, że średnia z

populacji powinna być w przedziale:  X 

z /2
n
,X 
z /2 
 , który
n 
nazywamy przedziałem ufności średniej. Przedział ten zależy od konkretnej
wartości elementów w próbie i jest różny dla różnych prób. Jeśli
skonstruujemy wiele takich przedziałów, dla różnych prób, to w 100 *(1   )
procentach takich przedziałów powinna znajdować się prawdziwa wartość
średniej z populacji, która jest wartością stałą. α jest wartości małą (zwykle
0.05, lub 0.01) i nazywane jest poziomem istotności. 1- α to poziom ufności.
c. Jeśli nie znamy wariancji z całej populacji (co ma zwykle miejsce), to wówczas
zamiast rozkładu normalnego używamy rozkładu t-Studenta, a zamiast
wariancji dla całej populacji używamy estymatora dla próby S*2. Wówczas
otrzymujemy następujący przedział ufności dla średniej:

tn /21S *
tn /21S * 
n 1
,X 
X 
 , gdzie t / 2 to kwantyl rzędu 1   / 2 rozkładu tn
n 

Studenta z n-1 stopniami swobody. Dla dużych n statystyka t-Studenta dąży
do rozkładu normalnego standaryzowanego.
9. Estymacja przedziałowa odchylenia standardowego
a. Dla zmiennej X o rozkładzie normalnym korzystamy ze statystyki  
2
nS 2
2
która ma rozkład chi-kwadrat. Wówczas odchylenie standardowe z populacji
należy do przedziału:


n
n
S,
S
 2

 2 ( / 2, n  1) 
  (1   / 2, n  1)
2
2
Gdzie  (1   / 2, n  1) i  ( / 2, n  1) to odpowiednie kwantyle
VI.
rozkładu chi-kwadrat z n-1 stopniami swobody.
Dla dużych próbek (n>50) można stosować przybliżenie rozkładem
normalnym.
Statystyka – testowanie hipotez statystycznych, parametryczne testy istotności.
1. Hipoteza statystyczna to każde przypuszczenie dotyczące rozkładu badanej cechy w
populacji. Przyjmujemy zwykle dwie hipotezy, tzw. Zerową H0 i alternatywną H1 (HA),
które się wzajemnie wykluczają.
a. Hipotezy dwustronne – np.: H0 : 1  2 H1 : 1  2
b. Hipotezy jednostronne – np.: H0 : 1  2 H1 : 1  2
2. Weryfikacja hipotez dokonuje się przez obliczenie statystyki testowej na próbie. W
zależności od wartości statystyki wybieramy jedną z hipotez. Rodzaj użytej statystyki
zależy od rodzaju problemu. Wybór hipotezy nie oznacza, że jest ona prawdziwa. W
każdym wypadku możemy popełnić błąd.
prawdopodobieństwo
Nie odrzucamy H0
akceptacja H1
H0 prawdziwa
ok - 1-α
α - błąd 1 rodzaju
H1 prawdziwa
β – błąd 2 rodzaju
ok - 1-β
Moc testu to prawdopodobieństwo 1-β, że jeśli hipoteza H1 jest prawdziwa to H1 zostanie
zaakceptowana.
3. Istnieje relacja między błędem pierwszego i drugiego rodzaju. Im większy błąd I
rodzaju tym mniejszy błąd II rodzaju i odwrotnie. Wartość  powinna być niewielka
(zwykle 0.05 lub 0.01), ale taka aby moc testu była duża.  rys.
4. Moc testu – Im test jest mocniejszy tym łatwiej wykazać prawdziwość H1. Moc testu
zależy od wielkości próby, sformułowania hipotez oraz rozrzutu wyników w próbie.
Im większa próba i mniejszy rozrzut wyników tym test jest mocniejszy.
5. Testy parametryczne – zakładają pewien rozkład cechy w populacji – najczęściej jest
to rozkład normalny.
6. Przykładowe testy parametryczne:
a. Test dla jednej próby – porównanie z wartością tablicową:
i. Założenia – Próbka ma rozkład normalny, lub jest dostatecznie duża,
tak, ze można skorzystać z Centralnego Twierdzenia Granicznego.
ii. Hipotezy: H0 :   0 ,    0 H1 :   0 ,    0
iii. Statystyka: t 
X  0
S */ n
iv. Obszar krytyczny: Jeśli t  tn/21  t  tn/21 to wybieramy hipotezę H1.
W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy
podstaw do odrzucenia hipotezy zerowej.
v. Uwaga: Ten test jest równoważny sprawdzeniu, czy 0 należy do

przedziału ufności dla średniej z populacji:  X 

tn /21S *
n
,X 
tn /21S * 

n 
. Jeśli tak to nie mamy podstaw do odrzucenia hipotezy zerowej
zakładającej, że 0 jest średnią z populacji. W przeciwnym wypadku
wybieramy hipotezę alternatywną.
vi. Rys. wyjaśniający test oraz błędy I i II rodzaju. Wartość P.
b. Test dla porównania średnich z dwóch prób zależnych (związanych) – test tStudenta dla różnic
i. Założenia: Różnica z próbek ma rozkład normalny, lub próbki są
dostatecznie duże, aby można było zastosować Centralne
Twierdzenie Graniczne.
ii. Hipotezy: H0 : 1  2 , 1   2 H1 : 1  2 , 1   2
iii. Statystyka: t 
D
1 n 1
gdzie
D

X i  X i2 to średnia z różnic

*
n
SD / n
i 1
związanych cech.
iv. Obszar krytyczny: Jeśli t  tn/21  t  tn/21 to wybieramy hipotezę H1.
W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy
podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli P  
 H0 .Jeśli P    H1.
v. Uwaga: Ten test jest równoważny testowi dla jednej próbki jeśli za
elementy naszej próbki weźmiemy różnice elementów związanych:
Di  X i1  X i2
c. Test dla porównania średnich z dwóch prób niezależnych (niezwiązanych) –
test t-Studenta
i. Założenia: Obie próbki mają rozkład normalny, lub są dostatecznie
duże, aby można było zastosować Centralne Twierdzenie Graniczne.
ii. Hipotezy: H0 : 1  2 , 1   2 H1 : 1  2 , 1   2
iii. Statystyka: t 
x1  x2
, gdzie Sx1 x2 
Sx1 x2 2 / n
S
2
x1

 Sx22 / 2 i ilość
stopni swobody df=2n-2 – dla próbek równolicznych.
iv. Obszar krytyczny: Jeśli t  t2/2n2  t  t2/2n2 to wybieramy hipotezę
VII.
H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie
mamy podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli
P    H0 .Jeśli P    H1.
v. Uwaga: Istnieją również wersje tego testu dla próbek z różną
wariancją, oraz różnolicznych. Wtedy używa się bardziej
skomplikowanych statystyk, ale reguły wyboru hipotez są takie same.
d. Testy pomocnicze – Często prócz testów głównych potrzebne są inne testy
np. w celu zweryfikowania założeń testów głównych.
i. Test Shapiro-Wilka – sprawdzanie normalności rozkładu próbki.
Hipotezy: H0: Rozkład próbki jest zgony z rozkładem normalnym H1:
Rozkład próbki różni się od rozkładu normalnego
ii. Test Levena – sprawdzanie jednorodności wariancji. H0: wariancje są
jednorodne H1: wariancje są różne.
Zależność między zmiennymi – wsp. Korelacji liniowej i regresja.
1. Wstępne określenie rodzaju zależności na podstawie wykresu rozrzutu.
2. Jeśli jednocześnie zachodzą (relacja liniowa, nie ma wyników odstających, ani podgrup,
normalny rozkład obu zmiennych) wtedy stosujemy współczynnik korelacji liniowej
Pearsona r. Tutaj r szacowane jest dla próby. Jest to zgodny, ale obciążony estymator
wartości tego współczynnika (ρ) dla populacji.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑟=
√∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
r
Cov(x , y)
Sx Sy
a. r2 – współczynnik determinacji jest miarą (ułamkową) zmienności y, która może być
wyjaśniona jej liniową zależnością od x --> rysunek przy regresji
b. Testowanie hipotez:
𝑛−2
i. H0: ρ=0, H1: ρ≠0  zmienna testowa 𝑡 = 𝑟√1−𝑟2 test t-studenta z n-2
stopniami swobody
ii. H0: ρ=ρ0, H1: ρ≠ρ0  zmienna testowa 𝑍 =
1
1+𝜌
ln (1−𝜌0 ) Gaussian
2
0
𝑧−𝑧0
√𝑛−3
1
test - transformacja odwrotna r 

z /2

n3
Przedział ufności dla z -->  z 
,z 
1+𝑟
𝑧 = 2 ln (1−𝑟) 𝑧0 =
e2 z  1
e2 z  1
z /2 

n3
3. Regresja liniowa – regresja drugiego rodzaju – obliczana wtedy gdy zachodzą: relacja
liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych. Dla
pary zmiennych (X,Y) możemy obliczyć regresję Y wzg. X, X wzg. Y lub, regresję
ortogonalną. Załóżmy, że interesuje nas regresja Y wzg. X. Zakładamy, że w populacji
istnieje następująca zależność: Y=aX+b. Wówczas estymatorami parametrów a i b
obliczonymi dla próby o wielkości n są:
Ar
SY
, B  Y  AX
SX
X
1 n
1 n
x
Y

i
 yi
n i 1
n i 1
Krzywa Y=AX+B minimalizuje odległość między yi i AX+B. Współczynniki A i B zostały
obliczone metodą najmniejszy kwadratów.
4. Błąd standardowy estymacji
n
Se 
e
i 1
2
i
n2
5. Test hipotezy H0:a=0 jest taki sam jak dla testowanie istotności współczynnika korelacji
liniowej.
6. Przedział ufności dla współczynnika kierunkowego a:
[ A  S Atn /22 , A  S Atn /22 ] S A 
SY2 (1  r 2 )
S X2 (n  2)
7. Przedział ufności dla wyrazu wolnego b
n2
B  /2
[B S t
n2
B  /2
, B S t
SY2 (1  r 2 ) 1 n 2
] SB  2
 Xi
S X (n  2) n i 1
8. Obszar ufności dla prostej regresji. Jeśli mamy próbkę dwuwymiarową (xj,yj) j=1,…,n to
możemy utworzyć dwuwymiarowe klasy o środkach (xi,yk), i=1,…,l k=1,…,m. Wówczas
przedział ufności dla wartości oczekiwanej Y dla danego Xi (Y|Xi) wyraża się wzorem:
[ yi'  SY ' tn /22 , yi'  SY ' tn /22 ]
i
i
yi'  AX i  B
SY '  S A2 ( S X2  (x i  x ) 2 )
i
Download