Rachunek prawdopodobieństw i statystyka. I. Wstęp – zdarzenia losowe, prawdopodobieństwo, 1. Pojęcia pierwotne: doświadczenie losowe, zdarzenie elementarne e , Przestrzeń zdarzeń elementarnych Ω. 2. Zdarzenie losowe definicja: Zdarzeniem losowym nazywamy każdy element przeliczalnie addytywnego ciała Z przestrzeni zdarzeń elementarnych (inaczej sigma ciało zdarzeń). Uwaga: Gdy Ω jest przeliczalne to każdy podzbiór Ω jest zdarzeniem losowym. Przeliczalnie addytywne ciało zbioru Ω to niepusta klasa Z podzbiorów zbioru Ω taka, że i. ii. iii. Z Jeśli A Z to A ' Z - stąd wynika, że Z - (dopełnienie należy do Z.) Suma co najwyżej przeliczalnej liczby zbiorów Ai należących do Z również należy do Z Jeśli Ai Z to Ai Z i stąd i z ii wynika też, że każda przeliczalna różnica należy do Z, oraz że każdy iloczyn również należy do Z. Z nazywane jest też sigma-algebrą. Maksymalna ilość elementów w Z to 2m , gdzie m to ilość zdarzeń elementarnych 3. Operacje na zdarzeniach losowych – algebra zbiorów. a. Alternatywa (suma): A B - zachodzi zdarzenie A lub B b. Koniunkcja (iloczyn) A B AB - zachodzi zdarzenie A i B (niekoniecznie jednocześnie w czasie) c. Różnica A \ B - zachodzi zdarzenie A i nie zachodzi zdarzenie B d. A ' \ A - zdarzenie przeciwne do A (lub dopełnienie A) stąd mamy: A A ' i AA ' e. A B - zdarzenie A pociąga za sobą (implikuje) zdarzenie B f. A B i B A to A B - zdarzenia są równe g. A B zdarzenia rozłączne h. Podziałem przestrzeni zdarzeń elementarnych jest rodzina At , t T At Z taka, że At1 At2 dla t1 t2 i At t 4. Własności działań na zdarzeniach a. Przemienność AB BA A B B A b. Łączność A( BC ) ( AB)C A ( B C ) ( A B) C c. Rozdzielność koniunkcji wzg. alternatywy i alternatywy wzg. koniunkcji A( B C ) AB AC A ( BC ) ( A B)( A C ) d. Prawa de Morgana: ( AB) ' A ' B ' ( A B) ' A ' B ' 5. Definicja prawdopodobieństwa – aksjomatyczna (Kolmogorow): Prawdopodobieństwo to funkcja określona na zbiorze Z i przyporządkowująca każdemu elementowi tego zbioru liczbę P(A) zgodnie z następującymi warunkami: i. P(A) 0 dla każdego A Z ii. P () 1 iii. Dla dowolnego ciągu parami rozłącznych zdarzeń Ai ( Ai Aj dla i j ) Ai ) P( Ai ) - stąd i z należących do zbioru Z zachodzi: P( i i poprzednich dwóch punktów wynika, że P : Z [0,1] 6. Własności prawdopodobieństwa a. P () 0 b. Jeśli A B to P ( A) P ( B ) c. d. e. f. g. P ( A) 1 Jeśli A B to P(B\ A) P( B) P(A) P( A) P( A ') 1 P( A B) P( A) P( B) P( AB) Jeśli przestrzeń zdarzeń elementarnych jest co najwyżej przeliczalna i określone są prawdopodobieństwa wszystkich zdarzeń elementarnych to P( A) pi1 ... pik jeśli zdarzenia elementarne ei1 ,..., eik sprzyjają zdarzeniu A h. Klasyczna definicja prawdopodobieństwa (Laplace) Jeśli przestrzeń składa się z n zdarzeń elementarnych i wszystkie zdarzenia elementarne są jednakowo prawdopodobne to P( A) n( A) , gdzie n(A) to n ( ) liczba zdarzeń elementarnych sprzyjających zdarzeniu A. przykład 3 teleturniej 3 drzwi. 7. Przestrzeń probabilistyczna: (, Z , P) 8. Prawdopodobieństwo warunkowe: P( A | B) P( AB) P( B) 9. Niezależność zdarzeń: P( AB) P( A) P( B) 10. Prawdopodobieństwo zupełne n Jeśli Ai są parami rozłączne i Ai oraz P(Ai ) 0 wówczas i 1 n P( B) P( Ai ) P( B | Ai ) i 1 11. Twierdzenie Bayesa: P (A k | B) P ( Ak ) P ( B | A k ) n P( A ) P( B | A ) i 1 i - prawdopodobieństwo a i priori i a posteriori. a. czułość testu diag. (objawu): prawdopodobieństwo że test wypadnie dodatnio zakładając, że pacjent jest rzeczywiście chory P(A|B) (A-jest objaw, pozytywny wynik testu, B – pacjent jest chory na daną chorobę). b. swoistość testu diag. (objawu): prawdopodobieństwo że test wypadnie ujemnie zakładając, że pacjent nie jest chory. P(A’|B’) 12. Elementy kombinatoryki: a. Ilość permutacji zbioru n-elementowego – n! b. Ilość kombinacji k elementowych zbioru n elementowego (bez powtórzeń) n n! Cnk k k !(n k )! c. Ilość kombinacji k elementowych zbioru n elementowego (z powtórzeniami) k k n 1 Cn k n k d. Ilość wariacji bez powtórzeń Vnk k ! k e. Ilość wariacji k-elementowych z powtórzeniami V n n k 13. Prawdopodobieństwo w binarnych eksperymentach powtarzalnych n Pn,m p m q n m gdzie p – prawdopodobieństwo sukcesu, q=1-p – m II. prawdopodobieństwo porażki, Pn,m – prawdopodobieństwo, że w n próbach będzie m sukcesów. Zmienna losowa – dyskretna i ciągła, rozkład prawdopodobieństwa zmiennej losowej. 1. Definicja zmiennej losowej: Niech (, Z , P) będzie dowolną przestrzenią probabilistyczną. Zmienna losowa to dowolna funkcja X określona na zbiorze zdarzeń elementarnych o wartościach ze zbioru liczb rzeczywistych, taka że dla dowolnego ustalonego x zbiór zdarzeń elementarnych, dla których przyjmuje ona wartość mniejszą niż x jest zdarzeniem losowym. X : x {e : X (e) x} Z a. Powyżej zdefiniowany podzbiór jest zdarzeniem losowym. b. Zdarzeniem losowym są też zbiory: {e : X (e) R} gdzie R to dowolny zbiór borelowski na prostej. 2. Definicja dystrybuanty. Niech (, Z , P) będzie dowolną przestrzeń probabilistyczną. Funkcję FX określoną na zbiorze wzorem: FX ( x) P( X x) dla x Nazywamy dystrybuantą zmiennej losowej X. 3. Własności dystrybuanty a. 0 F ( x) 1 dla każdego x b. lim F ( x) F () 0 lim F ( x) F ( ) 1 x x c. F jest funkcją niemalejącą d. F jest co najmniej lewostronnie ciągła lim F ( x) F ( x0 ) x x0 e. P(a X b) F(b) F(a) f. P( X x0 ) lim F ( x) F ( x0 ) stąd wynika, że gdy F jest ciągła x x0 P(X x0 ) 0 g. Dowolna funkcja G o wartościach rzeczywistych spełniająca warunki b, c, d jest dystrybuantą. 4. Zmienna losowa typu skokowego (dyskretnego) a. Zmienna losowa jest typu dyskretnego, jeśli zbiór jej wartości WX {x1 , x2 ,...} jest przeliczalny lub skończony, oraz P( X xi ) pi 0 dla każdego i, takie, że p i 1 ( xi to punkty skokowe zmiennej X) i b. Funkcję p( xi ) P( X xi ) pi nazywamy rozkładem prawdopodobieństwa zmiennej losowej X. c. Dystrybuanta zmiennej skokowej F ( x) xi x pi d. Znając dystrybuantę można łatwo obliczyć rozkład prawdopodobieństwa korzystając z własności 3f. 5. Zmienna losowa typu ciągłego a. Zmienną losową nazywamy ciągłą jeśli przyjmuje wszystkie wartości z pewnego przedziału i istnieje taka nieujemna funkcja f, że dystrybuantę zmiennej losowej X możemy przedstawić jako F ( x) x f (t )dt . f nazywa się gęstością prawdopodobieństwa, lub gęstością. b. Jeżeli x jest punktem ciągłości f to F '( x) f ( x) c. f (x)dx 1 d. c P(X c) 0 b e. P(a X b) f ( x)dx a 6. Funkcje zmiennych losowych a. Jeśli X jest zmienną losową, a g jest dowolną funkcją o wartościach rzeczywistych określoną na zbiorze wartości zmiennej X to wtedy U g (X) ( U (e) g ( X (e)), e ) jest zmienną losową o rozkładzie: i. Dla zmiennej dyskretnej: q j q(u j ) P(U u j ) { xi :g ( xi ) u j } p( xi ) xi WX , u j WU , u j g ( xi ) ii. Dla zmiennej ciągłej. Twierdzenie: Jeśli g(X) jest funkcją ściśle monotoniczną, oraz g '( x) 0 dla x wówczas gęstość zmiennej U wyraża się wzorem: fU (u ) f X ( g 1 (u )) ( g 1 (u)) ' , gdzie g 1 oznacza funkcję odwrotną do g . Dowód jest prosty. Załóżmy, że wybieramy odcinek (x1, x2), wówczas zmiana zmiennych w całce poniżej pozwala szybko odnaleźć gęstość zmiennej losowej u (przyjmujemy, że u1=g(x1) i u2=g(x2): P(x1 x x2 ) x2 f u2 X ( x)dx f X ( g 1 (u ))(g 1 (u)) 'du x1 u1 Gdy g jest rosnąca (u2>u1) wyrażenie w ostatniej całce to gęstość zmiennej losowej u. Jeśli g jest malejąca to należy zmienić kolejność granic w ostatniej całce. Ponieważ monotoniczność funkcji odwrotnej jest taka sama jak funkcji wyjściowej, więc ostatecznie otrzymujemy: fU (u ) f X ( g 1 (u )) ( g 1 (u)) ' Twierdzenie: Jeśli u=g(x) jest funkcją przedziałami ściśle monotoniczną, ai dla i=0,1,2,…,n to granice odpowiednich przedziałów, a g gi w tych przedziałach to gęstość zmiennej losowej U wyraża się wzorem: f X ( gi1 (u )) ( gi1 (u)) ' c<u<d fU (u ) i 0 dla pozostalych u gdzie ci g (a i ) dla i=1,2,…,n oraz c min ci i d max ci i i Dowód jest bezpośrednim wnioskiem z poprzedniego twierdzenia. 7. Niezależność zmiennych losowych – Zmienne losowe X i Y określone na tej samej przestrzeni zdarzeń losowych są niezależne jeśli zdarzenia { X x} i {Y y} są niezależne, tzn. gdy zachodzi: P( X x, Y y ) P( X x) P(Y y ) a. Dla zmiennych losowych dyskretnych: P( X xi , Y y j ) P( X xi ) P(Y y j ) x i WX i y j WY b. Dla zmiennych losowych ciągłych P( X x, Y y ) FX ( x) FY ( y ) x, y III. Zmienna losowa – charakterystyki liczbowe i przykładowe rozkłady. 1. Miary położenia xi pi xi Wx a. Wartość przeciętna, średnia, oczekiwana - E ( X ) (zakładamy, xf ( x )dx że całka i szereg są zbieżne) i jej własności (c to stała): i. E (c) c E (c X ) cE ( X ) iii. E ( X c) E (X) c iv. E ( X EX ) 0 v. E ( X Y ) E ( X ) E (Y ) vi. E ( XY ) E ( X ) E (Y ) gdy X i Y są niezależne ii. b. Mediana – każda liczba x0.5 , że pi 0.5 pi xi x0.5 F ( x0.5 ) 0.5 F ( x0.5 0) xi x0.5 F ( x0.5 ) 0.5 c. Kwantyl rzędu p – każda liczba x p , że pi p pi xi x p F ( x p ) p F ( x p 0) xi x p F (xp ) p d. Moda –wartość najbardziej prawdopodobna 2. Miary rozrzutu ( xi ) 2 pi xi Wx a. Wariancja V ( X ) E (( X E ( X )) 2 ) , właściwości ( x ) 2 f ( x)dx i. V (c) 0 ii. V (aX ) a V ( X ) 2 iii. V ( X c) V ( X ) iv. V ( X Y ) V ( X ) V (Y ) gdy X i Y są niezależne v. V( X ) E ( X 2 ) E 2 ( X ) b. Odchylenie standardowe V (X) c. Współczynnik zmienności E( X ) 3. Momenty zwykłe mr E (X r ) 4. Moment centralny r E (( X E ( X )) r ) 5. Współczynnik skośności AS 3 3 6. Współczynnik skupienia – kurtoza K 4 3 (K>0 – leptokurtyczny, K<0 – 4 platokurtyczny) 7. Rozkłady skokowe: a. Równomierny pi 1 n 1 n 1 , E ( X ) xi , V ( X ) ( xi E ( X )) 2 n n i 1 n i 1 b. Jednopunktowy p1 P( x1 ) 1 , E ( X ) x1 , V ( X ) 0 c. Zero-jedynkowy, dwupunktowy, Bernoulliego p1 P( X 0) q 1 p, p2 P(X 1) p , E ( X ) p, V(X)=pq d. Rozkład dwumianowy zmiennej K=0,1,2,…,n – (k sukcesów w n etapowym eksperymencie binarnym z rozkładem zero-jedynkowym) n P(k , n, p) p k q nk , k 0,1,..., 2 q 1 p k E ( K ) np, V ( K ) npq, 3 npq(1 2 p) i. Dla n=1 rozkład zero-jedynkowy, ii. dla n>1 K to suma zmiennych niezależnych o rozkładzie zerojedynkowym iii. Dla n∞ (p stałe) rozkład dwumianowy dąży do rozkładu Gaussa. iv. Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i p0, tak, że np=λ lim P(k , n, pn ) P(k ; ) gdy npn 0 n e. Rozkład Poissona – (ilość zdarzeń w jednostce czasu – czas pojawienia się zdarzenia określony jest rozkładem wykładniczym) zmienna losowa K=0,1,2,3,… ma rozkład Poissona gdy: P(k ; ) e k k! E ( K ) , V ( K ) , 3 = i. Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i p0, tak, że np.=λ lim P(k , n, pn ) P(k ; ) gdy npn 0 n ii. Dla dużej wartości λ i dużych wartości k rozkład Poissona może być przybliżony rozkładem Gaussa o średniej λ i wariancji λ. 8. Rozkłady ciągłe a. Rozkład równomierny – skoncentrowany na przedziale [a,b] 1 dla a x b f ( x) b a 0 dla x a x>b ab 1 E ( X ) x0.5 , V ( X ) (b a) 2 2 12 b. Rozkład wykładniczy – np. rozkład czasu bezawaryjnej pracy danego elementu, lub czas w którym pojawi się samochód na jakiejś ulicy, lub czas między jednym a drugim rozpadem jądra, prawdopodobieństwo przetrwania jądra niestabilnego przez czas x, okres między trzęsieniami ziemi, itp. Można go wyprowadzić wychodząc z założenia, że czas oczekiwania na zdarzenie można modelować jako eksperyment Bernoulliego, w którym czas oczekiwania jest podzielony na bardzo dużą ilość prób Bernoulliego n∞, a prawd. porażki w każdej z tych prób jest liczbą stałą równą 1-t/(λn), gdzie t to czas czekania. Wówczas prawdopodobieństwo, że czas oczekiwania jest większy lub równy t wynosi: 1 t / n exp t / - z rozwinięcia n Taylora wzg. T=0 i w granicy n ∞. – Stąd prawd. że nastąpił sukces w czasie krótszym niż t to 1-exp(-t/λ) 1 x exp dla x 0 f (x) 0 dla x 0 F ( x) 1 exp( x / ), E( X ) , V ( X ) 2 λ to czas życia Brak pamięci - a, b 0 P( X a b | X a) P( X b) Prawdopodobieństwo, że czas oczekiwania na zjawisko jest dłuższy niż a+b pod warunkiem że minął już czas a jest takie samo jak prawdopodobieństwo, że czas oczekiwania jest dłuższy niż b. c. Rozkład normalny, Gaussa i. ( x )2 1 exp 2 2 2 E ( X ) x0.5 m1 , V ( X ) 2 f ( x) Rozkład standaryzowany z x N(0,1) d. Inne rozkłady ważne w statystyce: gamma, chi2, F-Snedecora, t- Studenta. 9. Rozkłady ucięte prawdopodobieństwo warunkowe. 10. Centralne Twierdzenie Graniczne Lindeberga-Levy’ego: Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o skończonej wartości oczekiwanej µ i wariancji σ2>0, oraz Yn Xn to ciąg / n 1 n standaryzowanych średnich arytmetycznych X n X n wówczas ciąg n i 1 dystrybuant Fn ( y) jest zbieżny do dystrybuanty rozkładu normalnego standaryzowanego N(0,1). lim Fn ( y ) n 1 2 y 1 exp 2 t 2 dt Jeżeli przyjmiemy, że średnia X n 1 n X n to średnia z próbki wówczas możemy n i 1 powiedzieć, że bez względu na rozkład statystyczny cechy w danej populacji rozkład średnich z próbek zbliża się do rozkładu normalnego wraz ze wzrostem rozmiaru próbki. Dowód wymaga odwołania się do funkcji charakterystycznej rozkładu. 11. Mocne prawo wielkich liczb Kołmogorowa: Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o skończonej wartości oczekiwanej µ, to wówczas zachodzi mocne prawo wielkich liczb, tzn. że dla Xn 1 n X i zachodzi n i 1 P lim X n E (X) 0 1 n IV. Mówiąc inaczej średnia z próbki jest dobrym przybliżeniem średniej z populacji jeśli próbka jest dostatecznie duża. Oznacza to, że średnia z próbki jest zgodnym estymatorem. Zmienna losowa dwuwymiarowa – korelacja i regresja. 1. Dwuwymiarowa zmienna losowa – Parę zmiennych (X,Y) zmiennych losowych X i Y określonych nie koniecznie na tej samej przestrzeni probabilistycznej nazywamy dwuwymiarową zmienną losową. a. Dystrybuanta – Funkcja F : 2 [0,1] taka, że F ( x, y ) P( X x, Y y ) x, y i. x ii. lim F ( x, y) 1 , własności: lim F ( x, y) 0, y lim F ( x, y) 0 y x x y iii. Dla dowolnych punktów (x1,y1) i (x2,y2) takich, że x1<x2 i y1<y2 zachodzi: P( x1 X x2 , y1 Y y2 ) F ( x2 , y2 ) F ( x2 , y1 ) F ( x1 , y2 ) F ( x1 , y1 ) 0 Interpretacja geometryczna iv. F jest niemalejąca i przynajmniej lewostronnie ciągła wzg. Każdego argumentu. b. Rozkłady brzegowe - F1 ( x) lim F ( x, y) P(X x, Y ) dystrybuanta y X, gdy Y przyjmuje dowolne wielkości F2 (y) lim F ( x, y ) P(X , Y y) podobnie dla Y x c. Dwuwymiarowa zmienna losowa typu skokowego - P( X xi , Y yk ) pik i, k i zachodzi p 1 ik i ,k i. Rozkłady brzegowe: P( X xi ) pi p F1 ( x) pi i ik xi x k analogicznie dla P(Y=y) P(Y yk ) p k p ik F2 (y) i p yk y k ii. Rozkłady warunkowe – Jeśli wszystkie p.k są dodatnie to możemy zdefiniować prawdopodobieństwo warunkowe jako: P( X xi | Y yk ) pik pk F(x|yk ) P( X x | Y yk ) xi x pik pk analogicznie dla P(Y=yk|X=xi) d. Dwuwymiarowa zmienna losowa (X,Y) jest typu ciągłego jeśli istnieje taka nieujemna funkcja f taka, że dystrybuantę tej zmiennej można przedstawić w x postaci: F ( x, y ) y f (u, v)dudv x, y f to gęstość rozkładu prawdopodobieństwa, a F(x,y) to odpowiednia objętość bryły pod wykresem f. i. Własności f f (u, v)dudv 1 W punktach ciągłości (x,y) mamy 2 F ( x, y) f ( x, y) xy Dla obszaru regularnego B mamy 2 P((X, Y) B) f ( x, y)dxdy , w szczególnym B przypadku, gdy B jest prostokątem o skrajnych współrzędnych a,b,c,d, mamy: b d P((X, Y) B) f (x, y) dxdy a c x ii. Rozkłady brzegowe - F1 ( x) f1 (u ) f1 (u )du f (u, v)dv i analogicznie dla F2(y) x iii. Rozkład warunkowy - F ( x | y ) f (u | y) du f (u | y ) f (u, y ) f2 ( y) 2. Niezależność zmiennych losowych – Zmienne X i Y zdefiniowane na tej samej przestrzeni zdarzeń elementarnych są niezależne jeśli dla dowolnych borelowskich zbiorów A i B zdarzenia Z1 {e : X (e) A} i Z 2 {e : Y(e) B} są niezależne, czyli P(Z1 , Z 2 ) P(Z1 ) P(Z 2 ) Stąd warunkiem koniecznym i wystarczającym, aby zmienne losowe X i Y były niezależne jest: f ( x, y) f1 ( x) f 2 ( y) F ( x, y) F1 ( x) F2 ( y) P( X xi , Y yk ) P( X xi ) P(Y yk ) 3. Charakterystyki liczbowe dwuwymiarowej zmiennej losowej a. Momenty zwykłe mieszane rzędu r+s rs E ( X rY s ) r , s 0,1, 2,... b. Momenty centralne mieszane rzędu r+s rs E (( X E ( X )) r (Y E (Y )) s ) r , s 0,1, 2,... Macierz momentów centralnych rzędu 2 11 V ( X ) cov( X , Y) M 20 V (Y ) 11 02 cov( X , Y) cov( X , Y ) E ( XY ) E ( X ) E (Y ) - dla niezależnych zmiennych losowych X i Y cov(X,Y)=0 c. Współczynnik korelacji liniowej – Jeśli V(X)>0 i V(Y)>0 to współczynnik cov( X , Y ) jest miarą zależności liniowej między zmiennymi X i Y. V ( X )V (Y ) Można wykazać, że jeśli istnieje liniowa zależność między zmiennymi X i Y to jest równe 1 lub -1 to z prawdopodobieństwem 1. Dowód łatwy – z własności V i E. cov( X , aX b) E ( X (aX b)) E ( X ) E (aX b) V ( X )V (aX b) V ( X )a 2V ( X ) aE ( X 2 ) bE ( X ) aE 2 ( X ) bE(X) a ( E ( X 2 ) E 2 ( X )) a | a |V (X ) | a |V (X ) |a| 4. Funkcje zmiennych losowych – przypadek szczególny: suma, iloczyn 5. Linie regresji. a. Linie regresji pierwszego rodzaju – określmy warunkowe wartości przeciętne dla rozkładu skokowego: E (Y | X xi ) yk P(Y yk | X xi ) k 1 pi y k k pik i dla rozkładu 1 ciągłego: E (Y | X x) yf (y | x)dy yf ( x, y)dy . Niech f1 (x) E (Y | X x) m2 ( x) wówczas linią regresji pierwszego rodzaju zmiennej losowej Y wzg. X nazywamy zbiór punktów (x,y) spełniających równanie: y m2 ( x) . i. Własność: Średnie odchylenie kwadratowe E ((Y g (X)) ) zmiennej losowej Y od pewnej funkcji g(X) jest najmniejsze gdy 2 funkcja ta z prawdopodobieństwem 1 jest równa m2 (X) . E ((Y m2 (X)) 2 ) min Dowód: Powyższa własność wynika z następującej nierówności: V ( X ) E (( X c)2 ) ,którą najpierw udowodnimy: E (( X c) 2 ) E ( X 2 2 Xc c 2 ) E ( X 2 E 2 ( X ) 2 XE ( X ) E 2 ( X ) 2 XE ( X ) 2 Xc c 2 ) V ( X ) E ( E 2 (X) 2 XE(X) 2 Xc c 2 ) V(X) E 2 ( X ) 2 E 2 ( X ) 2 E ( X )c c 2 V (X) (E(X) c) 2 Stąd wynika, że E((X-c)2) jest minimalne dla c=E(X). Dla ciągłych zmiennych losowych: E ((Y g ( X )) ) 2 ( y g ( x)) 2 f ( x, y )dxdy f1 ( x) ( y g ( x)) 2 f ( y | x) dy dx Wyrażenie w nawiasie jest analogiczne do E((X-c)2) ponieważ dla ustalonego x g(x) jest wartością stałą. Wykorzystując udowodnioną powyżej nierówność otrzymujemy oczekiwaną własność. Dla skokowych zmiennych losowych dowód jest analogiczny. b. Prostą regresji drugiego rodzaju zmiennej losowej Y wzg. zmiennej losowej X nazywamy prostą o równaniu y=ax+b, której współczynniki minimalizują średnią odległość kwadratową między zmiennymi losowymi Y i aX+b. E ((Y aX b)2 ) min Łatwo wykazać, że dla dowolnej dwuwymiarowej zmiennej losowej (X,Y) współczynniki a i b określone są wzorami: a V. Y , b Y X Y X X Dowód: Łatwy – wystarczy rozwinąć wyrażenie E((Y-aX-b)2) i zminimalizować przez przyrównanie pierwszych pochodnych po a i b do zera. i. Własność: Jeśli zmienne losowe X i Y mają rozkład normalny to linia regresji pierwszego rodzaju jest równa prostej regresji drugiego rodzaju. Statystyka wstęp: statystyka opisowa, skale pomiarowe, estymatory punktowe, przedział ufności. 1. Co to jest statystyka i czym się zajmuje? opis i estymacja, czyli przewidywanie parametrów dla całej populacji na podstawie badań na próbkach. Pojęcia podstawowe: populacja, próbka, estymatory. 2. mierzone wielkości i skala pomiarowa: jakościowa i ilościowa. jakościowa: nominalna, porządkowa. ilościowa: interwałowa (równomierna) ciągła i dyskretna, ilorazowa a. nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi, b. porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana przy pomocy cyfr, np. tak i nie to 1 i 0, lub skala Apgar (0-10) c. przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura d. ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek, 3. Sposoby przedstawiania surowych danych (szeregi statystyczne: szeregi szczegółowe, rozdzielcze i czasowe ): a. histogramy, zwykłe i skumulowane - skala przedziałowa/ilorazowa - zmienne ciągłe b. wykresy słupkowe - zmienne dyskretne - realizowane w statistica przez histogram c. wykresy kołowe - wszystkie skale d. łodyga i liście - skala przedziałowa /ilorazowa (diagram łodyga i liście - stat. podstawowe) e. wykresy rozrzutu - skala przedziałowa/ilorazowa 4. Statystyka opisowa tak jak charakterystyki liczbowe zmiennej losowej, tylko, że dla próbki. Zakładamy prawdopodobieństwo jednostajne, czyli pi=1/n 5. Estymatory, statystyki a. Załóżmy że badamy cechę X pewnej populacji. Wówczas n-elementową próbę prostą możemy przedstawić jako ciąg Xn niezależnych zmiennych losowych o takim samym rozkładzie jak X. b. Statystyka to dowolna funkcja g zdefiniowana na próbie g ( X1 ,..., X n ) c. Estymatorem nazywamy każdą statystykę ˆn ( X1 ,..., X n ) , której wartości przyjmujemy jako oceny szukanego parametru rozkładu zmiennej X. Dla danego parametru można skonstruować wiele estymatorów. Estymator jest zmienną losową (ponieważ jest funkcją zmiennych losowych) i ma swój rozkład. Optymalny estymator jest: nieobciążony, czyli E (ˆn ) ii. zgodny lim P(| ˆn | ) 0 0 i. n iii. efektywny – najmniejsza wariancja V (ˆn ) min 1 n X i jest zgodnym (na mocy n i 1 1 n twierdzenia wielkich liczb) nieobciążonym ( E ( X ) E ( X i ) E ( X ) ) n i 1 d. Przykład 1: średnia z próbki X 2 estymatorem średniej z populacji o wariancji V ( X ) - dla rozkładu n normalnego jest to także estymator efektywny. e. Przykład 2: wariancja S 2 1 n (Xi X )2 jest estymatorem obciążonym: n i 1 E (X) 2 V ( X ) 1 n 1 n E ( S 2 ) E (( X i X ) 2 ) E ((( X i ) ( X )) 2 ) n i 1 n i 1 n 1 2 n E (( X i ) 2 ) E(( X ) 2 ) E (( X i )( X )) n i 1 n i 1 1 n E (( X i ) 2 ) E ((X ) 2 ) n i 1 2 2 n n 1 2 2 n ponieważ 1 n 1 E ((X ) 2 ) V ( X ) V Xi 2 n i 1 n n 2 i 1 n V(Xi ) Jest to estymator asymptotycznie nieobciążony, ponieważ lim E ( S 2 ) 2 n Estymatorem nieobciążonym wariancji z populacji jest S *2 1 n (Xi X )2 , który jest także asymptotycznie efektywny. Oba n 1 i 1 estymatory są zgodne. f. Uwaga jeśli dany estymator ˆn ( X1 ,..., X n ) ma pewne pożądane własności, to inny estymator będący funkcją tego estymatora wcale nie musi ich mieć. Np. S * jest obciążonym estymatorem odchylenia standardowego, mimo że S *2 jest nieobciążonym estymatorem wariancji. 6. Sposoby znajdowania estymatorów. a. Metoda największej wiarogodności – Jeśli chcemy oszacować k parametrów na podstawie n-elementowej próby wówczas możemy użyć funkcji wiarogodności L L f ( x1;1 ,...,k )... f ( xn ;1 ,...,k ) Gdzie f to gęstość prawdopodobieństwa (zmienne ciągłe), lub funkcja rozkładu prawdopodobieństwa (zmienne dyskretne). Estymatory otrzymuje się przez maksymalizację L, a dokładniej ln(L) co jest wygodniejsze. ln L 0 i i 1,..., k , oraz macierz 2 ln L jest negatywnie określona, i j czyli wszystkie jej wartości własne są ujemne. Estymatory otrzymane tą metodą nie zawsze są optymalne, ale przy dostatecznie regularnych funkcjach rozkładu są zgodne. b. Metoda momentów – obliczamy momenty (zwykle kilka pierwszych) dla próby i przyrównujemy je do momentów otrzymanych z modelowanego rozkładu. W ten sposób otrzymujemy równania, z których wyliczamy parametry rozkładu. Ilość użytych momentów musi być oczywiście co najmniej równa ilości estymowanych parametrów. c. Metoda najmniejszych kwadratów przy okazji regresji. 7. Inne estymatory: a. Wskaźnik struktury p – ˆn k - zgodny, nieobciążony, efektywny - tylko n dla rozkładu Bernoulliego. b. Współczynnik zmienności - V S X 8. Estymacja przedziałowa średniej a. Na mocy centralnego twierdzenia granicznego dla dostatecznie dużych próbek średnia z próbki ma rozkład normalny X N ( , / n) . b. Zakładamy, że w realnym eksperymencie (pomiarze) nie otrzymamy wartości zmiennej losowej X, które są bardzo mało prawdopodobne. Wówczas 2 możemy przyjąć, że zredukowana zmienna losowa Z X znajdzie się / n w przedziale [ z /2 , z /2 ] , gdzie z /2 to kwantyl rzędu 1 / 2 standaryzowanego rozkładu normalnego. Stąd otrzymujemy, że średnia z populacji powinna być w przedziale: X z /2 n ,X z /2 , który n nazywamy przedziałem ufności średniej. Przedział ten zależy od konkretnej wartości elementów w próbie i jest różny dla różnych prób. Jeśli skonstruujemy wiele takich przedziałów, dla różnych prób, to w 100 *(1 ) procentach takich przedziałów powinna znajdować się prawdziwa wartość średniej z populacji, która jest wartością stałą. α jest wartości małą (zwykle 0.05, lub 0.01) i nazywane jest poziomem istotności. 1- α to poziom ufności. c. Jeśli nie znamy wariancji z całej populacji (co ma zwykle miejsce), to wówczas zamiast rozkładu normalnego używamy rozkładu t-Studenta, a zamiast wariancji dla całej populacji używamy estymatora dla próby S*2. Wówczas otrzymujemy następujący przedział ufności dla średniej: tn /21S * tn /21S * n 1 ,X X , gdzie t / 2 to kwantyl rzędu 1 / 2 rozkładu tn n Studenta z n-1 stopniami swobody. Dla dużych n statystyka t-Studenta dąży do rozkładu normalnego standaryzowanego. 9. Estymacja przedziałowa odchylenia standardowego a. Dla zmiennej X o rozkładzie normalnym korzystamy ze statystyki 2 nS 2 2 która ma rozkład chi-kwadrat. Wówczas odchylenie standardowe z populacji należy do przedziału: n n S, S 2 2 ( / 2, n 1) (1 / 2, n 1) 2 2 Gdzie (1 / 2, n 1) i ( / 2, n 1) to odpowiednie kwantyle VI. rozkładu chi-kwadrat z n-1 stopniami swobody. Dla dużych próbek (n>50) można stosować przybliżenie rozkładem normalnym. Statystyka – testowanie hipotez statystycznych, parametryczne testy istotności. 1. Hipoteza statystyczna to każde przypuszczenie dotyczące rozkładu badanej cechy w populacji. Przyjmujemy zwykle dwie hipotezy, tzw. Zerową H0 i alternatywną H1 (HA), które się wzajemnie wykluczają. a. Hipotezy dwustronne – np.: H0 : 1 2 H1 : 1 2 b. Hipotezy jednostronne – np.: H0 : 1 2 H1 : 1 2 2. Weryfikacja hipotez dokonuje się przez obliczenie statystyki testowej na próbie. W zależności od wartości statystyki wybieramy jedną z hipotez. Rodzaj użytej statystyki zależy od rodzaju problemu. Wybór hipotezy nie oznacza, że jest ona prawdziwa. W każdym wypadku możemy popełnić błąd. prawdopodobieństwo Nie odrzucamy H0 akceptacja H1 H0 prawdziwa ok - 1-α α - błąd 1 rodzaju H1 prawdziwa β – błąd 2 rodzaju ok - 1-β Moc testu to prawdopodobieństwo 1-β, że jeśli hipoteza H1 jest prawdziwa to H1 zostanie zaakceptowana. 3. Istnieje relacja między błędem pierwszego i drugiego rodzaju. Im większy błąd I rodzaju tym mniejszy błąd II rodzaju i odwrotnie. Wartość powinna być niewielka (zwykle 0.05 lub 0.01), ale taka aby moc testu była duża. rys. 4. Moc testu – Im test jest mocniejszy tym łatwiej wykazać prawdziwość H1. Moc testu zależy od wielkości próby, sformułowania hipotez oraz rozrzutu wyników w próbie. Im większa próba i mniejszy rozrzut wyników tym test jest mocniejszy. 5. Testy parametryczne – zakładają pewien rozkład cechy w populacji – najczęściej jest to rozkład normalny. 6. Przykładowe testy parametryczne: a. Test dla jednej próby – porównanie z wartością tablicową: i. Założenia – Próbka ma rozkład normalny, lub jest dostatecznie duża, tak, ze można skorzystać z Centralnego Twierdzenia Granicznego. ii. Hipotezy: H0 : 0 , 0 H1 : 0 , 0 iii. Statystyka: t X 0 S */ n iv. Obszar krytyczny: Jeśli t tn/21 t tn/21 to wybieramy hipotezę H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej. v. Uwaga: Ten test jest równoważny sprawdzeniu, czy 0 należy do przedziału ufności dla średniej z populacji: X tn /21S * n ,X tn /21S * n . Jeśli tak to nie mamy podstaw do odrzucenia hipotezy zerowej zakładającej, że 0 jest średnią z populacji. W przeciwnym wypadku wybieramy hipotezę alternatywną. vi. Rys. wyjaśniający test oraz błędy I i II rodzaju. Wartość P. b. Test dla porównania średnich z dwóch prób zależnych (związanych) – test tStudenta dla różnic i. Założenia: Różnica z próbek ma rozkład normalny, lub próbki są dostatecznie duże, aby można było zastosować Centralne Twierdzenie Graniczne. ii. Hipotezy: H0 : 1 2 , 1 2 H1 : 1 2 , 1 2 iii. Statystyka: t D 1 n 1 gdzie D X i X i2 to średnia z różnic * n SD / n i 1 związanych cech. iv. Obszar krytyczny: Jeśli t tn/21 t tn/21 to wybieramy hipotezę H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli P H0 .Jeśli P H1. v. Uwaga: Ten test jest równoważny testowi dla jednej próbki jeśli za elementy naszej próbki weźmiemy różnice elementów związanych: Di X i1 X i2 c. Test dla porównania średnich z dwóch prób niezależnych (niezwiązanych) – test t-Studenta i. Założenia: Obie próbki mają rozkład normalny, lub są dostatecznie duże, aby można było zastosować Centralne Twierdzenie Graniczne. ii. Hipotezy: H0 : 1 2 , 1 2 H1 : 1 2 , 1 2 iii. Statystyka: t x1 x2 , gdzie Sx1 x2 Sx1 x2 2 / n S 2 x1 Sx22 / 2 i ilość stopni swobody df=2n-2 – dla próbek równolicznych. iv. Obszar krytyczny: Jeśli t t2/2n2 t t2/2n2 to wybieramy hipotezę VII. H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli P H0 .Jeśli P H1. v. Uwaga: Istnieją również wersje tego testu dla próbek z różną wariancją, oraz różnolicznych. Wtedy używa się bardziej skomplikowanych statystyk, ale reguły wyboru hipotez są takie same. d. Testy pomocnicze – Często prócz testów głównych potrzebne są inne testy np. w celu zweryfikowania założeń testów głównych. i. Test Shapiro-Wilka – sprawdzanie normalności rozkładu próbki. Hipotezy: H0: Rozkład próbki jest zgony z rozkładem normalnym H1: Rozkład próbki różni się od rozkładu normalnego ii. Test Levena – sprawdzanie jednorodności wariancji. H0: wariancje są jednorodne H1: wariancje są różne. Zależność między zmiennymi – wsp. Korelacji liniowej i regresja. 1. Wstępne określenie rodzaju zależności na podstawie wykresu rozrzutu. 2. Jeśli jednocześnie zachodzą (relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych) wtedy stosujemy współczynnik korelacji liniowej Pearsona r. Tutaj r szacowane jest dla próby. Jest to zgodny, ale obciążony estymator wartości tego współczynnika (ρ) dla populacji. ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑟= √∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 r Cov(x , y) Sx Sy a. r2 – współczynnik determinacji jest miarą (ułamkową) zmienności y, która może być wyjaśniona jej liniową zależnością od x --> rysunek przy regresji b. Testowanie hipotez: 𝑛−2 i. H0: ρ=0, H1: ρ≠0 zmienna testowa 𝑡 = 𝑟√1−𝑟2 test t-studenta z n-2 stopniami swobody ii. H0: ρ=ρ0, H1: ρ≠ρ0 zmienna testowa 𝑍 = 1 1+𝜌 ln (1−𝜌0 ) Gaussian 2 0 𝑧−𝑧0 √𝑛−3 1 test - transformacja odwrotna r z /2 n3 Przedział ufności dla z --> z ,z 1+𝑟 𝑧 = 2 ln (1−𝑟) 𝑧0 = e2 z 1 e2 z 1 z /2 n3 3. Regresja liniowa – regresja drugiego rodzaju – obliczana wtedy gdy zachodzą: relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych. Dla pary zmiennych (X,Y) możemy obliczyć regresję Y wzg. X, X wzg. Y lub, regresję ortogonalną. Załóżmy, że interesuje nas regresja Y wzg. X. Zakładamy, że w populacji istnieje następująca zależność: Y=aX+b. Wówczas estymatorami parametrów a i b obliczonymi dla próby o wielkości n są: Ar SY , B Y AX SX X 1 n 1 n x Y i yi n i 1 n i 1 Krzywa Y=AX+B minimalizuje odległość między yi i AX+B. Współczynniki A i B zostały obliczone metodą najmniejszy kwadratów. 4. Błąd standardowy estymacji n Se e i 1 2 i n2 5. Test hipotezy H0:a=0 jest taki sam jak dla testowanie istotności współczynnika korelacji liniowej. 6. Przedział ufności dla współczynnika kierunkowego a: [ A S Atn /22 , A S Atn /22 ] S A SY2 (1 r 2 ) S X2 (n 2) 7. Przedział ufności dla wyrazu wolnego b n2 B /2 [B S t n2 B /2 , B S t SY2 (1 r 2 ) 1 n 2 ] SB 2 Xi S X (n 2) n i 1 8. Obszar ufności dla prostej regresji. Jeśli mamy próbkę dwuwymiarową (xj,yj) j=1,…,n to możemy utworzyć dwuwymiarowe klasy o środkach (xi,yk), i=1,…,l k=1,…,m. Wówczas przedział ufności dla wartości oczekiwanej Y dla danego Xi (Y|Xi) wyraża się wzorem: [ yi' SY ' tn /22 , yi' SY ' tn /22 ] i i yi' AX i B SY ' S A2 ( S X2 (x i x ) 2 ) i