Statystyka i opracowanie danych – W4 Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe Dr Anna ADRIAN Paw B5, pok 407 [email protected] Rozkład normalny – wykres funkcji gęstości i interpretacja f(x) σ x µ Parametry rozkładu N(µ,σ), µ - Wartość oczekiwana σ2 - Wariancja Cechy charakterystyczne funkcji gęstości rozkładu normalnego Funkcja gęstości w rozkładzie normalnym: • jest symetryczna względem prostej x = µ • w punkcie x = µ osiąga wartość maksymalną • ramiona funkcji mają punkty przegięcia dla x = µ - σ oraz x = µ + σ Kształt funkcji gęstości zależy od wartości parametrów: µ, σ : parametr µ decyduje o przesunięciu krzywej, - parametr σ decyduje o „smukłości” krzywej. Rozkład normalny Reguła 3 sigma Jeżeli zmienna losowa ma rozkład normalny N(µ,σ) to: - 68,3 % populacji mieści się w przedziale (µ - σ; µ + σ) - 95,5 % populacji mieści się w przedziale (µ - 2σ; µ + 2σ) - 99,7 % populacji mieści się w przedziale (µ - 3σ; µ + 3σ) Prawdopodobieństwo w rozkładzie normalnym Prawdopodobieństwo w rozkładzie normalnym ( podobnie jak w każdym innym rozkładzie ciągłym) wyznaczane jest dla wartości zmiennej losowej z określonego przedziału, P(a<X≤ b) P(a<X≤ b) = F(b)- F(a), Dla uproszczenia obliczeń prawdopodobieństwa P(a<X≤ b) dla zmiennej losowej o rozkładzie normalnym, z wartością oczekiwaną µ i odchyleniem standardowym σ, dokonuje się standaryzacji zmiennej losowej. Rozkład normalny - standaryzacja Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego N(µ, σ), o danych parametrach µ i σ do rozkładu standaryzowanego (modelowego) o wartości oczekiwanej µ = 0 i odchyleniu standardowym σ = 1. Zmienną X zastępuje się zmienną standaryzowaną U u = x − µ σ która ma rozkład N(0,1) Wtedy otrzymujemy następujące zależności : f(x)→ϕ(u), F(x) →Φ(u), czyli: P( X ≤ x) = F ( x) = Φ ( x−µ σ ) Własności dystrybuanty standaryzowanego rozkładu normalnego: F ( x ) = P ( X ≤ x ) = P (U ≤ u ) = Φ (u ) P (U ≤ − u ) = Φ ( − u ) = 1 − Φ (u ) P (U > u ) = 1 − P (U ≤ u ) = 1 − Φ (u ) P (U > − u ) = Φ (u ) Obliczanie prawdopodobieństwa w rozkładzie normalnym Obliczanie prawdopodobieństwa, że zmienna losowa X, o rozkładzie N (µ, σ), przyjmie wartości z przedziału (a, b) X − µ b − µ a − µ P (a < X ≤ b ) = P < ≤ = σ σ σ b − µ a − µ b − µ a − µ = Φ − Φ = P < U ≤ σ σ σ σ b − µ a − µ P ( a < X ≤ b ) = F (b ) − F ( a ) = Φ − Φ σ σ gdzie Φ(u) oznacza wartości dystrybuanty standaryzowanego rozkładu normalnego N(0,1) Wartości te znajdziemy w tablicach statystycznych Zadanie: Wzrost kobiet w pewnej populacji ma rozkład normalny N(165,15). Oznacza to, iż zmienna losowa jaką jest wzrost kobiet ma rozkład normalny ze średnią równą 165 cm odchyleniem standardowym równym 15 cm. Jaki jest udział w populacji kobiet o wzroście: a) do 160 cm, b) w przedziale 165-170 cm, c) powyżej 175 cm d) dokładnie 150 cm Rozwiązanie: a) do 160 cm X −165 160−165 P( X ≤ 160) = P ≤ = P(U ≤ −0,33) = 15 15 = Φ(−0,33) = 1− Φ(0,33) = 1− 0,6293= 0,3707 a) innym sposobem 160 − 165 P ( X ≤ 160) = F (160) = Φ = 15 = Φ (−0,33) = 1 − Φ (0,33) = 1 − 0,6293 = 0,3707 Rozwiązanie: b) w przedziale 165-170 cm 165 − 165 X − 165 170 − 165 P (165 < X ≤ 170) = P < ≤ = 15 15 15 = P (0 < U ≤ 0,33) = Φ (0,33) − Φ (0) = 0,6293 − 0,5 = 0,1293 c) powyżej 175 cm. X − 165 175 − 165 P( X > 175) = P > = P (U > 0,67) = 15 15 = 1 − P (U ≤ 0,67) = 1 − Φ (0,67) = 1 − 0,748571 = 0,251429 d) dokładnie 150 cm. P ( X = 150) = P (150 ≤ X ≤ 150) = F (150) − F (150) = 0 Parametry pozycyjne rozkładu zmiennej losowej Moda –Dominanta. Mediana. • Modą Mo ( Dominantą Do) zmiennej losowej X nazywamy tę wartość zmiennej losowej, której odpowiada: – Największe prawdopodobieństwo – w przypadku zmiennej dyskretnej – Maksimum lokalne funkcji gęstości w przypadku zmiennej losowej ciągłej. • Medianą Me zmiennej losowej X nazywamy wartość x, spełniającą nierówności P(X≤x)≥0,5 i P (X ≥ x) ≥ 0,5 natomiast dla dystrybuanty mamy 0,5 ≤ F(x) ≤ 0,5+P(X=x) dla zmiennej dyskretnej F(x)=0,5 dla zmiennej ciągłej Symetria rozkładu zmiennej losowej Zmienna losowa ma rozkład symetryczny jeśli istnieje taka wartość a, że: – W przypadku zmiennej dyskretnej każdemu punktowi skokowemu xi ≤ a odpowiada punkt xj ≥ a, taki, że P(X= xi )= P(X= xj) oraz a- xi = xj-a – W przypadku zmiennej losowej ciągłej o funkcji gęstości f(x) : f(a-x)=f(a+x) dla każdego x w punktach ciągłości f(x). Punkt a nosi nazwę środka symetrii, a prosta x=a jest osią symetrii rozkładu zmiennej losowej . – Jeśli rozkład jest symetryczny, to środkiem symetrii jest wartość oczekiwana – W rozkładzie symetrycznym wszystkie momenty centralne nieparzystego rzędu równe są zero Asymetria rozkładu zmiennej losowej • Zmienna losowa ma rozkład asymetryczny jeśli nie istnieje taka wartość a (taki punkt a), który spełnia warunki rozkładu symetrycznego. • Ze względu na to, że w rozkładzie asymetrycznym momenty centralne rzędu nieparzystego są różne od zera, do określenia współczynnika asymetrii (skośności) rozkładu wykorzystuje się trzeci moment centralny µ3, mianowicie γ = µ3 D 3(X ) • Jeśli γ>0, asymetria rozkładu jest dodatnia prawostronna (wydłużenie w kierunku dużych wartości) • Jeśli γ<0, asymetria rozkładu jest ujemna - lewostronna (wydłużenie w kierunku małych wartości) Wyznaczyć wskaźniki położenia zmiennej X: wartość oczekiwaną, modę, medianę, kwantyl rzędu 0,75, Dla zmiennej losowej, której funkcja gęstości dana jest wzorem 2 f ( x) = x 2 + 3 0 0 < x <1 wprzeciwnymprzypadku E(X) = 7/12 Mo = 1 Me obliczę z równania F(Me) = 1/2; Me = 9/24 Q3 ← F(Q3 ) = 3/4 stąd Q3 =41/64 Zmienna losowa wielowymiarowa • Dana jest przestrzeń probabilistyczna (Ω, S, P) i w tej przestrzeni n zmiennych losowych X1,X2,...,Xn Definicja Uporządkowany układ n zmiennych losowych, oznaczony X= (X1,X2,...,Xn) nazywamy wektorem losowym lub n -wymiarową zmienną losową, co oznacza, że każdemu zdarzeniu ω ∈ Ω przyporządkowano punkt przestrzeni euklidesowej Rn Funkcję PX(A) = P({ω: X(ω) ∈A}) nazywamy rozkładem prawdopodobieństwa wektora losowego X, a jego dystrybuanta jest określona wzorem FX(x) = P(X1<x1,X2<x2,...,Xn<xn ) Przykłady • Badamy trzy cechy człowieka : – wiek , ω1 ∈ [18,100] [lat] – wzrost, ω2 ∈ [140, 210][cm] – waga, ω3 ∈ [40,150][kg] ω = (ω1, ω2 , ω3 )∈ Ω Zmienne losowe definiuję następująco: X1( ω)= ω1 X2 ( ω)= ω2 ... Xn ( ω)= ωn Tablicowa reprezentacja dwuwymiarowego rozkładu zmiennej losowej skokowej X= x1 X= x2 X= x1 Rozkład brzegowy zmiennej Y Y=y1 Y= y2 Y= y3 Y= y4 Y= y5 Y= y6 Rozkład brzegowy zmiennej X p11 p12 p13 p14 p15 p16 p1. p22 p23 p24 p25 p31 ... ... ... ... ... p3. p.1 p.2 p.3 p.4 p.5 p.6 1 p21 p26 p2. Dwuwymiarowa zmienna losowa (para zmiennych) typu skokowego • Def. Dwuwymiarowa zmienna losowa jest typu skokowego jeśli przyjmuje skończoną lub co najwyżej przeliczaną liczbę wartości (x1,yj), (i,j=1,2,…. ) odpowiednio z prawdopodobieństwami pi,j • Zachodzi przy tym warunek: (*) ∑ ∑ i j gdzie pi j p i j = 1 = P (X = x i , Y = y j )(i , j = 1 , 2 ,... ) Uwaga, w celu właściwej interpretacji wartości p i,j , należy pamiętać, że zapis (X=xi,Y=yj) oznacza iloczyn zdarzeń X=xi i Y=yj Niezależność zmiennych losowych typu skokowego Para (X, Y) jest dwuwymiarową zmienną losową typu skokowego, Zmienne X i Y nazywamy niezależnymi, jeśli dla każdej pary wartości (xi, yj) spełniony jest warunek: P(X=xi,Y=yj)= P(X=xi) *P(Y=yj) Dla zmiennych niezależnych musi być spełniony warunek: P( X = xi | Y = y j ) = pij p. j = pi. = P( X = xi ) czyli pij= pi. * p.j Oznacza to, że zmienne losowe X i Y są niezależne jeśli prawdopodobieństwa w łącznym rozkładzie tych zmiennych są równe iloczynowi odpowiednich prawdopodobieństw ich rozkładów brzegowych. oraz P (Y = y j | X = xi ) = pij pi. = p. j = P (Y = y j ) Dystrybuanta dwuwymiarowej zmiennej losowej Dystrybuantą dwuwymiarowej zmiennej losowej rzeczywistą określoną wzorem: nazywamy funkcję • dla zmiennej losowej typu skokowego F ( x, y ) = ∑ ∑ pi j xi ≤ x y j ≤ y • dla zmiennej losowej typu ciągłego x y F ( x , y ) = P ( X ≤ x ,Y ≤ y ) = ∫ ∫ f ( u, v) dudv −∞ −∞ Rozkład dwuwymiarowej zmiennej losowej typu ciągłego • Funkcją gęstości dwuwymiarowej zmiennej losowej (X,Y) typu ciągłego nazywamy funkcję rzeczywistą określoną wzorem: P( x < X < x + ∆x , y < Y < y + ∆y) f ( x , y) = lim ∆x →0 ∆x ∆y ,, ∆y→0 o następujących własnościach: f (x , y) ≥ 0 dla x, y ∈ R x 2 y2 ∫ ∫ f ( x , y ) dx dy = P ( x1 < X ≤ x 2, y1 < Y ≤ y2 ) x1 y1 + ∞ + ∞ ∫ ∫ − ∞ − ∞ f (x , y )d x d y = 1 Dwuwymiarowy rozkład normalny Funkcja gęstości dwuwymiarowego rozkładu normalnego N(µ1,µ2,σ1,σ2,ρ) Brzegowe funkcje gęstości +∞ f1 ( x ) = ∫ f ( x , y ) dy; −∞ +∞ f2 ( y ) = ∫ f ( x , y ) dx −∞ Warunkowe funkcje gęstości: f (x / y ) = f (x , y ); f2 ( y ) f (x, y) f (y / x) = f1 ( x ) Niezależność dwuwymiarowych zmiennych losowych ciągłych Zmienne losowe X i Y typu ciągłego są niezależne, jeśli dla dowolnej pary liczb rzeczywistych (x,y) zachodzi równość: f (x , y ) = f1 (x ) f 2 ( y ) Momenty zwykłe dwuwymiarowej zmiennej losowej Momentem zwykłym rzędu kl, dwuwymiarowej zmiennej losowej (X, Y) nazywamy wyrażenie ( m kl = E X k Y l ) k l ∑ ∑ xi y j pi j i j = ∞ ∞ k l x y f ( x , y ) dxdy ∫ ∫ −∞−∞ Na przykład m 11 = E ( XY )= E ( X )E (Y )= m 10 m 01 Parametry rozkładu dwuwymiarowej zmiennej losowej typu skokowego Wartością oczekiwaną dwuwymiarowej zmiennej losowej typu skokowego nazywamy wyrażenie: E ( X , Y ) = E ( X )E (Y ) = ∑ ∑ x i y j p i j i j Wariancją dwuwymiarowej zmiennej losowej typu skokowego nazywamy wyrażenie: D ( X , Y ) = E [X − E ( X )] [Y − E (Y )] = 2 2 [ 2 ] = ∑ ∑ [x i − E ( X )]2 y j − E (Y ) 2 p i j i j Momenty centralne dwuwymiarowej zmiennej losowej Momentem centralnym rzędu k+l (k,l= 0,1,2,... ) dwuwymiarowego rozkładu zmiennej losowej (X,Y) nazywamy wyrażenie µ kl = E (( X − m 10 ) k ( Y − m 01 ) l ) = Wzór dla zmiennej skokowej ∑ ∑ ( x i − m 10 ) k ( y j − m 01 ) l p i i j j Wzór dla zmiennej ciągłej ∞ ∞ ∫ ∫ −∞−∞ ( x − m 10 ) k ( y − m 01 ) l f ( x , y ) dxdy Parametry dwuwymiarowych zmiennych losowych Kowariancja Def. Kowariancją zmiennej losowej dwuwymiarowej (X,Y) nazywamy wyrażenie: cov ( X , Y ) = E ( [ X − E ( X cov ( X , Y ) = cov xy )][Y = µ 11 = σ xy − E (Y )]) Wzory na obliczanie kowariancji dla zmiennej losowej skokowej )][y j cov( X , Y ) = ∑ ∑ [x i − E ( X i j − E (Y )]p i j dla zmiennej losowej ciągłej σ xy = +∞ ∫ − ∞ +∞ ∫ (x − m x )( y − ∞ − m y ) f ( x ) dx dy dla danych empirycznych 1 n S xy = ∑ ( x i − x )( y i − y ) n i =1 Jeśli zmienne X i Y są niezależne to cov(X,Y)=0, Twierdzenie odwrotne w ogólności nie jest prawdziwe Parametry dwuwymiarowych zmiennych losowych Współczynnik korelacji liniowej cov( X , Y ) ρ= D ( X ) D (Y ) ρ = µ 11 µ 02 µ 20 Współczynnik korelacji liniowej • Współczynnik korelacji opisuje siłę liniowego związku pomiędzy dwiema zmiennymi. • Przyjmuje on wartości z przedziału domkniętego <-1; 1>. • Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). • Wartość 0 oznacza brak korelacji liniowej Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej Analiza rozkładu łącznego – zmiennej dwuwymiarowej (X,Y) Y= pęknięcie Y= zgorzelina Y= mat.pow Y= wżery Y= skaza Y= inne Rozkład zmiennej X X= duże 0.05 0.01 0.02 0.01 0.11 0.06 0.26 X= średnie 0.1 0.03 0.06 0.02 0.09 0.03 0.33 X= małe 0.1 0.06 0.01 0.03 0.20 0.01 0.41 Rozkład zmiennej Y 0.25 0.1 0.09 0.06 0.40 0.10 1 Rozkłady brzegowe zmiennych losowych Y i X Analiza rozkładu łącznego – (JPD) zmiennej dwuwymiarowej (X,Y) • Na podstawie tablicy JPD można obliczać prawdopodobieństwa dowolnych zdarzeń losowych (każde zdarzenie jest sumą zdarzeń elementarnych/atomowych) • W wierszu j oraz kolumnie i tabeli JPD, znajduje się prawdopodobieństwo zdarzenia atomowego polegającego na jednoczesnym przyjęciu wartości yi przez zmienną Y oraz wartości xj przez zmienną X, np. P(X = średnia,Y= skaza) = 0.09. • W ostatnim wierszu tabeli nr 1 zamieszczono rozkład zmiennej Y, który uzyskuje się w wyniku sumowania wartości pól w kolumnach, • W ostatniej kolumnie zamieszczono rozkład zmiennej X, uzyskany w wyniku sumowania wartości pól w wierszach, są to rozkłady brzegowe zmiennej (X,Y). • Suma prawdopodobieństw wszystkich zdarzeń atomowych wynosi 1 (jest to warunek konieczny, wynikający z definicji rozkładu prawdopodobieństw) Zastosowania tablicowej reprezentacji JPD • Prawdopodobieństwo zdarzenia polegającego na tym, że wylosowano wyrób ze skazą lub jakąkolwiek małą wadą (Y = skaza lub X = mała) można obliczyć z tabeli JPD dodając wszystkie wartości w kolumnie Y = skaza i wierszu X = mała, licząc zawartość pola na przecięciu kolumny „skaza” i wiersza „mała’ tylko jeden raz. 0.1 + 0.06 + 0.01 + 0.03 + 0.2 +0.01+ 0.09 + 0.11 = 0.61 • Wynik ten jest taki sam jak dla prawdopodobieństwa sumy zdarzeń (X ∪ Y), bo: P (X ∪ Y) = P(X) + P(Y) – P(X ,Y) = 0.41 + 0.4 - 0.2 = 0.61 Prawdopodobieństwo warunkowe Prawdopodobieństwo łączne Prawdopodobieństwa warunkowe można obliczyć korzystając z tablicy JPD, np. • P(pęknięcie/małe) = P(pęknięcie,małe) : P(małe) = 0,1 : 0,41 = 0,244 • P(małe /pęknięcie) = P(pęknięcie,małe) :P(pęknięcie) = 0,1: 0,25 = 0,4 • Prawdopodobieństwo łączne: P(A,B) = P(A ∩ B)= P(A/B) * P(B) Zadanie • Dany jest rozkład zmiennej losowej (X,Y) Y 1 2 3 3 0,2 0,2 0 4 0,1 0,2 0,3 X 1. 2. 3. Znaleźć rozkłady brzegowe i obliczyć E(X) i D(X). Wyznaczyć rozkład warunkowy P(X/Y=1) i obliczyć wartość oczekiwaną w tym rozkładzie. O czym świadczy porównanie wyników E(X) i E(X/Y=1) ? Zadanie 2 Dwuwymiarowa zmienna losowa (XY) posiada następujący rozkład: yj xi 0 1 1 0,1 0,1 4 0,1 0,2 7 0,0 0,5 Wyznaczyć momenty zwykłe rzędu pierwszego zmiennej losowej X oraz (X/Y=0). Jaki wniosek wynika z porównania obliczonych wartości? Wyznaczyć wartość oczekiwaną zmiennej losowej (XY) Wiedząc, że E(Y)=0,8 obliczyć kowariancję w tym rozkładzie. Czy jej wynik potwierdza wniosek z punktu a)?