Materiały wspomagające wykład ze statystyki Maciej Wolny T1: Zajęcia organizacyjne Agenda 1. Program wykładu 2. Cel zajęć 3. Nabyte umiejętności 4. Literatura 5. Warunki zaliczenia Program wykładu T1: Zajęcia organizacyjne [1h] T2: Przedmiot i zadania statystyki [2h] T3: Metody analizy rozkładu cechy [4h] T4: Badanie współzależności zjawisk [4h] T5: Badanie dynamiki zjawisk [4h] T6: Zmienne losowe i ich podstawowe rozkłady [3h] T7: Rozkład normalny [2h] T8: Twierdzenia graniczne [1h] T9: Próba losowa i rozkłady statystyk z próby [2h] T10: Estymatory i estymacja przedziałowa [3h] T11: Hipotezy statystyczne i ich weryfikacja [4h] Cel Zaznajomienie z podstawowymi metodami procesu badania statystycznego umożliwiającymi wykrywanie prawidłowości struktury, współzależności i dynamiki zjawisk masowych oraz nauczenie wnioskowania statystycznego Umiejętności • czytanie, przetwarzanie i przedstawianie danych statystycznych • określanie i obliczanie charakterystyk badanych zbiorowości • zastosowanie estymatorów • weryfikacja hipotez parametrycznych i nieparametrycznych • wnioskowanie na podstawie przeprowadzonych weryfikacji • konstruowanie modeli regresji i ich zastosowanie w ekonomii • prognozowanie na podstawie analizy dynamiki zjawisk Literatura [1] Ignatczyk W., Chromińska M., Statystyka. Teoria i zastosowanie, Wyd. WSB, Poznań 1999 [2] Ostasiewicz S., Rusnak Z., Siedlecka K., Statystyka. Elementy teorii i zadania, Wyd. AE we Wrocławiu, Wrocław 1999 [3] Sobczyk M., Statystyka, PWN, Warszawa 1997 Warunki zaliczenia Egzamin 1. Pozytywna ocena z ćwiczeń 2. Egzamin pisemny • 50% zadania • 50% teoria 3. Ocena • 60-68% dst • 68-76% dst plus • 76-84% db • 84-92% db plus • 92-100% bdb T2: Przedmiot i zadania statystyki Agenda 1. Definicja 2. Geneza 3. Podstawowe pojęcia i zagadnienia 4. Proces badania statystycznego Definicja Statystyka jest to nauka o metodach badania zjawisk masowych, nauka traktująca o metodach ilościowych badania prawidłowości zjawisk masowych Zjawiska masowe to zjawiska, które występują często (np. zgony, urodzenia, małżeństwa, etc.) Geneza Statystyka – łac. status – państwo Etapy rozwoju badania zjawisk masowych: • do XVII w. – okres ewidencji i zliczania (dane, informacje) • XVII – XVIII w. – opisywanie zbiorowości według wzorca podanego przez państwoznawców (wykrycie prawidłowości w zjawiskach masowych np. zgonach) • od XVIII w. – wprowadzenie rachunku prawdopodobieństwa (rozwój metod statystycznych opartych na matematyce) Podstawowe pojęcia (1) Statystykę dzielimy na: - opisową, która ukazuje metody gromadzenia, opracowania i prezentacji danych wraz z ich sumarycznym opisem, przy wykorzystaniu właściwych narzędzi statystycznych - matematyczną zwaną wnioskowaniem statystycznym, która powstała na gruncie rachunku prawdopodobieństwa „Statystyka” ma zasadniczo cztery znaczenia: • metoda poznawania zjawisk masowych • nauka badająca zjawiska masowe • zbiór liczb charakteryzujący zbiorowość (np. statystyka ludności) • parametr opisowy rozumiany jako pewna wielkość charakterystyczna (np. średnia arytmetyczna, odchylenie standardowe) Podstawowe pojęcia (2) Przedmiot badania statystycznego Zbiorowość statystyczna, populacja, masa statystyczna Zbiorowością statystyczną nazywamy zespół jednostek objętych badaniem statystycznym, posiadających jedną lub kilka cech wspólnych (stałych) oraz wiele cech je różniących Zbiorowość jednorodna to zbiorowość, którą tworzą jednostki niezróżnicowane pod względem cechy stałej Jednostka statystyczna to podstawowy element zbiorowości statystycznej, który musi być jednoznacznie określony pod względem rzeczowym (kogo lub co badamy), czasowym (kiedy badamy) i przestrzennym (gdzie, na jakim terytorium badamy) Podstawowe pojęcia (3) Cechami statystycznymi nazywamy własności jednostek statystycznych stałe zmienne przestrzenne rzeczowe czasowe czasowe przestrzenne rzeczowe ilościowe ciągłe Źródło: [1] skokowe jakościowe Podstawowe pojęcia (4) Szereg statystyczny to dane (liczby) odpowiednio uporządkowane otrzymane w wyniku przeprowadzonego badania statystycznego szczegółowy z cechą mierzalną (ilościową) punktowe geograficzne proste skumulowane Źródło: [2] czasowy momentów z cechą niemierzalną (jakościową) przedziałowe proste rozdzielczy skumulowane inne okresów Szereg szczegółowy Uporządkowany ciąg wartości badanej cechy statystycznej Np. wzrost [cm] w pewnej grupie studentów 159; 159,5; 160; 161; 161; 162; 162; 162,5; 162,5; 163; 163; 163; 163; 163,5; 163,5; 164; 165; 165; 167; 167;167,5; 168; 168; 168; 168,5; 169; 169; 169; 169; 169,5; 169,5; 170; 170; 170,5; 170,5; 170,5; 170,5; 171; 172; 172,5; 173; 174; 175; 176; 176; 176,5; 177; 177; 177; 178; 178,5; 179; 179; 179; 180; 180; 181; 181; 182 Szereg rozdzielczy punktowy Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną na części (klasy) według określonej cechy z podaniem liczebności każdej z wyodrębnionych klas Np. wzrost [cm] w pewnej grupie studentów xi 170 170,5 171 171,5 172 172,5 173 173,5 174 174,5 ni 12 14 16 18 18 17 18 15 15 10 Szereg rozdzielczy przedziałowy Np. wzrost [cm] w pewnej grupie studentów xi 156-160 160-164 164-168 168-172 172-176 176-180 180-184 184-188 188-192 192-196 ni 2 10 12 12 20 22 15 10 4 1 k≈ n k ≈ 1 + 3 ,322 log n x&i - środek i - tego przedziału np. x&3 = 166 Prezentacja graficzna szeregów Histogram jest to zbiór prostokątów, których podstawy, wyznaczone na osi odciętych, stanowią rozpiętości poszczególnych przedziałów klasowych, natomiast wysokości są określone na osi rzędnych przez liczebności odpowiadające przedziałom klasowym Diagram jest łamaną powstałą przez połączenie punktów, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności 25 20 15 10 5 0 155 160 165 170 175 180 185 190 195 Proces badania statystycznego Badanie statystyczne jest procesem złożonym obejmującym całokształt czynności badawczych zmierzających do poznania zjawisk masowych za pomocą metody statystycznej. Proces ten obejmuje: • przygotowanie badania • obserwację statystyczną • opracowanie statystyczne • analizę statystyczną Przygotowanie badania • sformułowanie problemu badawczego • określenie i poznanie przedmiotu badania – celu i zakresu badania oraz postawienie hipotez roboczych, które będą weryfikowane • wybór metody obserwacji (pełna lub częściowa) • konstrukcja formularza statystycznego (układ pytań, odpowiednie części, koncepcja formularza) Obserwacja statystyczna Polega na uchwyceniu interesującego badacza zespołu cech (określonych w formularzu statystycznym) Materiał pierwotny – materiał źródłowy otrzymany w toku specjalnego badania statystycznego Materiał wtórny – materiał zebrany do innych celów wykorzystany przez badacza do swoich celów Opracowanie statystyczne • kontrola formalna i merytoryczna otrzymanego materiału • przełożenie treści na liczby • opracowanie schematów klasyfikacyjnych dla badanych cech • tablice robocze i wynikowe • prezentacja graficzna rezultatów badania Analiza statystyczna Wykrycie prawidłowości w badanej zbiorowości - analiza struktury - analiza współzależności - analiza dynamiki - analiza przestrzenna Podsumowanie zjawiska masowe – prawidłowości statystyka opisowa – statystyka matematyczna szeregi statystyczne – szczegółowy, rozdzielczy punktowy, rozdzielczy przedziałowy Szereg statystyczny – rozkład zmiennej, rozkład cechy (rozkład empiryczny zmiennej) graficzna prezentacja wyników → różnorakie sposoby (np. wykresy kołowe) proces badania statystycznego (przygotowanie badania, obserwacja statystyczna, opracowanie statystyczne, analiza statystyczna) Rozkład empiryczny zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartością zmiennej xi odpowiadających im liczebności ni szereg statystyczny zmiennej = rozkład zmiennej graficzne przedstawienie rozkładu Powró t T3: Metody analizy rozkładu cechy Agenda 1. Miary położenia 2. Miary zmienności 3. Miary asymetrii 4. Miary koncentracji Miary położenia Miary położenia klasyczne średnia arytmetyczna pozycyjne inne średnia harmoniczna średnia geometryczna dominanta kwantyle kwartyl pierwszy mediana kwartyl trzeci Źródło: [2] decyle inne Miary położenia (2) Miary położenia dzielą się na: •Miary przeciętne, które charakteryzują średni lub typowy poziom wartości cechy, wartości wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy •Kwantyle zdefiniowane jako wartości cechy badanej zbiorowości przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek (części te pozostają do siebie w określonych proporcjach) Średnia arytmetyczna (1) Dla szeregu szczegółowego: x1 + x2 + ... + xn 1 n x= = ∑ xi n n i =1 Dla szeregu rozdzielczego punktowego: x1 ⋅ n1 + x2 ⋅ n2 + ... + xk ⋅ nk 1 x= = ∑ xi ⋅ ni n n i =1 k k n = ∑ ni i =1 Średnia arytmetyczna (2) Dla szeregu rozdzielczego przedziałowego: x&1 ⋅ n1 + x& 2 ⋅ n2 + ... + x& k ⋅ nk 1 k x= = ∑ x&i ⋅ ni n n i =1 k n = ∑ ni i =1 Średnia arytmetyczna (3) Własności •Suma wartości cechy jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości n k i =1 i =1 n ⋅ x = ∑ xi n ⋅ x = ∑ xi ⋅ ni •Średnia arytmetyczna spełnia warunek xmin ≤ x ≤ xmax •Suma odchyleń poszczególnych wartości cechy od średniej równa się zero n ∑ ( xi − x ) = 0 i =1 k ∑ ( xi − x )ni = 0 i =1 n 2 ( x − x ) = min ∑ i •Suma kwadratów odchyleń poszczególnych wartości cechy od średniej jest minimalna i =1 k 2 ( x − x ) ni = min ∑ i i =1 Średnia harmoniczna Dla szeregu szczegółowego: xH = n n 1 ∑x i =1 i Dla szeregu rozdzielczego punktowego: n xH = k ni ∑x i =1 i Dla szeregu rozdzielczego przedziałowego: n xH = k ni ∑ x& i =1 i Średnia geometryczna Dla szeregu szczegółowego: xG = n x1 ⋅ x2 ⋅ ... ⋅ xn = n n ∏ xi i =1 Dla szeregu rozdzielczego: xG = n x1 ⋅ x2 ⋅ ... ⋅ xk n1 n2 nk =n n n n xG = n x&1 1 ⋅ x&2 2 ⋅ ... ⋅ x& k k = n k ∏ xi ni i =1 k ni & x ∏ i i =1 Podsumowanie - Średnie klasyczne k • Średnia średnich 1 x = ∑ xi ⋅ ni n i =1 • Średnia harmoniczna jest stosowana, gdy wartości cechy podane są w przeliczeniu na stałą jednostkę innej zmiennej, czyli w postaci wskaźników natężenia (liczebności w szeregu są wyrażone w jednostkach licznika jednostek cechy) – np. xi [kg/szt.] a ni [kg], xi [km/h] a ni [km] lub xi [l/m2] a ni [l] • Średnia geometryczna ma zastosowanie przy badaniu średniego tempa zmian zjawisk (zjawiska ujmowane są dynamicznie) Przykład (1) W czteroosobowej rodzinie średnia miesięczna płaca wynosi 1300 zł. Jakie wynagrodzenie otrzymuje mama, jeżeli ojciec miesięcznie zarabia 1500 zł, syn 1300 zł, a córka 1200 zł? Mama otrzymuje 1200 zł miesięcznie Średni wiek w n-osobowej grupie uczniów wynosi 11 lat. Najstarszy członek grupy ma 17 lat, a średnia wieku pozostałych wynosi 10 lat. Ilu uczniów liczy ta grupa? Grupa liczy 7 osób Przykład (2) Oblicz średnią prędkość samochodu, jeśli wiadomo, że a) jechał 30 min. z prędkością 100 km/h oraz 45 min. z prędkością 60 km/h? B) jechał 50 km z prędkością 100 km/h i 45 km z prędkością 60 km/h? Jakie średnie należy zastosować i dlaczego? W obu przypadkach jechał z prędkością 76 km/h Dominanta (1) Dominanta (wartość najczęstsza, moda, modalna) – wartość cechy statystycznej występująca najczęściej w danym rozkładzie empirycznym. Wartość najczęściej występująca w szeregu statystycznym. • w szeregach szczegółowych i rozdzielczych punktowych jest to wartość cechy, której odpowiada największa liczebność. • w szeregach rozdzielczych przedziałowych oblicza się przybliżoną wartość ze wzoru interpolacyjnego (lub graficznie wyznacza się z histogramu) Dominanta (2) nD − nD − D = x0 D + ⋅ ∆x0 D ( nD − nD − ) + ( nD − nD + ) 25 20 15 10 5 0 155 160 165 170 175 180 185 190 195 Kwantyle (1) Kwantyle to wartości cechy badanej zbiorowości, które dzielą zbiorowość na określone części pod względem liczby jednostek Kwartyl pierwszy dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy Kwartyl drugi (mediana, wartość środkowa) dzieli zbiorowość na dwie części w ten sposób, że połowa jednostek zbiorowości ma wartości nie wyższe niż mediana, a połowa jednostek zbiorowości ma wartości nie niższe niż mediana Kwartyl trzeci dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 25% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy Kwantyle (2) Dla szeregu szczegółowego i rozdzielczego punktowego: x[ np ] +1 np ∉ C Qp = 1 ( x + x ) np ∈ C np np + 1 2 p ∈ ( 0 ;1 ) Dla szeregu rozdzielczego przedziałowego: − i np − cum n Q p = xQ + ⋅ ∆xQ nQ Q1 ≡ Q1 4 Q1 ≡ Q2 ≡ Me 2 Q3 ≡ Q3 4 Przykład (3) Na podstawie poniższych danych porównaj średni wzrost w obu klasach, wyznacz dominantę i kwartyle oraz odpowiedz na pytanie: „czy w klasie A jest więcej uczniów o wzroście większym od przeciętnego?”. Odpowiedź uzasadnij Wzrost 158-161 Klasa A 3 Klasa B 2 161-164 164-167 167-170 170-173 173-176 5 8 15 6 3 3 6 8 15 6 Przykład (4) Wzrost 158-161 161-164 164-167 167-170 170-173 173-176 suma średnia Klasa A 3 5 8 15 6 3 40 Klasa B 2 3 6 8 15 6 40 środek 159,5 162,5 165,5 168,5 171,5 174,5 n1i x i 478,5 812,5 1324 2527,5 1029 523,5 6695 167,375 n2i x i 319 487,5 993 1348 2572,5 1047 6767 169,175 cum n1i 3 8 16 31 37 40 cum n2i 2 5 11 19 34 40 Przykład (5) W punkcie skupu makulatury studenci wykonali projekt ze statystyki badając pewną losowo wybraną próbę z populacji wagi oddawanej makulatury. Obliczono, że mediana wynosi 12 kg i umiejscowiona jest w przedziale od 10 kg do 15 kg, którego liczebność wynosi 35. Jaka jest liczebność badanej próby, jeśli 30 osób z tej próby oddało makulaturę o wadzę mniejszej niż 10 kg? Liczebność badanej próby wynosi 88 Miary zmienności Miary zmienności klasyczne pozycyjne wariancja i odchylenie standardowe odchylenie przeciętne współczynnik zmienności Źródło: [2] rozstęp odchylenie ćwiartkowe współczynnik zmienności Klasyczne miary zmienności (1) Wariancja jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej zbiorowości n 1 2 2 s = ∑ ( xi − x ) n i =1 k 1 2 2 s = ∑ ( xi − x ) ni n i =1 k 1 2 2 & s = ∑ ( xi − x ) ni n i =1 s =x −x 2 2 s 2 ,σ 2 , D 2 ( x ) 2 Klasyczne miary zmienności (2) Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. O ile wartości cechy różnią się średnio od wartości średniej s= s s ,σ , S ( x ) 2 Klasyczne miary zmienności (3) Typowy obszar zmienności, który obejmuje około 2/3 jednostek zbiorowości: x − s < xtyp < x + s Odchylenie przeciętne – o ile jednostki danej zbiorowości różnią się średnio względem wartości badanej cechy od średniej arytmetycznej: 1 n d = ∑| xi − x | n i =1 1 k d = ∑| xi − x | ni n i =1 1 k d = ∑| x&i − x | ni n i =1 d≤s Klasyczne miary zmienności (4) Wariancja ogólna, która jest sumą wariancji wewnątrzgrupowej i międzygrupowej: s 2 = sw2 + sm2 Równość wariancyjna 1 k 2 s = ∑ si ⋅ ni n i =1 1 k 2 sm = ∑ ( xi − x )2 ni n i =1 2 w Współczynnik zmienności: s Vs = ⋅ 100% x d Vd = ⋅ 100% x Pozycyjne miary zmienności (1) Rozstęp: R = xmax − xmin Odchylenie ćwiartkowe: Q3 − Q1 Q= 2 Typowy obszar zmienności cechy: Me − Q < xtyp < Me + Q Pozycyjne miary zmienności (2) Współczynnik zmienności I: Q VQ = ⋅ 100% Me Współczynnik zmienności II: VQ1 ,Q3 Q3 − Q1 = ⋅ 100% Q3 + Q1 Przykład (6) W dwóch przedsiębiorstwach przeprowadzono badanie robotników pod względem stażu pracy w zakładzie. Otrzymano następujące dane: Przedsiębiorstwo I średni staż 15 lat V = 20% Przedsiębiorstwo II średni staż 10 lat V = 25% Obliczyć średni staż, s i V dla całej zbiorowości pracowników wiedząc, że liczba robotników w przedsiębiorstwie I wynosiła 120 osób a w drugim 80 osób. Średni staż 13 lat, s=3,73 roku, V=29% Miary asymetrii (1) Wzrost Klasa A Klasa B 158-161 3 2 20 20 161-164 8 3 15 15 164-167 15 6 167-170 6 8 10 10 170-173 5 15 5 5 173-176 3 6 0 0 Klasyczno-pozycyjny wskaźnik skośności: Wsk = x − D Pozycyjny wskaźnik skośności: Wsp = ( Q3 − Me ) − ( Me − Q1 ) 1 2 3 4 5 asymetria prawostronna 6 1 2 3 4 5 6 asymetria lewostronna D ≤ Me ≤ x x ≤ Me ≤ D Miary asymetrii (2) Klasyczno-pozycyjny współczynnik asymetrii (skośności): x−D As = s x−D Ad = d Klasyczny współczynnik asymetrii (skośności): m3 A = 3 s Moment centralny trzeciego rzędu Moment centralny rzędu r: 1 n mr = ∑ ( xi − x )r n i =1 1 k mr = ∑ ( x&i − x )r ⋅ ni n i =1 Pozycyjny współczynnik asymetrii (skośności): ( Q3 − Me ) − ( Me − Q1 ) Q3 + Q1 − 2 Me AQ = = ( Q3 − Me ) + ( Me − Q1 ) 2Q Miary koncentracji (1) •koncentracja wartości cechy wokół średniej 30 Wykres wysmukły (leptokurtyczny) •im większe zróżnicowanie, tym mniejsza koncentracja 25 •współczynnik skupienia (kurtoza): 20 m4 K= 4 s m4 K' = 4 − 3 s 10 5 0 1 Wykres spłaszczony (platokurtyczny) 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 K >3 K' > 0 15 K <3 K' < 0 2 3 4 5 6 7 8 9 10 11 12 13 Miary koncentracji (2) 1 •Krzywa koncentracji Lorenza 0,9 •Współczynnik koncentracji Lorenza a 5000 − b KL = = 5000 5000 0,8 0,7 0,6 0,5 a 0,4 0,3 b 0,2 0,1 1 0 0,9 0,8 0,6 0,4 0,3 ni ∑ ni skumulowane odsetki liczebności 0,7 0,5 cum xn cum i i ∑ xi ni skumulowane odsetki iloczynu wartości cechy i liczebności 0,2 0,1 0 brak koncentracji KL=0 Przykład (7) Uzupełnić dane dotyczące wzrostu (w cm) w dwóch klasach Średnia 160 Typowy obszar zmienności (155-165) Współczynnik zmienności 3,125% 161 (157;165) 2,484% Dominanta 161 160 Współczynnik asymetrii -0,2 0,25 Wariancja 25 16 Podsumowanie - uzupełnienie Wzór Pearsona: x − D = 3( x − Me ) Siła asymetrii: A ≤ 0 ,3 słaba 0 ,3 < A ≤ 0 ,7 umiarkowan a 0 ,7 < A ≤ 0 ,9 silna 0 ,9 < A skrajna • najważniejsza jest interpretacja otrzymanych wyników – wszystkie obliczenia mają sens jedynie, gdy prowadzą do wniosków • wszechstronna analiza opisowa polega na obliczeniu wszystkich adekwatnych miar wraz z prawidłową interpretacją otrzymanych wyników • analiza opisowa populacji na podstawie próby opiera się na identycznych zasadach z uwzględnieniem teorii estymacji T4: Badanie współzależności zjawisk Agenda 1. Wprowadzenie 2. Analiza korelacji 3. Analiza regresji 4. Podsumowanie Korelacja (1) Korelacja cech ilościowych – Korelacja cech jakościowych Korelacja liniowa – Korelacja nieliniowa Zależność korelacyjna (korelacja) polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej Korelacja dodatnia - wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy Korelacja ujemna - wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy Korelacja (2) Wzrokowa ocena korelacyjnego wykresu rozrzutu punktów empirycznych 30 30 25 25 20 20 15 15 10 10 5 5 0 0 0 2 4 6 8 10 korelacja liniowa dodatnia 0 2 4 6 8 10 korelacja liniowa ujemna 30 35 25 30 25 20 20 15 15 10 10 5 5 0 0 4 4,5 5 5,5 6 6,5 brak korelacji 7 7,5 0 2 4 6 8 10 12 14 16 korelacja krzywoliniowa Korelacja (3) Szereg szczegółowy: Rozkład warunkowy i 1 y y1 x x1 Rozkład warunkowy 2 ... n y2 ... yn x2 ... xn Rozkład brzegowy Rozkład brzegowy Tablica korelacyjna: y y1 y2 ... yj ... ys ni. x1 n11 n12 ... n1j ... n1s n1. x2 ... xi ... xk n21 ... ni1 ... nk1 n22 ... ni2 ... nk2 ... ... ... ... ... n2j ... nij ... nkj ... ... ... ... ... n2s ... nis ... nks n2. ... ni. ... nk. n.j n.1 n.2 ... n.j ... n.s n x Współczynnik korelacji liniowej Pearsona Miara siły związku liniowego między cechami cov( xy ) rxy = sx ⋅ s y • symetryczny cov( xy ) = x ⋅ y − x ⋅ y Dla szeregu szczegółowego: Dla tablicy korelacyjnej: n rxy = ∑ ( xi − x )( yi − y ) i =1 n n ∑ ( xi − x )2 ∑ ( yi − y )2 i =1 i =1 1 n cov( xy ) = ∑ ( xi − x )( yi − y ) n i =1 k s ∑∑ ( x&i − x )( y& i − y )nij rxy = i =1 j =1 k s ∑ ( x&i − x ) ni⋅ ∑ ( y&i − y )2 n⋅ j 2 i =1 i =1 1 k s cov( xy ) = ∑∑ ( x&i − x )( y& i − y )nij n i =1 j =1 Wartość współczynnika korelacji liniowej Pearsona − 1 ≤ rxy ≤ 1 rxy < 0 ,2 brak związku liniowego 0 ,2 ≤ rxy < 0 ,4 słaba zależność liniowa 0 ,4 ≤ rxy < 0 ,7 umiarkowan a zależność liniowa 0 ,7 ≤ rxy < 0 ,9 znacząca zależność liniowa 0 ,9 ≤ rxy bardzo silna zależność liniowa Przykład (1) W fabryce zbadano, jak kształtuje się średnia wydajność pracowników w zależności od czasu nieprzerwanej pracy Czas pracy w godz. 1 2 3 4 5 6 7 Wydajność w szt./godz. 20 22 20 18 15 13 12 Czy istnieje silna zależność między czasem pracy a wydajnością? Przykład (2) i 1 2 3 4 5 6 7 Σ średnia Xi 1 2 3 4 5 6 7 28 4 Yi 20 22 20 18 15 13 12 120 17,14 XiYi 20 44 60 72 75 78 84 433 61,86 X2 Y2 1 4 9 16 25 36 49 140 20 400 484 400 324 225 169 144 2146 306,57 cov( xy ) = x ⋅ y − x ⋅ y = 61,86 − 4 ⋅ 17 ,14 = −6 ,7 cov( xy ) − 6 ,7 rxy = = = −0 ,94 2 sx ⋅ s y 2 ⋅ 3 ,58 S y2 = y 2 − y = 306 ,57 − 17 ,14 2 = 12 ,79 S x2 = x 2 − x = 20 − 4 2 = 20 − 16 = 4 2 Przykład (3) Istnieje bardzo silna liniowa zależność korelacyjna między czasem pracy a wydajnością Zależność tą cechuje korelacja ujemna, czyli im dłuższy czas pracy tym niższa średnia wydajność pracy Przykład (4) Dana jest tablica korelacyjna stażu pracy (Y) pracowników w pewnym zakładzie oraz liczby pobranych przez nich pożyczek (X) z kasy zapomogowo-pożyczkowej. Liczba pożyczek Staż pracy w latach 0–4 4-8 8 - 12 1–2 30 3 - 3–4 4 18 12 5–6 - 1 8 Obliczyć współczynnik korelacji między stażem pracy pracowników a liczbą pobranych pożyczek Przykład (5) Y X 1–2 3–4 5–6 nj nj yj nj yj 2 ni nix i nix i2 20 33 34 9 76 49,5 119 49,5 218 74,25 416,5 272,25 763 132 200 400 792 2000 2928 0–4 30 4 - 4-8 3 18 1 8 - 12 12 8 34 22 68 136 S x2 = 1,81 cov( xy ) = 3 ,53 S y2 = 10 ,83 rxy = 0 ,80 Stosunki (wskaźniki) korelacyjne Pearsona sy = s + s 2 2 yw 2 2 s x = s xw + s xm 2 2 ym 1 k 2 2 s yw = ∑ s yi ⋅ ni . n i =1 1 k 2 s ym = ∑ ( yi − y )2 ni . n i =1 e yx = 2 s ym s 2 y s 2 xw 1 s 2 = ∑ s xj ⋅ n. j n j =1 s 2 xm 1 s = ∑ ( x j − x ) 2 n. j n j =1 = 1− 2 s yw s 2 y Stosunek korelacyjny zmiennej Y względem zmiennej X niesymetryczne niezależne od kształtu zależności <0; 1> exy=0 nieskorelowane exy=1 zależność funkcyjna 2 2 s xm s xw exy = = 1− 2 2 sx sx Stosunek korelacyjny zmiennej X względem zmiennej Y Przykład (6) y& j x& i ni nix i nix i2 yi y i ni . 49,5 119 49,5 218 74,25 416,5 272,25 763 2,36 6,94 9,56 20 33 34 9 76 78 236 86 400 132 200 400 136 1,74 792 3,32 2000 4,30 2928 59 73 86 218 1,5 3,5 5,5 nj nj yj 2 nj yj xj x j n. j S y2 = 10 ,83 S = 1,81 2 x rxy = 0 ,80 2 30 4 0 6 3 18 1 10 0 12 8 34 22 68 1,17 exy = = 0,80 1,81 7,37 e yx = = 0,81 10,83 Kwadraty wskaźników korelacyjnych Kwadraty wskaźników korelacyjnych nazywane są współczynnikami determinacji, które informują w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej 100 ⋅ e Oceny kwadratów wskaźników korelacyjnych wyrażone w procentach 2 yx 100 ⋅ e 2 xy Stopień krzywoliniowości Różnica między kwadratami wskaźnika korelacji oraz współczynnika korelacji mxy = e − r 2 xy wartości z przedziału <0;1> m>0,2 krzywoliniowość związku jest istotna w przeciwnym wypadku jeśli wartość rxy pozwala, można uznać związek liniowy 2 xy m yx = e − r 2 yx 2 yx Współczynnik korelacji rang Spearmana Służy do opisu siły korelacji dwóch cech, w sytuacji, gdy istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności n rs = 1 − 6 ⋅∑d i =1 2 2 i n( n − 1 ) di oznacza różnicę między rangami odpowiadających sobie i-tych obserwacji (wartości) cechy X oraz Y stosowany zwykle dla cech jakościowych lub ilościowych z niewielką liczbą obserwacji przyjmuje wartości z przedziału <-1;1> interpretacja wartości identyczna jak współczynnika korelacji Pearsona Przykład (6) i 1 2 3 4 5 6 7 Σ Xi 1 2 3 4 5 6 7 Yi 2 3 1 5 4 7 6 di -1 -1 2 -1 1 -1 1 di2 1 1 4 1 1 1 1 10 n 6 ⋅ ∑ d i2 6 ⋅ 10 rs = 1 − = 1− = 0 ,82 n( n − 1 ) 7( 49 − 1 ) i =1 2 Korelacja wieloraka i cząstkowa (1) przy badaniu wielu cech, wielu zmiennych korelacja wieloraka, gdy uwzględnia się oddziaływanie na jedną zmienną (zależną) wielu zmiennych (niezależnych) korelacja cząstkowa, gdy badamy współzależności tylko niektórych cech (zmiennych), eliminując wpływ pozostałych Korelacja wieloraka i cząstkowa (2) Współczynnik korelacji cząstkowej rij .kl ...z = − Pij Pij jest dopełnieniem algebraicznym macierzy P współczynników korelacji par wszystkich włączonych do analizy zmiennych, powstałym przez skreślenie i-tego wiersza i j-tej kolumny Pii Pjj 1 r 21 P = ... rz1 r12 ... 1 ... ... rz 2 ... ... r1 z r2 z ... 1 Korelacja wieloraka i cząstkowa (3) Współczynnik korelacji wielorakiej Ri . jkl ...z = Pi jest macierzą powstałą z macierzy P przez usuniecie i-tego wiersza i i-tej kolumny det P 1− det Pi Korelacja cech jakościowych RAZEM ϕ = RAZEM + Cecha Y Cecha X + a b a+b - c d c+d a+c b+d ad − bc ( a + b )( a + c )( b + d )( c + d ) Wprowadzenie - regresja Funkcja regresji to analityczny wyraz przyporządkowania średnich wartości zmiennej objaśnianej (zależnej) konkretnym wartościom zmiennych objaśniających (niezależnych). Empiryczna linii regresji zmiennej Y względem X jest linią łamaną powstałą przez połączenie punktów o współrzędnych ( x i , y | x i ) Empiryczna linii regresji zmiennej X względem Y jest linią łamaną powstałą przez połączenie punktów o współrzędnych ( x | y j , y j ) Funkcja regresji Na podstawie empirycznych linii regresji można postawić hipotezę odnośnie typu funkcji matematycznej (liniowa, wykładnicza, parabola, itd.) opisującej mechanizm powiązań między badanymi zmiennymi Funkcja regresji II rodzaju jest przybliżeniem empirycznych linii regresji. Wybór postaci analitycznej funkcji regresji II rodzaju należy dokonywać również na podstawie źródeł pozastatystycznych (teorii ekonomii, opinii ekspertów, doświadczeń wynikających z poprzednich badań, etc) Liniowa funkcja regresji (1) Funkcja regresji II rodzaju Y względem X: ˆ = f ( x ) = α 0 + α1 X + ξ Y cov( XY ) α1 = , α 0 = y − α1 x 2 SX Funkcja regresji II rodzaju X względem Y: ˆ = g (Y ) = β + β Y + ξ ' X 0 1 cov( XY ) β1 = , β 0 = x − β1 y 2 SY Liniowa funkcja regresji (2) Związki między współczynnikiem korelacji oraz parametrami strukturalnymi liniowej funkcji regresji rxy = α1 β1 α1 = rxy Sy β1 = r xy Sx Sy Sx Badanie dokładności oszacowanej funkcji regresji (1) Reszty zbudowanego modelu: ei = y i − ŷ i zi = x i − x̂ i Wariancja resztowa: n Se2 = 2 ( y − ŷ ) ∑ i i i =1 n −2 n S 2 z = 2 ( x − x̂ ) ∑ i i i =1 n −2 Badanie dokładności oszacowanej funkcji regresji (2) Współczynnik zbieżności: Współczynnik determinacji: n 2 = ϕ yx 2 ( y − ŷ ) ∑ i i i =1 n 2 ( y − y ) ∑ i n 2 R yx = i =1 2 ( ŷ − y ) ∑ i i i =1 n 2 ( y − y ) ∑ i i =1 R 2 yx +ϕ 2 yx 2 2 R yx = ryx =1 Podsumowanie - regresja liniowa funkcja regresji regresja krzywoliniowa regresja wielu zmiennych badanie dokładności = weryfikacja T5: Badanie dynamiki zjawisk Agenda 1. Podstawowe pojęcia 2. Badanie zmian szeregu dynamicznego 3. Indeksy indywidualne i agregatowe 4. Dekompozycja szeregu dynamicznego 5. Metody wyodrębnienia trendu Podstawowe pojęcia Analizę dynamiki zjawisk masowych przedstawia się na podstawie szeregów czasowych (dynamicznych, chronologicznych). Szeregiem dynamicznym nazywamy ciąg wartości badanego zjawiska obserwowanego w kolejnych jednostkach czasu. W szeregach czasowych zmienną niezależną jest czas, natomiast zmienną zależną jest wartość badanego zjawiska. Szeregi czasowe momentów informują o o rozmiarach zjawiska w pewnych ściśle określonych momentach (chwilach) Szeregi czasowe okresów informują o rozmiarach zjawiska w określonych przedziałach czasu. Średnia w szeregu dynamicznym W przypadku szeregu czasowego okresów przeciętny poziom badanego zjawiska oblicza się za pomocą średniej arytmetycznej (w przypadku nierównych przedziałów czasowych należy przyjąć odpowiednie wagi). W przypadku szeregu czasowego momentów oblicza się średnią chronologiczną: xch x1 + x2 x2 + x3 x n −1 + x n 1 1 + + ... x1 + x2 + ... + x n −1 + x n 2 2 2 2 =2 = n −1 n −1 Badanie zmian szeregu dynamicznego ∆ t ,k = xt − x k ∆ t ,t −1 = xt − xt −1 Przyrosty względne: ∆t / k xt − x k = xk ∆ t / t −1 xt − xt −1 = x t −1 Indeksy (wskaźniki dynamiki): it / k xt = xk i t / t −1 xt = x t −1 łańcuchowe jednopodstawowe Przyrosty absolutne: Przykład Średnia roczna premia w pewnej firmie kształtowała się w ostatnich latach w następujący sposób: t xt 1 1250 2 1320 3 1390 4 1450 5 1550 ∆ t,1 0 70 140 200 300 ∆ t,3 -140 -70 0 60 160 ∆ t,t-1 - 70 70 60 100 ∆ t/1 0,0000 0,0560 0,1120 0,1600 0,2400 ∆ t/3 -0,1007 -0,0504 0,0000 0,0432 0,1151 ∆ t/t-1 - 0,0560 0,0530 0,0432 0,0690 it/1 1,0000 1,0560 1,1120 1,1600 1,2400 it/3 0,8993 0,9496 1,0000 1,0432 1,1151 1,0560 1,0530 1,0432 1,0690 it/t-1 Średnie tempo zmian iG = n −1 y2 y3 yn yn ⋅ ⋅ ... ⋅ = n −1 y1 y 2 y n −1 y1 Przyjmując, że średnie tempo przyrostu wartości premii z roku na rok nie ulegnie zmianie, jaka będzie kształtować się premia w kolejnych 3 latach? iG = n −1 i n / 1 = 4 1,24 = 1,055 y 6 * = y 5 ⋅ iG = 1550 ⋅1,055 = 1635 ,25 y7 * = y 5 ⋅ ( iG )2 = 1550 ⋅ (1,055 )2 = 1725 ,19 y 8 * = y 5 ⋅ ( iG )3 = 1550 ⋅ (1,055 )3 = 1820 ,07 T −n y T * = y n ⋅ ( iG ) Indeksy indywidualne Indeksy indywidualne są stosowane w badaniu dynamiki zjawisk jednorodnych. Zwykle rozpatruje się trzy rodzaje indywidualnych wskaźników dynamiki: Indywidualny indeks cen: Indywidualny indeks ilości: Indywidualny indeks wartości: p1 ip = p0 q1 iq = q0 q1 p1 iw = q0 p0 Równość indeksowa: iw = i p ⋅ i q Indeksy zespołowe (agregatowe) •Indeksy agregatowe służą do badania dynamiki zespołu zjawisk – zwykle niejednorodnych i bezpośrednio niesumowalnych. •Konstrukcja indeksów agregatowych opiera się na wykorzystaniu określonych współczynników przeliczeniowych w postaci wag, którymi najczęściej są ceny i ilości. •Wyróżnia się indeksy agregatowe dla wielkości absolutnych oraz dla wielkości stosunkowych. •Do zespołowych indeksów wielkości absolutnych zalicza się: agregatowy indeks wartości, agregatowy indeks ilości, agregatowy indeks cen. Indeksy agregatowe (1) Agregatowy indeks wartości: n Iw = ∑q i =1 n ∑q i =1 Agregatowy indeks ilości wg formuły Laspeyresa: I L q qp ∑ = ∑q p 1 0 0 0 1i p1i qp ∑ = ∑q p 1 1 0i p0 i 0 0 Agregatowy indeks ilości wg formuły Paashego: I P q qp ∑ = ∑q p 1 1 0 1 Indeksy agregatowe (2) Agregatowy indeks cen wg formuły Laspeyresa: I L p pq ∑ = ∑p q 1 0 0 I = I ⋅I L p I P p 0 Agregatowy indeks cen wg formuły Fishera: F p Agregatowy indeks cen wg formuły Paashego: P p pq ∑ = ∑p q 1 1 0 1 Agregatowy indeks ilości wg formuły Fishera: I = I ⋅I F q L q P q Indeksy agregatowe (3) Równość indeksowa dla indeksów agregatowych: Iw = I ⋅ I = I ⋅ I = I ⋅ I L p P q L q P p F p F q Przykład W pewnym zakładzie produkowane są trzy wyroby. Zebrano informacje dotyczące produkcji (w setkach sztuk) oraz cen jednostkowych (w setkach złotych) wyrobów w dwóch latach: 2003 (okres bazowy) i 2005 (badany okres). Informacje te przedstawiono w poniższej tabeli. Wyrób A B C Produkcja Ceny jednostkowe 2003 (q0) 2005 (q1) 2003 (p0) 2005 (p1) 0,8 1,2 24 30 1,1 1,4 18 20 1,5 1,2 30 32 Jak zmieniła się wartość produkowanych wyrobów w porównywanych okresach? Jaki wpływ na zmianę wartości miała dynamika cen, a jaki dynamika ilości produkowanych wyrobów? Model wahań w czasie Modelem wahań w czasie nazywamy konstrukcję teoretyczną (równanie lub układ równań), która opisuje kształtowanie się określonego zjawiska jako funkcji zmiennej czasowej, odchyleń periodycznych (okresowych) oraz odchyleń przypadkowych. Na zmienność badanego zjawiska w czasie mają wpływ: tendencja rozwojowa (trend), wahania okresowe, wahania przypadkowe (losowe). Model addytywny: Yt = F ( t ) + Gi ( t ) + ξ ( t ) Model multiplikatywny: Yt = F ( t ) ⋅ Gi ( t ) ⋅10 ξ(t ) Yt – poziom badanego zjawiska F(t) – funkcja trendu Gi(t) – funkcja wahań okresowych ξ(t) – składnik losowy Metody wyodrębniania trendu Trendem (tendencją rozwojową) nazywamy powolne, regularne i systematyczne zmiany określonego zjawiska, obserwowane w dostatecznie długim czasie i będące rezultatem przyczyn głównych. Najczęściej do wyodrębnienia wykorzystuje się: • mechaniczną metodę średnich ruchomych • analityczną metodę najmniejszych kwadratów Metoda mechaniczna wyodrębniania trendu Polega na zastępowaniu danych empirycznych (dla kolejnych okresów) średnimi poziomami z okresu badanego i kilku okresów sąsiednich. Średnie ruchome mogą być obliczane z parzystej (średnie ruchome scentrowane) lub nieparzystej (średnie ruchome zwykłe) liczby kolejnych wyrazów szeregu empirycznego. Zwykle w celu wyodrębnienia trendu stosuje się średnie ruchome zwykłe. y1 , y 2 ,..., y n y1 + y 2 + y 3 3 y + y3 + y4 y2 = 2 3 ... y + y n −1 + y n y n −2 = n −2 3 y1 = y1 , y 2 ,..., y n 1 1 y1 + y 2 + y 3 + y 4 + y 5 2 y1 = 2 4 1 1 y2 + y3 + y 4 + y5 + y6 2 y2 = 2 4 ... 1 1 y n −4 + y n −3 + y n −2 + y n −1 + y n 2 y n −4 = 2 4 Metoda analityczna wyodrębniania trendu Polega na dopasowaniu określonej funkcji matematycznej do całego szeregu czasowego. Istotnym problemem jest dobór postaci analitycznej funkcji trendu. Do najczęściej stosowanych funkcji trendu należy funkcja liniowa. Dla przenumerowanych jednostek czasu Yt = α 0 + α1t + ξ t Ŷt = a0 + a1t n a0 = ∑y t =1 n n t =y a1 = n ∑ y ( t − t ) ∑ y t' t =1 n t 2 ( t t ) − ∑ t =1 = t ' =1 n t 2 t ' ∑ t ' =1 Przykład Na podstawie danych dotyczących zysków osiąganych przez pewne przedsiębiorstwo wyodrębnić tendencję rozwojową metodą mechaniczną (zastosować różne średnie ruchome) oraz analityczną. Jeśli trend się nie zmieni, to jakie średnie zyski osiągnie przedsiębiorstwo w drugim kwartale 2007 roku? I II III IV V VI VII VIII IX X XI XII 2000 125,1 121,4 122,8 123,2 122,5 121,3 122,1 121,6 120,6 124,6 123,6 128,1 2001 133,6 124,0 123,9 123,3 123,3 123,1 123,0 121,9 122,3 124,2 124,2 128,4 2002 126,0 126,6 130,2 125,1 125,1 124,6 123,6 122,5 122,7 124,2 125,6 127,4 2003 127,7 126,2 129,3 125,5 125,5 125,2 122,3 124,1 124,1 125,4 127,1 129,4 2004 130,5 132,2 129,8 125,9 127,9 124,9 124,3 124,2 124,3 126,0 125,9 129,4 Rozwiązanie Średnie ruchome trzyokresowe I II III IV V VI VII VIII IX X XI XII 2000 123,1 122,5 122,8 122,3 122,0 121,7 121,4 122,3 122,9 125,4 2001 128,4 128,6 127,2 123,7 123,5 123,2 123,1 122,7 122,4 122,8 123,6 125,6 2002 126,2 127,0 127,6 127,3 126,8 124,9 124,4 123,6 122,9 123,1 124,2 125,7 2003 126,9 127,1 127,7 127,0 126,8 125,4 124,3 123,9 123,5 124,5 125,5 127,3 2004 129,0 130,7 130,8 129,3 127,9 126,2 125,7 124,5 124,3 124,8 125,4 127,1 Rozwiązanie 135,0 130,0 125,0 120,0 115,0 110,0 1 11 21 31 41 51 Rozwiązanie Średnie ruchome dziewięciokresowe I II III IV V VI VII VIII IX X XI XII 2000 122,3 122,2 122,5 123,1 2001 124,2 124,4 124,7 124,8 125,0 125,3 125,1 124,9 124,3 123,2 123,2 123,7 2002 124,0 124,4 125,2 125,4 125,8 126,0 126,0 125,8 125,2 125,0 124,8 124,5 2003 124,8 124,9 125,5 125,7 126,0 126,3 126,1 125,9 125,5 125,3 125,4 125,4 2004 126,0 126,7 127,2 127,6 128,0 128,1 128,0 127,7 127,1 126,6 125,9 125,9 Rozwiązanie 135,0 130,0 125,0 120,0 115,0 110,0 1 11 21 31 41 51 Metoda analityczna wyodrębniania trendu – przykład I II III IV V VI VII VIII IX X XI XII 2000 125,1 121,4 122,8 123,2 122,5 121,3 122,1 121,6 120,6 124,6 123,6 128,1 2001 133,6 124,0 123,9 123,3 123,3 123,1 123,0 121,9 122,3 124,2 124,2 128,4 2002 126,0 126,6 130,2 125,1 125,1 124,6 123,6 122,5 122,7 124,2 125,6 127,4 2003 127,7 126,2 129,3 125,5 125,5 125,2 122,3 124,1 124,1 125,4 127,1 129,4 Arkusz kalkulacyjny MS Excel 2004 130,5 132,2 129,8 125,9 127,9 124,9 124,3 124,2 124,3 126,0 125,9 129,4 Suma 642,9 630,4 636,0 623,0 624,3 619,1 615,3 614,3 614,0 624,4 626,4 642,7 7512,8 Podsumowanie • badanie dynamiki zjawisk = analiza szeregu czasowego • składniki modelu wahań w czasie (trend, wahania sezonowe, wahania przypadkowe) • główne zastosowanie: prognozowanie i ekonometria T6: Zmienne losowe i ich podstawowe rozkłady Agenda 1. Podstawowe pojęcia 2. Zmienna losowa ciągła i skokowa 3. Podstawowe charakterystyki rozkładów 4. Wybrane rozkłady zmiennej losowej skokowej 5. Wybrane rozkłady zmiennej losowej ciągłej Podstawowe pojęcia (1) Zmienną losową nazywamy zmienną, która przyjmuje wartości ze zbioru liczb rzeczywistych z określonym prawdopodobieństwem. Zmienną losową nazywamy dyskretną lub skokową, jeżeli przyjmuje wartości z skończonego zbioru wartości lub przeliczalnego zbioru wartości. Zmienną losową nazywamy ciągłą jeżeli wartości tej zmiennej przyjmują wartości z całego zbioru liczb rzeczywistych lub z przedziałów (przedziału) liczbowych zbioru liczb rzeczywistych. Rozkładem prawdopodobieństwa zmiennej losowej nazywamy funkcję, która przyporządkowuje wartościom zmiennej prawdopodobieństwo. Podstawowe pojęcia (2) Dystrybuantą zmiennej losowej X nazywamy funkcję zmiennej rzeczywistej taką, że: F(x)=P(X<x) Własności dystrybuanty: • jest funkcją przynajmniej lewostronnie ciągłą • jest funkcją niemalejącą F ( x ) = 0 ∧ lim F ( x ) = 1 • xlim → −∞ x →∞ Zmienna losowa skokowa Rozkładem skokowej zmiennej losowej nazywamy funkcję,która realizacjom zmiennej losowej przyporządkowuje prawdopodobieństwo: P(X=xi)=pi Dystrybuanta zmiennej losowej skokowej: F( x ) = ∑p xi < x i Wartość oczekiwana zmiennej losowej skokowej Wartość oczekiwana (średnia, nadzieja matematyczna): n E ( X ) = ∑ x i pi i =1 Własności wartości oczekiwanej: • E(c)=c • E(X+Y)=E(X)+E(Y) • E(X-Y)=E(X)-E(Y) • E(cX)= cE(X) • E(XY)=E(X)E(Y) jeśli zmienne są niezależne Wariancja zmiennej losowej skokowej Wariancja zmiennej losowej skokowej (S2(X), D2(X)): n S ( X ) = ∑ ( x i − E ( X )) pi 2 2 i =1 S 2 ( X ) = E( X 2 ) − E 2 ( X ) Własności wariancji: • S2(c)=0 • S2(cX)=c2 S2(X) • S2(X+Y)= S2(X)+ S2(Y) • S2(X-Y)= S2(X)+ S2(Y) Przykład Rzucamy dwukrotnie symetryczną monetą. Jeśli wypadnie dwukrotnie orzeł otrzymujemy 2 zł, jeśli wypadnie dwukrotnie reszka otrzymujemy 3 zł, jeśli wypadnie za pierwszym razem orzeł, a za drugim reszka, to otrzymujemy 1 zł. Jeśli natomiast pierwsza będzie reszka, a później orzeł, to nic nie dostaniemy a) przedstawić funkcję prawdopodobieństwa „wygranej” b) przedstawić dystrybuantę analizowanej zmiennej losowej c) obliczyć wartość oczekiwaną oraz wariancję „wygranej” xi 0 1 2 3 pi 0,25 0,25 0,25 0,25 0 0 ,25 F ( x ) = 0 ,5 0 ,75 1 x ≤0 0 < x ≤1 1< x ≤2 2<x≤3 3<x xi 0 1 2 3 pi 0,25 0,25 0,25 0,25 x ipi 0 0,25 0,5 0,75 x i2 0 1 4 9 pi 0,25 0,25 0,25 0,25 x i2pi 0 0,25 1 2,25 1,5 3,5 S ( X ) = E ( X ) − E ( X ) = 3 ,5 − (1,5 ) = 1,25 2 2 2 2 Zmienna losowa ciągła Funkcja gęstości prawdopodobieństwa zmiennej losowej ciągłej: P ( x < X < x + ∆x ) f ( x ) = lim ∆x →0 ∆x x F ( x ) = ∫ f ( x )dx −∞ Jeśli F(x) jest różniczkowalna: F' ( x ) = f ( x ) Własności funkcji gęstości: 1. f ( x ) ≥ 0 ∧ 0 ≤ f ( x ) ≤ 1 ∞ 2. ∫ f ( x )dx = 1 −∞ 3. P ( a < X < b ) = P ( a ≤ X ≤ b ) = b = ∫ f ( x )dx ⇒ P ( X = a ) = 0 a Charakterystyki liczbowe rozkładu zmiennej losowej ciągłej Wartość oczekiwana: E( X ) = ∞ ∫ x ⋅ f ( x )dx −∞ por. własności wartości oczekiwanej Wariancja zmiennej losowej ciągłej: ∞ S ( X ) = ∫ ( x − E ( X )) ⋅ f ( x )dx 2 2 −∞ por. własności wariancji Przykład Dla jakiej wartości parametru a poniższa funkcja jest funkcją gęstości prawdopodobieństwa x 0 ≤ x ≤1 1 1 f(x) = x − 3≤x≤a 3 9 poza tym 0 Wyznaczyć dystrybuantę zmiennej X. Obliczyć E(X) oraz S2(X). Jakie jest prawdopodobieństwo, że zmienna jest większa od 2 i mniejsza od 4? Inne charakterystyki liczbowe rozkładów zmiennych losowych • Kwantylem rzędu p nazywamy wartość zmiennej losowej x’, dla której F(x’)=p • Modą, dominantą zmiennej losowej nazywamy taką wartość x* zmiennej losowej, dla której: f(x*)=max f(x) dla zmiennej ciągłej, P(X=x*)=max P(X=xi) dla zmiennej skokowej • Współczynnikiem zmienności zmiennej losowej nazywamy wyrażenie: 2 S (X) VS = ( ⋅100%) E( X ) Wybrane rozkłady zmiennej losowej skokowej (1) Zmienna losowa X ma rozkład zero-jedynkowy, jeżeli jej funkcja rozkładu jest określona wzorem: P(X=1)=p oraz P(X=0)=q=1-p Dystrybuanta rozkładu zero-jedynkowego: 0 x ≤ 0 F ( x ) = q 0 < x ≤ 1 1 x > 1 Wybrane rozkłady zmiennej losowej skokowej (2) Zmienna losowa X ma rozkład dwumianowy, jeżeli jej funkcja rozkładu jest określona wzorem: P ( X = k ) = Cnk p k q n −k k = 0 ,1,2 ,..., n oraz p + q = 1 Dystrybuanta rozkładu dwumianowego: F ( x ) = ∑ Cnk p k q n −k k <x E ( X ) = np oraz S ( X ) = npq 2 Wybrane rozkłady zmiennej losowej skokowej (3) Zmienna losowa X ma rozkład Poissona, jeżeli jej funkcja rozkładu jest określona wzorem: λ −λ P( X = k ) = e k! k = 0 ,1,2 ,... k Dystrybuanta rozkładu Poissona: λ k −λ F( x ) = ∑ e k <x k ! E( X ) = S 2 ( X ) = λ Wybrane rozkłady zmiennej losowej ciągłej (1) Zmienna losowa X ma rozkład jednostajny w przedziale <a,b>, jeżeli jej funkcja gęstości jest określona wzorem: 0 x<a 1 f( x) = a≤x≤b b − a x>b 0 Dystrybuanta rozkładu jednostajnego: 0 x<a x − a F( x ) = a≤x≤b b − a x>b 1 Wybrane rozkłady zmiennej losowej ciągłej (2) Zmienna losowa X ma rozkład wykładniczy, jeżeli jej funkcja gęstości jest określona wzorem: 0 f ( x ) = −λ x λ e x <0 x ≥0 Dystrybuanta rozkładu wykładniczego: 0 F( x ) = −λ x 1 − e x <0 x ≥0 Wybrane rozkłady zmiennej losowej ciągłej (3) Zmienna losowa X ma rozkład normalny, jeżeli jej funkcja gęstości jest określona wzorem: − 1 f( x) = e σ 2π ( x − m )2 x ∈ℜ 2σ 2 Dystrybuanta rozkładu normalnego: 1 F( x ) = σ 2π x ∫e −∞ − ( x − m )2 2σ 2 dx T7: Rozkład normalny Agenda 1. Funkcja gęstości oraz dystrybuanta 2. Standaryzowany rozkład normalny N(0,1) 3. Tablice dystrybuanty rozkładu normalnego 4. Przykład: „umiem standaryzować i korzystać z tablic dystrybuanty rozkładu normalnego” 5. Wybrane rozkłady związane z rozkładem normalnym Podstawowe określenia Zmienna losowa X ma rozkład normalny, jeżeli jej funkcja gęstości jest określona wzorem: ( x − m )2 − 1 f(x) = e σ 2π Dystrybuanta rozkładu normalnego: F( x ) = 1 σ 2π 2σ 2 x ∫e x ∈ℜ ( x − m )2 − 2σ 2 dx −∞ Zmienna losowa X o rozkładzie normalnym o średniej m i odchyleniu standardowym σ X - N(m,σ) Standaryzowany rozkład normalny (1) Dla rozkładu N(0,1) funkcja gęstości przyjmuje następującą postać: 1 f(x) = e 2π x2 − 2 x ∈ℜ Dystrybuanta rozkładu normalnego N(0,1): 1 F( x ) = 2π x ∫e x2 − 2 dx −∞ TABLICE ROZKŁADU N(0,1) Standaryzowany rozkład normalny (2) Dla rozkładu N(m,σ) należy zastosować przekształcenie nazywane standaryzacją: X −m U= σ Zmienna standaryzowana ma rozkład: U – N(0,1) Funkcja gęstości rozkładu normalnego krzywa normalna, krzywa Gaussa-Laplace’a 0,9 N(0;0,5) 0,8 0,7 N(0,1) 0,6 0,5 0,4 b N(1,5;0,75) 0,3 0,2 N(2;1,5) 0,1 2 6 3, 3, 4 8 2, 6 1, 4 2 1, 2, 8 0, 2 4 0, -0 ,4 -0 ,8 -0 ,2 -1 ,6 -1 -2 ,4 -2 ,8 -2 ,2 -3 ,6 -3 -4 0 Własności krzywej Gaussa 1. Jest krzywą w kształcie dzwonu, symetryczną względem prostej x = m 2. Ma jedno maksimum w punkcie x = m 3. Ma dwa punkty przegięcia o współrzędnych: 1 1 (m −σ , ) oraz ( m + σ , ) σ 2π e σ 2π e 4. Lewe i prawe ramię (ogon) krzywej zbliżają się asymptotycznie do osi odciętych 0,15 X 3 3, 35 3, 7 0,25 0, 2 0, 55 0, 9 1, 25 1, 6 1, 95 2, 3 2, 65 -3 ,6 5 -3 ,3 -2 ,9 5 -2 ,6 -2 ,2 5 -1 ,9 -1 ,5 5 -1 ,2 -0 ,8 5 -0 ,5 -0 ,1 5 -4 Tablice dystrybuanty rozkładu normalnego 0,45 0,4 0,35 0,3 F(X) 0,2 b 0,1 0,05 0 Przykład Jaki procent produkcji zakładów obuwniczych powinno stanowić obuwie o rozmiarach od 27do 33, jeżeli wiadomo, ze długość stopy u dorosłego człowieka jest zmienną losową o rozkładzie N(29,3). P ( 27 < X < 33 ) = FN ( 29 ,3 ) ( 33 ) − FN ( 29 ,3 ) ( 27 ) = 33 − 29 27 − 29 = Φ − Φ = Φ(1,33 ) − Φ (− 0 ,67 ) = 3 3 = 0 ,9082 − (1 − 0 ,7486 ) = 0 ,6568 Produkcja obuwia analizowanego rozmiaru powinna stanowić 65,68% Rozkład χ2 (chi – kwadrat) Rozkładem chi-kwadrat z k stopniami swobody zmiennej losowej χk2 nazywamy rozkład sumy k – elementowej kwadratów niezależnych zmiennych losowych o standaryzowanym rozkładzie normalnym N(0,1): χ = X + X + ... + X 2 k 2 1 2 2 2 k X i − N( 0 ,1 ) i = 1,2 ,..., k Liczba stopni swobody Liczba stopni swobody jest równa liczbie wszystkich obserwacji (pomiarów) pomniejszonej o liczbę wszystkich ograniczeń narzuconych na te obserwacje (pomiary) Ograniczeniem jest każda wielkość, która zostaje obliczona na podstawie tych samych obserwacji (pomiarów) Rozkład t – Studenta Rozkładem t - Studenta z k stopniami swobody nazywamy rozkład zmiennej losowej X zdefiniowanej w następujący sposób: Tk = X χ k2 k χ , X − N ( 0 ,1 ) 2 k Zmienne X oraz χk2 są niezależne Rozkład F Fishera – Snedecora Rozkładem F Fishera – Snedecora (Snedecora, F Fishera) ze stopniami swobody m1 oraz m2 nazywamy rozkład zmiennej losowej Fm1m2 zdefiniowanej w następujący sposób: Fm1m 2 1 2 χ m1 m1 = 1 2 χ m2 m2 Zmienne χm12 oraz χm22 są niezależne T8: Wybrane twierdzenia o rozkładach Agenda 1. Nierówność Czebyszewa i prawa wielkich liczb 2. Twierdzenie Moivre’a-Laplace’a 3. Centralne twierdzenie graniczne LindbergaLevy’ego 4. Uzupełnienie, wnioski, podsumowanie Nierówność Czebyszewa Jeśli E ( X ) = m, 0 < σ 2 = S 2 ( X ) < ∞ to dla każdego t > 0 σ2 P (| X − m |≥ t ) ≤ 2 t Jeśli X − N ( m ,σ ) to: P (| X − m |≥ 3σ ) ≤ 0 ,01 Słabe Prawo Wielkich Liczb Jeśli dany jest ciąg niezależnych zmiennych losowych X1, X2, ..., Xn o jednakowym rozkładzie (zmienne mają jednakowe rozkłady prawdopodobieństwa, wartości oczekiwane m oraz wariancje σ2) to dla każdego ε > 0 otrzymujemy: X1 + X 2 + ... + X n lim P − m < ε = 1 n →∞ n Mocne Prawo Wielkich Liczb Jeśli dany jest ciąg niezależnych zmiennych losowych X1, X2, ..., Xn o jednakowym rozkładzie (zmienne mają jednakowe rozkłady prawdopodobieństwa, wartości oczekiwane m oraz wariancje σ2) to: X1 + X 2 + ... + X n P lim = m = 1 n →∞ n Twierdzenie Moivre’a-Laplace’a Jeśli X jest zmienną losową o rozkładzie dwumianowym, n niech oznacza liczbę doświadczeń a p prawdopodobieństwo sukcesu, to: lim Fn ( X ) = FN ( np , n →∞ ( X ) npq ) Twierdzenie Lindeberga-Levy’ego Jeśli dany jest ciąg niezależnych zmiennych losowych X1, X2, ..., Xn o jednakowym rozkładzie (zmienne mają jednakowe rozkłady prawdopodobieństwa, wartości oczekiwane m oraz wariancje σ2) to zmienna losowa Zn = X1 + X2 +...+ Xn ma rozkład normalny przy n→ ∞ Zn − N( nm,σ n ) Uzupełnienie,wnioski, podsumowanie n → ∞ , p → 0 , np → λ dwumianowy n→∞ n→∞ Poissona λ →∞ normalny n→∞ m1 → ∞ chi-kwadrat m2 → ∞ m1 = const m2 → ∞ F Fishera-Snedecora t-Studenta m1 = 1 T9: Próba losowa i podstawowe rozkłady statystyk z próby Agenda 1. Podstawowe definicje - próba losowa, statystyka 2. Wybrane rozkłady statystyk z próby związanych ze średnią 3. Wybrane rozkłady statystyk z próby związanych z wariancją 4. Podsumowanie Podstawowe definicje Jeżeli x1, x2,..., xn jest ciągiem realizacji w doświadczeniu losowym niezależnych zmiennych X1, X2,..., Xn o jednakowym rozkładzie, to ciąg x1, x2,..., xn nazywa się statystyczną próbą prostą dokonaną na zmiennych losowych X1, X2,..., Xn Statystyką nazywa się zmienną losową będącą funkcją zmiennych losowych X1, X2,..., Xn stanowiących próbę Rozkład średniej arytmetycznej Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ) o znanych parametrach, to średnia arytmetyczna obliczona na podstawie n-elementowej próby ma rozkład normalny: σ X n − N m, n Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ) o nieznanym σ , to statystyka Tn-1 obliczona na podstawie nelementowej próby ma rozkład t-Studenta z n-1 stopniami swobody. X −m Tn −1 = n −1 S Rozkład wariancji z próby Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ) o znanych parametrach, to nS 2 σ2 − χ n2−1 (statystyka nS2/ σ2 ma rozkład chi-kwadrat z n-1 stopniami swobody) gdzie S2 oznacza wariancję próbkową Graniczny rozkład częstości Częstość wystąpienia zdarzenia A w serii n niezależnych doświadczeń jest określona za pomocą następującego wzoru Xn Yn = n Z twierdzenia Moivre’a-Laplace’a wynika, że przy dużej próbie: pq Yn − N p , n Podsumowanie • rozkład normalny •na podstawie próby można wnioskować o wartości charakterystyki (statystyki) w całej populacji • próba losowa pozwala szacować (estymować) wartość charakterystyki w populacji generalnej T10: Estymatory i estymacja przedziałowa Agenda 1. Podstawowe definicje 2. Estymacja punktowa i własności estymatorów 3. Estymacja przedziałowa 4. Podsumowanie Podstawowe definicje Estymacją nazywa się szacowanie parametrów lub rozkładu zmiennej losowej w populacji generalnej na podstawie próby pobranej z tej populacji Estymatorem parametru Q rozkładu zmiennej losowej X nazywamy taką statystykę Qn=f(X1,X2,...,Xn), której rozkład zależy od szacowanego parametru. Wartość qn policzoną na podstawie realizacji próby nazywa się oceną parametru Qn. Wyrażenie Qn-Q nazywa się błędem szacunku, a jego miarą jest E(Qn-Q)2. Podstawowe własności estymatorów Estymatorem zgodnym nazywamy estymator stochastycznie zbieżny do parametru estymowanego, tzn. taki, który dla każdego ε > 0 spełnia równość: lim P(| Qn − Q |< ε ) = 1 x →∞ Estymator nieobciążony to taki estymator, którego wartość oczekiwana równa jest parametrowi estymowanemu, czyli: E( Qn ) = Q Estymacja przedziałowa Estymacja przedziałowa jest to szacowanie wartości parametru Q za pomocą tzw. przedziału ufności Przedziałem ufności nazywamy przedział liczbowy, o którym przypuszczamy, że mieści się w nim nieznany parametr populacji Z przedziałem tym związana jest miara ufności (pewności), że ten przedział naprawdę zwiera interesujący nas parametr, zwana poziomem ufności Estymacja przedziałowa Rozkład statystyki z próby określa prawdopodobieństwa, z jakimi ta statystyka może przyjmować wartości z określonych przedziałów liczbowych. Jeśli próba została pobrana i otrzymaliśmy konkretną ocenę pewnego parametru, te prawdopodobieństwa mogą być wykorzystane jako poziomy ufności związane z przedziałami, które mogą zawierać nieznany parametr Przedziały ufności dla średniej w populacji ze znanym σ Centralne twierdzenie graniczne mówi, że średnia z dowolnej (odpowiednio dużej) próby ma rozkład normalny X − N ( m, σ n ) gdzie: m − średnia w populacji, σ − odchylenie standardow e w populacji, n − liczebno śi próby Przez zα/2 będziemy oznaczać taką wartość standaryzowanej zmiennej losowej normalnej Z, która odcina pod prawym „ogonem” krzywej gęstości normalnej pole o mierze α/2 Np. 1,96 jest wartością zα/2 dla α/2 = 0,025, ponieważ z=1,96 odcina pole o mierze 0,025 0,4 0 -3,92 -1,96 0 1,96 3,92 Miara pola pod krzywą z wyłączeniem pól pod „ogonami” równa 1-α jest nazywana współczynnikiem ufności 0,4 0 -3,92 -1,96 0 1,96 3,92 Miara pól pod „ogonami” równa prawdopodobieństwem błędu α jest nazywana 0,4 0 -3,92 -1,96 0 1,96 3,92 Współczynniki ufności pomnożony przez 100 daje poziom ufności wyrażony w procentach (1-α)100% przedział ufności dla m, gdy σ jest znane, a próba została pobrana z populacji normalnej lub jest „dużą próbą”, jest określony w następujący sposób: ( x − zα / 2 ⋅ σ n ; x + zα / 2 ⋅ σ n ) Precyzja (błędem) szacunku to połowa długości przedziału ufności. Względna precyzja (błąd) szacunku to iloraz połowy długości przedziału ufności do wartości prognozy punktowej Przykład. Wyznaczyć przedział ufności średnich miesięcznych wydatków na żywność w gospodarstwach domowych w pewnym mieście przyjmując prawdopodobieństwo błędu na poziomie 5%. Wylosowano próbę 100-elementową, w której średnia wynosiła 420 zł. Wiadomo ponadto, że poprzednie badania przeprowadzane rokrocznie wykazały stałą wariancję wydatków na żywność w całej populacji rodzin. Wariancja wynosi 10000. x = 420 , σ 2 = 10000 , σ = 100 , n = 100, 100 100 ) (420 - 1,96 ;420 + 1,96 100 100 ( 400 ,4 ; 439,6) Przedział liczbowy (400,4; 439,6) z prawdopodobieństwem 0,95 pokrywa nieznaną wartość przeciętnych wydatków na żywność w danym mieście. Przedziały ufności dla średniej w populacji z nieznanym σ (n≤30) (1-α)100% przedział ufności dla m, gdy σ jest nieznane, a rozkład w populacji jest normalny, jest określony w następujący sposób: gdzie: s s ( x − tα ⋅ ; x + tα ⋅ ) n −1 n −1 tα – jest wartością z rozkładu t-Studenta o n-1 stopniach swobody, która odcina pod „ogonem” krzywej gęstości rozkładu pole o mierze α, s – jest odch. standard. obliczonym w próbie 1 n 2 sˆ = ( x − x ) , ∑ i n − 1 i =1 1 n 2 s= ( x − x ) ∑ i n i =1 Przedziały ufności dla średniej w populacji z nieznanym σ (n>30) (1-α)100% przedział ufności dla m, gdy σ jest nieznane, a rozkład w populacji jest normalny oraz mamy dużą liczbę obserwacji (duża próba), jest określony w następujący sposób: s s ( x − zα / 2 ⋅ ; x + zα / 2 ⋅ ) n n s s ( x − zα / 2 ⋅ ; x + zα / 2 ⋅ ) n −1 n −1 Przedziały ufności dla wariancji w populacji jest rozkładem Rozkład chi-kwadrat (χ2) prawdopodobieństwa sumy kwadratów niezależnych, standaryzowanych, normalnych zmiennych losowych. Jeżeli próba pobrana została z populacji o rozkładzie normalnym, to zmienna losowa: χ = 2 nS 2 σ2 ma rozkład χ2 o n-1 stopniach swobody. Dla „małej” próby (1-α)100% przedział ufności dla σ2 w populacji, gdy rozkład w populacji jest normalny, określony jest wzorem: ns 2 ns 2 2 ; 2 χα / 2 χ 1−α / 2 gdzie: χ2α/2 jest wartością zmiennej w rozkładzie chi-kwadrat o n-1 stopniach swobody, która odcina pole o mierze α/2 z prawej strony, natomiast χ21-α/2 odcina pole o mierze 1-α/2 z prawej strony (tym samym pole o mierze α/2 z lewej strony) 10 stopni swobody 15 stopni swobody 20 stopni swobody 30 stopni swobody 0,006 0,005 0,004 0,003 0,002 0,001 0 0 10 20 30 40 50 Rozkład chi-kwadrat w zależności od stopni swobody Dla „dużej” próby (1-α)100% przedział ufności dla σ w populacji, gdy rozkład w populacji jest normalny oraz mamy „dużą próbę”, określony jest wzorem: s s ; zα / 2 zα / 2 1− 1+ 2n 2n Przykład. Zbudować przedział ufności dla wariancji będącej miarą zróżnicowania gęstości zaludnienia w pewnym województwie, jeśli w 15 wylosowanych kwadratach województwa o powierzchni 1 km2 każdy, średnia liczba mieszkańców wynosi 124 osoby oraz wariancja w próbie wynosi 40. Wcześniejsze badania wykazują, że rozkład gęstości zaludniania na badanym terenie jest rozkładem normalnym. Przy konstrukcji przedziału ufności przyjąć poziom ufności 0,95. 2 2 = 26,1189 χ 0,925;14 = 5,62873 X = 124, S2 ( X ) = 40, χ 0,025;14 15 ⋅ 40 15 ⋅ 40 ; ⇒ (22,97; 106,60 ) 26,1189 5,62873 95% przedział ufności wariancji gęstości zaludnienia w danym województwie przedstawia się następująco: (22,97; 106,60). Przykład. Zbudować przedział ufności dla wariancji będącej miarą zróżnicowania gęstości zaludnienia w pewnym województwie, jeśli w 100 wylosowanych kwadratach województwa o powierzchni 1 km2 każdy, średnia liczba mieszkańców wynosi 124 osoby oraz wariancja w próbie wynosi 40. Wcześniejsze badania wykazują, że rozkład gęstości zaludniania na badanym terenie jest rozkładem normalnym. Przy konstrukcji przedziału ufności przyjąć poziom ufności 0,95. X = 124, S2 ( X ) = 40, Φ( zα / 2 ) = 1 − 40 40 ; 1,96 1,96 1 + 1 − 200 200 α 2 ⇒ zα / 2 = 1,96 = 6,3246 ; 6,3246 = (5,55; 7,34) 1,1386 0,8614 95% przedział ufności odchylenia standardowego gęstości zaludnienia w danym województwie przedstawia się następująco: (5,55; 7,34). Dla wariancji natomiast: (30,85; 53,91) Przedziały ufności dla wskaźnika struktury Związane ze zjawiskami o charakterze bardziej jakościowym niż ilościowym. Interesuje nas wtedy względna częstość (frakcja, prawdopodobieństwo) pojawiania się pewnej cechy w populacji. Np. frakcja (odsetek, procent) sztuk wadliwych wśród wyrobów wytworzonych za pomocą pewnej maszyny. Odsetek osób, które zaciągają i nie spłacają kredytów. Odsetek przedsiębiorstw, które zalegają ze składkami na pracownicze ubezpieczenia społeczne. Dla dużych prób (1-α)100% przedział ufności dla wskaźnika struktury w populacji p wyznacza wzór: p̂ − zα / 2 p̂q̂ ; p̂ + zα / 2 n p̂q̂ n gdzie : p̂ oznacza frakcję z próby (czyli liczb ę sukcesów w próbie podzielone j przez liczebno śi próby) oraz q̂ = 1 − p̂ Przykład. Pobrano próbę 100 konsumentów i stwierdzono, że 34 osoby w próbie kupują produkt wyprodukowany za granicą, pozostali nabywają produkt krajowy. Wyznaczyć 95% przedział ufności dla udziału zagranicznych produktów w badanym rynku. x = 34 , n = 100 ⇒ p̂ = 0 ,34 0 ,34 ⋅ 0 ,66 0 ,34 ⋅ 0 ,66 0 ,34 − 1,96 ;0 ,34 + 1,96 100 100 (0 ,2472;0 ,4328 ) Z prawdopodobieństwem 0,95 można stwierdzić, że udział w rynku produktów zagranicznych zawiera się w przedziale od 24,72% do 43,28%. Precyzja szacunku Precyzja (błędem) szacunku to połowa długości przedziału ufności. Względna precyzja (błąd) szacunku to iloraz połowy długości przedziału ufności do wartości estymatora punktowego (środka przedziału) Wyznaczanie liczebności próby Minimalna wymagana liczebność próby do oszacowania średniej w populacji, n wynosi: zα / 2 ⋅ σ n= 2 B 2 gdzie B jest połową rozpiętości (1-a)100% przedziału ufności dla n. Przykład. Rozkład wzrostu studentów jest rozkładem normalnym N(m,10). Ilu studentów należy wylosować do próby, aby ocenić przeciętny wzrost studenta z maksymalnym błędem szacunku 2 cm na poziomie ufności 0,99? ( 2 ,576 ) ⋅ 10 n= = 165 ,87 2 2 2 2 Minimalna liczebność próby studentów w celu ustalenia przeciętnego ich wzrostu wynosi 166 osób. Podsumowanie Jeżeli pobieramy próby o tej samej liczebności z tej samej populacji, to im wyższy jest poziom ufności, tym szerszy jest przedział ufności Jeżeli pobieramy próby z tej samej populacji, to przy ustalonym poziomie ufności im liczniejsza próba, tym węższy jest przedział ufności T11: Hipotezy statystyczne i ich weryfikacja Agenda 1. Podstawowe definicje 2. Testowanie hipotezy o wartości przeciętnej oraz wyznaczanie zbioru krytycznego 3. Wybrane testy istotności 4. Testowanie hipotez nieparametrycznych 5. Podsumowanie Podstawowe definicje Hipotezą statystyczną nazywamy każdy sąd o zbiorowości generalnej wydany bez przeprowadzenia badania całkowitego Hipotezą zerową (oznaczoną przez H0) jest hipoteza o wartości jednego (lub wielu) parametru populacji. Hipoteza ta traktowana jest jako prawdziwa dopóki nie uzyska się przesłanek do zmiany stanowiska. Hipotezą alternatywną (oznaczoną przez H1) jest hipotezę, którą jesteśmy skłonni przyjąć,gdy odrzucamy H0. Jest to hipoteza przypisująca parametrowi (lub parametrom) populacji wartość niezgodną z przypisaną mu (im) przez hipotezę zerową. Sprawdzianem (statystyką testu) nazywamy statystykę z próby, której wartość obliczona na podstawie wyników obserwacji jest wykorzystywana do ustalenia czy możemy hipotezę zerową odrzucić, czy też jej odrzucić nie możemy. Test statystyczny jest to reguła postępowania, która przyporządkowuje wynikom próby losowej decyzję przyjęcia lub odrzucenia hipotezy H0. Błąd I rodzaju α = P(H0 odrzucona | H0 prawdziwa) Błąd II rodzaju β = P(H0 nie zostaje odrzucona | H0 fałszywa) Poziom istotności testu hipotezy statystycznej jest prawdopodobieństwo popełnienia błędu pierwszego rodzaju. Zbiorem krytycznym nazywamy zbiór tych wartości sprawdzianu hipotezy, które przemawiają za odrzuceniem hipotezy H0. Punkty (wartości) krytyczne wyznaczają granice między obszarami przyjęcia i odrzucenia. Obszar krytyczny (określony przez wartości krytyczne) ustalany jest tak, aby prawdopodobieństwo, że sprawdzian hipotezy przyjmie wartości implikujące odrzucenie hipotezy H0, wynosi α. Wartości krytyczne zależą od sformułowania hipotezy alternatywnej H1. W testach parametrycznych (istotności) hipoteza H0 jest zawsze hipotezą „o równości”. Hipoteza alternatywna H1 może być zaprzeczeniem, hipotezą „o większości” lub „o mniejszości”. Wartość oczekiwana (średnia) Wybór sprawdzianu hipotezy 1. Gdy rozkład cechy w populacji generalnej jest N(m,s) oraz znane jest σ lub nieznane σ, ale jest „duża” próba, s ≈ σ 2. Gdy nieznany jest rozkład, ale próba jest „duża”. Wtedy sprawdzianem hipotezy H0: m = m0 jest statystyka: Z= o rozkładzie N(0,1) x−m σ n Wybór sprawdzianu hipotezy 3. Gdy rozkład cechy w populacji generalnej jest N(m,σ), nieznane σ oraz próba jest „mała” Wtedy sprawdzianem hipotezy H0: m = m0 jest statystyka: Z= x−m σ n −1 o rozkładzie t-Studenta z (n-1) stopniami swobody 0,4 H1 : m ≠ m0 Jeśli |Z| ≤ zα/2 to nie ma podstaw do odrzucenia H 0. P{| Z |> zα / 2 } = α Φ ( zα / 2 ) = 1 − α 2 α α 2 2 0 -3,92 -1,96 0 1,96 3,92 0,4 Jeśli Z ≥ - zα to nie ma podstaw do odrzucenia H 0. H 1 : m < m0 P{ Z < − zα } = α Φ( zα ) = 1 − α α 0 -3,92 -1,96 0 1,96 3,92 0,4 Jeśli Z ≤ zα to nie ma podstaw do odrzucenia H 0. H 1 : m > m0 P{ Z > zα } = α Φ( zα ) = 1 − α α 0 -3,92 -1,96 0 1,96 3,92 Przykład 1a. Plony żyta w gospodarstwach indywidualnych pewnego województwa mają rozkład normalny o nieznanych parametrach. Przypuszcza się, że plony są rzędu 30 q/ha. Czy przypuszczenie to jest słuszne na poziomie istotności 0,05, jeżeli w próbie złożonej z 26 losowo wybranych gospodarstw otrzymano: średnie plony 28 q/ha oraz s=4 q/ha? H0: m=30 H1: m<30 W przypadku testu jednostronnego odczytujemy z tablic rozkładu t-Studenta wartość dla 2α 28 − 30 Z= 26 − 1 = −2,5 4 z2α = 1,7081 Ponieważ Z < - za to należy odrzucić hipotezę H0 na rzecz hipotezy alternatywnej H1. Należy przyjąć, że przypuszczenie dotyczące plonów rzędu 30 q/ha nie jest słuszne na przyjętym poziomie istotności Przykład 1b. Plony żyta w gospodarstwach indywidualnych pewnego województwa mają rozkład normalny o nieznanych parametrach. Przypuszcza się, że plony są rzędu 30 q/ha. Czy przypuszczenie to jest słuszne na poziomie istotności 0,05, jeżeli w próbie złożonej z 26 losowo wybranych gospodarstw otrzymano: średnie plony 28 q/ha oraz s=4 q/ha? H0: m=30 H1: m≠30 W przypadku testu dwustronnego odczytujemy z tablic rozkładu t-Studenta wartość dla α 28 − 30 Z= 26 − 1 = −2,5 4 zα = 2,0595 Ponieważ |Z| > za to to należy odrzucić hipotezę H0 na rzecz hipotezy alternatywnej H1. Należy przyjąć, że przypuszczenie dotyczące plonów rzędu 30 q/ha, nie jest słuszne na przyjętym poziomie istotności Przykład 2. Przy wycenie prywatyzowanego lasu bukowego wylosowano 100 buków i stosując odpowiednie urządzenia pomiarowe określono ich wysokość. W zastosowanym urządzeniu pomiarowym błąd pomiaru jest wielkością losową o rozkładzie N(0; 1,25). Sprawdzić na poziomie istotności 0,05, czy opis drzewostanu wcześniej przez biegłego (oparty na wyznaczonej przez niego średniej wysokości drzewa m0=25 m) jest do przyjęcia, jeśli z uzyskanej próby 100-elementowej otrzymano przeciętną wysokość buku równą 27 m, natomiast odchylenie standardowe w próbie wynosiło 3 m. H0: m=25 H1: m>25 27 − 25 Z= 100 = 16 1,25 zα = 1,645 Ponieważ Z > zα to hipotezę H0 należy odrzucić na rzecz hipotezy alternatywnej. Wysokość drzew jest istotnie większa od 25 m. Wariancja Wybór sprawdzianu hipotezy 1. Gdy rozkład cechy w populacji generalnej jest N(m,s), wtedy sprawdzianem hipotezy H0: σ2=σ20 wobec hipotezy alternatywnej H1: σ2>σ20 jest statystyka: χ = 2 ns 2 σ0 2 gdzie s2 oznacza wariancję próbkową. Statystyka ta ma rozkład chi-kwadrat o n-1 stopniach swobody* Odczytuje się z tablic rozkładu chi-kwadrat wartość krytyczną χα2 dla przyjętego poziomu istotności α i porównuje się z otrzymaną wartością statystyki z próby. Jeśli χα2 < χ2 to hipotezę H0 należy odrzucić na rzecz hipotezy alternatywnej H1. 2. Gdy pobrana próba jest „duża” wtedy rozkład chi-kwadrat zmierza do rozkładu normalnego i można skorzystać ze statystyki: Z = 2 χ − 2n − 3 = 2 2 ns 2 σ0 2 Statystyka ta ma rozkład normalny N(0,1) − 2n − 3 Przykład 3. Maszyna wytwarza metalowe płytki wchodzące w skład akumulatorków. Średnica płytki jest zmienną losową o średniej 5 mm. Jeżeli wariancja średnicy nie przekroczy 1 mm2, to uważa się, że proces produkcji jest pod kontrolą i płytki mają dopuszczalne wymiary. Jeżeli wariancja przekracza podaną wartość, to należy naprawić maszynę. Kontroler jakości chce sprawdzić na poziomie istotności 0,05, czy wariancja przekroczyła dopuszczalną normę. W tym celu pobrał próbkę losową – 30 płytek i obliczył wariancję 1,62 mm2. Czy są podstawy do przypuszczenia, że maszynę należy oddać do naprawy? H0: σ2=1 (σ2≤1 ); H1: σ2>1 χ = 2 ns 2 σ0 2 30 ⋅ 1,62 = = 48 ,6 1,00 χα = 43 ,77 2 Ponieważ χ2 > χα2, to przy przyjętym poziomie istotności należy odrzucić hipotezę H0 i oddać maszynę do naprawy. Przykład 4. Maszyna wytwarza metalowe płytki wchodzące w skład akumulatorków. Średnica płytki jest zmienną losową o średniej 5 mm. Jeżeli wariancja średnicy nie przekroczy 1 mm2, to uważa się, że proces produkcji jest pod kontrolą i płytki mają dopuszczalne wymiary. Jeżeli wariancja przekracza podaną wartość, to należy naprawić maszynę. Kontroler jakości chce sprawdzić na poziomie istotności 0,05, czy wariancja przekroczyła dopuszczalną normę. W tym celu pobrał próbkę losową – 100 płytek i stwierdził wariancję 1,62 mm2. Czy są podstawy do przypuszczenia, że maszynę należy oddać do naprawy? H : s2=1 (s2≤1 ); H : s2>1 0 χ = 2 ns 2 σ0 2 1 100 ⋅ 1,62 = = 162 ⇒ Z = 2 χ 2 − 2 n − 3 = 1,00 = 2 ⋅ 162 − 2 ⋅ 100 − 3 = 3 ,89 zα = 1,64 Ponieważ Z > za, to przy przyjętym poziomie istotności należy odrzucić hipotezę H0 i oddać maszynę do naprawy Wskaźnik struktury Zbiorowość generalna ma rozkład dwupunktowy z parametrem p. Parametr ten jest prawdopodobieństwem tego, że wyróżniona cecha przyjmuje określoną wartość. Na podstawie n-elementowej próby (n>100) weryfikuje się hipotezę H0: p=p0. Hipotezami alternatywnymi mogą być: H1: p>p0, H1: p<p0 lub H1: p≠p0. Sprawdzianem hipotezy H0 jest statystyka: X − p0 Z= n p0 q0 n która ma rozkład N(0,1) przy prawdziwości H0, gdzie X oznacza ilość jednostek o wyróżnionej wartości cechy w próbie. Przykład 5. W pewnej uczelni studiuje 4000 studentów. Do władz uczelni wpłynęła prośba o wyznaczenie specjalnego pomieszczenia dla palących. Rektor przychylił się do prośby pod warunkiem, że palący stanowią ponad 50% wszystkich studentów. Celem sprawdzenia hipotezy, że frakcja palących przekracza 50% wylosowano próbę złożoną z 400 studentów. Z wylosowanych osób 280 oświadczyło, ze stale lub sporadycznie pali papierosy. Przeprowadź postępowanie testowe celem podjęcia właściwej decyzji przyjmując poziom istotności 0,05. H0: p=0,5 H1: p>0,5 X 280 − p0 − 0 ,5 Z= n = 400 = 4 ,00 p0 q0 0 ,5 ⋅ 0 ,5 n 400 zα = 1,64 Należy odrzucić hipotezę H0 na rzecz hipotezy H1, ponieważ Z > za. Oznacza to, że jest więcej niż 50% palących studentów na uczelni. Test zgodności chi-kwadrat Pozwala sprawdzić hipotezę, że populacja ma określony typ rozkładu – określoną postać funkcyjną dystrybuanty. Wymaga wprowadzenia pewnej charakterystyki będącej miarą odległości między dystrybuantą rozkładu empirycznego a dystrybuantą rozkładu teoretycznego (hipotetycznego). Odległość między dystrybuantami można oceniać za pomocą statystyki: 2 r ( ni − npi ) χ =∑ npi i =1 2 która ma rozkład c2 o r-k-1 stopniach swobody, gdzie r ≥ 5 to liczba przedziałów klasowych, ni ≥ 8 liczebność i-tego przedziału, pi – prawdopodobieństwo teoretyczne Przykład 6. Losowa próba licząca n=200 niezależnych obserwacji wagi noworodków (w kg) dała następujące wyniki: waga liczebności 1,0-1,4 15 1,4-1,8 45 1,8-2,2 70 2,2-2,6 50 2,6-3,0 20 Na poziomie istotności 0,05 zweryfikować hipotezę, że rozkład wagi noworodków jest zgodny z rozkładem normalnym. H0: F(x)=FN(x) H1: F(x)≠FN(x) od do 1 1,4 1,4 1,8 1,8 2,2 2,2 2,6 2,6 3 SUMA pi ni 0,065382 0,22967 0,363047 0,258821 0,083079 xini 15 45 70 50 20 200 18 72 140 120 56 406 2,03 χ = 1,145 χα ,5 − 2 −1 = 5 ,991 2 2 ((xi-x)^2)ni 10,3335 8,3205 0,063 6,845 11,858 37,42 0,1871 0,432551 npi ((ni-npi)^2)/npi 13,07637 0,282979685 45,93406 0,018993768 72,60949 0,093781314 51,7642 0,060126798 16,61588 0,689234803 200 1,145116369 Ponieważ χα2 > χ2, to nie ma podstaw do odrzucenia H0 Rozkład wagi noworodków jest zgodny z rozkładem normalnym Test losowości Sprawdzenie H0 (o losowości próby) polega na uporządkowaniu wszystkich wyników próby pobranej ze zbiorowości generalnej o dowolnym rozkładzie w ciąg niemalejący i wyznaczeniu z tego ciągu mediany (Me). Następnie powraca się do pierwotnego uporządkowania wyników i poszczególnym liczbom przypisuje się oznaczenia literowe według zasady: Jeśli xi < Me, to a, Jeśli xi > Me, to b. Wyniki xi=Me nie są brane pod uwagę. W rezultacie takiego postępowania otrzymujemy ciąg symboli a i b. Każdy podciąg symboli jednego rodzaju występujących bezpośrednio po sobie nazywamy serią. Liczbę serii występujących w danym ciągu oznaczamy przez k. Oddzielnie zlicza się liczbę liter a i oddzielnie b. Liczby te oznaczamy przez n1 i n2. Liczba serii (k) ma znany i stablicowany rozkład zależny tylko od n1 i n2. Dla ustalonego poziomu istotności a w tablicach rozkładu serii (testu liczby serii) szukamy takich dwóch wartości krytycznych k1 i k2, aby spełnione były warunki: P( k ≤ k1 ) = α 2 oraz P( k ≤ k 2 ) = 1 − α 2 Jeżeli k1 < k < k2, to nie ma podstaw do odrzucenia H0, o losowości próby. Jeśli n1 > 20 lub n2 > 20 („duża” próba), to należy dodatkowo obliczyć statystykę: gdzie: 2 n1n2 k= +1 n1 + n2 sk = k −k z= sk 2n1n2 ( 2 n1n2 − n1 − n2 ) ( n1 + n2 )2 ( n1 + n2 − 1 ) Rozkład statystyki tej można przybliżać rozkładem normalnym. Wartość krytyczną odczytujemy z tablic rozkładu N(0,1) dla ustalonego poziomu istotności i dwustronnego obszaru krytycznego. Przykład 7. W celu oszacowania średniej liczby telefonów zainstalowanych w blokach przy pewnej ulicy wylosowano do próby 17 bloków i otrzymano następujące wyniki (liczbę telefonów): 20, 57, 55, 50, 27, 29, 19, 30, 49, 60, 36, 31, 25, 23, 34, 32, 21. Na poziomie istotności a = 0,05 zweryfikować hipotezę, ze wybór bloków do próby był losowy. H0: próba jest losowa; H1: próba nie jest losowa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 20 57 55 50 27 29 19 30 49 60 36 31 25 23 34 32 21 19 20 21 23 25 27 29 30 31 32 34 36 49 50 55 57 60 a b b b a a a a b b b k =7 a a b b a Wybór bloków do próby był wyborem losowym przy przyjętym poziomie istotności n1 = 8 Me = 31 n2 = 8 k1 = 3 k 2 = 12 Podsumowanie 1. Metoda Monte Carlo (symulacje) 2. ... ekonometria, prognozowanie, analiza rynków finansowych, badania operacyjne ... 3. Kontrola i poprawa jakości – wnioskowanie statystyczne 4. Podejmowanie decyzji w warunkach ryzyka i analiza ryzyka Dziękuję za uwagę