Rodzaje badań statystycznych Wyróżnia się badania : 1. Pełne ( całkowite ) 2. Częściowe Badania pełne i częściowe mogą być : 1. Ciągłe ( np. rejestracja urodzeń, zgonów, małżeństw, itp. ) 2. Okresowe ( np. spisy ludności , rolne, przemysłu ) 3. Doraźne ( np. klęsk żywiołowych ) Wśród badań częściowych wyróżnia się : 1. Badania reprezentacyjne ( są bardzo wartościowe, bo pozwalają z dużym prawdopodobieństwem uogólnić wyniki uzyskane ze zbiorowości próbnej na całą populację generalną, są tańsze od badań całkowitych). 2. Badania monograficzne ( obejmują obserwację grupy społecznej, wsi , miasta , przykładem badania monograficznego jest badanie warunków życia ludności w mieście Rzeszowie w pewnym momencie lub w okresie) 3. Badania ankietowe ( dość często wykorzystywana metoda badań , sprowadza się głównie do zbierania informacji pierwotnych, ważnym problemem jest wykształcenie umiejętności dobrego opracowania ankiety, zestaw pytań w kwestionariuszy ankietowym powinien być umiejętnie sformułowany. W Polsce badaniami ankietowymi zajmują się takie instytucje jak : OBOP, CBOS, PPENTOR oraz inne ośrodki naukowe. Procedury dobru próby W badaniach statystycznych w praktyce posługujemy się próbą . Próba mała gdy n 30 , gdy n>30 to mamy do czynienia z próbą dużą . Od próby wymaga się , aby była reprezentatywna. Na reprezentatywność próby mają wpływ dwa czynniki : 1. Sposób doboru próby 2. Liczebność próby Wyróżnia się dwie procedury doboru próby : 1. Dobór celowy ( sprowadza się do tego , że o wyborze jednostek decyduje badacz, opierając się na merytorycznej znajomości problematyki badawczej, próba ta nie podlega prawu wielkich liczb ) 2. Dobór losowy ( zgodny jest z zasadami doboru według metody reprezentacyjnej, umożliwia zastosowanie metod statystyki matematycznej do wnioskowania, próba ma charakter losowy, gdy każda jednostka populacji z jednakowym prawdopodobieństwem różnym od zera może się w niej znaleźć. Wyodrębniona próba podlega działaniu prawa wielkich liczb, co oznacza że wraz ze wzrostem liczebności próby losowej (n) rośnie stopień jej reprezentatywności ) Przed pobraniem próby ważne jest określenie jednostki losowania Indywidualna jednostka losowania pokrywa się z jednostką badania, a zespołową jednostką losowania , gdy nie pokrywa się z jednostką badania ( np. losuje się mieszkania a bada się ich osoby w nich zameldowane ). Losowanie próby określa się jako operat losowania , przez który rozumie się wykaz jednostek uwzględnionych przy losowaniu z możliwością ich identyfikacji Na przykład , takim operatem losowania dla populacji mieszkańców Rzeszowa jest spis ( ponumerowany) wszystkich mieszkańców tego miasta. Sposób postępowania przy doborze próby losowej określa się mianem schematu losowania. Podstawowe schematy losowania to: 1. losowanie indywidualne 2. losowanie nieograniczone ze zwracaniem ( zwane inaczej niezależnym lub zwrotnym ) 3. losowanie nieograniczone bez zwracania ( inaczej określane jako zależne ) 4. losowanie warstwowe 5. losowanie systematyczne 6. losowanie grupowe Klasyfikacja cech statystycznych Cechy statystyczne można podzielić na: 1. ilościowe ( mierzalne, kwantytatywne ) – można je zmierzyć i wyrazić za pomocą odpowiednich jednostek fizycznych ( np. kg, m, szt, t ) 2. jakościowe ( kwalitatywne) – zwykle są określane słownie np. płeć, standard mieszkania, pochodzenie społeczne, rodzaj kredytu itp. Cechy ilościowe określa się jako zmienne, które można podzielić na : skokowe ( dyskretne ) ciągłe Cecha skokowa przyjmuje skończony i przeliczalny zbiór wartości na danej skali liczbowej , przy czym jest to najczęściej zbiór liczb całkowitych nieujemnych ( np. liczba dzieci w rodzinie , liczba usterek w konkretnym produkcie , wielkość gospodarstwa domowego itp. ) Cecha ciągła przyjmuje wszystkie liczby rzeczywiste z określonego przedziału liczbowego < a , b > , przy czym liczba miejsc po przecinku jest uzależniona od dokładności pomiarów ( np. wiek , płaca, wzrost, plon pszenicy itp. ) Występuje również podział cech na : stałe ( własności wspólne dla wszystkich jednostek statystycznych danej zbiorowości statystycznej zmienne ( własności , dzięki którym poszczególne jednostki różnią się między sobą, przy czym dokładny stopień zmienności poszczególnych cech jest możliwy lub niemożliwy do określenia ) Dla potrzeb pomiaru cech stosuje się cztery rodzaje skal : nominalną , porządkową, interwałową i ilorazową . Skala nominalna – skala stosująca wyłącznie opis słowny dla potrzeb identyfikacji jednostki. Np. kobieta i mężczyzna . Nie są możliwe działania arytmetyczne na danych opisanych na skali nominalnej. Skala porządkowa – służąca do porządkowania danych. Na przykład ranking szkół wyższych z punktu widzenia ich atrakcyjności. Skala interwałowa - skala mająca własności skali porządkowej, gdyż możliwe jest porządkowanie jednostek statystycznych opisanych w tej skali , a jednocześnie jest możliwe określenie interwału ( przedziału ) liczbowego, w którym zawierają się obserwacje. Skala ilorazowa – skala ma cechy skali interwałowej, a ponadto iloraz ma tutaj określoną interpretację. Dane opisane w skali ilorazowej przyjmują zawsze wartości liczbowe, np. waga itp. Szeregi statystyczne Materiał liczbowy , otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, po opracowaniu i pogrupowaniu nazywamy szeregiem strukturalnym, charakteryzuje on zbiorowość statystyczną pod względem wyróżnionej cechy jakościowej i ilościowej. Wyróżnia się dwa typy grupowania : grupowanie typologiczne ( według cechy jakościowej ) oraz grupowanie wariancyjne ( według cechy ilościowej ) Szeregiem szczegółowym prostym nazywamy uporządkowany nierosnąco lub niemalejąco ciąg wartości badanej zmiennej. Oznaczmy symbolem X badaną zmienną , symbolem x i ( i=1,2,...,n) wartość tej zmiennej odpowiadającą i-tej jednostce statystycznej. Załóżmy, że badano n jednostek statystycznych. Ciąg wartości tej zmiennej ; x1 , x2, ..., xn określa się szeregiem szczegółowym prostym, jeśli w powyższym ciągu każdy następny element nie jest mniejszy od poprzedniego. Przykład 1. Załóżmy , że w pewnej miejscowości poddano obserwacji 16 rodzin ze względu na liczbę dzieci i otrzymano następujące wyniki : 0,1,1,2,2,3,3,3,4,4,4,5,5,6,6,7 Powyższy ciąg wartości jest uporządkowany niemalejąco, jest więc szeregiem szczegółowym prostym. W tym przypadku jednostką statystyczną jest rodzina, a cechą liczba dzieci w rodzinie Wśród szeregów strukturalnych cechy ilościowej wyróżnia się szereg szczegółowy ważony oraz rozdzielczy. Szereg szczegółowy ważony Załóżmy, że wśród danych zawartych w szeregu szczegółowym prostym wyróżniono k różnych wartości. Następnie grupujemy jednostki statystyczne odpowiadające jednakowym wartościom cechy. Postępując w ten sposób otrzymujemy wyniki, które można zaprezentować w poniższej tablicy Tab. 1 Wyniki grupowania statystycznego Wartości cechy Liczebność Częstość względna xi fi fi / n x1 f1 f1 / n x2 f2 f2 / n . . . . . . . . . xk fk fk / n n Razem f i 1 i k f /n 1 n i 1 i Źródło; opracowanie włane Druga i trzecia kolumna tej tablicy charakteryzuje strukturę zbiorowości n- elementowej pod względem cechy X. Symbolem fi oznaczamy liczbę jednostek statystycznych , dla których wartość cechy przyjęła wartość xi ( i = 1,2,...,n). Wartość tę nazywamy liczebnością. Trzecia kolumna zawiera wielkości zwane liczebnościami względnymi lub frakcjami. Suma tych wielkości jest równa 1. Mnożąc te wielkości przez 100, otrzymujemy częstości w procentach . Częstości względne są wielkościami niemianowanymi. Mogą być wykorzystane do porównań struktur zbiorowości różniących się liczebnościami. Liczebności lub częstości zawarte w przedostatniej i ostatniej kolumnie tej tablicy charakteryzują rozkład elementów zbiorowości pod względem danej cechy , lub rozkład cechy. Szereg rozdzielczy Obszar zmienności wartości cech dzielimy na rozłączne przedziały w postaci [ xi , xi 1 ) dla i=1,2,...,k. Są to przedziały prawostronnie otwarte. Jednostki statystyczne , których wartości cechy przedstawia szereg szczegółowy prosty grupujemy wykorzystując przedziały, które nazywać będziemy przedziałami klasowymi lub klasami. Wyniki grupowania zawiera poniższa tablica Tab.2 Wyniki grupowania statystycznego Liczebność Przedział klasowy x1 x2 fi środek przedziału klasowego xi* f1 x1* Częstość względna fi / n f1 / n x2 x3 f2 . . . . . . xk xk 1 x2* fk k Razem i 1 f2 / n . . . . . . xk* fk / n fi n k f /n 1 i 1 i Źródło: Opracowanie własne Wartość środkową oblicza się według następującej formuły : xi xi xi 1 2 ( i=1,2,...,k) Przy budowie szeregu rozdzielczego należy sobie odpowiedzieć na następujące pytania : 1. czy długości przedziałów mają być jednakowe ? 2. na ile klas należy podzielić obszar zmienności ? W praktyce badań statystycznych wygodnie jest, gdy przedziały klasowe są jednakowej długości. W przypadku , gdy przedziały nie są jednakowej długości, do opisu struktury zbiorowości wykorzystać należy tzw. gęstość liczebności, definiowaną za pomocą następującego wzoru : gf i fi xi 1 xi ( i=1,2,...,n ) gdzie w mianowniku mamy długość i-tego przedziału, w liczniku zaś odpowiadającą mu liczebność. W badaniach statystycznych brak jest jednoznacznych kryteriów umożliwiających w sposób jednoznaczny odpowiedzieć na pytanie o liczbę klas w szeregu rozdzielczym. J. Spława Neyman zalecał przy tworzeniu szeregów rozdzielczych podział obszaru zmienności na około 10 – 20 klas, w zależności od liczebności zbiorowości. Oznaczmy symbolem „ h „ długość przedziału klasowego. Załóżmy, że wszystkie przedziały mają mieć równą długość. W tym przypadku najczęściej zaleca się, aby długość przedziału obliczać za pomocą następującej formuły : h max xi min xi k ( i=1,...,n) gdzie : w liczniku jest zakres zmienności wartości cechy, w mianowniku zaś liczba wymaganych klas. Jeśli decydujemy się na budowę przedziałów klasowych , to narażamy się na pewną stratę informacji dotyczących pojedynczych wyników. Im większa jest rozpiętość przedziału klasowego, tym ta strata może być bardziej dotkliwa. Przedziały klasowe zapisuje się zazwyczaj z dokładnością do przyjętej jednostki pomiarowej. Można budować rozkłady ( szeregi ) z przedziałami klasowymi domkniętymi lub otwartymi. Rozstęp wynosi R= Xmax – Xmin . Rozstęp charakteryzuje jedynie wstępnie dyspersję badanego rozkładu. Odchylenie ćwiartkowe wyrażone jest następującym wzorem : Qx Q3 Q1 2 Najpierw należy obliczyć kwartyl trzeci i kwartyl pierwszy. Grupy dochodów miesięcznych na gospodarstwo domowe 0,5 – 1,0 1,0 – 1,5 1,5 – 2,0 2,0 – 3,0 3,0 – 4,0 4,0 – 5,0 5,0 – 6,0 6,0 – 7,0 7,0 – 8,0 8,0 – 9,0 Liczba kobiet Szereg W% skumulowany 0,9 0,9 4,0 4,9 8,8 13,7 21,5 35,2 Q1 23,5 58,7 Q2 20,3 79,0 Q3 10,8 89,8 5,2 95,0 2,8 97,8 2,2 100,0 Wzory: Q1 x 0 ( N i cum n1 ) * 4 n0 3 i Q3 x 0 ( * N cum n1 ) * 4 n0 Q1 2,0 (25 13,7) * 1 2,5255 21,5 Q3 4,0 (75 58,7) * 1 4,802 20,3 Odchylenie ćwiartkowe wynosi : Qx 4,8 2,5255 1,1372 2 Oznacza to , że średnio miesięczne dochody kobiet różnią się od mediany o 1,27 tyś. zł. Mediana dla badanego rozkładu wynosi : M x 3 (50 35,2) * 1 3,63 23,5 Współczynnik zmienności ( względna miara dyspersji )wynosi: Vx Qx * 100% Mx Vx 1,1372 * 100% 31,3278 3,63 Oznacza to , że 31,32 % mediany dochodów kobiet stanowi odchylenie standardowe. Wyznaczenie dominanty według wzoru : Dx x0 i Dx 3 1 * (n0 n1 ) (n0 n1 ) (n0 n1 ) (23,5 21,5) 3,3848 (23,5 21,5) (23,5 20,3) Podstawowym miernikiem asymetrii jest różnica między średnią arytmetyczną a dominantą, czyli : m D( x) 3,81 3.38 0,43 Znak „ – „ przy wartości miernika oznacza asymetrię lewostronną , znak „+” asymetrię prawostronną. W rozpatrywanym przykładzie mamy do czynienia z asymetrią prawostronną , co oznacza , że przewaga liczebności występuje w przedziałach klasowych poniżej średniej arytmetycznej. O sile i kierunku symetrii mówią współczynniki asymetrii. Współczynnik asymetrii Pearsona wyznacza się według formuły : Vs m D( x) ( x) Vs 3,81 3,38 0,259 1,66 Współczynnik asymetrii wykazuje skośność prawostronną. Gdy rozkład jest symetryczny to , Vs = 0 Gdy rozkład jest asymetryczny – prawostronny., to Vs > 0 Gdy rozkład jest asymetryczny – lewostronny , to Vs < 0 Współczynników asymetrii jest kilka, a zastosowanie ich jest uzależnione od charakteru badanego szeregu i możliwości wyliczenia poszczególnych parametrów. Miarą asymetrii jest również współczynnik skośności obliczony na podstawie dominanty i mediany, według wzoru : 3 M x D x Vs 2 x 3 3,63 3,38 2 Vs 0,2259 1,66 Miarą asymetrii może być także moment trzeci centralny. Dla rozkładu przedziałowego ma on postać następującą: 3 n 3 x i 1 i x ni N Tablica pomocnicza do wyznaczenia momentu trzeciego centralnego x i ni x i x xi x 3 * ni 0,75 1,25 1,75 2,50 3,50 4,50 5,50 6,50 7,50 8,50 Razem 0,9 4,0 8,8 21,5 23,5 20,3 10,8 5,2 2,8 2,2 100 -3,063 -2,563 -2,063 -1,313 -0.313 0,687 1,687 2,687 3,687 4,687 -25,863 -67,344 -77,263 -48,665 -0,720 6,581 51,851 100,879 140,336 226,519 306,313 Dla badanego szeregu moment trzeci centralny wynosi : 3 306,31333 3,06 100 Moment trzeci centralny można również zapisać w postaci momentów zwykłych w sposób następujący: 3 m3 3m 2 m1 2(m1 ) 2 gdzie : 1 n m1 x i 1 i N n * ni m2 x i 1 2 i N 3 n * ni m3 x i 1 i N * ni Dla szeregu wynoszą odpowiednio : m1 3,18 m2 1729,9 17,299 100 m3 9005,9 90,059 100 wobec tego otrzymujemy : 3 90,059 3 * 17,299 * 3,813 2(3,813) 2 3,06 Miarą względną asymetrii jest następująca formuła : 3 3 (x) 3 Dla rozpatrywanego szeregu wynosi : 3 3,06 0,66 (1,66) 3 Rozkład ma asymetrię prawostronną o natężeniu 0,66. Dla szeregów dokładnie symetrycznych m3=0. W przypadku asymetrii prawostronnej m3 > 0, lewostronnej zaś m3 < 0. Przykład 3. Zbiór województw , w którym cechą badania była ich powierzchnia, został opisany przy użyciu podstawowych charakterystyk liczbowych tj średniej arytmetycznej, która wynosi 6,286 tyś. km2 oraz odchylenia standardowego ,które jest równe 2, 138 tyś, km 2.W celu dokładniejszego opisu rozkładu tej zbiorowości należy wyznaczyć miary koncentracji. Powierzchnia Liczba x i x i x W tyś. km2 Wojewódz. 1-3 1 2 -4,286 3-5 14 4 -2,286 5-7 18 6 -0,286 7-9 10 8 1,714 9-11 5 10 3,714 11-13 1 12 5,714 49 m4 1 n ni ( x i x ) 4 n i 1 m4 2823,554720 57,623566 49 ni ( x i x ) 4 337,449405 382,325213 0,12043 86,306453 951,344040 1066,009178 2823,554720 Względna miara koncentracji to stosunek momentu centralnego czwartego rzędu przez odchylenie standardowe do potęgi czwartej, czyli : K m4 s4 Im wyższa wartość K , tym bardziej wysmukła jest krzywa liczebności , co wskazuje na tendencję do skupienia się jednostek wokół średniej. Małe wartości wskazują na spłaszczenie krzywej rozkładu , a zatem słabą koncentrację. Zakłada się ,że dla rozkładu normalnego K=3, dla bardziej od niego spłaszczonego K < 3 oraz dla wysmukłego K > 3. W związku z powyższym skonstruowany współczynnik koncentracji o postaci : Ku m4 3 s4 przyjmuje wartość zero, jeżeli rozkład ma kształt normalny ,K u > 0 , jeżeli rozkład jest bardziej wysmukły, oraz Ku < 0 , gdy rozkład jest spłaszczony w stosunku do rozkładu normalnego. Ku m4 57,623566 3 3 0,243 4 20,897960 s Koncentracja w porównaniu z krzywą normalną jest słabsza, a zatem rozkład jest spłaszczony. Inną miarą koncentracji jest współczynnik koncentracji Lorenca. Zjawisko koncentracji może być rozważane jako nierównomierny podział ogólnej sumy wartości zmiennej x pomiędzy poszczególne jednostki zbiorowości statystycznej. Ma to miejsce przy badaniu dochodów, koncentracji produkcji, gęstości zaludnienia, rozmieszczenia bogactw naturalnych itp. Tak rozumiana koncentracja jest zwykle przedstawiana i mierzona za pomocą krzywej koncentracji Lorenza. Kształt krzywej określa natężenie koncentracji. Współczynnik koncentracji Lorenza ( KL ) można wyrazić za pomocą wzoru: KL a ab gdzie : a – pole zawarte między linią równomiernego podziału a krzywą Lorenza b – pole pod krzywą Lorenza a+b – pole trójkąta Wyznaczenie pola a nie jest łatwe. Częściej wyznaczamy przybliżoną wartość pola b, budując w tym celu w układzie współrzędnych prostokąty o podstawie równej wskaźnikowi struktury dla liczby jednostek znajdujących się w przedziale, a wysokość jest średnią ze skumulowanych wartości wskaźników struktury wielkości badanego zjawiska grupy badanej i poprzedniej. Obliczenie powierzchni pola b można opisać następującym wzorem: b skum.Wi skumWi 1 ˆ Wi 2 gdzie : skum.Wi – kolejne skumulowane wartości wskaźników struktury wielkości badanego zjawiska Ŵi - kolejne wartośći wskaźników struktury dla liczby badanych jednostek Współczynnik ten jest względną miarą koncentracji zjawiska. W praktyce zawiera się 0 Kl 1 Przykład 4. Struktura zatrudnienia w badanych firmach została scharakteryzowana za pomocą następujących liczb zawartych w poniższej tablicy. Należy określić stopień koncentracji zatrudnienia w badanych firmach w 1995 roku . Liczba zatrudnionych pracowników w badanych firmach do 4 5 - 10 11-15 16 - 50 51 -100 101 - 200 201 - 500 501 -1000 1001 - 2000 2001 - 5000 5001 i więcej Firmy Zatrudnienie w% w% 37,7 20,5 7,2 17,4 7,0 4,3 3,1 1,5 0,7 0,4 0,2 100 1,0 2,0 1,3 7,0 6,8 8,2 13,2 14,3 13,7 17,7 14,8 100 Źródło: Dane umowne Tablica pomocnicza do wyznaczenia do wyznaczenia współczynnika Lorenza Firmy w Zatrudnienie w Skum. Skum. skum.Wi skumWi 1 skumWi skumWi 1 % % Wi Ŵ Ŵi Wi 2 i 37,7 20,5 7,2 17,4 1,0 2,0 1,3 7,0 37,7 58,2 65,4 82,8 1,0 3,0 4,3 11,3 7,0 4,3 6,8 8,2 89,8 94,1 18,1 26,3 3,1 13,2 97,2 39,5 (1+0)/2=0,5 ( 3,0+1,0)/2=2,0 ( 4,3+3,0)/2=3,65 ( 11,3 + 4,3 ) /2=7,80 14,7 2 * Wˆ i 0.5*37,7=18,85 2,0*20,5=41,00 3,65*7,2=26,28 7,80*17,4=135,72 102,90 95,46 22,20 101,99 32,90 1,5 14,3 98,7 53,8 69,975 46,65 0,7 13,7 99,4 67,5 42,455 60,65 0,4 17,7 99,8 85,2 30,54 76,35 0,2 14,8 100,0 100,0 18,52 92,80 100 100 Źródło: Obliczenia własne 683,69 Obliczona powierzchnia b wynosi 683,69, wobec tego współczynnik koncentracji wynosi: Pole trójkąta ( a + b)=5000, wobec tego K (a b) b 5000 683,69 a 0,863 ab ab 5000 Oznacza to dość wysoką koncentrację badanego zjawiska. Inną miarą koncentracji jest współczynnik koncentracji Lorenza. Może być on wykorzystywany do badań w zakresie koncentracji własności ziemskiej, bogactw naturalnych czy kapitału. Punktem wyjścia do ilościowego badania koncentracji jest ustalenie, w jaki sposób rozkłada się ogólna suma wartości badanej cechy na poszczególne jednostki zbiorowości statystycznej. Do oceny stopnia natężenia tak rozumianej koncentracji stosuje się krzywą koncentracji lub krzywą Lorenza. Kształt linii łamanej określa natężenie koncentracji Jeżeli na każdą jednostkę zbiorowości przypada taka sama część ogólnej sumy wartości cechy , to zamiast krzywej koncentracji otrzymamy linię prostą przechodzącą przez początek układu współrzędnych pod kątem =45 w stosunku do osi odciętych. Jest to tzw. Linia równomiernego rozkładu wartości cechy dla poszczególnych jednostek zbiorowości. Stosunek pola zawartego między krzywą koncentracji a linią równomiernego rozkładu do ogólnego pola trójkąta nosi nazwę współczynnika koncentracji Lorenza.Można go wyznaczyć w sposób następujący: KL a 0,5 b 0,5 0,5 gdzie : a – powierzchnia pola zawartego między krzywą koncentracji a linią rozkładu b – powierzchnia pola leżącego pod krzywą koncentracji równomiernego Współczynnik ten zawiera się w przedziale [ 0, 1 ]. Procedurę wyznaczania współczynnika przedstawimy na przykładzi Przykład 4.Na podstawie danych dotyczących osób pobierających renty z tytułu niezdolności do pracy według wysokości świadczeń we wrześniu 1997 roku należy ocenić stopień koncentracji wysokości świadczeń z ubezpieczenia społecznego. Obliczenia pomocnicze do wyznaczenia współczynnika koncentracji. Wysokość Liczba Łączna Odsetki Odsetki Skum. Skum. Pole Świadczenia Pobier. Renty Wysok. Liczby Łączn. figury b wi zi Brutto Z tytuł.niezd. Świadcz. Pobier. Wysok. Z ubezp.społ. Do pracy Brutto Renty Świadcz. ni ni z i x i * ni wi 1 1 1 1 400-450 450-500 500-550 550 -600 600-650 650-700 700-750 750-800 800-900 900-1 000 000 – 1 100 100 - 1 200 200 – 1 300 300 – 1 400 255,6 387,5 191,0 142,6 104,9 88,8 61,9 48,4 72,6 48,4 40,3 29,6 29,6 29,6 108 630,0 184 062,5 100 275,0 81 955,0 65 562,5 59 940,0 44 877,5 37 510,0 62 710,0 45 980,0 42 315,0 34 040,0 37 000,0 39 960,0 N 0,159 0,241 0,119 0,089 0,065 0,055 0,038 0.030 0,0,45 0,030 0,025 0,018 0,018 0,018 0,101 0,172 0,093 0,076 0,061 0,056 0,042 0,035 0,058 0,043 0,039 0,032 0,034 0,037 0,159 0,400 0,518 0,607 0,672 0,727 0,766 0,796 0,841 0,871 0,896 0,915 0,933 0,952 0,101 0,273 0,366 0,443 0,504 0,560 0,602 0,636 0,694 0,737 0,776 0,808 0,843 0,880 0.0080 0.0451 0.0379 0,0359 0,0309 0,0294 0,0223 0,0186 0,0300 0,0215 0,0190 0,0146 0,0152 0,0158 1 400 – 1 500 16,1 23 345,0 0,010 0,022 1 500 – 1 600 10,7 16 585,0 0,007 0,015 1 600 – 1 700 5,6 9 240,0 0,003 0,009 1 700 – 1 800 45,6 79 800,0 0,028 0,074 Ogółem 1 608,8 1 072 828,5 1,000 1,000 Zaliaś A. : Metody statystyczne. PWE, Warszawa, s.75. 0,962 0,968 0,972 1,000 0,902 0,917 0,926 1,000 0,0089 0,0060 0,0032 0,0273 0,3896 Pole figury b pod krzywą Lorenza , można w przybliżeniu wyznaczyć w sposób następujący: k KL 0,5 ( i 1 cumzi cumzi 1 ) * wi 2 0,5 gdzie : cum zi – względna wartość szeregu skumulowanego obliczonego w sposób następujący zi x i * ni k x i 1 i * ni wi - liczebności względne obliczone następująco: wi k ni , przy czym N n i N i 1 W naszym przykładzie mamy : 18 b p i 0,3896 i 1 a=0,5-0,3896=0,1104 KL 0,1104 0,2208 0,5 Uzyskany wynik wskazuje na słaby stopień koncentracji, co odpowiada równomiernemu podziałowi łącznej wysokości świadczenia brutto z ubezpieczenia społecznego między pobierających renty z tytułu niezdolności do pracy. Rachunek prawdopodobieństwa 1. 2. 3. 4. Krótki rys historyczny Podstawowe wiadomości o zdarzeniach Pojęcie prawdopodobieństwa Podstawowe twierdzenia rachunku prawdopodobieństwa !. Krotki rys historyczny Rachunek prawdopodobieństwa jest dziedziną matematyki. Z rachunkiem prawdopodobieństwa związane są takie nazwiska francuskich matematyków jak : B.Pascal ( 1623 – 1662 ) i P. Fermat ( 1601 – 1661 ). Duży wkład w rozwój tej dyscypliny przypisuje się również szwajcarskiemu matematykowi J. Bernoulliemu ( 1654 – 1705.W pracy „ Traktat o sztuce przewidywania „ można znaleźć podstawowe twierdzenia rachunku prawdopodobieństwa zwane „ prawem wielkich liczb „. Wielkie zasługi w rozwój teorii prawdopodobieństwa położył również P.S. Laplace ( 1749 – 1705 ) oraz K.F. Gauss ( 1777 – 1855 ). Gauss uważany jest za twórcę teorii błędów obserwacji i metody najmniejszych kwadratów. Na uwagę zasługuje nazwisko S.D. Poissona ( 1781 –1840 ), francuskiego matematyka , którego imieniem został nazwany jeden z najważniejszych rozkładów statystycznych. Studiując historię rachunku prawdopodobieństwa ważne wydaje się wymienienie prac członka Petersburskiej Akademii Nauk , szwajcara z pochodzenia , L. Eulera ( 1707 – 1783) Całki Eulera nazywa się tzw. Funkcją gamma i funkcją beta. Funkcje te mają duże zastosowanie w statystyce matematycznej. Za twórcę rosyjskiej szkoły probabilistycznej uznać należy P. Czejbyszewa (1821 – 1894) Wybitni matematycy radzieccy, A. Kołmogorow, N. Smirnow i inni stworzyli radziecką szkołę teorii prawdopodobieństwa, która należy do czołowych w świecie. Osiągnięcia współczesnej probabilistyki w Polsce są związane z imieniem profesora Uniwersytetu Wrocławskiego H.Steinhausa i jego uczniów. Zmienna losowa jest to zmienna, która przyjmuje różne wartości liczbowe, wyznaczone przez los. Zmienną losową można traktować jako pewną funkcję określoną na przestrzeni próby związanej z eksperymentem. Przyporządkowanie prawdopodobieństw różnym możliwym wartością zmiennej losowej, czyli „probabilistyczne prawo rządzące zmienną losową „ nazywamy rozkładem prawdopodobieństwa zmiennej losowej. Zmienna losowa może być : Skokowa ( dyskretna ) Ciągła Zmienna losowa jest skokowa ( dyskretna ), gdy może przyjmować wartości ze zbioru najwyżej przeliczalnego. Zmienna losowa ciągła może przyjmować wartości z dowolnego przedziału liczbowego. Możliwe wartości takiej zmiennej tworzą zbiór nieprzeliczalnie nieskończony. Rozkładem prawdopodobieństw zmiennej losowej skokowej, zwanym też funkcją rozkładu masy prawdopodobieństwa jest tablica, wzór lub wykres, który przyporządkowuje prawdopodobieństwa każdej możliwej wartości zmiennej. Zmienne losowe będziemy oznaczać dużymi literami, najczęściej literą X, chociaż mogą być użyte inne litery. Małych liter będziemy używać do oznaczenia poszczególnych wartości przybieranych przez zmienne losowe. Zapis P(X=x) oznacza prawdopodobieństwo, że zmienna losowa X przyjmuje pewną określoną wartość x. Na przykład zapis P(X=5)=0,2 oznacza, że prawdopodobieństwo , iż zmienna losowa X przyjmuje wartość 5 jest równe 0,2. Można używać skróconych zapisów, np. P(5)=0,2 Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki P( X ) 0 dla wszystkich wartości x (1) P( X ) 1 wszystkiex (2) Przykład 1. Załóżmy, że w poniższym zestawieniu wymieniono możliwe liczby ogłoszeń zamieszczonych dziennie w gazecie i odpowiadające im prawdopodobieństwa X 0 1 2 3 4 5 P(X) 0,1 0,2 0,3 0,2 0,1 0,1 Jest to rozkład prawdopodobieństw zmiennej losowej X. Można zauważyć, że wszystkie prawdopodobieństwa są nieujemne i sumują się do jedności. Zmienne losowa nie przyjmuje wartości większych od 5, co oznacza, że nie zamieszcza się nigdy więcej niż 5 ogłoszeń dziennie. Prawdopodobieństwo zamieszczenia dwóch ogłoszeń wynosi 0,3, a trzech ogłoszeń – 0,2.Powstaje pytanie , skąd się biorą prawdopodobieństwa Redakcja gazety codziennie rejestruje liczbę zamieszczonych ogłoszeń. Częstości z jakimi pojawiają się w długim szeregu dni różne liczby ogłoszeń ,łatwo obliczyć z tych rejestrów. Częstości te uznajemy za prawdopodobieństwa ukazania się odpowiednich liczb zamieszczonych ogłoszeń. W innych sytuacjach prawdopodobieństwa można wyprowadzić z pewnych teoretycznych rozważań. Takie rozkłady są tablicowane i można je znaleźć w każdym podręczniku statystyki. Dystrybuanty ( skumulowane funkcje rozkładu ) Skumulowaną funkcją rozkładu ( dystrybuantą ) skokowej zmiennej losowej X jest funkcja F ( x) P( X x) Pi (3) i x Dla przykładu 1 dystrybuanta liczby ogłoszeń zamieszczonych dziennie w gazecie wynosi x 0 1 2 3 4 5 P(x) 0,1 0,2 0,3 0,2 0,1 0,1 F(x) 0,1 0,3 0,6 0,8 0,9 1,0 Należy zauważyć, że każda wartość F(x) jest sumą wszystkich wartości P(i) dla i mniejszych lub równych x. Na przykład F (3) P( X 3) P(0) P(1) p(2) P(3) 0,1 0,2 0,3 0,2 0,8 Oczekiwana wartość i odchylenie standardowe zmiennej losowej Oczekiwana wartość skokowej zmiennej losowej X jest równa sumie wszystkich możliwych wartości tej zmiennej mnożonych przez ich prawdopodobieństwa E( X ) xP( x) (4) wszystkiex Wykorzystując dane z przykładu 1 wyznaczamy oczekiwaną liczbę ogłoszeń w gazecie ( zgodnie z wzorem 4 ) Obliczenie oczekiwanej ( średniej ) liczby ogłoszeń w gazecie x P(x) X P(x) 0 0,1 0 1 0,2 0,2 2 0,3 0,6 3 0,2 0,6 4 0,1 0,4 5 0,1 0,5 1,0 3,3 Z tablicy wynika, że E ( x) 2,3 . Możemy powiedzieć, że przeciętnie dzienne zamieszcza się 2,3 ogłoszenia. Oczekiwana wartość funkcji skokowej zmiennej losowej h(x) jest : E h( x) h( x ) P ( x ) (5) wszystkiex Przykład 2. Miesięczna sprzedaż pewnego produktu charakteryzuje rozkład prawdopodobieństwa podany w poniższej tablicy. Sprzedaż 5000 6000 7000 8000 9000 P(x) 0,2 0,3 0,2 0,2 0,1 1,0 Przypuśćmy, że firma ponosi stały miesięczny koszt produkcji równy 8000 $ i że na każdej wyprodukowanej jednostce zarabia 2 $. Jaki jest miesięczny oczekiwany zysk firmy ? Funkcja zysku ze sprzedaży produktu jest dla firmy funkcja h(x)=2x – 8000. Tablica pomocnicza do wyznaczenia oczekiwanego zysku x h(x) P(x) h(x)P(x) 5 000 2 000 0,2 400 6 000 4 000 0,3 1 200 7 000 6 000 0,2 1 200 8 000 8 000 0,2 1 600 9 000 10 000 0,1 1 000 5 400 = E[h(x)] W przypadku liniowej funkcji zmiennej losowej, obliczenie oczekiwanej wartości funkcji h(x) można uprościć, korzystając ze wzoru na oczekiwaną wartość funkcji zmiennej losowej. Oczekiwana wartość liniowej funkcji zmiennej losowej : E(a X +b) = a E(x)+b (6) Gdzie a i b są ustalonymi liczbami. W rozpatrywanym przykładzie 2 mamy ; E [ h (x)] = E[2x – 8 000 ] = 2 E (x) – 8 000 = 2 * 6 700 – 8 000 = 5 400 $ . Wariancja i odchylenie standardowe zmiennej losowej Wariancja zmiennej losowej jest oczekiwana wartość kwadratu odchylenia tej zmiennej od jej średniej . Pojęcie to jest podobne do pojęcia wariancji w zbiorze wyników obserwacji ( w próbie lub populacji ) . Wariancją skokowej zmiennej losowej X jest : 2 V ( X ) E[( X ) 2 ] x P ( x) 2 ( 7) wszystkiex Dla przykładu 1 mamy : x x P(x) (x ) 2 ( x ) 2 P( x) 0 1 2 3 4 5 5,29 1,69 0,09 0,49 2,89 7,29 0,529 0,338 0,027 0,098 0,289 0,729 0,1 0,2 0,3 0,2 0,1 0,1 -2,3 -1,3 -0,3 0,7 1,7 2,7 2,01 Wygodny do stosowania wzór obliczania wariancji zmiennej losowej : 2 V ( x) E ( X 2 ) [ E ( X )] 2 (8) Zgodnie z wzorem (8) wyznaczamy dla przykładu 1 wariancję liczby ogłoszeń w gazecie. Obliczenia pomocnicze X P(X) X P(X) X2P(X) 0 0,10 0 0 1 0,20 0,20 0,20 2 0,30 0,60 1,20 3 0,20 0,60 1,80 4 0,10 0,40 1,60 5 0,10 0,50 2,50 1,00 2,30 7,30 V ( X ) E ( X 2 ) [ E ( X )] 2 7,30 2,3 2 2,01 Dla zmiennych losowych standardowe odchylenie określamy jako dodatni pierwiastek kwadratowy z wariancji . Standardowe odchylenie zmiennej losowej wyraża się wzorem: S ( x) 2 (9) W rozpatrywanym przykładzie 1 wynosi 2,01 1,418 Wariancję liniowej funkcji zmiennej losowej wzoru : V (ax b) a 2V ( x) a 2 2 ax b wyznaczyć można z następującego ( 10 ) gdzie a i b są ustalonymi liczbami. Wariancja jako średnie kwadratowe odchylenie wartości zmiennej losowej od jej wartości średniej jest miarą rozproszenia możliwych wartości zmiennej. Wariancja daje wyobrażenie o zmienności a tym samym o niepewności związanej z przyszłymi wartościami zmiennej, które mogą tym bardziej odbiegać od przeciętnej, im wyższa jest wariancja. Posługiwanie się odchyleniem standardowym często jest wygodniejsze z tego powodu, że wariancja jest wielkością „kwadratową” Odchylenie standardowe jest łatwiejsze do interpretacji z punktu widzenia ekonomicznego. Na przykład : standardowe odchylenie stopy przychodu z określonej lokaty kapitału powszechnie jest uznawane za miarę ryzyka związanego z tą lokatą. Twierdzenie Czebyszewa Znajomość odchylenia standardowego pozwala wyznaczyć granice, w których możliwe wartości zmiennej losowej mieszczą się z pewnym określonym prawdopodobieństwem. Granice te wyznacza twierdzenie Czebyszewa . Twierdzenie to powiada, że dla dowolnej liczby k większej od jedności prawdopodobieństwo, że wartość zmiennej losowej odchyla się od wartości o mniej niż o k odchyleń standardowych, jest nie mniejsze niż 1 – 1/k2. Możemy to twierdzenie zapisać następująco : dla dowolnej zmiennej losowej o średniej i odchyleniu standardowym oraz dla dowolnej liczby k 1 : P( X k ) 1 1 / k 2 ( 11 ) Wybrane rozkłady zmiennej losowej skokowej Podstawowymi rozkładami zmiennej losowej skokowej są: Rozkład jednopunktowy Rozkład dwupunktowy Rozkład dwumianowy ( Bernoulliego ) Rozkład Poissona Rozkład jednopunktowy Zmienna losowa X przyjmuje tylko jedną wartość x1 z prawdopodobieństwem równym 1, czyli : ( 12 ) P( X x1 ) 1 Łatwo wykazać , że E( X ) x1 , 2 0 Dystrybuanta F(x) w tym przypadku ma postać : x x1 { 1 dla x x1 F(x)= { 0 dla ( 13 ) Rozkład dwupunktowy Mówimy, że zmienna losowa X podlega rozkładowi X podlega rozkładowi dwupunktowemu, jeśli zbiór wartości { x1 , x2 } jest dwuelementowy , przy czym : P(X=x1)=q ( 14 ) P(X=x2)=p ( 15 ) oraz p+q=1 Szczególnym przypadkiem rozkładu dwu – punktowego jest tzw. Rozkład zero – jedynkowy , gzie przyjmuje się, że x 1 = 0 oraz x2 = 1 . Mamy więc : P(X=0)=q ( 16 ) P(X=1)=1 ( 17 ) Przy czym p + q = 1 , skąd q = 1 – p Podstawowe charakterystyki liczbowe zmiennej podlegającej rozkładowi zero – jedynkowemu: E(X)=p 2 pq ( 18 ) ( 19 ) Dystrybuanta w tym przypadku ma postać następującą : F(x) = { 0 dla { 1 – p dla { 1 dla x0 0 x 1 x>1 Rozkład dwumianowy Przypuśćmy, że wykonujemy n niezależnych doświadczeń ( np. rzucamy 10 razy kostką do gry albo wykonujemy 7 rzutów monetą itp. ). Przyjmujemy, że każde z tych doświadczeń może zakończyć się sukcesem albo porażką, przy czym prawdopodobieństwo wystąpienia sukcesu w każdym z wykonywanych doświadczeń jest takie samo i wynosi p(0 p 1) . Zmienną losową definiujemy jako liczbę sukcesów uzyskanych przy wykonywaniu n doświadczeń. Dwumianowy rozkład prawdopodobieństwa : n n! P( X ) p x q n x pq n x x x ! ( n x )! ( 20 ) gdzie p jest prawdopodobieństwem sukcesu w jednym doświadczeniu, q=1-p, z kolei n jest liczbą doświadczeń, a x jest liczbą sukcesów . Rozkład zdefiniowany wzorem ( 20 ) jest rozkładem dwumianowym lub rozkładem Bernoulliego. Nazwa pochodzi od matematyka Jacquesa Bernoulliego ( 1654 – 1705 ). Doświadczenia Bernoulliego to ciągi identycznych doświadczeń spełniających nastęoujące warunki : 1. Są dwa możliwe wyniki każdego doświadczenia, nazwane sukcesem lub porażką. Wyniki te wykluczają się i dopełniają. 2. Prawdopodobieństwo sukcesu oznaczone przez p, pozostaje takie samo od doświadczenia do doświadczenia. Prawdopodobieństwo porażki, oznaczone przez q, równe jest 1-p 3. Doświadczenia są od siebie niezależne. Znaczy to , że wynik któregokolwiek doświadczenia nie ma wpływu na wyniki pozostałych doświadczeń . Średnia, wariancja i kształt rozkładu dwumianowego Średnia rozkładu dwumianowego jest to iloczyn liczby doświadczeń n i prawdopodobieństwa sukcesu w pojedynczym doświadczeniu p. Wariancja jest iloczynem liczby doświadczeń n , wartości p oraz q . Prawdziwe są poniższe wzory : Średnia rozkładu dwumianowego : E ( x) np ( 21 ) Wariancja rozkładu dwumianowego : 1 V ( x) npq ( 22 ) Odchylenie standardowe rozkładu dwumianowego : npq ( 23 ) Kształt rozkładu prawdopodobieństwa dwumianowej zmiennej losowej jest symetryczny przy p=1/2. Rozkład jest skośny prawostronnie przy p < ½ , a lewostronnie przy p > ½ gdy liczba doświadczeń n jest niewielka. Dwumianowy rozkład prawdopodobieństwa jest jednym z najpowszechniej stosowanych rozkładów w badaniach statystycznych. Rozkład Poissona Rozkład Poissona jest wygodny do scharakteryzowania zmiennej losowej będącej liczbą zajść pewnego zdarzenia w określonym przedziale czasu . Taką zmienną jest liczba awarii urządzenia przemysłowego w ciągu tygodnia, liczba wypadków samochodowych w ciągu miesiąca, itp. Rozkład Poissona jest też dobrym przybliżeniem rozkładu dwumianowego, gdy liczba doświadczeń n jest duża ( n 20) , a prawdopodobieństwo „ sukcesu „ ( zajścia interesującego nas zdarzenia ) jest niewielkie ( p 0,05) . Rozkład Poissona: P ( x) x e x! dla x= 0,1,2,3,..., (24 ) jest średnią rozkładu ( i równocześnie jego wariancji ), e jest podstawą logarytmów naturalnych ( e 2,71828... ) gdzie Przykłady Przykład 1. Klientami sklepu spożywczego są kobiety i mężczyźni > Na podstawie wcześniejszych badań wiadomo ,że prawdopodobieństwo zakupu żywności przez kobietę w tym sklepie wynosi 0,6 . a) Co jest zmienną losową ? b) Wyznaczyć wartość oczekiwaną i wariancję badanej zmiennej losowej ? Rozwiązanie : a) ) Zmienną losową jest płeć klienta. Przyjmuje ona wartość 1 w przypadku kobiet oraz 0 , gdy do sklepu wchodzi mężczyzna. Jest to przykład zmiennej zero – jedynkowej . b) E ( X ) p 0,6 oraz V ( X ) p (1 p ) 0,6 * 0,4 0,24 Przykład 2. Sprzedawca pewnego dobra trwałego użytku kontaktuje się z 8 potencjalnymi klientami dziennie. Z wcześniejszych doświadczeń wiadomo , że prawdopodobieństwo zakupu tego dobra przez potencjalnego klienta wynosi 0,10. a) jakie jest prawdopodobieństwo tego, że sprzedawca przeprowadzi dokładnie 2 transakcje sprzedaży dziennie ? b) Jaki odsetek stanowić będą dni, w których sprzedawca nie dokona żadnej transakcji sprzedaży ? c) Jakiej średniej liczby sprzedanych dóbr trwałego użytku dziennie może się spodziewać sprzedawca ? Rozwiązanie : a) Korzystając ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym mamy : P( X 2) 8! * (0,1) 2 * (0,9) 8 2 2! (8 2)! Zamiast przeprowadzania dość skomplikowanych obliczeń można również skorzystać z tablic rozkładu dwumianowego odczytując ( P( X k ) dla n=8, k=2, p=0,1 Wobec tego mamy : P( X 2) P( X 3) Q(2) Q(3) 0,18690 0,03809 0,14881 8! * (0,1) 0 * (0,9) 8 0 0,43 b) P ( X 0) 0!(8 0)! zatem 43 % ogółu dni roboczych stanowią takie dni , kiedy nie zostanie dokonana żadna transakcja sprzedaży. c) E ( X np 8 * 0,1 0,8 Przykład 3. Wadliwość produkcji pewnego przedsiębiorstwa wynosi 3%. Z gotowych wyrobów znajdujących się w magazynie sprzedano 40 sztuk. a) Jakiej średniej liczby braków można się spodziewać w sprzedanej partii towarów b) Jakie jest prawdopodobieństwo , że dokładnie 5 sztuk wadliwych znajdzie się w sprzedanej partii towarów Rozwiązanie : a) E ( x) np 40 * 0,03 1,2 b) P( X 5) (1,2) 5 * e 1, 2 0,00625 5! ( por. tablicę w rozkładzie Poissona , dla 1,2 ; k 5 ) Inne podejście opiera się na rachunku dystrybuant. Korzystamy z tablic dystrybuanty w tym rozkładzie i mamy : P( X 5) P( X 5) P( X 4) F (5) F (4) 0,998 0,992 0,006 Zmienna losowa ciągła i jej rozkłady 1. Zmienna losowa ciągła , funkcja gęstości, dystrybuanta, podstawowe charakterystyki 2. Rozkłady zmiennej losowej ciągłej Rozkład normalny Rozkład logarytmiczno – normalny Rozkład chi – kwadrat Rozkład Studenta Rozkład Fishera – Snedecora Inne ( np. rozkład serii, rozkład Darbina - Watsona Zmienna losowa ciągła jest to taka zmienna , która przyjmuje wszystkie wartości z pewnego określonego przedziału liczbowego. Dla zmiennej losowej ciągłej pojawia się pojęcie funkcji gęstości. Funkcja gęstości jest to przedziałami ciągła funkcja f(x), dzięki której można określić prawdopodobieństwo tego, że zmienna losowa x znajdzie się w określonym przedziale. Funkcja gęstości spełnia następujące warunki : f ( x) 0 ( 1) f ( X )dx 1 (2) Funkcja gęstości może być interpretowana jako podstawa do liczbowych ustaleń „ średniej gęstości prawdopodobieństwa z otoczenia punktu, zwanego środkiem przedziału klasowego”. Dystrybuanta dla zmiennej losowej ciągłej określana jest jako prawdopodobieństwo tego, że zmienna losowa przyjmie wartości mniejsze lub równe x i F ( x i ) P( X x i ) (3) Dystrybuanta dla zmiennej losowej ciągłej jest całką z określoną górną granicą x , zapisaną w sposób następujący : x F ( x) f ( x)dx (4) Dla prawdopodobieństwa w przedziale ( x1 ; x2 ) należy stosować formułę : P{x1 x x 2 } F ( x 2 ) F ( x1 ) x2 f ( x)dx ( 5) x1 Wartość oczekiwana zmiennej losowej ciągłej wyraża się następującym wzorem : E ( x) xf ( x)dx (6) Wariancja zmiennej losowej ciągłej jest wyznaczona zgodnie z formułą : D 2 ( x) [ x E ( x)] 2 f ( x)dx (7) Odchylenie standardowe zmiennej losowej ciągłej dane jest wzorem : D( x) D 2 ( x) (8) Rozkłady zmiennej losowej ciągłej Rozkład normalny Rozkład normalny wiąże się z nazwiskiem matematyka K.F. Gaussa ( 1777 – 1855 ) i bywa najczęściej określany jako rozkład Gaussa. Rozkład normalny to jeden z najważniejszych rozkładów zmiennej losowej ciągłej. Odgrywa on w zastosowaniach statystyki ogromną rolę. Mówimy , że zmienna losowa x ma rozkład normalny z parametrami i 0 , co zapisujemy X : N ( , ) lub X ~ N ( , ) , jeśli jej funkcja gęstości jest określona następującym wzorem : f ( x) 1 2 gdzie : E (x) D 2 ( x) 2 ( x )2 *e 2 2 , dla x ( ;) ( 9) 3,144159..., e 2,71828... Krzywa gęstości prawdopodobieństwa rozkładu normalnego ma następujące własności : 1. Krzywa normalna jest krzywą w kształcie dzwonu, symetryczną względem prostej przechodzącej przez punkt x , co znaczy, że jest spełniona równość : P( X P( X ) 0,5 . Oś rzędnych jest oczywiście osią symetrii krzywej. 2. Obszar ograniczony wykresem funkcji f(x) i osią odciętych ma pole równe jedności. 3. Funkcja gęstości prawdopodobieństwa rozkładu normalnego osiąga maksimum w punkcie x . Obliczając pochodną funkcji (9) i przyrównując ją do 0 , sprawdzamy łatwo, że wartość maksymalna tej funkcji gęstości wynosi : f ( ) 1 2 4.Krzywa gęstości prawdopodobieństwa rozkładu normalnego ma 2 punkty przegięcia, położone symetrycznie względem osi rzędnych , o odciętych x , w których krzywa z wklęsłej przechodzi w wypukłą lub odwrotnie. Parametr rozkładu normalnego jest to średnia rozkładu czyli miara położenia. Mówi o tym , gdzie leży centrum rozkładu na osi liczbowej. Ponieważ krzywa gęstości normalnej jest symetryczna i ma jeden szczyt , w środku ,średnia jest równocześnie medianą i dominantą rozkładu prawdopodobieństwa. Inaczej mówiąc, jest też punktem, w którym gęstość jest największa i który dzieli pole pod krzywą gęstości na połowy, z których każda ma miarę ½.Standardowe odchylenie jest miarą zmienności , czyli rozproszenia zmiennej. Gdy standardowe odchylenie jest duże, wykres funkcji gęstości jest „ szeroki „ , ale za to „ płaski „( Całe pole pod krzywą musi mieć miarę równą 1 ). Gdy standardowe odchylenie jest małe, wykres funkcji gęstości jest „ wąski „ ale „ wysoki „ Na uwagę zasługują także następujące własności rozkładu normalnego : P( X ) 0,6826 P( 2 X 2 ) 0,9545 P( 3 X 3 ) 0,9973 W analizach szczególnie ważna jest reguła trzech odchyleń standardowych zwana także reguła 3 sigm, której prawdopodobieństwo jest bardzo wysokie i praktycznie wynosi 1. Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji obserwacji nietypowych, nie przystających do pozostałych ( wątpliwych , rzadkich , odstających , ekstremalnych ) , co do których istnieją przypuszczenia , że pochodzą z innej zbiorowości. Za wątpliwe uznaje się takie obserwacje , których wartość różni się od średniej o więcej niż 3 odchylenia standardowe. Rozkład normalny standaryzowany Rozkład normalny z wartością oczekiwaną 0 i odchyleniem standardowym 1 , czyli Z : N (0,1) , określony za pomocą formuły : 1 z2 1 f ( z) *e 2 2 ( 10 ) Każdy rozkład normalny X : N ( , ) może być transformowany do rozkładu normalnego Z : N (0,1) poprzez procedurę standaryzacji zmiennej X do Z. Czasami zamiast Z stosuje się literę U ( unormowana ). Zmienna losowa standaryzowana wyraża się wzorem : Z X ( 11 ) Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład normalny standaryzowany jest stablicowany. Najczęściej korzysta się z tablic dystrybuanty . Przykład 1. Załóżmy , że mamy 100 pojedynczych wyników pomiarów pewnej wielkości. Efekty obserwacji pogrupowano , a wyniki w postaci szeregu rozdzielczego przedziałowego podano w poniższej tablicy. Zachodzi przypuszczenie , że rozkład liczby wszystkich pomiarów ma rozkład normalny . Tab.1. Szereg rozdzielczy wyników pomiaru pewnej wielkości ( w mm) Wyniki pomiarów Liczba wyników xi , xi 1 ) xi fi 79-81 81-83 83-85 85-87 87-89 89-91 91-93 93-95 95-97 97-99 1 4 9 15 24 21 13 9 3 1 100 80 82 84 86 88 90 92 94 96 98 xi f i 80 328 756 1 290 2 112 1 890 1 196 846 288 98 8 884 Źródło : A. Zeliaś : Metody statystyczne . PWE, Warszawa 2000 s. 221-222. i szacujemy na podstawie wyników zamieszczonych w powyższej tablicy ( tab.1 ) i otrzymujemy : x 88,84 i s 3,23258 . Parametry rozkładu normalnego Pozostałe obliczenia potrzebne do ustalenia , czy jest to rozkład normalny, znajdują się w poniższej tablicy : xi fi 80 82 84 86 88 90 92 94 96 98 1 4 9 15 24 21 13 9 3 1 100 ui xi x s -2,73466 -2,11596 -1,49726 -0,87855 -0,25985 0,35885 0,97755 1,59625 2,21495 2,83365 f (u i ) 0,009606 0,042166 0,129518 0,270864 0,385683 0,373911 0,246809 0,112704 0,034710 0,007274 ni fˆi f (u i ) s 0.59 2,61 8,01 16,76 23,86 23,13 15,27 6,97 2,15 0,45 99,8 f i fˆi 0,41 1,39 0,99 -1,76 0,14 -2,73 -2,27 2,03 0,85 0,55 Z uwagi na to , że różnice między rozkładem empirycznym a teoretycznym , czyli f i fˆi od i= 1,2,...,10 są względnie duże , to nie można przyjąć , że rozkład liczby wyników pomiarów nie jest rozkładem normalnym. Rozkład chi – kwadrat Rozkład chi – kwadrat ( 2 ) został opracowany przez statystyków A. Abbego ( 1863 ), H. Helmerta ( 1875 ) , K. Pearsona ( 1900 Zakładając , że X1, X2 , ..., Xk są niezależnymi zmiennymi losowymi o rozkładzie normalnym o parametrach 0 i 1 , zmienna losowa 2 określona w sposób następujący : k 2 X i2 ( 12 ) i 1 ma rozkład 2 z k „ liczbą stopni swobody „ Zmienna losowa o rozkładzie chi- kwadrat przyjmuje wartości dodatnie , a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k jest to rozkład silnie asymetryczny , w miarę wzrostu k asymetria jest coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w sposób następujący : k n 1 lub k n p 1 gdzie : n – liczebność próby p – liczba szacowanych parametrów z próby Liczba stopni swobody jest równa liczbie wszystkich parametrów ( która nie musi być równa liczbie wyników obserwacji ) pomniejszonej o liczbę wszystkich ograniczeń narzuconych na te parametry . Ograniczeniem jest każda wielkość , która zostaje obliczona na podstawie tych samych pomiarów Wartość oczekiwana w rozkładzie E( 2 ) k wyraża się następującą formułą : ( 13 ) Wariancja w rozkładzie D 2 ( 2 ) 2k 2 2 jest wyrażona formułą : ( 14 ) Odchylenie standardowe w rozkładzie 2 to : D ( ) 2k ( 15 ) Dla uproszczenia zapisów można się posługiwać formułą : 2 : 2 /( k ; 2k ) , co oznacza ,że 2 ma rozkład o k stopniach swobody . Rozkład 2 jest rozkładem asymetrycznym, przy czym wraz ze wzrostem k rozkład ten staje się coraz bardziej zbliżony do symetrycznego, a dla k>30 zachodzi zależność : 2 : 2 ( k ; 2k ) X : N ( k ; 2k ) ( 16 ) k Oznacza to , że wraz ze wzrostem k ( powyżej 30 ) rozkład asymptotycznie normalny o tych samych parametrach 2 przechodzi w rozkład E ( ) k i D 2 ( 2 ) 2k . 2 Rozkład t – Studenta Jest to ważny rozkład , który jest stosowany głównie do małych próbek . Rozkład t – Studenta ( pseudonim angielskiego statystyka W. Gosseta ) jest rozkładem symetrycznym względem prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego standaryzowanego ( jest nieco bardziej spłaszczony ). 2 : 2 ( k ; 2k ) Jeżeli Z :N(0;1) i T Z są niezależnymi zmiennymi losowymi , to zmienna k ma rozkład t- Studenta o k stopniach swobody . 2 Wartość oczekiwana w rozkładzie t- Studenta E (T ) o dla k2 2 ma postać następującą: ( 17 ) Wariancja w rozkładzie t- Studenta ma postać następującą: D 2 (T ) k dla k 2 k 3 ( 18 ) Odchylenie standardowe w rozkładzie t- Studenta ma postać następującą : D(t ) k k 2 dla k 3 ( 19 ) Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ] Dla różnych wartości k i różnych prawdopodobieństw stablicowane są wartości dla których spełniona jest zależność t takie , p(t / 2 T t / 2 ) dla k n 1 stopni swobody. Rozkład F – Snedecora Y1 i Y2 są zmiennymi niezależnymi i mają rozkłady 2 o k1 i k 2 stopniach swobody , to zmienna losowa Fk1k 2 ma rozkład F – Snedecora : Jeżeli zmienne Fk1k 2 Y1 / k1 Y2 / k 2 gdzie k1 i k 2 są stopniami swobody . ( 20 ) Wartość oczekiwana w rozkładzie F wyraża się E(F ) k2 k2 2 dla k2 2 następującą formułą : ( 21 ) Wariancja w rozkładzie F wyraża się następującym wzorem : D 2 (F ) 2k 22 (k1 k 2 2) k1 (k 2 2) 2 (k 2 4) dla k 2 4 ( 22 ) W zależności od k1 i k 2 stablicowano wartości zmiennej losowej F , w taki sposób , że dla danych wartości prawdopodobieństw zależność P( Fk1k 2 F ) Dobór próby i rozkłady z próby Estymacja punktowa i przedziałowa We wnioskowaniu statystycznym – na podstawie znanej próby losowej , opisujemy za pomocą statystyk nieznaną populację, z której została pobrana próba. Parametry populacji ( np. średnia , odchylenie standardowe ) szacujemy korzystając ze statystyk z próby . Gdy statystyka z próby jest wykorzystywana do oszacowania parametru populacji , nazywa się estymatorem tego parametru. Estymatorem parametru populacji jest statystyka z próby używana do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby Jeżeli jako ocenę ( szacunek ) podajemy jedną wartość liczbową, nazywamy ją oceną punktową ( szacunkiem punktowym ) parametru populacji. Średnia z próby , jest statystyką używaną jako estymator średniej w populacji. Odchylenie standardowe z próby , służy jako estymator odchylenia standardowego w populacji. Oprócz tych statystyk występują również inne np. częstość ( frakcja ). Frakcją ( częstością ) w populacji p , jest liczba elementów populacji należących do pewnej kategorii , którą się interesujemy, podzieloną przez liczbę wszystkich elementów populacji . Frakcja ( częstość ) w próbie wyraża się następującą formułą : pˆ x n (1) gdzie x jest liczbą elementów próby , które należą do interesującej nas kategorii , a n jest liczebnością próby. Pobieranie próby losowej Aby otrzymać próbę losową z całej populacji , powinniśmy dysponować wykazem wszystkich elementów populacji . Taki wykaz nazywa się operatem losowania . Operat losowania pozwala wybierać elementy z populacji przez losowe generowanie numerów elementów, które znajdują się w próbie. Przypuśćmy, że chcemy pobrać prostą 100elementową próbę losową z populacji 7 000 ludzi. Sporządzamy wykaz tych 7 000 ludzi i każdemu przypisujemy numer identyfikacyjny. Mamy wykaz 7 000 numerów, które tworzą operat losowania. Następnie generujemy na komputerze lub w jakiś inny sposób 100 liczb losowych o wartościach od 1 do 7 000 . Taka procedura daje każdemu ze 100 ludzi tę samą szansę znalezienia się w próbie . Do generowania liczb losowych może być użyty komputer lub tablica liczb losowych. Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jaka ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach, pobranych z określonej populacji. Rozkład średniej z próby , x , to rozkład prawdopodobieństwa wszystkich wartości , jakie może przybrać losowa zmienna x , gdy próba o liczebności n jest pobierana z określonej populacji . Centralne twierdzenie graniczne - jeżeli pobieramy próbę z populacji o średniej skończonym odchyleniu standardowym i , to rozkład średniej z próby , x , dąży do i odchyleniu standardowym / n , gdy liczebność 2 próby wzrasta nieograniczenie , czyli , dla „ dostatecznie dużych n „ : x ~ N ( , / n) rozkładu normalnego o średniej Centralne twierdzenie graniczne zasługuje na uwagę , ponieważ stwierdza zmierzanie rozkładu średniej z próby do rozkładu normalnego , niezależnie od rozkładu populacji, z której pochodzi próba. Trzy główne aspekty centralnego twierdzenia granicznego 1. Jeżeli liczebność próby jest dostatecznie duża , to rozkład średniej z próby , x , jest normalny 2. Oczekiwaną wartością średniej x jest 3. Odchyleniem standardowym średniej x jest / n Historia centralnego twierdzenia granicznego jest związana z rozkładem normalnym jako rozkładem granicznym rozkładu dwumianowego, gdy n rośnie nieograniczenie. Aby wykorzystać centralne twierdzenie graniczne, powinniśmy znać standardowe odchylenie w populacji, . Gdy nie jest znane, trzeba się posłużyć jego estymatorem z próby , S. W takim przypadku rozkład standaryzowanej statystyki jest następujący : x (2) S/ n gdzie S zastępuje nieznane i nie jest standaryzownym rozkładem normalnym. Jeśli rozkład w populacji jest normalny, to statystyka określona wzorem ( 2 ) ma rozkład t – Studenta o n-1 stopniach swobody . Centralne twierdzenie graniczne dla przypadku pobierania próby do oszacowania frakcji elementów danej kategorii populacji , p jest sformułowane następująco : Gdy liczebność próby n wzrasta , to rozkład frakcji z próby , p̂ , zbliża się do rozkładu normalnego o średniej p o odchyleniu standardowym p(1 p) / n Z centralnego twierdzenia granicznego wynika , iż rozkład średniej z próby i rozkład frakcji z próby zbliżają się do rozkładu normalnego , gdy wzrasta liczebność próby . Estymatory i ich własności Estymator jest nieobciążony , jeżeli jego wartość oczekiwana jest równa parametrowi populacji , do oszacowania którego służy. Np. Średnia z próby jest nieobciążonym estymatorem średniej z populacji . Systematyczne odchylanie się wartości estymatora od szacowanego parametru nazywa się obciążeniem estymatora . Estymator jest efektywny , jeżeli ma niewielką wariancję ( a tym samym niewielkie odchylenie standardowe ) Estymator jest zgodny , jeżeli prawdopodobieństwo , że jego wartość będzie bliska wartości szacowanego parametru , wzrasta wraz ze wzrostem liczebności próby . Estymator jest dostateczny , jeżeli wykorzystuje wszystkie informacje o szacowanym parametrze , które są zawarte w danych ( w próbie ) Przykład 1. W wylosowanych 9 punktach sprzedaży w pewnym mieście w określonym dniu zbadano cenę produktu A i otrzymano następujące rezultaty : Punkt 1 2 3 4 5 6 7 8 9 sprzedaży Cena w zł 1,15 1,18 1,16 1,20 1,12 1,19 1,17 1,15 1,14 za 1 szt. ( xi) Źródło : Dane umowne. Korzystając z procedury estymacji punktowej , należy oszacować 1. przeciętną cenę produktu A za 1 szt. W określonym dniu w całej zbiorowości ( miasto ) 2. odchylenie standardowe ceny produktu A w określonym dniu w badanym mieście Ad 1. Wiedząc ,że estymacja punktowa sprowadza się do znalezienia jednej wartości mogącej służyć do oszacowania nieznanej średniej ceny produktu A w całym mieście zadanie sprowadza się do znalezienia średniej arytmetycznej na podstawie próby ( x ) . Miara ta jest najbardziej użytecznym estymatorem średniej zbiorowości generalnej , gdyż ma własność nieobciążoności i zgodności oraz jest relatywnie bardziej efektywna od innych średnich ( mediany czy dominanty ) x x 9 i 1,16 , co oznacza ,że w badanym mieście średnia cena jednej sztuki produktu A wynosi 1,16 zl. Ad.2. Zadanie sprowadza się , do obliczenia odchylenia standardowego ceny produktu na podstawie wyników próby xi 1,15 1,18 1,16 1,20 1,20 1,19 1,17 1,15 1,14 -0,01 0,02 0,00 0,04 -0,04 0,03 0,01 -0,01 -0,02 xi x ( xi x ) 2 0.0001 0,0004 0,0000 0,0016 0,0016 0,0009 0,0001 0,0001 0,0004 0.0052 Źródło : Obliczenia własne S (x i x) 2 n 1 0,0052 0,025 zł 8 Należy zauważyć , że wzór na estymator S różni się od klasycznego wzoru na odchylenie standardowe , które wyznacza się w całej zbiorowości ( lub na podstawie wyników pochodzących z dużej próby ) według formuły : (x i x) 2 n Odchylenie standardowe ceny produktu A w badanym mieście wynosiło 0,025 zł . Oznacza to , że cena w poszczególnych punktach sprzedaży różniła się od średniego poziomu , przeciętnie rzecz biorąc , o 0,025 zł. Przykład 2. W pewnej firmie w sposób losowy wybrano 15 rozmów telefonicznych, zbadano długość ich trwania oraz ustalono , czy są to rozmowy lokalne czy też zamiejscowe . Poniższa tablica prezentuje zebrane na ten temat informacje : Kolejny numer Czas trwania Rodzaj rozmów rozmowy ( w min ) telefonicznej 1 2 miejscowa 2 12 zamiejscowa 3 10 miejscowa 4 3 miejscowa 5 5 zamiejscowa 6 6 miejscowa 7 3 miejscowa 8 5 miejscowa 9 8 miejscowa 10 4 miejscowa 11 5 miejscowa 12 4 miejscowa 13 5 miejscowa 14 4 miejscowa 15 9 zamiejscowa Należy : 1. Oszacować przeciętny czas trwania wszystkich rozmów telefonicznych w tej firmie 2. Oszacować odchylenie standardowe czasu trwania wszystkich rozmów telefonicznych w tej firmie 3. Oszacować odsetek ( procent ) rozmów zamiejscowych wśród ogółu rozmów telefonicznych przeprowadzonych w tej firmie 4. Wyznaczyć błąd standardowy odsetka rozmów zamiejscowych wśród ogółu rozmów telefonicznych przeprowadzonych w tej firmie Ad.1. x x 15 i 5,67 min . , co oznacza że przeciętny czas trwania wszystkich rozmów telefonicznych w tej firmie wynosi 5,67 min. Ad.2. S (x i x) 2 n 1 2,85 min . , co oznacza , że odchylenie standardowe czasu trwania wszystkich rozmów telefonicznych w tej firmie wynosi 2,85 min ( o tyle różni się , średnio biorąc , czas trwania poszczególnych rozmów od przeciętnej rozmowy ). Ad.3. p 3 0,20 , co oznacza ,że rozmowy zamiejscowe stanowią 20 % ogółu 15 wszystkich rozmów telefonicznych przeprowadzonych w tej firmie. Ad.4. p 0,20 * (1 0,20) 0,103 15 Błąd standardowy odsetka rozmów zamiejscowych w tej firmie wynosi 10,3 %. Estymacja przedziałowa parametrów Estymacja przedziałowa określonego parametru z populacji generalnej polega na konstrukcji pewnego przedziału liczbowego ( na podstawie wyników z próby losowej pobieranej ze zbiorowości generalnej ) , o którym można powiedzieć ,że z przyjętym z góry prawdopodobieństwem pokryje wartość estymowanego parametru. Przedział taki nazywamy przedziałem ufności Neymana , natomiast prawdopodobieństwo , że przedział ten –będący zmienną losową – pokryje nieznany parametr, nazywamy współczynnikiem ufności i oznaczamy symbolem 1 - . Poziomy współczynników ufności najczęściej przyjmowane są jako : 0,90;0,95 ;0,99. Przedziałem ufności nazywamy przedział liczbowy, o którym przypuszczamy , że mieści się w nim nieznany parametr populacji . Z przedziałem tym związana jest miara ufności ( pewności ) , że ten przedział naprawdę zawiera interesujący nas parametr , zwana poziomem ufności Na sposób konstrukcji przedziału ufności ma wpływ liczebność próby losowej . W zależności od rodzaju szacowanego parametru i liczebności próby można wyróżnić kilka przedziałów ufności, których sposób konstruowania zostanie przedstawiony na modelowych przykładach . Model I. Populacja generalna ma rozkład normalny N ( , ) . Wartość średnia jest nieznana , odchylenie standardowe w populacji jest znane. Z populacji tej pobrano próbę o liczebności n elementów , wylosowanych niezależnie . Wówczas przedział ufności dla średniej populacji otrzymuje się ze wzoru : P{x u n x u n } 1 gdzie : x - średnia arytmetyczna obliczona z próby u poziom zmiennej standaryzowanej odczytany z tablic rozkładu normalnego N(0,1) przy przyjętym z góry współczynniku ufności - nadzieja matematyczna w populacji generalnej - odchylenie standardowe w populacji generalnej n - liczebność próby Przykład 1. Wybraną w sposób losowy 625 – osobową grupę sportowców zbadano pod względem czasu poświęconego na trening w miesiącu otrzymując : x 70godz. i 10godz. Wiadomo przy tym ,że czas poświęcony na trening posiada rozkład normalny . Oszacować metodą przedziałową średni miesięczny czas treningu dla ogółu sportowców przyjmując współczynnik ufności 0,95.Dla przyjętego współczynnika ufności 1-=0,95 mamy u 1,96 . Przedział ufności jest następujący : 10 P{70 1,96 625 70 10 625 } 1 Ostatecznie otrzymujemy : 69,216 70,784 Otrzymany wynik interpretujemy następująco : przedział liczbowy od 69,216 godzin do 70,784 godzin jest jednym z tych wszystkich możliwych do otrzymania przedziałów, które z prawdopodobieństwem 0,95 pokrywają szacowany średni czas poświęcony miesięcznie na trening przez ogół sportowców .Oznacza to , że gdybyśmy wielokrotnie powtarzali powyższe postępowanie , to średnio biorąc w 95 przypadkach na 100 otrzymywalibyśmy przedziały dobre ( tzn. pokrywające średni czas poświęcony miesięcznie na trening przez ogół sportowców ) zaś w pozostałych przypadkach – złe . Model II. Populacja generalna ma rozkład N ( , ) . Nieznana jest zarówno wartość , jak i odchylenie standardowe w populacji . Z populacji tej wylosowano niezależnie małą próbę o liczebności n elementów. Przedział ufności dla średniej średnia populacji otrzymuje się wówczas według wzoru : P{x t s n 1 x t s n 1 } 1 lub według wzoru równoważnego P{x t sˆ n x t sˆ n } 1 gdzie x oznacza średnią arytmetyczną obliczoną z próby , s i standardowymi z próby obliczonymi według wzorów : s 1 n ( xi x ) 2 n i 1 Wartość sˆ ŝ są odchyleniami 1 n (x x) 2 n 1 i 1 t oznacza wartość zmiennej t – Studenta odczytaną z tablicy tego rozkładu dla n-1 stopni swobody w taki sposób , by dla danego z góry prawdopodobieństwa 1 - była spełniona relacja P{t t t } 1 . Model III. Populacja generalna ma rozkład N ( , ) bądź dowolny inny rozkład o średniej i skończonej wariancji 2 ( nieznanej ). Z populacji tej pobrano do próby n niezależnych obserwacji , przy czym liczebność próby jest dużą ( co najmniej kilka dziesiątków ) . Wtedy przedział ufności dla średniej populacji wyznaczamy ze wzoru jak w modelu I , z tą tylko różnicą , że zamiast we wzorze tym używamy odchyleń standardowych s lub ŝ obliczonych z próby. Ze względu na dużą próbę wyniki jej grupuje się w szereg rozdzielczy o r klasach i wtedy wygodnie jest obliczać x oraz s według wzorów: x 1 r o xj nj n j 1 s 1 r o (x j x)2 n j n j 1 x oj oznacza środek poszczególnego przedziału klasowego, a n j jego liczebność. Gdy liczba r przedziałów klasowych jest mała , tzn. gdy długość h każdego przedziału klasowego jest duża , obliczając z powyższego wzoru wartość s należy stosować , tzw. 1 2 2 h , a dopiero potem wyciągnąć poprawkę grupowania , tj. odjąć od s liczbę 12 gdzie pierwiastek. Uwaga : Wzory na przedziały ufności dla średniej w modelu I i II są wyznaczone w oparciu o dokładny rozkład statystyki x , natomiast w modelu III w oparciu o jej rozkład graniczny ( z dużej próby ). Ponadto , podczas gdy przedziały ufności otrzymane w oparciu o rozkład normalny mają przy ustalonym n stałą długość , to przedziały ufności otrzymane w oparciu o rozkład Studenta mają w różnych próbach , oprócz końców również zmienną długość. Współczynnik ufności 1- przyjmuje się subiektywnie, jako dowolnie duże, bliskie 1 , prawdopodobieństwo. Jest ono miarą zaufania do prawidłowego szacunku . Ponieważ duży współczynnik ufności daje szerszy przedział, nie należy więc bez potrzeby przyjmować tego współczynnika zbyt wysokiego. Zwykle przyjmuje się współczynniki ufności 1- wynoszące 0,90 ; 0,95 ( najczęściej ), wreszcie 0,99 lub 0,999 w badaniach gdzie ryzyko pomyłki jest małe. Przykład 2 . Wytrzymałość pewnego materiału budowlanego jest zmienną losową o rozkładzie normalnym N ( , ) . W celu oszacowania nieznanej średniej wytrzymałości tego materiału dokonano pomiarów wytrzymałości na n=5 wylosowanych niezależnie sztukach tego materiału . Wyniki pomiarów były następujące ( w kg/cm 2 ) : 20,4 ; 19,6 ; 22,1 ; 20,8 ; 21,1. Przyjmując współczynnik ufności 1- = 0,99 należy zbudować przedział ufności dla średniej wytrzymałości tego materiału. Rozwiązanie : Z treści zadania wynika , że ze względu na nieznajomość odchylenia standardowego oraz małą próbę mamy do czynienia z przedziałem ufności zbudowanym o rozkład t Studenta , czyli : P{x t s n 1 x t s n 1 } 1 Należy najpierw obliczyć z próby wartości x oraz s . Obliczenia pomocnicze znajdują się w poniższej tablicy Wyniki pomiaru xi x xi x 2 wytrzymałości xi 20,4 19,6 22,1 20,8 21,1 104,0 0,4 1,2 1,3 0 0,3 0,16 0,44 1,69 0 0,09 3,38 Otrzymujemy : x 104 20,8 kg / cm2 , 5 s 3,38 0,676 0,82 kg / cm2 5 Następnie z tablic rozkładu Studenta dla 1-=0,99 ( czyli dla =0,01 ) oraz dla n-1 =4 stopni swobody odczytujemy wartość t 4,604 . Podstawiając do wzoru na przedział ufności otrzymujemy : 20,8 4,604 * 0,82 0,82 20,8 4,604 * 4 4 czyli 18,9 22,7 Możemy powiedzieć ,że przedział liczbowy o końcach 18,9 i 22,7 kg/cm2 z ufnością 0,99 pokrywa nieznaną średnią wytrzymałość tego materiału. Przykład 3 . Załóżmy , że chcemy oszacować średni staż pracy pracowników zatrudnionych w pewnej firmie przy produkcji wyrobów . Za pomocą schematu losowania nieograniczonego niezależnego , wylosowano z populacji tych pracowników próbę liczącą n=100 osób i otrzymano następujące wyniki badania tego stażu pracy w latach ( wyniki pogrupowano w szereg rozdzielczy ): Staż pracy w Liczba pracowników latach xj nj 0-2 4 2-4 10 4-6 55 6-8 25 8-10 6 Przyjmując współczynnik ufności 1- =0,90 , zbudować przedział ufności dla średniego stażu pracy badanej populacji pracowników . Rozwiązanie Z treści zadania wynika , że ze względu na dużą próbę mamy do czynienia z modelem III. Przedział ufności dla średniej populacji należy zbudować w oparciu o rozkład normalny , według wzoru : P{x u n x u n } 1 przyjmując zamiast wartość jego zgodnego estymatora s z próby . Obliczenia do wyznaczenia x i s znajdują się w poniższej tablicy : xj nj x 0j x 0j n j ( x 0j x ) 2 ( x 0j x ) 2 n j 0-2 2-4 4-6 6-8 8-10 4 10 55 25 6 100 1 3 5 7 9 4 30 275 175 54 538 19,36 5,76 0,16 2,56 12,96 77,44 57,60 8,80 64,00 77,76 285,60 Wobec tego otrzymujemy : x 538 5,38 100 s2 , 285,60 2,856 100 Ze względu na małą liczbę przedziałów ( h=2 lata ) należy zastosować poprawkę na 1 2 4 h 0,333 . Zatem 12 12 s 2,856 0,333 2,523 1,6 . Następnie z tablicy rozkładu normalnego N(0,1) odczytujemy wartość u . Dla 1- =0,90 ( tzn. dla =0,1 ) odczytujemy ,że 2 grupowanie , tzn. od s odjąć u 1,64 . Otrzymujemy następujący przedział ufności dla średniego stażu pracy : 1,6 1,6 czyli 5,1 5,7 . Zatem przedział liczbowy o 5,4 1,64 5,4 1,64 100 100 końcach 5,1 i 5,7 obejmuje z ufnością 0,90 prawdziwą średnią stażu pracy w badanej populacji pracowników w badanej firmie. Przedział ufności dla wskaźnika struktury Podstawowym parametrem populacji , szacowanym w przypadku badań statystycznych ze względu na cechę niemierzalną ( jakościową ) jest frakcja , prawdopodobieństwo ( lub po przemnożeniu przez 100 – procent ) elementów wyróżnionych w populacji , zwana też wskaźnikiem struktury w populacji . Zagadnienie sprowadza się do budowy przedziału liczbowego , który z określonym , z góry zadanym prawdopodobieństwem ( współczynnikiem ufności ), będzie zawierał nieznaną wartość odsetka ( wskaźnika struktury, częstości względnej lub procentu ) zbiorowości generalnej . Ważnym warunkiem jest duża próba , n>100 , a nawet n>120. W zastosowaniach statystyki warunek ten jest znacznie łagodniejszy n>30. Jednak im większa próba tym lepsze wyniki. Gdy n jest małe ( n<30), wówczas korzysta się z dokładnego rozkładu estymatora m ˆ ) p i odchyleniem , jakim jest rozkład dwumianowy ze średnią E ( p n p(1 p) standardowym pˆ . n pˆ Jeżeli n jest duże ( n>100 ) , a p jest małym ułamkiem ( p 0,05) , to można przyjąć m ma rozkład asymptotycznie normalny o parametrach n p(1 p) pˆ p a statystyka u ma asymptotyczny rozkład normalny N ( p, n p(1 p) n ˆ , że estymator p zero – jedynkowy N(0,1). Przedział ufności dla parametru p wyraża się wzorem : P{ pˆ u pˆ (1 pˆ ) p pˆ u n pˆ (1 pˆ ) } 1 n Przykład 4. Pewna firma reklamowa pragnie sprawdzić wyniki kampanii reklamowej towaru A. W tym celu przeprowadziła ankietę wśród 400 osób kupujących ten towar . Okazało się ,że 150 osób do kupna towaru nakłoniła reklama. Przyjmując poziom ufności 1- = 0,95 , ocenić metodą przedziałową odsetek osób , które zaczęły kupować towar A w wyniku przeprowadzonej kampanii reklamowej . Rozwiązanie Zakładając , że losowanie osób do próby było niezależne, możemy przyjąć , że rozkład osób kupujących towar A na skutek przeprowadzonej kampanii reklamowej wśród 400 wybranych do badania jest dwumianowy o nieznanym parametrze p. Próba jest duża ( n>30 ) , a zatem przedział ufności możemy wyznaczyć na podstawie powyższego wzoru: 150 150 150 150 (1 ) (1 ) 150 150 400 p 400 1,96 400 1,96 400 400 400 400 400 Ostatecznie przedział ten ma postać : 0,328 p 0,422 Można stwierdzić ,że przedział [ 32, 8 % , 42,2 % ] z prawdopodobieństwem 1=0,95 obejmuje procent osób kupujących towar A w wyniku przeprowadzonej kampanii reklamowej. Przedział ufności dla wariancji i odchylenia standardowego Przedział ufności dla wariancji w populacji generalnej można wyznaczyć , gdy cecha X charakteryzująca zbiorowość ma rozkład N ( , ) , przy czym parametry 2 , są nieznane. Na podstawie próby losowej pochodzącej z tej populacji budujemy 2 , przyjmując współczynnik ufności 1- 2 2 .Estymatorem parametru jest wariancja z próby s określona wzorem : 1 n s 2 ( xi x ) 2 . n i 1 2 Przedział ufności dla może być zbudowany na podstawie rozkładu statystyki ns 2 2 2 , która ma rozkład chi – kwadrat o v=n-1 stopniach swobody. Dla 2 2 przyjętego współczynnika ufności 1- można znaleźć dwie wartości i , które przedział ufności dla nieznanej wariancji 2 1 2 można zapisać jako : P( 2 2 ) 2 2 oraz P( 2 2 ) 1 1 Przedział ufności dla wariancji P{ (n 1) Sˆ 2 2 2 2 (1 n) Sˆ 2 2 1 2 2 2 określony jest wzorem : } 1 2 Przedział ufności dla odchylenia standardowego można wyrazić wzorem : s s P{ } 1 u u 1 1 2n 2n Przykład 4 .Wylosowano 10 banków , które mają swoje centrale lub odziały na Podkarpaciu Oprocentowanie rocznych lokat złotowych w tych bankach w styczniu 2001 roku wynosiło : 10,9 ; 10,75 ; 11,25 ; 12,30 ; 11,25 ; 9,0 ; 11,3 ; 10,75; 12,25 ;11,2. Zakładając , że oprocentowanie rocznych lokat ma rozkład normalny, oszacować przedziałowo zróżnicowanie oprocentowania tych lokat we wszystkich bankach działających na Podkarpaciu. Przyjmując poziom ufności 1-=0,96 , należy zbudować przedział ufności dla wariancji przy znajomości parametrów wyznaczonych z małej próby ( n=10 ). Wykorzystanie zostanie wzór na wariancję o następującej postaci : P( ns 2 2 1 2 ns 2 2 1 2 ) 1 2 2 Wyznaczymy wariancję s , a następnie z tablic rozkładu stopni swobody oraz dla 2 0,02 i 1 2 2 odczytujemy dla n-1=9 0,98 wartości 02,02 19,679 i 02,98 2,532 . Tablica pomocnicza do wyznaczenia s 2 x1 xi x ( xi x ) 2 10,9 10,75 11,25 12,30 11,25 9,0 11,3 10,75 12,25 11,2 -0,195 -0,345 0,155 1,205 0,155 -2,095 0,205 -0,345 1,155 0,105 0,038025 0,119025 0,024025 1,452025 0,024025 4,389025 0,042025 0,119025 1,334025 0,011025 7,55222 x 110,95 11,095 10 s2 7,55222 0,755 10 Przedział ufności ma postać następującą : 10 0,755 10 0,755 2 19,679 2,532 0,384 2 2,982 Przedział liczbowy ( 0,384 ; 2,982 ) obejmuje z prawdopodobieństwem 1- =0,96 nieznaną wariancję oprocentowania rocznych lokat złotowych wszystkich banków działających na Podkarpaciu. Weryfikacja hipotez statystycznych Hipoteza statystyczna jest założeniem badawczym , sformułowanym przez użytkownika, które dotyczy: 1. poziomu nieznanych parametrów w populacji generalnej ( hipotezy parametryczne ) 2. kształtu rozkładów teoretycznych dla obserwowanych zmiennych losowych ( hipotezy nieparametryczne ) Złożenia badawcze , zwane parametrycznymi lub nieparametrycznymi hipotezami statystycznymi są formułowane w równoległych i nierozłącznych postaciach, a mianowicie jako : hipoteza zerowa ( H 0 ), przez którą należy rozumieć sformułowanie założenia o braku jakiejkolwiek różnicy pomiędzy ocenami z prób losowych a parametrami lub rozkładami w populacji generalnej hipotezy alternatywne ( H 1 ) , które są wszystkimi pozostałymi i możliwymi założeniami, poza sformułowaną hipotezą zerową Hipotezy alternatywne mogą być sformułowane względem hipotezy zerowej dwustronnie i wtedy H 1 H 0 H1 H 0 prawostronnie i wtedy H 1 H 0 lewostronnie i wtedy Stopień sformułowania hipotezy alternatywnej względem hipotezy zerowej ma wpływ na stopień jednoznaczności podejmowanych decyzji weryfikacyjnych. Metody weryfikacji hipotez są skierowane wyłącznie na sprawdzenie hipotez zerowych. Hipotezy zerowe Hipoteza zerowa ( H0) Prawdziwa Fałszywa , decyzje weryfikacyjne oraz błędy i ich prawdopodobieństwa Odrzucenie Przyjęcie H0 H0 Błąd I – rodzaju (BI) Decyzja bezbłędna P(BI) = , 0<<1 Decyzja bezbłędna Błąd II rodzaju ( BII) P(BII )= , Błąd I rodzaju polega na odrzuceniu sądu prawdziwego , a ryzyko popełnienia błędu mierzone prawdopodobieństwem nazywa się poziomem istotności i wynosi . Przyjęcie hipotezy, gdy w rzeczywistości jest ona fałszywa, prowadzi do błędu II rodzaju, a ryzyko popełnienia błędu wynosi . Prawdopodobieństwo 1- nazywa się mocą test i jest miarą ryzyka odrzucenia sprawdzanej hipotezy, a więc H0 , gdy prawdziwa jest H1. W praktyce dąży się do minimalizacji obydwu błędów. Nie jest to możliwe, bo dla danej liczebności próby n ,zmniejszenie spowoduje wzrost . Okazuje się ,że nie można zbudować testu ( reguły postępowania ) , który dla danego n minimalizowałby jednocześnie i . Ponieważ ustalenie jest łatwiejsze , obszar krytyczny K powinien być tak ustalony, aby prawdopodobieństwo zdarzenia Weryfikacja hipotez statystycznych Podstawowe pojęcia Hipoteza statystyczna - Założenie dotyczące wartości parametru lub rodzaju rozkładu zmiennej w zbiorowości generalnej. Hipoteza zerowa ( H0 ) - Hipoteza formułowana często w testach istotności w taki sposób , aby na podstawie wyników próby mogła być odrzucona ( wbrew zdrowemu rozsądkowi ), tak aby można było ją łatwo odrzucić. Na przykład stawiamy H 0 : 0 ( hipoteza prosta ) . Częściej jednak chodzi o zapis złożone ). H 0 : 0 lub H 0 : 0 ( hipotezy Hipoteza alternatywna ( H1 ) - Hipoteza odnośnie której przypuszczamy , że jest prawdziwa ( zgodnie ze zdrowym rozsądkiem ). Jeżeli H0 zostanie odrzucona , wówczas przyjmujemy H1, w przeciwnym przypadku nie mamy podstaw do stwierdzenia , że hipoteza alternatywna jest prawdziwa, np. dla nieznanej średniej zbiorowości generalnej . Błąd I rodzaju () - Jeśli hipoteza zerowa w rzeczywistości jest prawdziwa ( choć tego nie wiemy ) , ale na podstawie wyników hipotezę tę odrzucamy, to popełniamy błąd I rodzaju . Błąd II rodzaju () - Jeśli hipoteza zerowa w rzeczywistości jest fałszywa ( choć tego nie wiemy ), ale na podstawie wyników z próby nie mamy podstaw do jej odrzucenia ( co w praktyce oznacza jej akceptację , czyli przyjęcie ) to wówczas popełniamy błąd II rodzaju. Sprawdzian testu ( statystyka testu ) – zmienna losowa o określonym rozkładzie z próby ( najczęściej normalnym , t-Studenta lub chi – kwadrat ), której wartość wpada lub nie do obszaru odrzucenia hipotezy zerowej ( H 0 ) , w zależności od tego , jaka będzie krytyczna wartość testu . Wartość krytyczna testu - Wartość zmiennej losowej o określonym rozkładzie ( najczęściej normalnym , t- Studenta lub chi – kwadrat ) , która przy danym ( poziomie istotności ) jest porównywalna z wartością statystyki testu dla potrzeb ustalenia , czy H 0 może być odrzucona czy też nie . Zbiór krytyczny - Zbiór takich wartości sprawdzianu testu , które przemawiają za odrzuceniem H0. Poziom istotności - Maksymalne prawdopodobieństwo popełnienia błędu I rodzaju , na które godzi się badacz przeprowadzający test statystyczny .Zazwyczaj jest ono małe i przyjmuje wartości 0,01 ; 0,02 ; 0,05 ; lub 0,10 . Test jednostronny - Sytuacja , w której zbiór krytyczny hipotezy zerowej znajduje się tylko na lewo lub tylko na prawo od wartości oczekiwanej danej zmiennej losowej. Zbiór krytyczny testu usytuowany jest zatem po jednej stronie wartości oczekiwanej. Test dwustronny - Sytuacja , w której zbiór krytyczny hipotezy zerowej umieszczony jest symetrycznie na lewo i na prawo od wartości oczekiwanej danej statystyki testu. Wybór rodzaju testu - Zbiór krytyczny testu , jeśli to możliwe, powinno się wyznaczyć w taki sposób , aby przy ustalonym prawdopodobieństwie popełnienia błędu I rodzaju minimalizować prawdopodobieństwo ( popełnienia błędu II rodzaju ). Moc testu - Prawdopodobieństwo odrzucenia hipotezy zerowej H0 , gdy hipoteza alternatywna H1 jest prawdziwa. Moc testu oznaczony jest przez M=1-. Wykres mocy testu - wykres prawdopodobieństwa odrzucenia hipotezy zerowej dla wszystkich możliwych wartości nieznanego parametru zbiorowości generalnej. Wartość p – minimalna wartość , dla której H0 może być odrzucona na podstawie wyników próby Hipoteza zerowa powinna być odrzucona tylko wtedy , gdy wartość p jest mniejsza od przyjętego dla danego testu poziomu istotności ( H0 odrzucamy , gdy wartość p < ) . Wartość p często jest nazywana obserwowalnym poziomem istotności . Jest to miara oceniająca , na ile wyniki z próby skłaniają do założenia prawdziwości hipotezy zerowej. Im mniejsze p , tym jest to mniej prawdopodobne. Uwaga ! – Komputerowy poziom istotności lub poziom prawdopodobieństwa jest w pakiecie Statistica oznaczony jako p. Jeżeli >p , to na danym poziomie odrzucamy hipotezę zerową , natomiast gdy < p , to na danym poziomie istotności nie ma podstaw do odrzucenia hipotezy zerowej. Hipoteza parametryczna – założenie odnoszące się do nieznanego poziomu parametru ( parametrów ) zbiorowości generalnej. Hipoteza nieparametryczna – założenia odnoszące się do nieznanej postaci rozkładu zmiennej losowej w zbiorowości generalnej ( czasami dotyczy to równań nieznanych wartości parametrów tego rozkładu ). Standardowa procedura testu istotności – jest to sposób weryfikacji hipotezy statystycznej składający się z następujących po sobie czynności : przyjęcie określonego poziomu istotności sformułowanie hipotezy zerowej H0 sformułowanie hipotezy alternatywnej ( w zależności od H1 test może być jednostronny lub dwustronny ) ustalenie sprawdzianu testu ( statystyki ) i jego wartości na podstawie dostępnych informacji o zbiorowości generalnej i próbie odczytanie wartości krytycznej sprawdzianu testu ( głównie z tablic rozkładu normalnego , t- Studenta lub chi – kwadrat ) przy danym poziomie i informacjach pochodzących z próby losowej ustalenie obszaru odrzucenia ( krytycznego ) H0 przy danym ( obszar ten może być jednostronny lub dwustronny ) podjęcie decyzji o odrzuceniu lub brak podstaw do odrzucenia hipotezy zerowej ( na podstawie porównania wartości statystyki testu z wartością krytyczną ) porównanie wartości p z Test dla wartości średniej Załóżmy , że cecha X posiada w populacji rozkład N( , ) i parametry tego rozkładu nie są znane. W postępowaniu weryfikacyjnym H 0 : 0 , gdy nieznana jest wartość drugiego parametru , tzn. , należy wyróżnić dwa przypadki : 1. wykorzystuje się statystykę Zn , której dokładny rozkład w określonych warunkach jest znany. W tym przypadku mamy do czynienia z małą próbą. 2. wykorzystuje się statystykę Zn, której znany jest rozkład graniczny ( asymptotyczny ). Przypadek ten dotyczy dużych prób , tzn. gdy n W przypadku pierwszym – formułujemy hipotezy : ( albo H 0 : 0 wobec H 1 : 0 H1 : 0 , albo H1 : 0 ) Pobieramy próbę losową prostą liczącą n jednostek. Jeżeli próba jest mała , w praktyce n<30 , to do weryfikacji hipotezy H0 , wykorzystuje się statystykę : t X 0 Sˆ n X 0 S n 1 Statystyka t ma rozkład t- Studenta o v=n-1 stopniach swobody wtedy , gdy prawdziwa jest hipoteza zerowa . W celu podjęcia decyzji względem H0, z tablic rozkładu t- Studenta odczytujemy wartość krytyczną t,v spełniającą warunek: P( t t ,v ) gdzie : - ustalony z góry poziom istotności Zbiór wartości (,t ,v t ,v ,) jest obszarem ( zbiorem ) krytycznym. Wiadomo, że dla danego , n , Zn zbiór krytyczny K określa także postać hipotezy alternatywnej . Jeżeli hipoteza konkurencyjna jest postaci : H1 : 0 , to obszar krytyczny wyznaczony z równości P(t t ,v ) natomiast dla hipotezy H1 : 0 , zbiór krytyczny określa równość P(t t ,v ) W każdym rozważanym przypadku liczba stopni swobody v wynosi n-1 . Jeżeli obliczona wartość statystyki testu t znajdzie się w zbiorze krytycznym K , to hipotezę H 0 odrzucamy z prawdopodobieństwem i przyjmujemy hipotezę alternatywną. Gdy stwierdzimy, że wartość statystyki testu nie znajduje się w obszarze krytycznym ( jej wartość należy do zbioru dopuszczalnego ), wstrzymamy się od podjęcia decyzji mówiąc, że nie ma podstaw do odrzucenia H0 na poziomie istotności . Test dla dwóch średnich Rozważane są dwie zbiorowości , każda ze względu na pewną wybraną zmienną X. Zakłada się , że badana cecha w każdej z tych zbiorowości ma rozkład normalny odpowiednio o parametrach 1 , 1 - w pierwszej zbiorowości oraz 2 , 2 - w drugiej zbiorowości. W celu sprawdzenia hipotezy : być 1 2 lub H 0 : 1 2 wobec H1 : 1 2 ( może 1 2 ) pobiera się niezależnie z każdej z tych zbiorowości próby proste o liczebności odpowiednio równej n1 i n2. Jeżeli n1 n2 30 , to dla zweryfikowania H 0 wykorzystuje się statystykę : t X1 X 2 n1 * S12 n2 * S 22 n1 n2 2 1 1 n1 n2 Statystyka ta ma rozkład t- Studenta o v n1 n2 2 stopniach swobody wówczas, gdy prawdziwa jest H0 oraz wariancje badanej zmiennej w obu populacjach są równe ( 1 2 22 ) W przypadku gdy n1 n2 30 , w celu weryfikacji rozważanej H0 wykorzystuje się statystykę o następującej postaci : u X1 X 2 S12 S 22 n1 n2 Statystyka ta ma graniczny rozkład normalny , czyli opierając się na rozkładzie N(0,1) określa się krytyczny i dopuszczalny zbiór wartości rozważanej statystyki. Test dla wariancji Chcemy sprawdzić hipotezę , że wariancja w populacji , w której badana cecha ma rozkład normalny N( konkurencyjna , ), jest równe liczbie 02 . Najczęściej w praktyce hipoteza ( alternatywna ) głosi , że wariancja jest większa od hipotezy możemy zapisać następująco : H 0 : W celu sprawdzenia hipotezy 2 02 . Sformułowane 02 wobec H 1 : 2 02 . H 0 pobieramy próbę prostą losową liczącą n jednostek i wykorzystujemy statystykę o postaci : n 2 (X i 1 i X )2 nS 2 02 02 2 2 Statystyka ma rozkład ( chi – kwadrat ) o v=n-1 stopniach swobody, gdy prawdziwa jest H0. Zbiór wartości krytycznych testu wyznacza się z relacji P( 2 2,v ) . Jeżeli wartość statystyki testu znajdzie się w obszarze krytycznym 2,v , ), to z prawdopodobieństwem odrzucamy hipotezę H 0 . W przeciwnym wypadku wstrzymujemy się od podjęcia decyzji. W przypadku , gdy rozważana jest duża próba, to wykorzystuje się statystykę u Fishera o postaci : u 2 2 2v 1 . Statystyka ta ma graniczny rozkład N ( 0,1 ) wówczas , gdy prawdziwa jest H0. Test dla dwóch wariancji N ( 2 , 2 ) . Żaden z tych 2 2 parametrów nie jest znany. Należy sprawdzić hipotezę H 0 : 1 2 wobec hipotezy Badamy dwie populacje o rozkładzie normalnym N( 1 , 1 ) i H1 : 12 22 . Do weryfikacji hipotezy H 0 , że wariancje w obu populacjach są identyczne , używa się alternatywnej S12 oraz S 22 obliczanych z dwóch niezależnych prób prostych o liczebności , odpowiednio , n1 oraz n 2 . wariancji Jeżeli prawdziwa jest hipoteza zerowa , tzn. F-Snedecora ( lub krótko rozkład F ) swobody, przy czym 2 1 z 12 22 , to zmienna F v1 n1 1 oraz S12 ma rozkład S 22 v2 n2 1 stopniami 2 2 S i S są estymatorami wariancji z niezależnych prób prostych pobranych ze zbiorowości o rozkładzie normalnym. Relacja wyznaczająca prawostronny obszar krytyczny jest postaci P( F F ) , gdzie wartość krytyczną F odczytujemy z v1 n1 1 i v2 n2 1 stopni swobody. Jeżeli powyższa relacja jest spełniona , należy hipotezę H 0 odrzucić . W przeciwnym przypadku nie ma podstaw do odrzucenia H 0 o identyczności wariancji w obu tablic rozkładu F-Snedecora , dla populacjach. Gdy sprawdzeniu podlega hipoteza H o : 1 2 wobec 2 2 H1 : 12 22 , wówczas statystykę F oblicza się , umieszczając w liczniku większą z wariancji z obu prób, nawet jeśli pochodzi ona z populacji oznaczonej numerem 2 . Test dla wskaźnika struktury Niech populacja generalna ma rozkład dwupunktowy z parametrem p oznaczającym prawdopodobieństwo , że badana zmienna X w populacji przyjmie wyróżnioną wartość. Parametr p ( )<p<1 ) można interpretować jako frakcję elementów populacji mających tę wartość określaną często w literaturze wskaźnikiem struktury w populacji. Załóżmy dalej , że dla takiej populacji chcemy zweryfikować hipotezę zerową , że parametr p w populacji ma określoną wartość p 0 . Hipoteza zerowa jest postaci H 0 : p p0 Sprawdzianem tej hipotezy jest wskaźnik struktury z dużej próby n – elementowej ( n 100) zdefiniowany jako : pˆ m n (1) gdzie m oznacza liczbę wyróżnionych elementów w próbie i jest realizacją zmiennej losowej X o rozkładzie dwupunktowym. Statystyka ( 1 ) ma asymptotyczny ( graniczny ) rozkład normalny N p, Jeżeli hipoteza zerowa jest prawdziwa , tzn. jeśli ma asymptotyczny rozkład normalny N p 0 , u pˆ p 0 p 0 (1 p 0 ) n p(1 p) . n p p0 , to wskaźnik struktury z próby p 0 (1 p 0 ) i statystyka : n m p0 n p 0 (1 p 0 ) n ma asymptotyczny ( w przybliżeniu ) rozkład normalny N( 0,1 ), przy czym m oznacza liczbę jednostek o wyróżnionej wartości cechy w n – elementowej próbie . Obszar krytyczny w tym teście jest określony relacją istotności , a P( u u ) , gdzie jest poziomem u - wartością krytyczną. Sposób weryfikacji przebiega w podobny sposób jak poprzednio. Można konstruować również jednostronne obszary krytyczne w zależności od sformułowania hipotezy alternatywnej. Test dla dwóch wskaźników struktury Niech badana cecha X w dwóch populacjach ma rozkład dwupunktowy z parametrami p1 i p 2 . Formułujemy hipotezę , że oba te parametry są identyczne . Hipotezę zerową możemy zapisać w sposób następujący : H 0 : p1 p 2 a hipotezę alternatywną H1 : p1 p2 albo H1 : p1 p2 lub H1 : p1 p2 . W celu weryfikacji hipotezy zerowej z m obu populacji wylosowano próby proste o liczebności n1 , n2 100 jednostek. Niech 1 n1 m2 oraz oznaczają wskaźniki struktury odpowiednio z pierwszej i drugiej próby . Różnica n2 tych wskaźników struktury ma asymptotyczny rozkład : N p1 p 2 , p1 (1 p1 ) p 2 (1 p 2 ) n1 n2 Jeśli prawdziwa jest hipoteza zerowa ( H 0 u : p1 p 2 ), to statystyka : m1 m2 n1 n 2 pq n ma rozkład asymptotycznie normalny N ( 0,1 ) , We wzorze tym odpowiednio próby pierwszej i drugiej , n1 i n 2 są liczebnościami m1 i m2 są liczbą elementów wyróżnionych odpowiednio w próbie pierwszej i drugiej , natomiast : m1 m2 , n1 n2 p q 1 p , n n1 * n2 n1 n2 Parametryczne testy istotności – Przykłady - test dla wartości średniej Przykład 1. W celu sprawdzenia opinii, że średnie spożycie masła w czerwcu 2001 roku w rodzinach dwuosobowych wynosiło 1 kg , wybrano 300 rodzin dwuosobowych. Na podstawie uzyskanych informacji obliczono x 1,123 kg oraz s 0,139 kg . Przyjmijmy, że spożycie masła w populacji badanych rodzin ma skończoną wariancję i średnią . Sprawdźmy zatem H 0 : 1kg wobec H1 : 1kg. Na podstawie charakterystyk z próby należy obliczyć wartość statystyki u , która wynosi : u 1,123 1,00 300 16,3268 0,139 Ustalając =0,05 , odczytujemy z tablic dystrybuanty rozkładu normalnego u 0 , 05 1,96 , przy czym u spełnia relację P( u u ) 0,05 . Ponieważ wartość 16,3268 znalazła się w zbiorze krytycznym , sprawdzaną hipotezę =0,05 . Przyjmujemy więc H 0 należy odrzucić na poziomie istotności H 1 głoszącą , że przeciętne spożycie masła w czerwcu 1992 roku w populacji badanych rodzin różniło się od wartości hipotetycznej wynoszącej 1 kg. - test dla dwóch średnich Przykład 2. W celu sprawdzenia przypuszczenia , że dzienne wydatki na pieczywo na osobę w rodzinach trzyosobowych w Rzeszowie są takie same jak w Łańcucie . Wylosowano z Rzeszowa 12 rodzin , a z Łańcuta 6. Zebrano odpowiednie informacje o wydatkach na pieczywo w listopadzie 2001 roku . Na podstawie zebranych danych obliczono dla : Rzeszowa x1 2,51 zł sˆ1 0,38 zł Łańcuta x2 2,33 zł sˆ2 0,58 zł Przyjmuje się , że dzienne wydatki na pieczywo na osobę w rodzinach trzyosobowych w Rzeszowie i Łańcucie mają rozkład normalny o takiej samej wariancji. Hipoteza zerowa jest następująca : H 0 : 1 2 a alternatywna H1 : 1 2 Obliczona wartość statystyki zgodnie z wzorem t X1 X 2 n1 * S n2 * S 1 1 n1 n2 2 n1 n2 2 1 wynosi 2 2 t=0,796284. Z tablic rozkładu t-Studenta dla v=12 + 6 –2 stopni swobody i przyjętego poziomu istotności =0,05 , wartość krytyczna t 0, 05,16 2,120 . Zatem nie ma podstaw do odrzucenia H0 głoszącej , że średnie dzienne wydatki na pieczywo na osobę w rodzinach trzyosobowych Rzeszowa i Łańcuta są równe. Test dla wskaźnika struktury - Przykład 3. W celu sprawdzenia przypuszczenia , że 30 % dorosłych ludzi w Polsce popiera obecne reformy , wybrano losowo 1200 dorosłych osób i zapytano je o akceptację aktualnych reform. Wśród wylosowanych 362 osoby wyraziły poparcie dla reform. Czy uzyskane wyniki potwierdzają nasze przypuszczenie ? Aby udzielić odpowiedzi na pytanie , formułujemy następujące hipotezy : H o : p 0,3 oraz H1 : p 0,3 , a następnie obliczamy wartość statystyki u , zgodnie z wzorem m p0 pˆ p 0 n , i otrzymujemy : u p 0 (1 p 0 ) p 0 (1 p 0 ) n n 362 0,3 1200 u 0,126 0,3 * 0,7 1200 Przyjmując 0,06 , odczytujemy z tablic rozkładu normalnego wartość krytyczną u 0, 06 1,881. Ponieważ wartość u =0,126 znajduje się w obszarze dopuszczalnym , nie mamy podstaw od odrzucenia sądu , że 30 % dorosłych osób w Polsce popiera aktualne reformy ( na poziomie istotności =0,06 ) Testy nieparametryczne Sprawdzanie hipotezy na podstawie testu zgodności 2 Populacja generalna ma dowolny rozkład o dystrybuancie należącej do zbioru rozkładów o określonym typie postaci funkcyjnej dystrybuanty. Mogą to być dystrybuanty typu ciągłego i skokowego. Z populacji tej losujemy niezależnie dużą próbę , a wyniki losowania dzielimy na r rozłącznych klas o liczebności n i w każdej klasie , przy czym n i n Podział na klasy tworzy tzw. Rozkład empiryczny . Na podstawie wyników próby stawiamy hipotezę , że dystrybuanta populacji należy do klasy określonych dystrybuant, którą będziemy oznaczać przez ; tzn. H 0 : F ( x) , gdzie F ( x ) jest dystrybuantą rozkładu populacji. Porównanie dystrybuanty F ( x) z dystrybuantą empiryczną daje możliwość weryfikacji postawionej hipotezy. Test zgodności dla tej hipotezy jest następujący : z hipotetycznego rozkładu należącego do poszczególnych klas wartości badanej cechy x prawdopodobieństwa pi, że zmienna losowa x o rozkładzie przyjmie wartości należące do klasy o numerze i ( i=1,2,3,...,m ) . Z kolei mnożąc p i przez liczebność całej próby , otrzymujemy liczebności teoretyczne ni npi , które wystąpią w poszczególnych klasach , jeżeli postawiona hipoteza H0 jest prawdziwa. Statystyką weryfikującą H0 jest hipoteza r 2 i 1 2: (ni npi ) 2 npi która ma przy słuszności założenia H0 rozkład asymptotyczny 2 o r-1 stopniach swobody , lub r-1-k stopniach swobody ( r – jest liczbą klas , k – liczbą parametrów , które wyznaczamy dla funkcji należącej do ). Obszar krytyczny w tym teście buduje 2 . Z tablic rozkładu , dla ustalonego z 2 , odczytujemy wartość krytyczną , by zachodziło się prawostronnie w oparciu o rozkład statystyki góry poziomu istotności 2 P( 2 2 ) . Jeżeli emp 2 , to H0 podstaw do odrzucenia hipotezy. należy odrzucić , jeżeli 2 2 emp . , to nie ma Przykład 4 Losowa próba n=200 niezależnych obserwacji miesięcznych wydatków na żywność rodzin trzyosobowych dała następujący rozkład tych wydatków ( w tys. zł) Wydatki 1,0 - 1,4 1,4 - 1,8 1,8 – 2,2 2,2 – 2,6 2,6 – 3,0 Liczba rodzin 15 45 70 50 20 Na poziomie istotności =0,05 należy zweryfikować hipotezę ,że rozkład wydatków jest normalny. H 0 : F ( x) , gdzie jest klasą wszystkich dystrybuant normalnych. Dwa parametry rozkładu tej dystrybuanty , średnią i odchylenie standardowe , szacujemy z próby za pomocą estymatorów x 2,0 tys. zł . , Rozwiązanie Stawiamy hipotezę s=0,43 tys. zł – są one potrzebne do standaryzacji . Pozostałe obliczenia znajduję się w tablicy xi ni ui F(ui) pi npi (ni-npi)2 (ni-npi)2/npi 1,4 15 -1,39 0,082 0,082 16,4 1,96 0,12 1,8 45 -1,46 0,323 0,241 48,2 10,24 0,21 2,2 70 0,46 0,677 0,354 70,8 0,64 0,01 2,6 50 1,39 0,918 0,241 48,2 3,24 0,07 3,0 20 2,32 1,00 0,082 16,4 12,96 0,79 200 1,000 200 1,20 Odpowiednia liczba stopni swobody wynosi 5-1-2=2. Z tablic rozkładu 2 dla dwóch stopni swobody i dla przyjętego poziomu istotności =0,05 odczytujemy wartość krytyczną 2 02,05 5,991 . Mamy emp 1,20 5,991 02,05 , nie ma podstaw do odrzucenia hipotezy , że rozkład miesięcznych wydatków w populacji rodzin trzyosobowych jest normalny. Test zgodności - Kołmogorowa Test zgodności Kołmogorowa jest mniej pracochłonny niż test 2 , ale mniej wszechstronny. Stosuje się go jedynie do weryfikacji hipotez , że populacja ma rozkład ciągły .W teście tym porównuje się dystrybuantę empiryczną z hipotetyczną. Na podstawie analizy różnic między wymienionymi dystrybuantami buduje się statystykę : D n gdzie D sup Fn ( x) F ( x) x Z tablic - Kołmogorowa , dla odpowiednich , wartości , które wykorzystujemy do konstrukcji obszaru krytycznego . Test - Kołmogorowa służy do weryfikacji następujących hipotez : 1. pewna wylosowana próba zmiennej losowej ma rozkład ciągły o dystrybuancie F0 ( x) ; na podstawie wyników tej próby należy zweryfikować hipotezę H 0 : F ( x) F0 ( x) , gdzie F0 ( x) jest hipotetyczną i ciągłą dystrybuantą , 2. na podstawie dwu losowo pobranych prób sprawdzić hipotezę , że obie próby pochodzą z tej samej populacji , tzn. hipotezę H 0 : F1 ( x) F2 ( x) Test istotności dla hipotezy H 0 : F ( x) F0 ( x) jest następujący : 1. Wyniki próby porządkujemy według rosnącej kolejności zmiennej x i z odpowiadającymi jej liczebnościami ni 2. Wyznaczamy dla każdego xi wartość empirycznej dystrybuanty Fn (x) , gdzie Fn ( x) n ik i n 3. Z rozkładu hipotetycznego wyznaczamy dla każdej wartości xi wartość hipotetycznej dystrybuanty F (x) 4. Obliczamy bezwzględną wartość różnicy Fn ( x) F ( x) , tzn. różnicę między dystrybuantą empiryczną a hipotetyczną 5. Obliczamy wartość statystyki : D sup Fn ( x) F ( x) x oraz wartość statystyki : D n 6. Dla ustalonego poziomu istotności budujemy obszar krytyczny statystyki i weryfikujemy hipotezę . Przykład 5 Zbadano losowo wybranych studentów ze względu na wysokość wydatków przeznaczonych na sport i turystykę w skali rocznej i otrzymano następujące wyniki ( w setkach zł ) Wydatki Liczba studentów 29,5 – 30 ,5 12 30,5 – 31,5 23 31,5 – 32,5 35 32,5 – 33,5 62 33,5 – 34,5 44 34,5 – 35,5 18 35,5 – 36,5 6 Na poziomie istotności =0,05 zweryfikować hipotezę , że rozkład wydatków na sport i turystykę w grupie studentów jest rozkładem normalnym. Rozwiązanie : Weryfikujemy hipotezę H 0 : F ( x) F0 ( x) gdzie F0 ( x) jest dystrybuantą rozkładu normalnego N ( , ) . Z próby obliczamy oszacowania obu parametrów rozkładu normalnego , otrzymując x 32,9 oraz s 1,4 . Ponieważ próba jest duża , wartości te przyjmujemy jako estymatory i . Obliczenia konieczne do znalezienia wartości empirycznej i teoretycznej dystrybuanty zostały zamieszczone w poniższej tablicy xj uj F(uj ) = F(x) nj Fn(x) n F ( x) F ( x) j k 30 ,5 31,5 32,5 33,5 34,5 35,5 36,5 -1,71 -1,00 -0,29 0,43 1,14 1,86 2,57 0,044 0,159 0,386 0,666 0,873 0,969 0,005 Otrzymaliśmy zatem D=0,036 . Ponieważ 12 23 35 62 44 18 6 12 35 70 132 176 194 200 j n 0,060 0,175 0,350 0,660 0,880 0,970 1,00 0,016 0,016 0,036 0,006 0,007 0,001 0,005 n 14,14 wartość empiryczna statystyki - Kołmogorowa wynosi 0,509. Z tablicy rozkładu - Kołmogorowa ( granicznego ) odczytujemy dla przyjętego poziomu istotności 0,05 krytyczną wartość , która wynosi 1,358. . Nie ma podstaw do odrzucenia hipotezy zerowej , że rozkład wydatków jest rozkładem normalnym . Analiza korelacji i regresji . Korelacja jest to współzależność , czyli wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości . Celem analizy współzależności jest stwierdzenie , czy między badanymi zmiennymi zachodzą jakieś zależności , jaka jest ich siła , kształt i kierunek. Współzależność między zmiennymi może być : 1. funkcyjna 2. stochastyczna ( probabilistyczna) Zależność funkcyjna – określonej wartości jednej zmiennej ( X – niezależnej – objaśniającej ) , odpowiada jedna i tylko jedna wartość drugiej zmiennej ( Y – zależna – objaśniana ). Zależność funkcyjna ( dokładna ) występuje w naukach przyrodniczych , natomiast w naukach społecznych mamy do czynienia z zależnością stochastyczną . Zależność stochastyczna ( probabilistyczna ) – wraz ze zmianą jednej zmiennej , zmienia się rozkład prawdopodobieństwa drugiej zmiennej . Szczególnym przypadkiem tej zależności jest zależność korelacyjna ( statystyczna ) Polega na tym , że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej . Statystyczny opis współzależności może mieć : Formę tabelaryczną ( szeregi lub tablice ) Graficzną ( diagram korelacyjny ) Parametryczną w postaci odpowiedniej charakterystyki liczbowej. Badanie współzależności dwóch cech ilościowych ( mierzalnych ) można przeprowadzić za pomocą tzw. analizy regresji prostej , która służy do określenia relacji między zmienną zależną i zmienną niezależną ( lub odwrotnie ) . Korelacja między cechami mierzalnymi nosi nazwę kontyngencji , a tablice prezentujące takie dane noszą nazwę tablic kontyngencyjnych . Dla potrzeb wykazania zależności w tablicach kontygencyjnych stosuje się test niezależności 2 . Test niezależności 2 , znajduje zastosowanie zarówno dla korelacji cech mierzalnych jak i niemierzalnych . Jeśli zbiorowość jest liczna , to wyniki obserwacji dwóch cech grupujemy w tablicy kombinowanej zwanej tablicą korelacyjną . Tablica przedstawia rozkład dwuwymiarowy czyli łączy rozkład zbiorowości według dwóch cech . Y=yj X=xi x1 x2 . . . xi . . . xk n.j y1 y2 … yj … yl ni . n11 n21 . . . ni1 . . . nk1 n.1 n12 n22 . . . ni2 . . . nk 2 n.2 ... ... ... ... ... ... ... ... ... ... ... n1j n2 j . . . nij . . . nk j n.j ... ... ... ... ... ... ... ... ... ... ... n1 l n2l . . . nil . . . nk l n.l n1. n2. . . . ni . . . . nk . n W boczku tablicy znajdują się warianty cechy X=xi ( i = 1,2,...,k ), w główce tablicy znajdują się warianty cechy Y=yj ( j= 1,2, ..., l ). W polach na przecięciu wierszy i kolumn są umieszczone liczebności nij , oznaczające liczbę jednostek badanej zbiorowości posiadających i-ty wariant cechy X oraz j-ty wariant cechy Y. Suma liczebności zapisana w ostatnim wierszu ( n . j ) odnosi się do wariantów cechy Y , natomiast suma w ostatniej kolumnie ( n i . ) dotyczy wariantów cechy X. k Zachodzi równość : l l k j 1 i 1 nij n. j ni. n , i 1 j 1 gdzie n oznacza ogólną liczebność badanej zbiorowości . W tablicy korelacyjnej wyróżniamy rozkłady brzegowe i rozkłady warunkowe. Rozkłady brzegowe pokazują rozłożenie obserwacji ( liczebności ) oddzielnie dla każdej z obu cech . W ostatniej kolumnie znajduje się rozkład brzegowy zmiennej X , natomiast w ostatnim wierszu – rozkład brzegowy zmiennej Y. Podstawowymi charakterystykami tych rozkładów są średnie arytmetyczne i wariancje , które obliczamy jako parametry ważone według wzorów : k x k x i ni . i 1 s ( x) i 1 2 , n ( x i x ) 2 ni . n l l y y j n. j j 1 s 2 ( y) , n (y j 1 k x i 1 2 i l y ) n. j n x2 n 2 j ni . y 2 j 1 n n j .j y2 Rozkłady warunkowe pokazują rozłożenie liczebności przy wartościach jednej cechy pod warunkiem , że druga przyjmie określoną wartość . W poszczególnych kolumnach mieszczą się zatem rozkłady warunkowe cechy X , co zapisujemy X ( Y = yj ), natomiast w poszczególnych wierszach znajdują się rozkłady warunkowe Y , czyli Y ( X = x i ). Średnie i wariancje rozkładów warunkowych X ( Y = yj ) obliczamy dla poszczególnych kolumn ( j= 1, 2 ,..., l ) jako : k xj x n i i 1 k n i 1 ij ij k s ( x) 2 j (x i 1 i x j ) 2 nij k n i 1 ij k x i 1 k 2 i nij n i 1 x 2j ij gdzie : xi - wartość cechy X lub środki przedziałów n ij - liczebności zawarte w j-tej kolumnie Średnie i wariancje rozkładów warunkowych Y ( X = xi ) obliczamy dla poszczególnych wierszy ( i=1,2,...,k ) jako : l yj y n j j 1 ij l n j 1 ij l s ( y) 2 i ( y j yi ) 2 nij j 1 l n j 1 gdzie : ij l y j 1 2 j nij y i2 l n j 1 ij y j - wartości cechy Y lub środki przedziałów ; n ij - liczebności zawarte w i- tym wierszu Średnie i wariancje rozkładów warunkowych pozwalają określić rodzaj związku między badanymi zmiennymi. Rodzaje związku między zmiennymi to : Niezależność stochastyczna między zmienny istnieje wtedy , gdy zmieniającym się wartościom jednej cechy towarzyszą takie same rozkłady warunkowe drugiej cechy , co wyraża się równością parametrów rozkładów warunkowych cechy X i cechy Y. Związek stochastyczny między zmiennymi istnieje wtedy , gdy zmieniającym się wartością jednej cechy towarzyszą istotnie różne rozkłady warunkowe drugiej cechy . Związek korelacyjny ( statystyczny ),– związek korelacyjny istnieje , jeżeli zmieniającym się wartościom jednej cechy towarzyszą zmiany średnich warunkowych drugiej. Jeżeli zmiany te mają zgodny kierunek , tzn. rosnącym wartościom jednej cechy odpowiada wzrost średnich warunkowych drugiej cechy , mamy do czynienia z korelacją dodatnią , natomiast gdy rosnącym wartościom cechy odpowiadają malejące średnie warunkowe drugiej cechy , mówimy o korelacji ujemnej. Przykład 1. W zbiorowości studentów II roku kierunku Informatyka i Ekonometria AE w Katowicach , którzy przystąpili do egzaminu ze statystyki w czerwcu 2001 roku i odnotowano dwie cechy : 1. ocenę na egzaminie ze statystyki 2. liczbę punktów otrzymanych na egzaminie z matematyki Wyniki obserwacji pogrupowano i zamieszczono w poniższej tablicy Liczba punktów z Ocena ze statystyki yj matematyki xi 2 3 4 5 20 - 24 1 6 2 25 - 29 2 12 6 30 - 34 9 10 2 35 - 39 6 5 2 Razem ni. 9 20 21 13 40 - 44 Razem n . j 3 33 4 27 1 5 5 68 Tablica przedstawia łączny rozkład liczby punktów z matematyki (X) i ocen ze statystyki (Y), czyli rozkład dwuwymiarowy. W ostatniej kolumnie znajduje się rozkład brzegowy punktów , czyli liczebności studentów ( n i . ) przyporządkowane poszczególnym klasom cechy X=xi . W ostatnim wierszu znajduje się rozkład brzegowy ocen ze statystyki , czyli liczebności studentów ( n . j ) przyporządkowane poszczególnym ocenom (Y=yj ) . W kolumnach tablicy zawarte są rozkłady warunkowe liczby punktów X(Y=yj ) tzn. przy założeniu , że student otrzymał konkretną oceną. W wierszach znajdują się rozkłady warunkowe ocen Y(X=xi ) tzn. przy założeniu , że liczba punktów mieściła się w wyodrębnionej klasie . Należy ustalić , czy badane zmienne są stochastycznie zależne ? Średnie warunkowe ocen ze statystyki : y1 3,11 ; y2 3,20 ; y3 3,67 ; y4 3,69 ; y5 4,20 Wariancje warunkowe ocen ze statystyki : s12 ( y) 0,328 ; s22 ( y) 0,360 ; s32 ( y ) 0,388 ; s 42 ( y) 0,538 ; s52 ( y ) 0,160 Średnie warunkowe punktów z matematyki : x1 25,83 ; x2 29,77 ; x3 33,06 ; x4 36,5 Wariancje warunkowe punktów z matematyki : s12 ( x) 5,73 ; s 22 ( x) 24,54 ; s 32 ( x) 31,80 ; s 42 ( x) 14,00 Analiza rozkładów warunkowych ocen ze statystyki wykazała , że zarówno średnie tych rozkładów , jak i wariancje różnią się między sobą . Taką samą prawidłowość stwierdzamy , analizując rozkłady warunkowe liczby punktów z matematyki . A zatem obie badane zmienne są stochastycznie zależne . Obserwując zmiany średnich warunkowych jednej i drugiej cechy możemy stwierdzić , że między nimi istnieje związek korelacyjny dodatni , bowiem wzrost wartości jednej cechy łączy się ze zwiększeniem średnich warunkowych drugiej cechy. Gdy związek badanych cech jest liniowy , to miarą współzależności jest współczynnik korelacji liniowej Pearsona . Jest on ilorazem miary łącznego zróżnicowania obu cech tzw. kowariancji , oraz iloczynu odchyleń standardowych każdej z cech. r ( xy) r ( yx) cov( xy) s ( x) s ( y ) Kowariancja jest średnią arytmetyczną iloczynem odchyleń wartości zmiennych X i Y ich średnich , co zapiszemy dla danych w szeregach : n cov( xy) cov( yx) dla danych w tablicy (x i 1 i x )( yi y ) n k cov( xy) cov( yx) l ( x i 1 j 1 i x )( y j y )nij n Kowariancja pokazuje jedynie kierunek współzależności ( korelacja dodatnia , ujemna ) . Porównanie jej do iloczynu odchyleń standardowych daje miernik unormowany , przyjmujący wartości z przedziału < -1; +1>. Znak współczynnika korelacji informuje o kierunku związku, natomiast wartość bezwzględna o jego sile , a zatem : r(xy) = -1 - oznacza , że między cechami istnieje związek funkcyjny ujemny -1 < r(xy ) <0 - oznacza , że między cechami istnieje związek korelacyjny ujemny r( xy ) = 0 - oznacza , że cechy są niezależne ( brak związku ) 0 < r ( xy ) < 1 – oznacza , że między cechami istnieje związek korelacyjny dodatni r ( xy ) = 1 – świadczy o istnieniu związku funkcyjnego dodatniego Współczynnik Pearsona oblicza się według różnie przekształconych wzorów . Przy obliczeniach dokonanych na podstawie szeregów najczęściej stosowane są poniższe wzory : n r ( xy) ( xi x )( yi y ) i 1 ns ( x) s( y ) n (x i 1 i x )( y i y ) n n i 1 i 1 ( xi x ) 2 ( y i y ) 2 gdzie : xi - zaobserwowane wartości cechy X yi - zaobserwowane wartości cechy Y i 1,2,3,..., n - kolejne pary obserwacji i xi i yi , y - średnie arytmetyczne x n n s ( x) (x i x)2 , i n s( y) (y i y) 2 i n - odchylenia standardowe Niekiedy wygodnie jest korzystać ze wzoru o postaci : r ( xy) n xi y i xi y i i i i n xi2 ( xi ) 2 n yi2 ( yi ) 2 i i i i Współczynnik korelacji podniesiony do kwadratu r 2 ( xy) r 2 ( yx) nazywa się współczynnikiem determinacji , informuje on , jaka część zmienności jednej z cech jest wyjaśniana kształtowaniem się drugiej cechy . Z kolei dopełnienie tego współczynnika do jedności tzw. współczynnik indeterminacji 2 ( xy) 2 ( yx) jest interpretowany jako ta część zmienności jednej z cech , która nie jest wyjaśniana przez drugą , a zatem może być spowodowana czynnikami nie ujętymi w badaniu . Współczynnik korelacji Pearsona jest symetryczny r ( xy) r ( yx ) , czyli przy jego obliczeniu nie ma potrzeby rozstrzygać , która cecha jest przyczyną , a która skutkiem . Jeżeli chcemy interpretować współczynnik determinacji , musimy zwracać uwagę na to , jakie powiązanie cech jest logicznie uzasadnione . Dla danych pogrupowanych w tablicy korelacyjnej współczynnik korelacji obliczamy jako parametr ważony liczebnościami rozkładów warunkowych ( ni j ) . Wzór ma postać następującą : k r ( xy) l ( x i 1 j 1 i x )( y j y )nij ns ( x) s ( y ) gdzie : xi - wartość cechy X ( i= 1,2,...,k ) y j - wartość cechy Y ( j= 1,2, ..., l ) W analizie współzależności ważnym zagadnieniem jest rozstrzygnięcie , czy korelacja stwierdzona w próbie ma także miejsce w populacji , z której pobrano próbę . W ocenie tego faktu może pomóc test istotności współczynnika korelacji Pearsona . Założenia testu : Badane zmienne ( X,Y ) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji . Z populacji tej wylosowano n – elementową próbę na podstawie której obliczono współczynnik korelacji rxy . Weryfikacja hipotezy zerowej : Ho : 0 Wobec hipotezy alternatywnej : H1 : 0 H1 : 0 lub , H1 : 0 Do weryfikacji hipotezy stosujemy : test u rxy 1 rxy2 n dla n 122 lub test t rxy 1 rxy2 n2 dla n < 122 Przy założeniu prawdziwości hipotezy zerowej omawiane statystyki mają odpowiednio rozkład normalny N(0,1 ) oraz rozkład t- Studenta 0 n-1 stopniach swobody. Funkcja regresji - to narzędzie do badania mechanizmu powiązań między zmiennymi . Funkcja regresji to analityczny wyraz przyporządkowania średnich wartości zmiennej zależnej konkretnym wartością zmiennej niezależnej . Wybór postaci analitycznej nie jest problemem łatwym .Wyboru postaci analitycznej dokonujemy : 1. na podstawie wstępnej analizy materiału statystycznego 2. wykresy rozrzutu 3. na podstawie źródeł poza statystycznych Do opisu w sposób syntetyczny współzależności wykorzystuje się odpowiednie funkcje , które należy dopasować do smugi punktów przedstawionej na diagramie korelacyjnym . W praktyce przyjmuje się , że jeśli smuga punktów układa się wzdłuż linii prostej , to dopasowujemy do niej funkcję liniową , którą oznaczymy symbolem : yˆ 0 1 xi (1) Współczynniki regresji szacuje się za pomocą metody najmniejszych kwadratów. MNK polega na takim oszacowaniu parametrów funkcji ( 1 ) , by dla danych z próby był spełniony warunek : 2 n 2 n ( 0 ,1 ) yi yˆ i yi o 1 xi min i 1 i 1 gdzie : yi - oznaczają wartości empiryczne zmiennej Y ŷi - oznaczają wartości teoretyczne wyznaczone na podstawie równania ( 1 ) Istotą MNK jest taki wybór wartości 0 i 1 dla których funkcja kryterium osiąga minimum. W tym celu obliczamy odpowiednie pochodne cząstkowe względem argumentów i przyrównujemy je do zera , a mianowicie : 0 0 0 1 (2) Uwzględniając wprowadzone oznaczenia , układ równań (2) zapiszemy w postaci : n n y n i 0 1 xi i 1 i 1 n n n 2 y i x i 0 x i 1 x i i 1 i 1 i 1 (3) Układ równań (3) nazywa się układem równań normalnych . Rozwiązując układ równań można otrzymać wzory na wartość 1 i 0 . n 1 (x i 1 i x )( y i y ) n (x i 1 i x)2 0 y 1 x Między współczynnikiem regresji a wartością wprowadzonego współczynnika korelacji istnieje ścisła zależność . Przekształcając odpowiednio wzór na obliczanie współczynnika 1 otrzymamy : n 1 (x i 1 i x )( y i y ) =r n (x i 1 i sy x)2 sx Okazuje się , że współczynnik korelacji jest ściśle związany ze współczynnikiem liniowej funkcji regresji i dlatego nazywa się go liniowym współczynnikiem korelacji . Oceny parametrów a0 i a1 są to estymatory nieobciążone i zgodne parametrów 0 i 1 . Przedziały ufności dla parametrów regresji są następujące \: Dla parametru 0 P{a0 t S a0 0 a0 t S a0 } 1 1 P{a1 t S a 1 a1 t S a } 1 Dla parametru 1 1 gdzie : a 0 , a1 - estymatory parametrów 0 i 1 S a0 - ocena standardowego błędu estymatora a 0 S a0 S a1 - ocena standardowego błędu estymatora a1 S a1 S S S x 2 n[ ( x x ) 2 ] S (x x) 2 - nieobciążony estymator wariancji składnika losowego, dany wzorem ( y yˆ ) 2 n2 t - wartość statystyki t- Studenta odczytana z tablic rozkładu Studenta przy danym poziomie istotności i stopniach swobody Gdy próba jest większa od 30 czyli n>30 , wówczas przedziały ufności dla parametrów regresji są następujące : Dla parametru 0 P{a0 u S a0 0 a0 u S a0 } 1 1 1 a1 u S a } 1 Dla parametru P{a1 t u 1 gdzie : u - odczytuje się z tablic dystrybuanty rozkładu normalnego - pozostałe oznaczenia jak wyżej Test hipotezy o zachodzeniu liniowego związku między X a Y H 0 : 1 0 H 1 : 1 0 Sprawdzianem zachodzenia liniowego związku między zmiennymi X i Y : t a1 S a1 gdzie : a1 - jest oceną ( estymatorem ) współczynnika kierunkowego linii regresji S a1 - jest oceną standardowego błędu estymatora a1 Jeśli hipoteza zerowa jest prawdziwa to sprawdzian ma rozkład t o n-2 stopniach swobody . Sprawdzian t jest szczególnym przypadkiem sprawdzianu : t a1 1 S a1 Jest on zbudowany zgodnie ze schematem : ocena parametru – hipotetyczna wartość parametru / ocena standardowego błędu estymatora . test ze statystyki – odpowiedź –a Zad. 1. Czy opis statystyczny oraz wnioskowanie statystyczne losowej próby krajów europejskich rozpatrywanych ze względu na rozmiary zadłużenia w 2001 roku dotyczą tej samej zbiorowości statystycznej a) tak b) nie c) i tak i nie d) trudno powiedzieć Zad.2. W odpowiedzi na pytanie „ dlaczego korzystamy z Internetu „ Katedra Marketingu AE w Katowicach uzyskała m.in. następujące dane statystyczne : poszukiwanie informacji na własne potrzeby ( 80 %), komunikacja z innymi (75 % ), edukacja ( 58%), rozrywka (58,6%), praca/biznes ( 44,3 % ), zdobywanie informacji o produktach (40,5%), sposób spędzania wolnego czasu (37,5%), zakupy (9,2%). Czy liczby podane (w procentach) to : a) częstości empiryczne b) prawdopodobieństwa c) miary opisowe d) indywidualne dane statystyczne Zad. 3. Który z aksjomatów A.N. Kołmogorowa jest pewnikiem tego, że prawdopodobieństwo zdarzenia niemożliwego jest równe zero: a) pierwszy b) drugi c) trzeci d) żaden Zad.4. Poniższe dane dotyczą zatłoczenia ( liczby pieszych) w słynnych alejach handlowych w 13 wybranych miastach w dzień powszedni ( wtorek ) oraz dzień weekendowy ( sobota ) : Lp. Nazwa miasta Liczba Liczba pieszych pieszych wtorek sobota 1 Bruksela 3792 3871 2 Genewa 3182 3633 3 Hongkong 10424 8752 4 5 6 7 8 9 10 11 12 13 Londyn Madryt Moskwa Nowy Jork Paryż Szanghaj Sydney Tokio Warszawa Zurych 8789 4280 4289 7028 10692 2456 6380 6393 11892 4672 9239 5250 1712 4586 5511 4104 11890 5067 14351 5549 Czy pozycyjna asymetria rozkładu zatłoczenia w badanych miastach była w dzień powszedni i w sobotę taka sama oraz dodatnia : a) nie ; tak b) tak ; tak c) tak, nie; d) nie , nie ? Zad. 5. Dla 52 wylosowanych gmin pewnego województwa zbadano rozmiary bezrobocia i uzyskano , że w 1999 roku średnia stopa bezrobocia wynosiła 8,2 % , z przeciętnym zróżnicowaniem 3,3 %. Czy precyzja na podstawie uzyskanych danych i przy 1- = 0,95 , oszacowanego przeciętnego poziomu stopy bezrobocia dla całego województwa pozwala na wnioskowanie : a) bezpieczne b) nie w pełni bezpieczne c) zdecydowanie niebezpieczne d) trudno powiedzieć ? Zad.6. Na reprezentatywnej próbie losowej 1167 dorosłych Polaków na początku 2000 roku COBS przeprowadził sondaż opinii dotyczący zabezpieczenia finansowego na przyszłość. Uzyskano 35 % pozytywnych odpowiedzi. Z jakim względnym błędem precyzji, przy 1- = 90 , można by uogólnić ten wynik na całą populację dorosłych Polaków i ile należałoby osób wylosować do następnego badania , aby błąd precyzji nie przekroczył 3 %. a) 6,5 % ; 678 b) 5,6 %; 876 c) 0,65 % ; 76 d) 0,065 % ; 927 ? Zad. 7.Wpłaty 11 polskich banków ( w mln zł ) przeznaczone dla klientów upadłego Banku Staropolskiego były następujące : [ 136,4 114,7 33,5 28,5 26,7 26,0 23,6 21,7 18,6 16,7 16 ,7 ]. W oparciu o te dane, przyjmując poziom istotności =0,01, stwierdzić , czy przypuszczenie o przeciętnym przekazie wśród wszystkich banków w wysokości 30,0 mln zł należy : a) nie odrzucić b) odrzucić c) przyjąć d) brak decyzji ? Zad.8. Firma budując nowy obiekt, musi przewidzieć miejsca na parkingu dla pojazdów pracowników i gości. Wśród 200 pracowników stwierdzono, że 150 z nich przyjeżdża do pracy samochodem. Przyjmując poziom istotności 0,05 sprawdzić przypuszczenie, że parking dla pracowników powinien stanowić 65 % powierzchni parkingowej . Czy decyzja taka byłaby : a) jednoznaczna b) niejednoznaczna c) jednoznaczna, ale ... d) niejednoznaczna , ale ... ? Zad. 9. W związku ze zróżnicowaniem opinii o celowości budowy rożnej wielkości supermarketów zbadano zależność pomiędzy wielkością zakupów w średnich i dużych domach handlowych. Otrzymano m.in. informacje o średnim tygodniowym zakupie przeciętnego klienta : - w średnich supermarketach 200 zł , przy przeciętnym zróżnicowaniu bezwzględnym 50 zł, - w dużym 220 zł z przeciętnym zróżnicowaniem 200 zł W pierwszym przypadku zbadano 1000 klientów, w drugim 3000 osób. Czy badaną zależność należy określić jako : a) niewielką b) umiarkowaną c) wysoką d) bardzo wysoką ? Zad.10. W 1999 roku w porównaniu z 1998 r wartość eksportu dwóch towarów wzrosła o 50 mln zł. W omawianym okresie cena towaru I wzrosła o 8 % , a towaru II o 10 % . O ile przeciętnie wzrósł eksport z tytułu wzrostu cen, jeżeli w 1998 roku eksport towaru I osiągnął wartość 60 mln zł , a towaru II 80 mln zł : a) 9,1 % b) 10,91 % c) 109,1% d) 1% ?