Oczekiwana wartość i odchylenie standardowe

advertisement
Rodzaje badań statystycznych
Wyróżnia się badania :
1. Pełne ( całkowite )
2. Częściowe
Badania pełne i częściowe mogą być :
1. Ciągłe ( np. rejestracja urodzeń, zgonów, małżeństw, itp. )
2. Okresowe ( np. spisy ludności , rolne, przemysłu )
3. Doraźne ( np. klęsk żywiołowych )
Wśród badań częściowych wyróżnia się :
1. Badania reprezentacyjne ( są bardzo wartościowe, bo pozwalają z dużym
prawdopodobieństwem uogólnić wyniki uzyskane ze zbiorowości próbnej na całą
populację generalną, są tańsze od badań całkowitych).
2. Badania monograficzne ( obejmują obserwację grupy społecznej, wsi , miasta ,
przykładem badania monograficznego jest badanie warunków życia ludności w
mieście Rzeszowie w pewnym momencie lub w okresie)
3. Badania ankietowe ( dość często wykorzystywana metoda badań , sprowadza się
głównie do zbierania informacji pierwotnych, ważnym problemem jest
wykształcenie umiejętności dobrego opracowania ankiety, zestaw pytań w
kwestionariuszy ankietowym powinien być umiejętnie sformułowany.
W Polsce badaniami ankietowymi zajmują się takie instytucje jak : OBOP, CBOS,
PPENTOR oraz inne ośrodki naukowe.
Procedury dobru próby
W badaniach statystycznych w praktyce posługujemy się próbą . Próba mała gdy
n  30 , gdy n>30 to mamy do czynienia z próbą dużą .
Od próby wymaga się , aby była reprezentatywna. Na reprezentatywność próby mają
wpływ dwa czynniki :
1. Sposób doboru próby
2. Liczebność próby
Wyróżnia się dwie procedury doboru próby :
1. Dobór celowy ( sprowadza się do tego , że o wyborze jednostek decyduje badacz,
opierając się na merytorycznej znajomości problematyki badawczej, próba ta nie
podlega prawu wielkich liczb )
2. Dobór losowy ( zgodny jest z zasadami doboru według metody reprezentacyjnej,
umożliwia zastosowanie metod statystyki matematycznej do wnioskowania, próba
ma charakter losowy, gdy każda jednostka populacji z jednakowym
prawdopodobieństwem różnym od zera może się w niej znaleźć. Wyodrębniona
próba podlega działaniu prawa wielkich liczb, co oznacza że wraz ze wzrostem
liczebności próby losowej (n) rośnie stopień jej reprezentatywności )
Przed pobraniem próby ważne jest określenie jednostki losowania Indywidualna
jednostka losowania pokrywa się z jednostką badania, a zespołową jednostką
losowania , gdy nie pokrywa się z jednostką badania ( np. losuje się mieszkania a
bada się ich osoby w nich zameldowane ).
Losowanie próby określa się jako operat losowania , przez który rozumie się
wykaz jednostek uwzględnionych przy losowaniu z możliwością ich identyfikacji
Na przykład , takim operatem losowania dla populacji mieszkańców Rzeszowa jest
spis ( ponumerowany) wszystkich mieszkańców tego miasta.
Sposób postępowania przy doborze próby losowej określa się mianem schematu
losowania. Podstawowe schematy losowania to:
1. losowanie indywidualne
2. losowanie nieograniczone ze zwracaniem ( zwane inaczej niezależnym lub
zwrotnym )
3. losowanie nieograniczone bez zwracania ( inaczej określane jako zależne )
4. losowanie warstwowe
5. losowanie systematyczne
6. losowanie grupowe
Klasyfikacja cech statystycznych
Cechy statystyczne można podzielić na:
1. ilościowe ( mierzalne, kwantytatywne ) – można je zmierzyć i wyrazić za pomocą
odpowiednich jednostek fizycznych ( np. kg, m, szt, t )
2. jakościowe ( kwalitatywne) – zwykle są określane słownie np. płeć, standard
mieszkania, pochodzenie społeczne, rodzaj kredytu itp.
Cechy ilościowe określa się jako zmienne, które można podzielić na :
 skokowe ( dyskretne )
 ciągłe
Cecha skokowa przyjmuje skończony i przeliczalny zbiór wartości na danej skali
liczbowej , przy czym jest to najczęściej zbiór liczb całkowitych nieujemnych ( np.
liczba dzieci w rodzinie , liczba usterek w konkretnym produkcie , wielkość gospodarstwa
domowego itp. )
Cecha ciągła przyjmuje wszystkie liczby rzeczywiste z określonego przedziału liczbowego
< a , b > , przy czym liczba miejsc po przecinku jest uzależniona od dokładności
pomiarów ( np. wiek , płaca, wzrost, plon pszenicy itp. )
Występuje również podział cech na :
 stałe ( własności wspólne dla wszystkich jednostek statystycznych danej
zbiorowości statystycznej
 zmienne ( własności , dzięki którym poszczególne jednostki różnią się między
sobą, przy czym dokładny stopień zmienności poszczególnych cech jest
możliwy lub niemożliwy do określenia )
Dla potrzeb pomiaru cech stosuje się cztery rodzaje skal : nominalną , porządkową,
interwałową i ilorazową .
Skala nominalna – skala stosująca wyłącznie opis słowny dla potrzeb identyfikacji
jednostki. Np. kobieta i mężczyzna . Nie są możliwe działania arytmetyczne na danych
opisanych na skali nominalnej.
Skala porządkowa – służąca do porządkowania danych. Na przykład ranking szkół
wyższych z punktu widzenia ich atrakcyjności.
Skala interwałowa - skala mająca własności skali porządkowej, gdyż możliwe jest
porządkowanie jednostek statystycznych opisanych w tej skali , a jednocześnie jest
możliwe określenie interwału ( przedziału ) liczbowego, w którym zawierają się
obserwacje.
Skala ilorazowa – skala ma cechy skali interwałowej, a ponadto iloraz ma tutaj określoną
interpretację. Dane opisane w skali ilorazowej przyjmują zawsze wartości liczbowe, np.
waga itp.
Szeregi statystyczne
Materiał liczbowy , otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub
pomiaru, po opracowaniu i pogrupowaniu nazywamy szeregiem strukturalnym,
charakteryzuje on zbiorowość statystyczną pod względem wyróżnionej cechy jakościowej
i ilościowej.
Wyróżnia się dwa typy grupowania : grupowanie typologiczne ( według cechy jakościowej
) oraz grupowanie wariancyjne ( według cechy ilościowej )
Szeregiem szczegółowym prostym nazywamy uporządkowany nierosnąco lub niemalejąco
ciąg wartości badanej zmiennej. Oznaczmy symbolem X badaną zmienną , symbolem x i
( i=1,2,...,n) wartość tej zmiennej odpowiadającą i-tej jednostce statystycznej. Załóżmy,
że badano n jednostek statystycznych. Ciąg wartości tej zmiennej ;
x1 , x2, ..., xn
określa się szeregiem szczegółowym prostym, jeśli w powyższym ciągu każdy następny
element nie jest mniejszy od poprzedniego.
Przykład 1.
Załóżmy , że w pewnej miejscowości poddano obserwacji 16 rodzin ze względu na liczbę
dzieci i otrzymano następujące wyniki :
0,1,1,2,2,3,3,3,4,4,4,5,5,6,6,7
Powyższy ciąg wartości jest uporządkowany niemalejąco, jest więc szeregiem
szczegółowym prostym. W tym przypadku jednostką statystyczną jest rodzina, a cechą
liczba dzieci w rodzinie
Wśród szeregów strukturalnych cechy ilościowej wyróżnia się szereg szczegółowy ważony
oraz rozdzielczy.
Szereg szczegółowy ważony
Załóżmy, że wśród danych zawartych w szeregu szczegółowym prostym wyróżniono k
różnych wartości. Następnie grupujemy jednostki statystyczne odpowiadające
jednakowym wartościom cechy. Postępując w ten sposób otrzymujemy wyniki, które
można zaprezentować w poniższej tablicy
Tab. 1 Wyniki grupowania statystycznego
Wartości cechy Liczebność Częstość względna
xi
fi
fi / n
x1
f1
f1 / n
x2
f2
f2 / n
.
.
.
.
.
.
.
.
.
xk
fk
fk / n
n
Razem
f
i 1
i
k
 f /n 1
n
i 1
i
Źródło; opracowanie włane
Druga i trzecia kolumna tej tablicy charakteryzuje strukturę zbiorowości n- elementowej
pod względem cechy X. Symbolem fi oznaczamy liczbę jednostek statystycznych , dla
których wartość cechy przyjęła wartość xi ( i = 1,2,...,n). Wartość tę nazywamy
liczebnością. Trzecia kolumna zawiera wielkości zwane liczebnościami względnymi lub
frakcjami. Suma tych wielkości jest równa 1. Mnożąc te wielkości przez 100,
otrzymujemy częstości w procentach . Częstości względne są wielkościami
niemianowanymi. Mogą być wykorzystane do porównań struktur zbiorowości różniących
się liczebnościami. Liczebności lub częstości zawarte w przedostatniej i ostatniej kolumnie
tej tablicy charakteryzują rozkład elementów zbiorowości pod względem danej cechy , lub
rozkład cechy.
Szereg rozdzielczy
Obszar zmienności wartości cech dzielimy na rozłączne przedziały w postaci
[ xi , xi 1 )
dla i=1,2,...,k. Są to przedziały prawostronnie otwarte. Jednostki statystyczne , których
wartości cechy przedstawia szereg szczegółowy prosty grupujemy wykorzystując
przedziały, które nazywać będziemy przedziałami klasowymi lub klasami. Wyniki
grupowania zawiera poniższa tablica
Tab.2
Wyniki grupowania statystycznego
Liczebność
Przedział klasowy
x1  x2
fi
środek przedziału
klasowego
xi*
f1
x1*
Częstość względna
fi / n
f1 / n
x2  x3
f2
.
.
.
.
.
.
xk  xk 1
x2*
fk
k

Razem
i 1
f2 / n
.
.
.
.
.
.
xk*
fk / n
fi  n
k
 f /n 1
i 1
i
Źródło: Opracowanie własne
Wartość środkową oblicza się według następującej formuły :
xi 
xi  xi 1
2
( i=1,2,...,k)
Przy budowie szeregu rozdzielczego należy sobie odpowiedzieć na następujące pytania :
1. czy długości przedziałów mają być jednakowe ?
2. na ile klas należy podzielić obszar zmienności ?
W praktyce badań statystycznych wygodnie jest, gdy przedziały klasowe są jednakowej
długości. W przypadku , gdy przedziały nie są jednakowej długości, do opisu struktury
zbiorowości wykorzystać należy tzw. gęstość liczebności, definiowaną za pomocą
następującego wzoru :
gf i 
fi
xi 1  xi
( i=1,2,...,n )
gdzie w mianowniku mamy długość i-tego przedziału, w liczniku zaś odpowiadającą mu
liczebność.
W badaniach statystycznych brak jest jednoznacznych kryteriów umożliwiających w
sposób jednoznaczny odpowiedzieć na pytanie o liczbę klas w szeregu rozdzielczym.
J. Spława Neyman zalecał przy tworzeniu szeregów rozdzielczych podział obszaru
zmienności na około 10 – 20 klas, w zależności od liczebności zbiorowości.
Oznaczmy symbolem „ h „ długość przedziału klasowego. Załóżmy, że wszystkie
przedziały mają mieć równą długość. W tym przypadku najczęściej zaleca się, aby
długość przedziału obliczać za pomocą następującej formuły :
h
max xi  min xi
k
( i=1,...,n)
gdzie : w liczniku jest zakres zmienności wartości cechy, w mianowniku zaś liczba
wymaganych klas.
Jeśli decydujemy się na budowę przedziałów klasowych , to narażamy się na pewną
stratę informacji dotyczących pojedynczych wyników. Im większa jest rozpiętość
przedziału klasowego, tym ta strata może być bardziej dotkliwa.
Przedziały klasowe zapisuje się zazwyczaj z dokładnością do przyjętej jednostki
pomiarowej. Można budować rozkłady ( szeregi ) z przedziałami klasowymi domkniętymi
lub otwartymi.
Rozstęp wynosi
R= Xmax – Xmin . Rozstęp charakteryzuje jedynie wstępnie dyspersję
badanego rozkładu.
Odchylenie ćwiartkowe wyrażone jest następującym wzorem :
Qx 
Q3  Q1
2
Najpierw należy obliczyć kwartyl trzeci i kwartyl pierwszy.
Grupy dochodów miesięcznych
na gospodarstwo domowe
0,5 – 1,0
1,0 – 1,5
1,5 – 2,0
2,0 – 3,0
3,0 – 4,0
4,0 – 5,0
5,0 – 6,0
6,0 – 7,0
7,0 – 8,0
8,0 – 9,0
Liczba kobiet Szereg
W%
skumulowany
0,9
0,9
4,0
4,9
8,8
13,7
21,5
35,2 Q1
23,5
58,7 Q2
20,3
79,0 Q3
10,8
89,8
5,2
95,0
2,8
97,8
2,2
100,0
Wzory:
Q1  x 0  (
N
i
 cum n1 ) *
4
n0
3
i
Q3  x 0  ( * N  cum n1 ) *
4
n0
Q1  2,0  (25  13,7) *
1
 2,5255
21,5
Q3  4,0  (75  58,7) *
1
 4,802
20,3
Odchylenie ćwiartkowe wynosi :
Qx 
4,8  2,5255
 1,1372
2
Oznacza to , że średnio miesięczne dochody kobiet różnią się od mediany o  1,27 tyś. zł.
Mediana dla badanego rozkładu wynosi :
M x  3  (50  35,2) *
1
 3,63
23,5
Współczynnik zmienności ( względna miara dyspersji )wynosi:
Vx 
Qx
* 100%
Mx
Vx 
1,1372
* 100%  31,3278
3,63
Oznacza to , że 31,32 % mediany dochodów kobiet stanowi odchylenie standardowe.
Wyznaczenie dominanty według wzoru :
Dx  x0  i
Dx  3  1 *
(n0  n1 )
(n0  n1 )  (n0  n1 )
(23,5  21,5)
 3,3848
(23,5  21,5)  (23,5  20,3)
Podstawowym miernikiem asymetrii jest różnica między średnią arytmetyczną a
dominantą, czyli :
m  D( x)  3,81  3.38  0,43
Znak „ – „ przy wartości miernika oznacza asymetrię lewostronną , znak „+” asymetrię
prawostronną.
W rozpatrywanym przykładzie mamy do czynienia z asymetrią prawostronną , co oznacza
, że przewaga liczebności występuje w przedziałach klasowych poniżej średniej
arytmetycznej.
O sile i kierunku symetrii mówią współczynniki asymetrii. Współczynnik asymetrii
Pearsona wyznacza się według formuły :
Vs 
m  D( x)
 ( x)
Vs 
3,81  3,38
 0,259
1,66
Współczynnik asymetrii wykazuje skośność prawostronną.
Gdy rozkład jest symetryczny to , Vs = 0
Gdy rozkład jest asymetryczny – prawostronny., to Vs > 0
Gdy rozkład jest asymetryczny – lewostronny , to Vs < 0
Współczynników asymetrii jest kilka, a zastosowanie ich jest uzależnione od charakteru
badanego szeregu i możliwości wyliczenia poszczególnych parametrów.
Miarą asymetrii jest również współczynnik skośności obliczony na podstawie dominanty i
mediany, według wzoru :
3
M x  D x 
Vs  2
x
3
3,63  3,38
2
Vs 
 0,2259
1,66
Miarą asymetrii może być także moment trzeci centralny. Dla rozkładu przedziałowego
ma on postać następującą:
3
n
3 
 x
i 1
i
 x  ni
N
Tablica pomocnicza do wyznaczenia momentu trzeciego centralnego
x i
ni
x i  x
xi  x 3 * ni
0,75
1,25
1,75
2,50
3,50
4,50
5,50
6,50
7,50
8,50
Razem
0,9
4,0
8,8
21,5
23,5
20,3
10,8
5,2
2,8
2,2
100
-3,063
-2,563
-2,063
-1,313
-0.313
0,687
1,687
2,687
3,687
4,687
-25,863
-67,344
-77,263
-48,665
-0,720
6,581
51,851
100,879
140,336
226,519
306,313
Dla badanego szeregu moment trzeci centralny wynosi :
3 
306,31333
 3,06
100
Moment trzeci centralny można również zapisać w postaci momentów zwykłych w sposób
następujący:
 3  m3  3m 2 m1  2(m1 ) 2
gdzie :
1
n
m1 
 x 
i 1
i
N
n
* ni
m2 
 x 
i 1
2
i
N
3
n
* ni
m3 
 x 
i 1
i
N
* ni
Dla szeregu wynoszą odpowiednio :
m1  3,18
m2 
1729,9
 17,299
100
m3 
9005,9
 90,059
100
wobec tego otrzymujemy :
 3  90,059  3 * 17,299 * 3,813  2(3,813) 2  3,06
Miarą względną asymetrii jest następująca formuła :
3 
3
 (x) 3
Dla rozpatrywanego szeregu wynosi :
3 
3,06
 0,66
(1,66) 3
Rozkład ma asymetrię prawostronną o natężeniu 0,66.
Dla szeregów dokładnie symetrycznych m3=0. W przypadku asymetrii prawostronnej m3
> 0, lewostronnej zaś m3 < 0.
Przykład 3.
Zbiór województw , w którym cechą badania była ich powierzchnia, został opisany przy
użyciu podstawowych charakterystyk liczbowych tj średniej arytmetycznej, która wynosi
6,286 tyś. km2 oraz odchylenia standardowego ,które jest równe 2, 138 tyś, km 2.W celu
dokładniejszego opisu rozkładu tej zbiorowości należy wyznaczyć miary koncentracji.
Powierzchnia Liczba
x i x i  x
W tyś. km2
Wojewódz.
1-3
1
2 -4,286
3-5
14
4 -2,286
5-7
18
6 -0,286
7-9
10
8 1,714
9-11
5
10 3,714
11-13
1
12 5,714
49
m4 
1 n
ni ( x i  x ) 4

n i 1
m4 
2823,554720
 57,623566
49
ni ( x i  x ) 4
337,449405
382,325213
0,12043
86,306453
951,344040
1066,009178
2823,554720
Względna miara koncentracji to stosunek momentu centralnego czwartego rzędu przez
odchylenie standardowe do potęgi czwartej, czyli :
K
m4
s4
Im wyższa wartość K , tym bardziej wysmukła jest krzywa liczebności , co wskazuje na
tendencję do skupienia się jednostek wokół średniej. Małe wartości wskazują na
spłaszczenie krzywej rozkładu , a zatem słabą koncentrację. Zakłada się ,że dla rozkładu
normalnego K=3, dla bardziej od niego spłaszczonego K < 3 oraz dla wysmukłego K > 3.
W związku z powyższym skonstruowany współczynnik koncentracji o postaci :
Ku 
m4
3
s4
przyjmuje wartość zero, jeżeli rozkład ma kształt normalny ,K u > 0 , jeżeli rozkład jest
bardziej wysmukły, oraz Ku < 0 , gdy rozkład jest spłaszczony w stosunku do rozkładu
normalnego.
Ku 
m4
57,623566
3
 3  0,243
4
20,897960
s
Koncentracja w porównaniu z krzywą normalną jest słabsza, a zatem rozkład jest
spłaszczony.
Inną miarą koncentracji jest współczynnik koncentracji Lorenca. Zjawisko koncentracji
może być rozważane jako nierównomierny podział ogólnej sumy wartości zmiennej x
pomiędzy poszczególne jednostki zbiorowości statystycznej. Ma to miejsce przy badaniu
dochodów, koncentracji produkcji, gęstości zaludnienia, rozmieszczenia bogactw
naturalnych itp. Tak rozumiana koncentracja jest zwykle przedstawiana i mierzona za
pomocą krzywej koncentracji Lorenza. Kształt krzywej określa natężenie koncentracji.
Współczynnik koncentracji Lorenza ( KL ) można wyrazić za pomocą wzoru:
KL 
a
ab
gdzie :
a – pole zawarte między linią równomiernego podziału a krzywą Lorenza
b – pole pod krzywą Lorenza
a+b – pole trójkąta
Wyznaczenie pola a nie jest łatwe. Częściej wyznaczamy przybliżoną wartość pola b,
budując w tym celu w układzie współrzędnych prostokąty o podstawie równej
wskaźnikowi struktury dla liczby jednostek znajdujących się w przedziale, a wysokość
jest średnią ze skumulowanych wartości wskaźników struktury wielkości badanego
zjawiska grupy badanej i poprzedniej. Obliczenie powierzchni pola b można opisać
następującym wzorem:
b
skum.Wi  skumWi 1 ˆ
Wi
2
gdzie :
skum.Wi – kolejne skumulowane wartości wskaźników struktury wielkości badanego
zjawiska
Ŵi - kolejne wartośći wskaźników struktury dla liczby badanych jednostek
Współczynnik ten jest względną miarą koncentracji zjawiska. W praktyce zawiera się
0  Kl  1
Przykład 4.
Struktura zatrudnienia w badanych firmach została scharakteryzowana za pomocą
następujących liczb zawartych w poniższej tablicy. Należy określić stopień koncentracji
zatrudnienia w badanych firmach w 1995 roku .
Liczba zatrudnionych
pracowników
w badanych firmach
do
4
5 - 10
11-15
16 - 50
51 -100
101 - 200
201 - 500
501 -1000
1001 - 2000
2001 - 5000
5001 i więcej
Firmy Zatrudnienie
w% w%
37,7
20,5
7,2
17,4
7,0
4,3
3,1
1,5
0,7
0,4
0,2
100
1,0
2,0
1,3
7,0
6,8
8,2
13,2
14,3
13,7
17,7
14,8
100
Źródło: Dane umowne
Tablica pomocnicza do wyznaczenia do wyznaczenia współczynnika Lorenza
Firmy w Zatrudnienie w Skum. Skum. skum.Wi  skumWi 1
skumWi  skumWi 1
%
%
Wi
Ŵ
Ŵi
Wi
2
i
37,7
20,5
7,2
17,4
1,0
2,0
1,3
7,0
37,7
58,2
65,4
82,8
1,0
3,0
4,3
11,3
7,0
4,3
6,8
8,2
89,8
94,1
18,1
26,3
3,1
13,2
97,2
39,5
(1+0)/2=0,5
( 3,0+1,0)/2=2,0
( 4,3+3,0)/2=3,65
( 11,3 + 4,3 )
/2=7,80
14,7
2
* Wˆ i
0.5*37,7=18,85
2,0*20,5=41,00
3,65*7,2=26,28
7,80*17,4=135,72
102,90
95,46
22,20
101,99
32,90
1,5
14,3
98,7
53,8
69,975
46,65
0,7
13,7
99,4
67,5
42,455
60,65
0,4
17,7
99,8
85,2
30,54
76,35
0,2
14,8
100,0
100,0
18,52
92,80
100
100
Źródło: Obliczenia własne
683,69
Obliczona powierzchnia b wynosi 683,69, wobec tego współczynnik koncentracji wynosi:
Pole trójkąta ( a + b)=5000, wobec tego
K
(a  b)  b 5000  683,69
a


 0,863
ab
ab
5000
Oznacza to dość wysoką koncentrację badanego zjawiska.
Inną miarą koncentracji jest współczynnik koncentracji Lorenza. Może być on
wykorzystywany do badań w zakresie koncentracji własności ziemskiej, bogactw
naturalnych czy kapitału. Punktem wyjścia do ilościowego badania koncentracji jest
ustalenie, w jaki sposób rozkłada się ogólna suma wartości badanej cechy na
poszczególne jednostki zbiorowości statystycznej.
Do oceny stopnia natężenia tak rozumianej koncentracji stosuje się krzywą koncentracji
lub krzywą Lorenza. Kształt linii łamanej określa natężenie koncentracji Jeżeli na każdą
jednostkę zbiorowości przypada taka sama część ogólnej sumy wartości cechy , to
zamiast krzywej koncentracji otrzymamy linię prostą przechodzącą przez początek układu
współrzędnych pod kątem =45 w stosunku do osi odciętych. Jest to tzw. Linia
równomiernego rozkładu wartości cechy dla poszczególnych jednostek zbiorowości.
Stosunek pola zawartego między krzywą koncentracji a linią równomiernego rozkładu do
ogólnego pola trójkąta nosi nazwę współczynnika koncentracji Lorenza.Można go
wyznaczyć w sposób następujący:
KL 
a 0,5  b

0,5
0,5
gdzie :
a – powierzchnia pola zawartego między krzywą koncentracji a linią
rozkładu
b – powierzchnia pola leżącego pod krzywą koncentracji
równomiernego
Współczynnik ten zawiera się w przedziale [ 0, 1 ]. Procedurę wyznaczania współczynnika
przedstawimy na przykładzi
Przykład 4.Na podstawie danych dotyczących osób pobierających renty z tytułu
niezdolności do pracy według wysokości świadczeń we wrześniu 1997 roku należy ocenić
stopień koncentracji wysokości świadczeń z ubezpieczenia społecznego.
Obliczenia pomocnicze do wyznaczenia współczynnika koncentracji.
Wysokość
Liczba
Łączna
Odsetki Odsetki Skum. Skum. Pole
Świadczenia
Pobier. Renty Wysok.
Liczby
Łączn.
figury b
wi
zi
Brutto
Z tytuł.niezd. Świadcz.
Pobier. Wysok.
Z ubezp.społ. Do pracy
Brutto
Renty
Świadcz.
ni
ni z i
x i * ni
wi 
1
1
1
1
400-450
450-500
500-550
550 -600
600-650
650-700
700-750
750-800
800-900
900-1 000
000 – 1 100
100 - 1 200
200 – 1 300
300 – 1 400
255,6
387,5
191,0
142,6
104,9
88,8
61,9
48,4
72,6
48,4
40,3
29,6
29,6
29,6
108 630,0
184 062,5
100 275,0
81 955,0
65 562,5
59 940,0
44 877,5
37 510,0
62 710,0
45 980,0
42 315,0
34 040,0
37 000,0
39 960,0
N
0,159
0,241
0,119
0,089
0,065
0,055
0,038
0.030
0,0,45
0,030
0,025
0,018
0,018
0,018
0,101
0,172
0,093
0,076
0,061
0,056
0,042
0,035
0,058
0,043
0,039
0,032
0,034
0,037
0,159
0,400
0,518
0,607
0,672
0,727
0,766
0,796
0,841
0,871
0,896
0,915
0,933
0,952
0,101
0,273
0,366
0,443
0,504
0,560
0,602
0,636
0,694
0,737
0,776
0,808
0,843
0,880
0.0080
0.0451
0.0379
0,0359
0,0309
0,0294
0,0223
0,0186
0,0300
0,0215
0,0190
0,0146
0,0152
0,0158
1 400 – 1 500 16,1
23 345,0
0,010
0,022
1 500 – 1 600 10,7
16 585,0
0,007
0,015
1 600 – 1 700 5,6
9 240,0
0,003
0,009
1 700 – 1 800 45,6
79 800,0
0,028
0,074
Ogółem
1 608,8
1 072 828,5 1,000
1,000
Zaliaś A. : Metody statystyczne. PWE, Warszawa, s.75.
0,962
0,968
0,972
1,000
0,902
0,917
0,926
1,000
0,0089
0,0060
0,0032
0,0273
0,3896
Pole figury b pod krzywą Lorenza , można w przybliżeniu wyznaczyć w sposób
następujący:
k
KL 
0,5   (
i 1
cumzi  cumzi 1
) * wi
2
0,5
gdzie :
cum zi – względna wartość szeregu skumulowanego obliczonego w sposób następujący
zi 
x i * ni
k
 x
i 1
i
* ni
wi - liczebności względne obliczone następująco:
wi 
k
ni
, przy czym N   n i
N
i 1
W naszym przykładzie mamy :
18
b   p i  0,3896
i 1
a=0,5-0,3896=0,1104
KL 
0,1104
 0,2208
0,5
Uzyskany wynik wskazuje na słaby stopień koncentracji, co odpowiada równomiernemu
podziałowi łącznej wysokości świadczenia brutto z ubezpieczenia społecznego między
pobierających renty z tytułu niezdolności do pracy.
Rachunek prawdopodobieństwa
1.
2.
3.
4.
Krótki rys historyczny
Podstawowe wiadomości o zdarzeniach
Pojęcie prawdopodobieństwa
Podstawowe twierdzenia rachunku prawdopodobieństwa
!. Krotki rys historyczny
Rachunek prawdopodobieństwa jest dziedziną matematyki. Z rachunkiem
prawdopodobieństwa związane są takie nazwiska francuskich matematyków jak :
B.Pascal ( 1623 – 1662 ) i P. Fermat ( 1601 – 1661 ).
Duży wkład w rozwój tej dyscypliny przypisuje się również szwajcarskiemu
matematykowi J. Bernoulliemu ( 1654 – 1705.W pracy „ Traktat o sztuce przewidywania
„ można znaleźć podstawowe twierdzenia rachunku prawdopodobieństwa zwane „
prawem wielkich liczb „. Wielkie zasługi w rozwój teorii prawdopodobieństwa położył
również P.S. Laplace ( 1749 – 1705 ) oraz K.F. Gauss ( 1777 – 1855 ). Gauss uważany
jest za twórcę teorii błędów obserwacji i metody najmniejszych kwadratów. Na uwagę
zasługuje nazwisko S.D. Poissona ( 1781 –1840 ), francuskiego matematyka , którego
imieniem został nazwany jeden z najważniejszych rozkładów statystycznych.
Studiując historię rachunku prawdopodobieństwa ważne wydaje się wymienienie prac
członka Petersburskiej Akademii Nauk , szwajcara z pochodzenia , L. Eulera ( 1707 –
1783) Całki Eulera nazywa się tzw. Funkcją gamma i funkcją beta. Funkcje te mają duże
zastosowanie w statystyce matematycznej.
Za twórcę rosyjskiej szkoły probabilistycznej uznać należy P. Czejbyszewa (1821 – 1894)
Wybitni matematycy radzieccy, A. Kołmogorow, N. Smirnow i inni stworzyli radziecką
szkołę teorii prawdopodobieństwa, która należy do czołowych w świecie.
Osiągnięcia współczesnej probabilistyki w Polsce są związane z imieniem profesora
Uniwersytetu Wrocławskiego H.Steinhausa i jego uczniów.
Zmienna losowa jest to zmienna, która przyjmuje różne wartości liczbowe, wyznaczone
przez los.
Zmienną losową można traktować jako pewną funkcję określoną na przestrzeni próby
związanej z eksperymentem. Przyporządkowanie prawdopodobieństw różnym możliwym
wartością zmiennej losowej, czyli „probabilistyczne prawo rządzące zmienną losową „
nazywamy rozkładem prawdopodobieństwa zmiennej losowej.
Zmienna losowa może być :
 Skokowa ( dyskretna )
 Ciągła
Zmienna losowa jest skokowa ( dyskretna ), gdy może przyjmować wartości ze zbioru
najwyżej przeliczalnego.
Zmienna losowa ciągła może przyjmować wartości z dowolnego przedziału liczbowego.
Możliwe wartości takiej zmiennej tworzą zbiór nieprzeliczalnie nieskończony.
Rozkładem prawdopodobieństw zmiennej losowej skokowej, zwanym też funkcją rozkładu
masy prawdopodobieństwa jest tablica, wzór lub wykres, który przyporządkowuje
prawdopodobieństwa każdej możliwej wartości zmiennej.
Zmienne losowe będziemy oznaczać dużymi literami, najczęściej literą X, chociaż mogą
być użyte inne litery. Małych liter będziemy używać do oznaczenia poszczególnych
wartości przybieranych przez zmienne losowe. Zapis P(X=x) oznacza
prawdopodobieństwo, że zmienna losowa X przyjmuje pewną określoną wartość x. Na
przykład zapis P(X=5)=0,2 oznacza, że prawdopodobieństwo , iż zmienna losowa X
przyjmuje wartość 5 jest równe 0,2. Można używać skróconych zapisów, np. P(5)=0,2
Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące
warunki
P( X )  0 dla wszystkich wartości x
(1)
 P( X )  1
wszystkiex
(2)
Przykład 1. Załóżmy, że w poniższym zestawieniu wymieniono możliwe liczby ogłoszeń
zamieszczonych dziennie w gazecie i odpowiadające im prawdopodobieństwa
X
0
1
2
3
4
5
P(X)
0,1
0,2
0,3
0,2
0,1
0,1
Jest to rozkład prawdopodobieństw zmiennej losowej X. Można zauważyć, że wszystkie
prawdopodobieństwa są nieujemne i sumują się do jedności. Zmienne losowa nie
przyjmuje wartości większych od 5, co oznacza, że nie zamieszcza się nigdy więcej niż 5
ogłoszeń dziennie. Prawdopodobieństwo zamieszczenia dwóch ogłoszeń wynosi 0,3, a
trzech ogłoszeń – 0,2.Powstaje pytanie , skąd się biorą prawdopodobieństwa
 Redakcja gazety codziennie rejestruje liczbę zamieszczonych ogłoszeń. Częstości z
jakimi pojawiają się w długim szeregu dni różne liczby ogłoszeń ,łatwo obliczyć z
tych rejestrów. Częstości te uznajemy za prawdopodobieństwa ukazania się
odpowiednich liczb zamieszczonych ogłoszeń.
 W innych sytuacjach prawdopodobieństwa można wyprowadzić z pewnych
teoretycznych rozważań. Takie rozkłady są tablicowane i można je znaleźć w
każdym podręczniku statystyki.
Dystrybuanty ( skumulowane funkcje rozkładu )
Skumulowaną funkcją rozkładu ( dystrybuantą ) skokowej zmiennej losowej X jest
funkcja
F ( x)  P( X  x)   Pi
(3)
i x
Dla przykładu 1 dystrybuanta liczby ogłoszeń zamieszczonych dziennie w gazecie wynosi
x
0
1
2
3
4
5
P(x)
0,1
0,2
0,3
0,2
0,1
0,1
F(x)
0,1
0,3
0,6
0,8
0,9
1,0
Należy zauważyć, że każda wartość F(x) jest sumą wszystkich wartości P(i) dla i
mniejszych lub równych x. Na przykład
F (3)  P( X  3)  P(0)  P(1)  p(2)  P(3)  0,1  0,2  0,3  0,2  0,8
Oczekiwana wartość i odchylenie standardowe zmiennej losowej
Oczekiwana wartość skokowej zmiennej losowej X jest równa sumie wszystkich
możliwych wartości tej zmiennej mnożonych przez ich prawdopodobieństwa
  E( X ) 
 xP( x)
(4)
wszystkiex
Wykorzystując dane z przykładu 1 wyznaczamy oczekiwaną liczbę ogłoszeń w gazecie (
zgodnie z wzorem 4 )
Obliczenie oczekiwanej ( średniej ) liczby ogłoszeń w gazecie
x
P(x)
X P(x)
0
0,1
0
1
0,2
0,2
2
0,3
0,6
3
0,2
0,6
4
0,1
0,4
5
0,1
0,5
1,0
3,3
Z tablicy wynika, że
  E ( x)  2,3 . Możemy powiedzieć, że przeciętnie
dzienne
zamieszcza się 2,3 ogłoszenia.
Oczekiwana wartość funkcji skokowej zmiennej losowej h(x) jest :
E h( x) 
 h( x ) P ( x )
(5)
wszystkiex
Przykład 2. Miesięczna sprzedaż pewnego produktu charakteryzuje rozkład
prawdopodobieństwa podany w poniższej tablicy.
Sprzedaż
5000
6000
7000
8000
9000
P(x)
0,2
0,3
0,2
0,2
0,1
1,0
Przypuśćmy, że firma ponosi stały miesięczny koszt produkcji równy 8000 $ i że na
każdej wyprodukowanej jednostce zarabia 2 $. Jaki jest miesięczny oczekiwany zysk
firmy ?
Funkcja zysku ze sprzedaży produktu jest dla firmy funkcja h(x)=2x – 8000.
Tablica pomocnicza do wyznaczenia oczekiwanego zysku
x
h(x)
P(x)
h(x)P(x)
5 000
2 000
0,2
400
6 000
4 000
0,3
1 200
7 000
6 000
0,2
1 200
8 000
8 000
0,2
1 600
9 000
10 000
0,1
1 000
5 400 = E[h(x)]
W przypadku liniowej funkcji zmiennej losowej, obliczenie oczekiwanej wartości funkcji
h(x) można uprościć, korzystając ze wzoru na oczekiwaną wartość funkcji zmiennej
losowej.
Oczekiwana wartość liniowej funkcji zmiennej losowej :
E(a X +b) = a E(x)+b
(6)
Gdzie a i b są ustalonymi liczbami. W rozpatrywanym przykładzie 2 mamy ;
E [ h (x)] = E[2x – 8 000 ] = 2 E (x) – 8 000 = 2 * 6 700 – 8 000 = 5 400 $ .
Wariancja
i odchylenie standardowe zmiennej losowej
Wariancja zmiennej losowej jest oczekiwana wartość kwadratu odchylenia tej zmiennej
od jej średniej . Pojęcie to jest podobne do pojęcia wariancji w zbiorze wyników
obserwacji ( w próbie lub populacji ) .
Wariancją skokowej zmiennej losowej X jest :
 2  V ( X )  E[( X   ) 2 ] 
  x    P ( x)
2
( 7)
wszystkiex
Dla przykładu 1 mamy :
x
x
P(x)
(x  ) 2
( x   ) 2 P( x)
0
1
2
3
4
5
5,29
1,69
0,09
0,49
2,89
7,29
0,529
0,338
0,027
0,098
0,289
0,729
0,1
0,2
0,3
0,2
0,1
0,1
-2,3
-1,3
-0,3
0,7
1,7
2,7
2,01
Wygodny do stosowania wzór obliczania wariancji zmiennej losowej :
 2  V ( x)  E ( X 2 )  [ E ( X )] 2
(8)
Zgodnie z wzorem (8) wyznaczamy dla przykładu 1 wariancję liczby ogłoszeń w gazecie.
Obliczenia pomocnicze
X P(X) X P(X) X2P(X)
0 0,10 0
0
1 0,20 0,20
0,20
2 0,30 0,60
1,20
3 0,20 0,60
1,80
4 0,10 0,40
1,60
5 0,10 0,50
2,50
1,00 2,30
7,30
V ( X )  E ( X 2 )  [ E ( X )] 2  7,30  2,3 2  2,01
Dla zmiennych losowych standardowe odchylenie określamy jako dodatni pierwiastek
kwadratowy z wariancji . Standardowe odchylenie zmiennej losowej wyraża się wzorem:
  S ( x)   2
(9)
W rozpatrywanym przykładzie 1 wynosi
  2,01  1,418
Wariancję liniowej funkcji zmiennej losowej
wzoru :
V (ax  b)  a 2V ( x)  a 2 2
ax  b wyznaczyć można z następującego
( 10 )
gdzie a i b są ustalonymi liczbami.
Wariancja jako średnie kwadratowe odchylenie wartości zmiennej losowej od jej wartości
średniej jest miarą rozproszenia możliwych wartości zmiennej. Wariancja daje
wyobrażenie o zmienności a tym samym o niepewności związanej z przyszłymi
wartościami zmiennej, które mogą tym bardziej odbiegać od przeciętnej, im wyższa jest
wariancja.
Posługiwanie się odchyleniem standardowym często jest wygodniejsze z tego powodu, że
wariancja jest wielkością „kwadratową” Odchylenie standardowe jest łatwiejsze do
interpretacji z punktu widzenia ekonomicznego. Na przykład : standardowe odchylenie
stopy przychodu z określonej lokaty kapitału powszechnie jest uznawane za miarę ryzyka
związanego z tą lokatą.
Twierdzenie Czebyszewa
Znajomość odchylenia standardowego pozwala wyznaczyć granice, w których możliwe
wartości zmiennej losowej mieszczą się z pewnym określonym prawdopodobieństwem.
Granice te wyznacza twierdzenie Czebyszewa . Twierdzenie to powiada, że dla dowolnej
liczby k większej od jedności prawdopodobieństwo, że wartość zmiennej losowej odchyla
się od wartości o mniej niż o k odchyleń standardowych, jest nie mniejsze niż 1 – 1/k2.
Możemy to twierdzenie zapisać następująco : dla dowolnej zmiennej losowej o średniej
 i odchyleniu standardowym  oraz dla dowolnej liczby k  1 :
P( X    k )  1  1 / k 2
( 11 )
Wybrane rozkłady zmiennej losowej skokowej
Podstawowymi rozkładami zmiennej losowej skokowej są:
 Rozkład jednopunktowy
 Rozkład dwupunktowy
 Rozkład dwumianowy ( Bernoulliego )
 Rozkład Poissona
Rozkład jednopunktowy
Zmienna losowa X przyjmuje tylko jedną wartość x1 z prawdopodobieństwem równym 1,
czyli :
( 12 )
P( X  x1 )  1
Łatwo wykazać , że
E( X )  x1
,
2 0
Dystrybuanta F(x) w tym przypadku ma postać :
x  x1
{ 1 dla x  x1
F(x)= { 0 dla
( 13 )
Rozkład dwupunktowy
Mówimy, że zmienna losowa X podlega rozkładowi X podlega rozkładowi
dwupunktowemu, jeśli zbiór wartości { x1 , x2 } jest dwuelementowy , przy czym :
P(X=x1)=q
( 14 )
P(X=x2)=p
( 15 )
oraz p+q=1
Szczególnym przypadkiem rozkładu dwu – punktowego jest tzw. Rozkład zero –
jedynkowy , gzie przyjmuje się, że x 1 = 0 oraz x2 = 1 .
Mamy więc :
P(X=0)=q
( 16 )
P(X=1)=1
( 17 )
Przy czym p + q = 1 , skąd q = 1 – p
Podstawowe charakterystyki liczbowe zmiennej podlegającej rozkładowi zero –
jedynkowemu:
E(X)=p
 2  pq
( 18 )
( 19 )
Dystrybuanta w tym przypadku ma postać następującą :
F(x) = { 0
dla
{ 1 – p dla
{ 1
dla
x0
0  x 1
x>1
Rozkład dwumianowy
Przypuśćmy, że wykonujemy n niezależnych doświadczeń ( np. rzucamy 10 razy kostką
do gry albo wykonujemy 7 rzutów monetą itp. ). Przyjmujemy, że każde z tych
doświadczeń może zakończyć się sukcesem albo porażką, przy czym
prawdopodobieństwo wystąpienia sukcesu w każdym z wykonywanych doświadczeń jest
takie samo i wynosi p(0  p  1) .
Zmienną losową definiujemy jako liczbę sukcesów uzyskanych przy wykonywaniu n
doświadczeń.
Dwumianowy rozkład prawdopodobieństwa :
 n
n!
P( X )    p x q n  x 
pq n  x
x
x
!
(
n

x
)!
 
( 20 )
gdzie p jest prawdopodobieństwem sukcesu w jednym doświadczeniu, q=1-p, z kolei n
jest liczbą doświadczeń, a x jest liczbą sukcesów .
Rozkład zdefiniowany wzorem ( 20 ) jest rozkładem dwumianowym lub rozkładem
Bernoulliego. Nazwa pochodzi od matematyka Jacquesa Bernoulliego ( 1654 – 1705 ).
Doświadczenia Bernoulliego to ciągi identycznych doświadczeń spełniających nastęoujące
warunki :
1. Są dwa możliwe wyniki każdego doświadczenia, nazwane sukcesem lub porażką.
Wyniki te wykluczają się i dopełniają.
2. Prawdopodobieństwo sukcesu oznaczone przez p, pozostaje takie samo od
doświadczenia do doświadczenia. Prawdopodobieństwo porażki, oznaczone przez
q, równe jest 1-p
3. Doświadczenia są od siebie niezależne. Znaczy to , że wynik któregokolwiek
doświadczenia nie ma wpływu na wyniki pozostałych doświadczeń .
Średnia, wariancja i kształt rozkładu dwumianowego
Średnia rozkładu dwumianowego jest to iloczyn liczby doświadczeń n i
prawdopodobieństwa sukcesu w pojedynczym doświadczeniu p.
Wariancja jest iloczynem liczby doświadczeń n , wartości p oraz q . Prawdziwe są
poniższe wzory :
Średnia rozkładu dwumianowego :
  E ( x)  np
( 21 )
Wariancja rozkładu dwumianowego :
 1  V ( x)  npq
( 22 )
Odchylenie standardowe rozkładu dwumianowego :
  npq
( 23 )
Kształt rozkładu prawdopodobieństwa dwumianowej zmiennej losowej jest symetryczny
przy p=1/2. Rozkład jest skośny prawostronnie przy p < ½ , a lewostronnie przy p >
½ gdy liczba doświadczeń n jest niewielka.
Dwumianowy rozkład prawdopodobieństwa jest jednym z najpowszechniej stosowanych
rozkładów w badaniach statystycznych.
Rozkład Poissona
Rozkład Poissona jest wygodny do scharakteryzowania zmiennej losowej będącej liczbą
zajść pewnego zdarzenia w określonym przedziale czasu . Taką zmienną jest liczba awarii
urządzenia przemysłowego w ciągu tygodnia, liczba wypadków samochodowych w ciągu
miesiąca, itp. Rozkład Poissona jest też dobrym przybliżeniem rozkładu dwumianowego,
gdy liczba doświadczeń n jest duża ( n  20) , a prawdopodobieństwo „ sukcesu „ (
zajścia interesującego nas zdarzenia ) jest niewielkie ( p  0,05) .
Rozkład Poissona:
P ( x) 
 x e 
x!
dla x= 0,1,2,3,...,
(24 )
 jest średnią rozkładu ( i równocześnie jego wariancji ), e jest podstawą
logarytmów naturalnych ( e  2,71828... )
gdzie
Przykłady
Przykład 1. Klientami sklepu spożywczego są kobiety i mężczyźni > Na podstawie
wcześniejszych badań wiadomo ,że prawdopodobieństwo zakupu żywności przez kobietę
w tym sklepie wynosi 0,6 .
a) Co jest zmienną losową ?
b) Wyznaczyć wartość oczekiwaną i wariancję badanej zmiennej losowej ?
Rozwiązanie :
a) ) Zmienną losową jest płeć klienta. Przyjmuje ona wartość 1 w przypadku kobiet oraz
0 , gdy do sklepu wchodzi mężczyzna. Jest to przykład zmiennej zero – jedynkowej .
b) E ( X )    p  0,6
oraz V ( X )  p (1  p )  0,6 * 0,4  0,24
Przykład 2.
Sprzedawca pewnego dobra trwałego użytku kontaktuje się z 8 potencjalnymi klientami
dziennie. Z wcześniejszych doświadczeń wiadomo , że prawdopodobieństwo zakupu tego
dobra przez potencjalnego klienta wynosi 0,10.
a) jakie jest prawdopodobieństwo tego, że sprzedawca przeprowadzi dokładnie 2
transakcje sprzedaży dziennie ?
b) Jaki odsetek stanowić będą dni, w których sprzedawca nie dokona żadnej
transakcji sprzedaży ?
c) Jakiej średniej liczby sprzedanych dóbr trwałego użytku dziennie może się
spodziewać sprzedawca ?
Rozwiązanie :
a) Korzystając ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym mamy
:
P( X  2) 
8!
* (0,1) 2 * (0,9) 8 2
2! (8  2)!
Zamiast przeprowadzania dość skomplikowanych obliczeń można również skorzystać z
tablic rozkładu dwumianowego odczytując ( P( X  k ) dla n=8, k=2, p=0,1
Wobec tego mamy :
P( X  2)  P( X  3)  Q(2)  Q(3)  0,18690  0,03809  0,14881
8!
* (0,1) 0 * (0,9) 8 0  0,43
b) P ( X  0) 
0!(8  0)!
zatem 43 % ogółu dni roboczych stanowią takie dni , kiedy nie zostanie dokonana żadna
transakcja sprzedaży.
c) E ( X    np  8 * 0,1  0,8
Przykład 3.
Wadliwość produkcji pewnego przedsiębiorstwa wynosi 3%. Z gotowych wyrobów
znajdujących się w magazynie sprzedano 40 sztuk.
a) Jakiej średniej liczby braków można się spodziewać w sprzedanej partii towarów
b) Jakie jest prawdopodobieństwo , że dokładnie 5 sztuk wadliwych znajdzie się w
sprzedanej partii towarów
Rozwiązanie :
a) E ( x)    np  40 * 0,03  1,2
b)
P( X  5) 
(1,2) 5 * e 1, 2
 0,00625
5!
( por. tablicę w rozkładzie Poissona , dla
  1,2 ; k  5 )
Inne podejście opiera się na rachunku dystrybuant. Korzystamy z tablic dystrybuanty w
tym rozkładzie i mamy :
P( X  5)  P( X  5)  P( X  4)  F (5)  F (4)  0,998  0,992  0,006
Zmienna losowa ciągła i jej rozkłady
1. Zmienna losowa ciągła , funkcja gęstości, dystrybuanta, podstawowe
charakterystyki
2. Rozkłady zmiennej losowej ciągłej
 Rozkład normalny
 Rozkład logarytmiczno – normalny
 Rozkład chi – kwadrat
 Rozkład Studenta
 Rozkład Fishera – Snedecora
 Inne ( np. rozkład serii, rozkład Darbina - Watsona
Zmienna losowa ciągła jest to taka zmienna , która przyjmuje wszystkie wartości z
pewnego określonego przedziału liczbowego.
Dla zmiennej losowej ciągłej pojawia się pojęcie funkcji gęstości. Funkcja gęstości jest to
przedziałami ciągła funkcja f(x), dzięki której można określić prawdopodobieństwo tego,
że zmienna losowa x znajdzie się w określonym przedziale.
Funkcja gęstości spełnia następujące warunki :
f ( x)  0
( 1)

 f ( X )dx  1
(2)

Funkcja gęstości może być interpretowana jako podstawa do liczbowych ustaleń „
średniej gęstości prawdopodobieństwa z otoczenia punktu, zwanego środkiem przedziału
klasowego”.
Dystrybuanta dla zmiennej losowej ciągłej określana jest jako prawdopodobieństwo
tego, że zmienna losowa przyjmie wartości mniejsze lub równe x i
F ( x i )  P( X  x i )
(3)
Dystrybuanta dla zmiennej losowej ciągłej jest całką z określoną górną granicą x ,
zapisaną w sposób następujący :
x
F ( x) 
 f ( x)dx
(4)

Dla prawdopodobieństwa w przedziale ( x1 ; x2 ) należy stosować formułę :
P{x1  x  x 2 }  F ( x 2 )  F ( x1 ) 
x2
 f ( x)dx
( 5)
x1
Wartość oczekiwana zmiennej losowej ciągłej wyraża się następującym wzorem :
E ( x)   

 xf ( x)dx
(6)

Wariancja zmiennej losowej ciągłej jest wyznaczona zgodnie z formułą :

D 2 ( x)   [ x  E ( x)] 2 f ( x)dx
(7)

Odchylenie standardowe zmiennej losowej ciągłej dane jest wzorem :
D( x)  D 2 ( x)
(8)
Rozkłady zmiennej losowej ciągłej
Rozkład normalny
Rozkład normalny wiąże się z nazwiskiem matematyka K.F. Gaussa ( 1777 – 1855 ) i
bywa najczęściej określany jako rozkład Gaussa. Rozkład normalny to jeden z
najważniejszych rozkładów zmiennej losowej ciągłej. Odgrywa on w zastosowaniach
statystyki ogromną rolę. Mówimy , że zmienna losowa x ma rozkład normalny z
parametrami  i   0 , co zapisujemy X : N (  ,  ) lub X ~ N (  ,  ) , jeśli jej funkcja
gęstości jest określona następującym wzorem :
f ( x) 
1
 2
gdzie :
E (x)  
D 2 ( x)   2
( x   )2
*e
2 2
, dla x  ( ;)
( 9)
  3,144159...,
e  2,71828...
Krzywa gęstości prawdopodobieństwa rozkładu normalnego ma następujące własności :
1. Krzywa normalna jest krzywą w kształcie dzwonu, symetryczną względem prostej
przechodzącej przez punkt x   , co znaczy, że jest spełniona równość :
P( X    P( X   )  0,5 . Oś rzędnych jest oczywiście osią symetrii krzywej.
2. Obszar ograniczony wykresem funkcji f(x) i osią odciętych ma pole równe
jedności.
3. Funkcja gęstości prawdopodobieństwa rozkładu normalnego osiąga maksimum w
punkcie x   . Obliczając pochodną funkcji (9) i przyrównując ją do 0 ,
sprawdzamy łatwo, że wartość maksymalna tej funkcji gęstości wynosi :
f ( ) 
1
 2
4.Krzywa gęstości prawdopodobieństwa rozkładu normalnego ma 2 punkty przegięcia,
położone symetrycznie względem osi rzędnych , o odciętych x     , w których
krzywa z wklęsłej przechodzi w wypukłą lub odwrotnie.
Parametr
 rozkładu normalnego jest to średnia rozkładu czyli miara położenia. Mówi
o tym , gdzie leży centrum rozkładu na osi liczbowej. Ponieważ krzywa gęstości
normalnej jest symetryczna i ma jeden szczyt , w środku ,średnia  jest
równocześnie medianą i dominantą rozkładu prawdopodobieństwa. Inaczej mówiąc,
 jest też punktem, w którym gęstość jest największa i który dzieli pole pod krzywą
gęstości na połowy, z których każda ma miarę ½.Standardowe odchylenie jest miarą
zmienności , czyli rozproszenia zmiennej. Gdy standardowe odchylenie jest duże,
wykres funkcji gęstości jest „ szeroki „ , ale za to „ płaski „( Całe pole pod krzywą
musi mieć miarę równą 1 ). Gdy standardowe odchylenie jest małe, wykres funkcji
gęstości jest „ wąski „ ale „ wysoki „
Na uwagę zasługują także następujące własności rozkładu normalnego :
P(     X     )  0,6826



P(   2  X    2 )  0,9545
P(   3  X    3 )  0,9973
W analizach szczególnie ważna jest reguła trzech odchyleń standardowych zwana także
reguła 3 sigm, której prawdopodobieństwo jest bardzo wysokie i praktycznie wynosi 1.
Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji obserwacji
nietypowych, nie przystających do pozostałych ( wątpliwych , rzadkich , odstających ,
ekstremalnych ) , co do których istnieją przypuszczenia , że pochodzą z innej
zbiorowości. Za wątpliwe uznaje się takie obserwacje , których wartość różni się od
średniej o więcej niż 3 odchylenia standardowe.
Rozkład normalny standaryzowany
Rozkład normalny z wartością oczekiwaną
  0 i odchyleniem standardowym   1 ,
czyli Z : N (0,1) , określony za pomocą formuły :
1
 z2
1
f ( z) 
*e 2
2
( 10 )
Każdy rozkład normalny
X : N (  ,  ) może być transformowany do rozkładu normalnego
Z : N (0,1) poprzez procedurę standaryzacji zmiennej X do Z. Czasami zamiast Z stosuje
się literę U ( unormowana ). Zmienna losowa standaryzowana wyraża się wzorem :
Z
X 

( 11 )
Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład normalny
standaryzowany jest stablicowany. Najczęściej korzysta się z tablic dystrybuanty .
Przykład 1.
Załóżmy , że mamy 100 pojedynczych wyników pomiarów pewnej wielkości. Efekty
obserwacji pogrupowano , a wyniki w postaci szeregu rozdzielczego przedziałowego
podano w poniższej tablicy. Zachodzi przypuszczenie , że rozkład liczby wszystkich
pomiarów ma rozkład normalny .
Tab.1. Szereg rozdzielczy wyników pomiaru pewnej wielkości ( w mm)
Wyniki pomiarów
Liczba wyników
 xi , xi 1 )
xi
fi
79-81
81-83
83-85
85-87
87-89
89-91
91-93
93-95
95-97
97-99
1
4
9
15
24
21
13
9
3
1
100
80
82
84
86
88
90
92
94
96
98
xi f i
80
328
756
1 290
2 112
1 890
1 196
846
288
98
8 884
Źródło : A. Zeliaś : Metody statystyczne . PWE, Warszawa 2000 s. 221-222.
 i  szacujemy na podstawie wyników
zamieszczonych w powyższej tablicy ( tab.1 ) i otrzymujemy : x  88,84 i s  3,23258 .
Parametry rozkładu normalnego
Pozostałe obliczenia potrzebne do ustalenia , czy jest to rozkład normalny, znajdują się
w poniższej tablicy :
xi
fi
80
82
84
86
88
90
92
94
96
98
1
4
9
15
24
21
13
9
3
1
100
ui 
xi  x
s
-2,73466
-2,11596
-1,49726
-0,87855
-0,25985
0,35885
0,97755
1,59625
2,21495
2,83365
f (u i )
0,009606
0,042166
0,129518
0,270864
0,385683
0,373911
0,246809
0,112704
0,034710
0,007274
ni
fˆi 
f (u i )
s
0.59
2,61
8,01
16,76
23,86
23,13
15,27
6,97
2,15
0,45
99,8
f i  fˆi
0,41
1,39
0,99
-1,76
0,14
-2,73
-2,27
2,03
0,85
0,55
Z uwagi na to , że różnice między rozkładem empirycznym a teoretycznym , czyli
f i  fˆi
od i= 1,2,...,10 są względnie duże , to nie można przyjąć , że rozkład liczby wyników
pomiarów nie jest rozkładem normalnym.
Rozkład chi – kwadrat
Rozkład chi – kwadrat
(  2 ) został opracowany przez statystyków A. Abbego ( 1863 ), H.
Helmerta ( 1875 ) , K. Pearsona ( 1900
Zakładając , że X1, X2 , ..., Xk są niezależnymi zmiennymi losowymi o rozkładzie
normalnym o parametrach
  0 i   1 , zmienna losowa  2 określona w sposób
następujący :
k
 2   X i2
( 12 )
i 1
ma rozkład
2
z k „ liczbą stopni swobody „
Zmienna losowa o rozkładzie chi- kwadrat przyjmuje wartości dodatnie , a jej rozkład
zależy od liczby stopni swobody k . Dla małych wartości k jest to rozkład silnie
asymetryczny , w miarę wzrostu k asymetria jest coraz mniejsza. Liczbę stopni swobody
k wyznaczamy najczęściej w sposób następujący :
k  n 1
lub
k  n  p 1
gdzie :
n – liczebność próby
p – liczba szacowanych parametrów z próby
Liczba stopni swobody jest równa liczbie wszystkich parametrów ( która nie musi być
równa liczbie wyników obserwacji ) pomniejszonej o liczbę wszystkich ograniczeń
narzuconych na te parametry . Ograniczeniem jest każda wielkość , która zostaje
obliczona na podstawie tych samych pomiarów
Wartość oczekiwana w rozkładzie
E( 2 )  k
wyraża się następującą formułą :
( 13 )
Wariancja w rozkładzie
D 2 (  2 )  2k
2
2
jest wyrażona formułą :
( 14 )
Odchylenie standardowe w rozkładzie
2
to :
D (  )  2k
( 15 )
Dla uproszczenia zapisów można się posługiwać formułą :
 2 :  2 /( k ; 2k )
, co oznacza ,że
2
ma rozkład o k stopniach swobody . Rozkład
2
jest rozkładem asymetrycznym, przy czym wraz ze wzrostem k rozkład ten staje się
coraz bardziej zbliżony do symetrycznego, a dla k>30 zachodzi zależność :
 2 :  2 ( k ; 2k )  X : N ( k ; 2k )
( 16 )
k 
Oznacza to , że wraz ze wzrostem k ( powyżej 30 ) rozkład
asymptotycznie normalny o tych samych parametrach
2
przechodzi w rozkład
E (  )  k i D 2 (  2 )  2k .
2
Rozkład t – Studenta
Jest to ważny rozkład , który jest stosowany głównie do małych próbek . Rozkład t –
Studenta ( pseudonim angielskiego statystyka W. Gosseta ) jest rozkładem
symetrycznym względem prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu
normalnego standaryzowanego ( jest nieco bardziej spłaszczony ).
 2 :  2 ( k ; 2k )
Jeżeli Z :N(0;1) i
T
Z
są niezależnymi zmiennymi losowymi , to zmienna
k ma rozkład t- Studenta o k stopniach swobody .
2
Wartość oczekiwana w rozkładzie t- Studenta
E (T )  o
dla
k2  2
ma postać następującą:
( 17 )
Wariancja w rozkładzie t- Studenta ma postać następującą:
D 2 (T ) 
k
dla
k 2
k 3
( 18 )
Odchylenie standardowe w rozkładzie t- Studenta ma postać następującą :
D(t ) 
k
k 2
dla
k 3
( 19 )
Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do rozkładu normalnego
standaryzowanego [ N : ( 0 , 1 ) ]
Dla różnych wartości k i różnych prawdopodobieństw  stablicowane są wartości
dla których spełniona jest zależność
t  takie ,
p(t / 2  T  t / 2 )   dla k  n  1 stopni
swobody.
Rozkład F – Snedecora
Y1 i Y2 są zmiennymi niezależnymi i mają rozkłady  2 o k1 i k 2
stopniach swobody , to zmienna losowa Fk1k 2 ma rozkład F – Snedecora :
Jeżeli zmienne
Fk1k 2 
Y1 / k1
Y2 / k 2
gdzie
k1 i k 2 są stopniami swobody .
( 20 )
Wartość oczekiwana w rozkładzie F wyraża się
E(F ) 
k2
k2  2
dla
k2  2
następującą formułą :
( 21 )
Wariancja w rozkładzie F wyraża się następującym wzorem :
D 2 (F ) 
2k 22 (k1  k 2  2)
k1 (k 2  2) 2 (k 2  4)
dla
k 2  4 ( 22 )
W zależności od
k1 i k 2 stablicowano wartości zmiennej losowej F , w taki sposób , że
dla danych wartości prawdopodobieństw  zależność P( Fk1k 2  F )  
Dobór próby i rozkłady z próby
Estymacja punktowa i przedziałowa
We wnioskowaniu statystycznym – na podstawie znanej próby losowej , opisujemy za
pomocą statystyk nieznaną populację, z której została pobrana próba.
Parametry populacji ( np. średnia , odchylenie standardowe ) szacujemy korzystając ze
statystyk z próby . Gdy statystyka z próby jest wykorzystywana do oszacowania
parametru populacji , nazywa się estymatorem tego parametru.
Estymatorem parametru populacji jest statystyka z próby używana do oszacowania
tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa
estymatora z danej próby Jeżeli jako ocenę ( szacunek ) podajemy jedną wartość
liczbową, nazywamy ją oceną punktową ( szacunkiem punktowym ) parametru
populacji.
Średnia z próby , jest statystyką używaną jako estymator średniej w populacji.
Odchylenie standardowe z próby , służy jako estymator odchylenia standardowego w
populacji. Oprócz tych statystyk występują również inne np. częstość ( frakcja ).
Frakcją ( częstością ) w populacji p , jest liczba elementów populacji należących do
pewnej kategorii , którą się interesujemy, podzieloną przez liczbę wszystkich elementów
populacji .
Frakcja ( częstość ) w próbie wyraża się następującą formułą :
pˆ 
x
n
(1)
gdzie x jest liczbą elementów próby , które należą do interesującej nas kategorii , a n
jest liczebnością próby.
Pobieranie próby losowej
Aby otrzymać próbę losową z całej populacji , powinniśmy dysponować wykazem
wszystkich elementów populacji . Taki wykaz nazywa się operatem losowania . Operat
losowania pozwala wybierać elementy z populacji przez losowe generowanie numerów
elementów, które znajdują się w próbie. Przypuśćmy, że chcemy pobrać prostą 100elementową próbę losową z populacji 7 000 ludzi. Sporządzamy wykaz tych 7 000 ludzi i
każdemu przypisujemy numer identyfikacyjny. Mamy wykaz 7 000 numerów, które
tworzą operat losowania. Następnie generujemy na komputerze lub w jakiś inny sposób
100 liczb losowych o wartościach od 1 do 7 000 . Taka procedura daje każdemu ze 100
ludzi tę samą szansę znalezienia się w próbie .
Do generowania liczb losowych może być użyty komputer lub tablica liczb losowych.
Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych
wartości, jaka ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania
losowych prób o tych samych rozmiarach, pobranych z określonej populacji.
Rozkład średniej z próby , x , to rozkład prawdopodobieństwa wszystkich wartości , jakie
może przybrać losowa zmienna x , gdy próba o liczebności n jest pobierana z określonej
populacji .
Centralne twierdzenie graniczne - jeżeli pobieramy próbę z populacji o średniej
skończonym odchyleniu standardowym

 i
, to rozkład średniej z próby , x , dąży do
 i odchyleniu standardowym  / n , gdy liczebność
2
próby wzrasta nieograniczenie , czyli , dla „ dostatecznie dużych n „ : x ~ N (  ,  / n)
rozkładu normalnego o średniej
Centralne twierdzenie graniczne zasługuje na uwagę , ponieważ stwierdza zmierzanie
rozkładu średniej z próby do rozkładu normalnego , niezależnie od rozkładu populacji, z
której pochodzi próba.
Trzy główne aspekty centralnego twierdzenia granicznego
1. Jeżeli liczebność próby jest dostatecznie duża , to rozkład średniej z próby , x ,
jest normalny
2. Oczekiwaną wartością średniej x jest 
3. Odchyleniem standardowym średniej x jest
/ n
Historia centralnego twierdzenia granicznego jest związana z rozkładem normalnym jako
rozkładem granicznym rozkładu dwumianowego, gdy n rośnie nieograniczenie.
Aby wykorzystać centralne twierdzenie graniczne, powinniśmy znać standardowe
odchylenie w populacji,  . Gdy  nie jest znane, trzeba się posłużyć jego estymatorem z
próby , S. W takim przypadku rozkład standaryzowanej statystyki jest następujący :
x
(2)
S/ n
gdzie S zastępuje nieznane  i nie jest standaryzownym rozkładem normalnym.
Jeśli rozkład w populacji jest normalny, to statystyka określona wzorem ( 2 ) ma rozkład
t – Studenta o n-1 stopniach swobody .
Centralne twierdzenie graniczne dla przypadku pobierania próby do oszacowania frakcji
elementów danej kategorii populacji , p jest sformułowane następująco :
Gdy liczebność próby n wzrasta , to rozkład frakcji z próby , p̂ , zbliża się do rozkładu
normalnego o średniej p o odchyleniu standardowym
p(1  p) / n
Z centralnego twierdzenia granicznego wynika , iż rozkład średniej z próby i rozkład
frakcji z próby zbliżają się do rozkładu normalnego , gdy wzrasta liczebność próby .
Estymatory i ich własności
Estymator jest nieobciążony , jeżeli jego wartość oczekiwana jest równa parametrowi
populacji , do oszacowania którego służy. Np. Średnia z próby jest nieobciążonym
estymatorem średniej z populacji .
Systematyczne odchylanie się wartości estymatora od szacowanego parametru nazywa
się obciążeniem estymatora .
Estymator jest efektywny , jeżeli ma niewielką wariancję ( a tym samym niewielkie
odchylenie standardowe )
Estymator jest zgodny , jeżeli prawdopodobieństwo , że jego wartość będzie bliska
wartości szacowanego parametru , wzrasta wraz ze wzrostem liczebności próby .
Estymator jest dostateczny , jeżeli wykorzystuje wszystkie informacje o szacowanym
parametrze , które są zawarte w danych ( w próbie )
Przykład 1.
W wylosowanych 9 punktach sprzedaży w pewnym mieście w określonym dniu zbadano
cenę produktu A i otrzymano następujące rezultaty :
Punkt
1
2
3
4
5
6
7
8
9
sprzedaży
Cena w zł 1,15
1,18
1,16
1,20
1,12
1,19
1,17
1,15
1,14
za 1 szt.
( xi)
Źródło : Dane umowne.
Korzystając z procedury estymacji punktowej , należy oszacować
1. przeciętną cenę produktu A za 1 szt. W określonym dniu w całej zbiorowości
( miasto )
2. odchylenie standardowe ceny produktu A w określonym dniu w badanym mieście
Ad 1. Wiedząc ,że estymacja punktowa sprowadza się do znalezienia jednej wartości
mogącej służyć do oszacowania nieznanej średniej ceny produktu A w całym mieście
zadanie sprowadza się do znalezienia średniej arytmetycznej na podstawie próby ( x ) .
Miara ta jest najbardziej użytecznym estymatorem średniej zbiorowości generalnej , gdyż
ma własność nieobciążoności i zgodności oraz jest relatywnie bardziej efektywna od
innych średnich ( mediany czy dominanty )
x
x
9
i
 1,16 , co oznacza ,że w badanym mieście średnia cena jednej sztuki produktu
A wynosi 1,16 zl.
Ad.2. Zadanie sprowadza się , do obliczenia odchylenia standardowego ceny produktu na
podstawie wyników próby
xi
1,15
1,18
1,16
1,20
1,20
1,19
1,17
1,15
1,14
-0,01
0,02
0,00
0,04
-0,04
0,03
0,01
-0,01
-0,02
xi  x
( xi  x ) 2 0.0001 0,0004 0,0000 0,0016 0,0016 0,0009 0,0001 0,0001 0,0004 0.0052
Źródło : Obliczenia własne
S
 (x
i
 x) 2
n 1

0,0052
 0,025 zł
8
Należy zauważyć , że wzór na estymator S różni się od klasycznego wzoru na odchylenie
standardowe  , które wyznacza się w całej zbiorowości ( lub na podstawie wyników
pochodzących z dużej próby ) według formuły :

 (x
i
 x) 2
n
Odchylenie standardowe ceny produktu A w badanym mieście wynosiło 0,025 zł .
Oznacza to , że cena w poszczególnych punktach sprzedaży różniła się od średniego
poziomu , przeciętnie rzecz biorąc , o  0,025 zł.
Przykład 2.
W pewnej firmie w sposób losowy wybrano 15 rozmów telefonicznych, zbadano długość
ich trwania oraz ustalono , czy są to rozmowy lokalne czy też zamiejscowe . Poniższa
tablica prezentuje zebrane na ten temat informacje :
Kolejny numer
Czas trwania Rodzaj rozmów
rozmowy
( w min )
telefonicznej
1
2
miejscowa
2
12
zamiejscowa
3
10
miejscowa
4
3
miejscowa
5
5
zamiejscowa
6
6
miejscowa
7
3
miejscowa
8
5
miejscowa
9
8
miejscowa
10
4
miejscowa
11
5
miejscowa
12
4
miejscowa
13
5
miejscowa
14
4
miejscowa
15
9
zamiejscowa
Należy :
1. Oszacować przeciętny czas trwania wszystkich rozmów telefonicznych w tej firmie
2. Oszacować odchylenie standardowe czasu trwania wszystkich rozmów
telefonicznych w tej firmie
3. Oszacować odsetek ( procent ) rozmów zamiejscowych wśród ogółu rozmów
telefonicznych przeprowadzonych w tej firmie
4. Wyznaczyć błąd standardowy odsetka rozmów zamiejscowych wśród ogółu
rozmów telefonicznych przeprowadzonych w tej firmie
Ad.1. x 
x
15
i
 5,67 min . , co oznacza że przeciętny czas trwania wszystkich rozmów
telefonicznych w tej firmie wynosi 5,67 min.
Ad.2.
S
 (x
i
 x) 2
n 1
 2,85 min . , co oznacza , że odchylenie standardowe czasu
trwania wszystkich rozmów telefonicznych w tej firmie wynosi 2,85 min ( o tyle różni się ,
średnio biorąc , czas trwania poszczególnych rozmów od przeciętnej rozmowy ).
Ad.3. p 
3
 0,20 , co oznacza ,że rozmowy zamiejscowe stanowią 20 % ogółu
15
wszystkich rozmów telefonicznych przeprowadzonych w tej firmie.
Ad.4.
p 
0,20 * (1  0,20)
 0,103
15
Błąd standardowy odsetka rozmów zamiejscowych w tej firmie wynosi 10,3 %.
Estymacja przedziałowa parametrów
Estymacja przedziałowa określonego parametru z populacji generalnej polega na
konstrukcji pewnego przedziału liczbowego ( na podstawie wyników z próby losowej
pobieranej ze zbiorowości generalnej ) , o którym można powiedzieć ,że z przyjętym z
góry prawdopodobieństwem pokryje wartość estymowanego parametru. Przedział taki
nazywamy przedziałem ufności Neymana , natomiast prawdopodobieństwo , że przedział
ten –będący zmienną losową – pokryje nieznany parametr, nazywamy współczynnikiem
ufności i oznaczamy symbolem 1 - . Poziomy współczynników ufności najczęściej
przyjmowane są jako : 0,90;0,95 ;0,99.
Przedziałem ufności nazywamy przedział liczbowy, o którym przypuszczamy , że mieści
się w nim nieznany parametr populacji . Z przedziałem tym związana jest miara ufności (
pewności ) , że ten przedział naprawdę zawiera interesujący nas parametr , zwana
poziomem ufności
Na sposób konstrukcji przedziału ufności ma wpływ liczebność próby losowej . W
zależności od rodzaju szacowanego parametru i liczebności próby można wyróżnić kilka
przedziałów ufności, których sposób konstruowania zostanie przedstawiony na
modelowych przykładach .
Model I. Populacja generalna ma rozkład normalny N (  ,  ) . Wartość średnia
 jest
nieznana , odchylenie standardowe w populacji jest znane. Z populacji tej pobrano próbę
o liczebności n elementów , wylosowanych niezależnie . Wówczas przedział ufności dla
średniej  populacji otrzymuje się ze wzoru :
P{x  u

n
   x  u

n
} 1
gdzie :
x - średnia arytmetyczna obliczona z próby
u  poziom zmiennej standaryzowanej odczytany z tablic rozkładu normalnego
N(0,1) przy przyjętym z góry współczynniku ufności
 - nadzieja matematyczna w populacji generalnej

- odchylenie standardowe w populacji generalnej
n - liczebność próby
Przykład 1. Wybraną w sposób losowy 625 – osobową grupę sportowców zbadano pod
względem czasu poświęconego na trening w miesiącu otrzymując : x  70godz. i
  10godz. Wiadomo przy tym ,że czas poświęcony na trening posiada rozkład normalny
. Oszacować metodą przedziałową średni miesięczny czas treningu dla ogółu sportowców
przyjmując współczynnik ufności 0,95.Dla przyjętego współczynnika ufności 1-=0,95
mamy u  1,96 . Przedział ufności jest następujący :
10
P{70  1,96
625
   70 
10
625
} 1
Ostatecznie otrzymujemy :
69,216    70,784
Otrzymany wynik interpretujemy następująco : przedział liczbowy od 69,216 godzin do
70,784 godzin jest jednym z tych wszystkich możliwych do otrzymania przedziałów, które
z prawdopodobieństwem 0,95 pokrywają szacowany średni czas poświęcony miesięcznie
na trening przez ogół sportowców .Oznacza to , że gdybyśmy wielokrotnie powtarzali
powyższe postępowanie , to średnio biorąc w 95 przypadkach na 100 otrzymywalibyśmy
przedziały dobre ( tzn. pokrywające średni czas poświęcony miesięcznie na trening przez
ogół sportowców ) zaś w pozostałych przypadkach – złe .
Model II. Populacja generalna ma rozkład N (  ,  ) . Nieznana jest zarówno wartość
 , jak i odchylenie standardowe  w populacji . Z populacji tej wylosowano
niezależnie małą próbę o liczebności n elementów. Przedział ufności dla średniej 
średnia
populacji otrzymuje się wówczas według wzoru :
P{x  t
s
n 1
   x  t
s
n 1
} 1
lub według wzoru równoważnego
P{x  t
sˆ
n
   x  t
sˆ
n
} 1
gdzie x oznacza średnią arytmetyczną obliczoną z próby , s i
standardowymi z próby obliczonymi według wzorów :
s
1 n
( xi  x ) 2

n i 1
Wartość
sˆ 
ŝ są odchyleniami
1 n
(x  x) 2

n  1 i 1
t  oznacza wartość zmiennej t – Studenta odczytaną z tablicy tego rozkładu dla
n-1 stopni swobody w taki sposób , by dla danego z góry prawdopodobieństwa 1 -  była
spełniona relacja P{t  t  t }  1   .
Model III. Populacja generalna ma rozkład N (  ,  ) bądź dowolny inny rozkład o średniej
 i skończonej wariancji  2 ( nieznanej ). Z populacji tej pobrano do próby n
niezależnych obserwacji , przy czym liczebność próby jest dużą ( co najmniej kilka
dziesiątków ) . Wtedy przedział ufności dla średniej  populacji wyznaczamy ze wzoru jak
w modelu I , z tą tylko różnicą , że zamiast  we wzorze tym używamy odchyleń
standardowych s lub ŝ obliczonych z próby. Ze względu na dużą próbę wyniki jej grupuje
się w szereg rozdzielczy o r klasach i wtedy wygodnie jest obliczać x oraz s według
wzorów:
x
1 r o
xj nj
n j 1
s
1 r o
(x j  x)2 n j
n j 1
x oj oznacza środek poszczególnego przedziału klasowego, a n j jego liczebność. Gdy
liczba r przedziałów klasowych jest mała , tzn. gdy długość h każdego przedziału
klasowego jest duża , obliczając z powyższego wzoru wartość s należy stosować , tzw.
1 2
2
h , a dopiero potem wyciągnąć
poprawkę grupowania , tj. odjąć od s liczbę
12
gdzie
pierwiastek.
Uwaga : Wzory na przedziały ufności dla średniej
 w modelu I i II są wyznaczone w
oparciu o dokładny rozkład statystyki x , natomiast w modelu III w oparciu o jej rozkład
graniczny ( z dużej próby ). Ponadto , podczas gdy przedziały ufności otrzymane w
oparciu o rozkład normalny mają przy ustalonym n stałą długość , to przedziały ufności
otrzymane w oparciu o rozkład Studenta mają w różnych próbach , oprócz końców
również zmienną długość.
Współczynnik ufności 1- przyjmuje się subiektywnie, jako dowolnie duże, bliskie 1 ,
prawdopodobieństwo. Jest ono miarą zaufania do prawidłowego szacunku . Ponieważ
duży współczynnik ufności daje szerszy przedział, nie należy więc bez potrzeby
przyjmować tego współczynnika zbyt wysokiego. Zwykle przyjmuje się współczynniki
ufności 1- wynoszące 0,90 ; 0,95 ( najczęściej ), wreszcie 0,99 lub 0,999 w badaniach
gdzie ryzyko pomyłki jest małe.
Przykład 2 . Wytrzymałość pewnego materiału budowlanego jest zmienną losową o
rozkładzie normalnym N (  ,  ) . W celu oszacowania nieznanej średniej  wytrzymałości
tego materiału dokonano pomiarów wytrzymałości na n=5 wylosowanych niezależnie
sztukach tego materiału . Wyniki pomiarów były następujące ( w kg/cm 2 ) : 20,4 ; 19,6 ;
22,1 ; 20,8 ; 21,1. Przyjmując współczynnik ufności 1- = 0,99 należy zbudować
przedział ufności dla średniej wytrzymałości  tego materiału.
Rozwiązanie :
Z treści zadania wynika , że ze względu na nieznajomość odchylenia standardowego
oraz małą próbę mamy do czynienia z przedziałem ufności zbudowanym o rozkład t
Studenta , czyli :
P{x  t
s
n 1
   x  t
s
n 1
} 1
Należy najpierw obliczyć z próby wartości x oraz s .
Obliczenia pomocnicze znajdują się w poniższej tablicy
Wyniki pomiaru
xi  x xi  x 2
wytrzymałości xi

20,4
19,6
22,1
20,8
21,1
104,0
0,4
1,2
1,3
0
0,3

0,16
0,44
1,69
0
0,09
3,38
Otrzymujemy :
x
104
 20,8 kg / cm2 ,
5
s
3,38
 0,676  0,82 kg / cm2
5

Następnie z tablic rozkładu Studenta dla 1-=0,99 ( czyli dla =0,01 ) oraz dla n-1 =4
stopni swobody odczytujemy wartość t  4,604 . Podstawiając do wzoru na przedział
ufności otrzymujemy :
20,8  4,604 *
0,82
0,82
   20,8  4,604 *
4
4
czyli
18,9    22,7
Możemy powiedzieć ,że przedział liczbowy o końcach 18,9 i 22,7 kg/cm2 z ufnością 0,99
pokrywa nieznaną średnią wytrzymałość tego materiału.
Przykład 3 . Załóżmy , że chcemy oszacować średni staż pracy pracowników
zatrudnionych w pewnej firmie przy produkcji wyrobów . Za pomocą schematu losowania
nieograniczonego niezależnego , wylosowano z populacji tych pracowników próbę liczącą
n=100 osób i otrzymano następujące wyniki badania tego stażu pracy w latach ( wyniki
pogrupowano w szereg rozdzielczy ):
Staż pracy w Liczba pracowników
latach xj
nj
0-2
4
2-4
10
4-6
55
6-8
25
8-10
6
Przyjmując współczynnik ufności 1- =0,90 , zbudować przedział ufności dla średniego
stażu pracy badanej populacji pracowników .
Rozwiązanie Z treści zadania wynika , że ze względu na dużą próbę mamy do czynienia z
modelem III. Przedział ufności dla średniej  populacji należy zbudować w oparciu o
rozkład normalny , według wzoru :
P{x  u

n
   x  u

n
}  1
przyjmując zamiast  wartość jego zgodnego estymatora s z próby . Obliczenia do
wyznaczenia x i s znajdują się w poniższej tablicy :
xj
nj
x 0j x 0j n j ( x 0j  x ) 2 ( x 0j  x ) 2 n j
0-2
2-4
4-6
6-8
8-10
4
10
55
25
6
100
1
3
5
7
9
4
30
275
175
54
538
19,36
5,76
0,16
2,56
12,96
77,44
57,60
8,80
64,00
77,76
285,60
Wobec tego otrzymujemy :
x
538
 5,38
100
s2 
,
285,60
 2,856
100
Ze względu na małą liczbę przedziałów ( h=2 lata ) należy zastosować poprawkę na
1 2 4
h 
 0,333 . Zatem
12
12
s  2,856  0,333  2,523  1,6 . Następnie z tablicy rozkładu normalnego N(0,1)
odczytujemy wartość u . Dla 1- =0,90 ( tzn. dla =0,1 ) odczytujemy ,że
2
grupowanie , tzn. od s odjąć
u  1,64 . Otrzymujemy następujący przedział ufności dla średniego stażu pracy :
1,6
1,6
czyli 5,1    5,7 . Zatem przedział liczbowy o
5,4  1,64
   5,4  1,64
100
100
końcach 5,1 i 5,7 obejmuje z ufnością 0,90 prawdziwą średnią  stażu pracy w
badanej populacji pracowników w badanej firmie.
Przedział ufności dla wskaźnika struktury
Podstawowym parametrem populacji , szacowanym w przypadku badań
statystycznych ze względu na cechę niemierzalną ( jakościową ) jest frakcja ,
prawdopodobieństwo
( lub po przemnożeniu przez 100 – procent ) elementów
wyróżnionych w populacji , zwana też wskaźnikiem struktury w populacji .
Zagadnienie sprowadza się do budowy przedziału liczbowego , który z określonym , z
góry zadanym prawdopodobieństwem ( współczynnikiem ufności ), będzie zawierał
nieznaną wartość odsetka ( wskaźnika struktury, częstości względnej lub procentu )
zbiorowości generalnej .
Ważnym warunkiem jest duża próba , n>100 , a nawet n>120. W zastosowaniach
statystyki warunek ten jest znacznie łagodniejszy n>30. Jednak im większa próba
tym lepsze wyniki.
Gdy n jest małe ( n<30), wówczas korzysta się z dokładnego rozkładu estymatora
m
ˆ )  p i odchyleniem
, jakim jest rozkład dwumianowy ze średnią E ( p
n
p(1  p)
standardowym  pˆ 
.
n
pˆ 
Jeżeli n jest duże ( n>100 ) , a p jest małym ułamkiem ( p  0,05) , to można przyjąć
m
ma rozkład asymptotycznie normalny o parametrach
n
p(1  p)
pˆ  p
a statystyka u 
ma asymptotyczny rozkład normalny
N ( p,
n
p(1  p)
n
ˆ
, że estymator p
zero – jedynkowy N(0,1).
Przedział ufności dla parametru p wyraża się wzorem :
P{ pˆ  u
pˆ (1  pˆ )
 p  pˆ  u
n
pˆ (1  pˆ )
}  1
n
Przykład 4. Pewna firma reklamowa pragnie sprawdzić wyniki kampanii reklamowej
towaru A. W tym celu przeprowadziła ankietę wśród 400 osób kupujących ten towar .
Okazało się ,że 150 osób do kupna towaru nakłoniła reklama. Przyjmując poziom
ufności 1- = 0,95 , ocenić metodą przedziałową odsetek osób , które zaczęły
kupować towar A w wyniku przeprowadzonej kampanii reklamowej .
Rozwiązanie
Zakładając , że losowanie osób do próby było niezależne, możemy przyjąć , że
rozkład osób kupujących towar A na skutek przeprowadzonej kampanii reklamowej
wśród 400 wybranych do badania jest dwumianowy o nieznanym parametrze p. Próba
jest duża
( n>30 ) , a zatem przedział ufności możemy wyznaczyć na podstawie
powyższego wzoru:
150
150
150
150
(1 
)
(1 
)
150
150
400  p 
400
 1,96 400
 1,96 400
400
400
400
400
Ostatecznie przedział ten ma postać :
0,328  p  0,422
Można stwierdzić ,że przedział [ 32, 8 % , 42,2 % ] z prawdopodobieństwem 1=0,95 obejmuje procent osób kupujących towar A w wyniku przeprowadzonej
kampanii reklamowej.
Przedział ufności dla wariancji i odchylenia standardowego
Przedział ufności dla wariancji  w populacji generalnej można wyznaczyć , gdy
cecha X charakteryzująca zbiorowość ma rozkład N (  ,  ) , przy czym parametry
2
 ,
są nieznane. Na podstawie próby losowej pochodzącej z tej populacji budujemy
 2 , przyjmując współczynnik ufności 1-
2
2
.Estymatorem parametru  jest wariancja z próby s określona wzorem :
1 n
s 2   ( xi  x ) 2 .
n i 1
2
Przedział ufności dla  może być zbudowany na podstawie rozkładu statystyki
ns 2
 2  2 , która ma rozkład chi – kwadrat o v=n-1 stopniach swobody. Dla

2
2
przyjętego współczynnika ufności 1- można znaleźć dwie wartości   i   , które
przedział ufności dla nieznanej wariancji
2
1
2
można zapisać jako :
P(  2   2 ) 
2

2
oraz
P(  2   2  )  1 
1
Przedział ufności dla wariancji
P{
(n  1) Sˆ 2
 2
2
 
2
(1  n) Sˆ 2
2
1
2

2
 2 określony jest wzorem :
}  1
2
Przedział ufności dla odchylenia standardowego można wyrazić wzorem :
s
s
P{
 
}  1
u
u
1
1
2n
2n
Przykład 4 .Wylosowano 10 banków , które mają swoje centrale lub odziały na
Podkarpaciu Oprocentowanie rocznych lokat złotowych w tych bankach w styczniu
2001 roku wynosiło : 10,9 ; 10,75 ; 11,25 ; 12,30 ; 11,25 ; 9,0 ; 11,3 ; 10,75; 12,25
;11,2.
Zakładając , że oprocentowanie rocznych lokat ma rozkład normalny, oszacować
przedziałowo zróżnicowanie oprocentowania tych lokat we wszystkich bankach
działających na Podkarpaciu. Przyjmując poziom ufności 1-=0,96 , należy zbudować
przedział ufności dla wariancji przy znajomości parametrów wyznaczonych z małej
próby ( n=10 ). Wykorzystanie zostanie wzór na wariancję o następującej postaci :
P(
ns 2
 2
1
 2 
ns 2
2
1
2
)  1
2
2
Wyznaczymy wariancję s , a następnie z tablic rozkładu
stopni swobody oraz dla

2
 0,02 i 1 

2
 2 odczytujemy dla n-1=9
 0,98 wartości  02,02  19,679 i
 02,98  2,532 . Tablica pomocnicza do wyznaczenia s 2
x1
xi  x
( xi  x ) 2
10,9
10,75
11,25
12,30
11,25
9,0
11,3
10,75
12,25
11,2
-0,195
-0,345
0,155
1,205
0,155
-2,095
0,205
-0,345
1,155
0,105
0,038025
0,119025
0,024025
1,452025
0,024025
4,389025
0,042025
0,119025
1,334025
0,011025
7,55222
x
110,95
 11,095
10
s2 
7,55222
 0,755
10
Przedział ufności ma postać następującą :
10  0,755
10  0,755
 2 
19,679
2,532
0,384   2  2,982
Przedział liczbowy ( 0,384 ; 2,982 ) obejmuje z prawdopodobieństwem 1- =0,96
nieznaną wariancję oprocentowania rocznych lokat złotowych wszystkich banków
działających na Podkarpaciu.
Weryfikacja hipotez statystycznych
Hipoteza statystyczna jest założeniem badawczym , sformułowanym przez użytkownika,
które dotyczy:
1. poziomu nieznanych parametrów w populacji generalnej ( hipotezy parametryczne
)
2. kształtu rozkładów teoretycznych dla obserwowanych zmiennych losowych (
hipotezy nieparametryczne )
Złożenia badawcze , zwane parametrycznymi lub nieparametrycznymi hipotezami
statystycznymi są formułowane w równoległych i nierozłącznych postaciach, a mianowicie
jako :
 hipoteza zerowa ( H 0 ), przez którą należy rozumieć sformułowanie

założenia o braku jakiejkolwiek różnicy pomiędzy ocenami z prób losowych
a parametrami lub rozkładami w populacji generalnej
hipotezy alternatywne ( H 1 ) , które są wszystkimi pozostałymi i możliwymi
założeniami, poza sformułowaną hipotezą zerową
Hipotezy alternatywne mogą być sformułowane względem hipotezy zerowej
 dwustronnie i wtedy H 1  H 0


H1  H 0
prawostronnie i wtedy H 1  H 0
lewostronnie i wtedy
Stopień sformułowania hipotezy alternatywnej względem hipotezy zerowej ma wpływ na
stopień jednoznaczności podejmowanych decyzji weryfikacyjnych.
Metody weryfikacji hipotez są skierowane wyłącznie na sprawdzenie hipotez zerowych.
Hipotezy zerowe
Hipoteza zerowa
( H0)
Prawdziwa
Fałszywa
, decyzje weryfikacyjne oraz błędy i ich prawdopodobieństwa
Odrzucenie
Przyjęcie
H0
H0
Błąd I – rodzaju (BI) Decyzja bezbłędna
P(BI) = , 0<<1
Decyzja bezbłędna
Błąd II rodzaju (
BII)
P(BII )= ,   
Błąd I rodzaju polega na odrzuceniu sądu prawdziwego , a ryzyko popełnienia błędu
mierzone prawdopodobieństwem nazywa się poziomem istotności i wynosi .
Przyjęcie hipotezy, gdy w rzeczywistości jest ona fałszywa, prowadzi do błędu II rodzaju,
a ryzyko popełnienia błędu wynosi .
Prawdopodobieństwo 1- nazywa się mocą test i jest miarą ryzyka odrzucenia
sprawdzanej hipotezy, a więc H0 , gdy prawdziwa jest H1.
W praktyce dąży się do minimalizacji obydwu błędów. Nie jest to możliwe, bo dla danej
liczebności próby n ,zmniejszenie  spowoduje wzrost . Okazuje się ,że nie można
zbudować testu ( reguły postępowania ) , który dla danego n minimalizowałby
jednocześnie  i . Ponieważ ustalenie  jest łatwiejsze , obszar krytyczny K powinien być
tak ustalony, aby prawdopodobieństwo zdarzenia
Weryfikacja hipotez statystycznych
Podstawowe pojęcia
Hipoteza statystyczna
- Założenie dotyczące wartości parametru lub rodzaju rozkładu
zmiennej w zbiorowości generalnej.
Hipoteza zerowa ( H0 ) - Hipoteza formułowana często w testach istotności w taki
sposób ,
aby na podstawie wyników próby mogła być odrzucona ( wbrew zdrowemu
rozsądkowi ), tak aby można było ją łatwo odrzucić. Na przykład stawiamy H 0 :    0
( hipoteza prosta ) . Częściej jednak chodzi o zapis
złożone ).
H 0 :    0 lub H 0 :    0 ( hipotezy
Hipoteza alternatywna ( H1 ) - Hipoteza odnośnie której przypuszczamy , że jest
prawdziwa ( zgodnie ze zdrowym rozsądkiem ). Jeżeli H0 zostanie odrzucona , wówczas
przyjmujemy H1, w przeciwnym przypadku nie mamy podstaw do stwierdzenia , że
hipoteza alternatywna jest prawdziwa, np. dla nieznanej średniej zbiorowości generalnej
.
Błąd I rodzaju () - Jeśli hipoteza zerowa w rzeczywistości jest prawdziwa ( choć tego
nie wiemy ) , ale na podstawie wyników hipotezę tę odrzucamy, to popełniamy błąd I
rodzaju .
Błąd II rodzaju () - Jeśli hipoteza zerowa w rzeczywistości jest fałszywa ( choć tego nie
wiemy ), ale na podstawie wyników z próby nie mamy podstaw do jej odrzucenia ( co w
praktyce oznacza jej akceptację , czyli przyjęcie ) to wówczas popełniamy błąd II
rodzaju.
Sprawdzian testu ( statystyka testu ) – zmienna losowa o określonym rozkładzie z próby
( najczęściej normalnym , t-Studenta lub chi – kwadrat ), której wartość wpada lub nie
do obszaru odrzucenia hipotezy zerowej ( H 0 ) , w zależności od tego , jaka będzie
krytyczna wartość testu .
Wartość krytyczna testu - Wartość zmiennej losowej o określonym rozkładzie (
najczęściej normalnym , t- Studenta lub chi – kwadrat ) , która przy danym  ( poziomie
istotności ) jest porównywalna z wartością statystyki testu dla potrzeb ustalenia , czy H 0
może być odrzucona czy też nie .
Zbiór krytyczny - Zbiór takich wartości sprawdzianu testu , które przemawiają za
odrzuceniem H0.
Poziom istotności - Maksymalne prawdopodobieństwo popełnienia błędu I rodzaju , na
które godzi się badacz przeprowadzający test statystyczny .Zazwyczaj jest ono małe i
przyjmuje wartości 0,01 ; 0,02 ; 0,05 ; lub 0,10 .
Test jednostronny - Sytuacja , w której zbiór krytyczny hipotezy zerowej znajduje się
tylko na lewo lub tylko na prawo od wartości oczekiwanej danej zmiennej losowej. Zbiór
krytyczny testu usytuowany jest zatem po jednej stronie wartości oczekiwanej.
Test dwustronny
- Sytuacja , w której zbiór krytyczny hipotezy zerowej umieszczony
jest symetrycznie na lewo i na prawo od wartości oczekiwanej danej statystyki testu.
Wybór rodzaju testu - Zbiór krytyczny testu , jeśli to możliwe, powinno się wyznaczyć w
taki sposób , aby przy ustalonym prawdopodobieństwie popełnienia błędu I rodzaju
minimalizować prawdopodobieństwo  ( popełnienia błędu II rodzaju ).
Moc testu - Prawdopodobieństwo odrzucenia hipotezy zerowej H0 , gdy hipoteza
alternatywna H1 jest prawdziwa. Moc testu oznaczony jest przez M=1-.
Wykres mocy testu - wykres prawdopodobieństwa odrzucenia hipotezy zerowej dla
wszystkich możliwych wartości nieznanego parametru zbiorowości generalnej.
Wartość p – minimalna wartość  , dla której H0 może być odrzucona na podstawie
wyników próby Hipoteza zerowa powinna być odrzucona tylko wtedy , gdy wartość p jest
mniejsza od przyjętego dla danego testu poziomu istotności ( H0 odrzucamy , gdy
wartość
p <  ) . Wartość p często jest nazywana obserwowalnym poziomem
istotności . Jest to miara oceniająca , na ile wyniki z próby skłaniają do założenia
prawdziwości hipotezy zerowej. Im mniejsze p , tym jest to mniej prawdopodobne.
Uwaga ! – Komputerowy poziom istotności lub poziom prawdopodobieństwa jest w
pakiecie Statistica oznaczony jako p. Jeżeli >p , to na danym poziomie  odrzucamy
hipotezę zerową , natomiast gdy  < p , to na danym poziomie istotności  nie ma
podstaw do odrzucenia hipotezy zerowej.
Hipoteza parametryczna – założenie odnoszące się do nieznanego poziomu parametru
( parametrów ) zbiorowości generalnej.
Hipoteza nieparametryczna – założenia odnoszące się do nieznanej postaci rozkładu
zmiennej losowej w zbiorowości generalnej ( czasami dotyczy to równań nieznanych
wartości parametrów tego rozkładu ).
Standardowa procedura testu istotności – jest to sposób weryfikacji hipotezy
statystycznej składający się z następujących po sobie czynności :
 przyjęcie określonego poziomu istotności 
 sformułowanie hipotezy zerowej H0
 sformułowanie hipotezy alternatywnej ( w zależności od H1 test może być
jednostronny lub dwustronny )
 ustalenie sprawdzianu testu ( statystyki ) i jego wartości na podstawie dostępnych
informacji o zbiorowości generalnej i próbie
 odczytanie wartości krytycznej sprawdzianu testu ( głównie z tablic rozkładu
normalnego , t- Studenta lub chi – kwadrat ) przy danym poziomie  i
informacjach pochodzących z próby losowej
 ustalenie obszaru odrzucenia ( krytycznego ) H0 przy danym  ( obszar ten może
być jednostronny lub dwustronny )
 podjęcie decyzji o odrzuceniu lub brak podstaw do odrzucenia hipotezy zerowej (
na podstawie porównania wartości statystyki testu z wartością krytyczną )
 porównanie wartości p z 
Test dla wartości średniej
Załóżmy , że cecha X posiada w populacji rozkład N(  ,  ) i parametry tego rozkładu nie
są znane. W postępowaniu weryfikacyjnym
H 0 :    0 , gdy nieznana jest wartość
drugiego parametru , tzn.  , należy wyróżnić dwa przypadki :
1. wykorzystuje się statystykę Zn , której dokładny rozkład w określonych
warunkach jest znany. W tym przypadku mamy do czynienia z małą próbą.
2. wykorzystuje się statystykę Zn, której znany jest rozkład graniczny
( asymptotyczny ). Przypadek ten dotyczy dużych prób , tzn. gdy n  
W przypadku pierwszym – formułujemy hipotezy :
( albo
H 0 :    0 wobec H 1 :    0
H1 :    0 , albo H1 :    0 )
Pobieramy próbę losową prostą liczącą n jednostek. Jeżeli próba jest mała , w praktyce
n<30 , to do weryfikacji hipotezy H0 , wykorzystuje się statystykę :
t
X  0
Sˆ
n
X  0
S
n 1
Statystyka t ma rozkład t- Studenta o v=n-1 stopniach swobody wtedy , gdy prawdziwa
jest hipoteza zerowa . W celu podjęcia decyzji względem H0, z tablic rozkładu t- Studenta
odczytujemy wartość krytyczną t,v spełniającą warunek:
P( t  t ,v )  
gdzie :

- ustalony z góry poziom istotności
Zbiór wartości (,t ,v    t ,v ,) jest obszarem ( zbiorem ) krytycznym. Wiadomo,
że dla danego , n , Zn zbiór krytyczny K określa także postać hipotezy alternatywnej .
Jeżeli hipoteza konkurencyjna jest postaci :
H1 :    0 , to obszar krytyczny wyznaczony z równości P(t  t ,v )  
natomiast dla hipotezy
H1 :    0 , zbiór krytyczny określa równość P(t  t ,v )  
W każdym rozważanym przypadku liczba stopni swobody v wynosi n-1 . Jeżeli obliczona
wartość statystyki testu t znajdzie się w zbiorze krytycznym K , to hipotezę H 0 odrzucamy
z prawdopodobieństwem  i przyjmujemy hipotezę alternatywną. Gdy stwierdzimy, że
wartość statystyki testu nie znajduje się w obszarze krytycznym ( jej wartość należy do
zbioru dopuszczalnego ), wstrzymamy się od podjęcia decyzji mówiąc, że nie ma podstaw
do odrzucenia H0 na poziomie istotności  .
Test dla dwóch średnich
Rozważane są dwie zbiorowości , każda ze względu na pewną wybraną zmienną X.
Zakłada się , że badana cecha w każdej z tych zbiorowości ma rozkład normalny
odpowiednio o parametrach 1 ,  1 - w pierwszej zbiorowości oraz  2 ,  2 - w drugiej
zbiorowości. W celu sprawdzenia hipotezy :
być
1   2
lub
H 0 : 1   2 wobec
H1 : 1   2 ( może
1   2 ) pobiera się niezależnie z każdej z tych zbiorowości próby proste
o liczebności odpowiednio równej n1 i n2. Jeżeli
n1  n2  30 , to dla zweryfikowania H 0
wykorzystuje się statystykę :
t
X1  X 2
n1 * S12  n2 * S 22
n1  n2  2
1
1
  
 n1 n2 
Statystyka ta ma rozkład t- Studenta o
v  n1  n2  2 stopniach swobody wówczas, gdy
prawdziwa jest H0 oraz wariancje badanej zmiennej w obu populacjach są równe
( 1
2
  22 )
W przypadku gdy
n1  n2  30 , w celu weryfikacji rozważanej H0 wykorzystuje się
statystykę o następującej postaci :
u
X1  X 2
S12 S 22

n1 n2
Statystyka ta ma graniczny rozkład normalny , czyli opierając się na rozkładzie N(0,1)
określa się krytyczny i dopuszczalny zbiór wartości rozważanej statystyki.
Test dla wariancji
Chcemy sprawdzić hipotezę , że wariancja w populacji , w której badana cecha ma
rozkład normalny N(
konkurencyjna
 ,  ), jest równe liczbie  02 . Najczęściej w praktyce hipoteza
( alternatywna ) głosi , że wariancja jest większa od
hipotezy możemy zapisać następująco : H 0 : 
W celu sprawdzenia hipotezy
2
 02 . Sformułowane
  02 wobec H 1 :  2   02 .
H 0 pobieramy próbę prostą losową liczącą n jednostek i
wykorzystujemy statystykę o postaci :
n
2 
(X
i 1
i
 X )2

nS 2
 02
 02
2
2
Statystyka  ma rozkład  ( chi – kwadrat ) o v=n-1 stopniach swobody, gdy
prawdziwa jest H0. Zbiór wartości krytycznych testu wyznacza się z relacji
P(  2  2,v )  . Jeżeli wartość statystyki testu znajdzie się w obszarze krytycznym
  2,v , ), to z prawdopodobieństwem  odrzucamy hipotezę H 0 . W przeciwnym
wypadku wstrzymujemy się od podjęcia decyzji.
W przypadku , gdy rozważana jest duża próba, to wykorzystuje się statystykę u Fishera o
postaci : u 
2  2  2v  1 . Statystyka ta ma graniczny rozkład N ( 0,1 ) wówczas ,
gdy prawdziwa jest H0.
Test dla dwóch wariancji
N ( 2 ,  2 ) . Żaden z tych
2
2
parametrów nie jest znany. Należy sprawdzić hipotezę H 0 :  1   2 wobec hipotezy
Badamy dwie populacje o rozkładzie normalnym N( 1 ,  1 ) i
H1 :  12   22 .
Do weryfikacji hipotezy H 0 , że wariancje w obu populacjach są identyczne , używa się
alternatywnej
S12 oraz S 22 obliczanych z dwóch niezależnych prób prostych o liczebności ,
odpowiednio , n1 oraz n 2 .
wariancji
Jeżeli prawdziwa jest hipoteza zerowa , tzn.
F-Snedecora ( lub krótko rozkład F )
swobody, przy czym
2
1
z
 12   22 , to zmienna F 
v1  n1  1 oraz
S12
ma rozkład
S 22
v2  n2  1 stopniami
2
2
S i S są estymatorami wariancji z niezależnych prób prostych
pobranych ze zbiorowości o rozkładzie normalnym. Relacja wyznaczająca prawostronny
obszar krytyczny jest postaci P( F  F )   , gdzie wartość krytyczną F odczytujemy z
v1  n1  1 i v2  n2  1 stopni swobody. Jeżeli
powyższa relacja jest spełniona , należy hipotezę H 0 odrzucić . W przeciwnym
przypadku nie ma podstaw do odrzucenia H 0 o identyczności wariancji w obu
tablic rozkładu F-Snedecora , dla
populacjach.
Gdy sprawdzeniu podlega hipoteza H o :  1   2 wobec
2
2
H1 :  12   22 , wówczas statystykę
F oblicza się , umieszczając w liczniku większą z wariancji z obu prób, nawet jeśli
pochodzi ona z populacji oznaczonej numerem 2 .
Test dla wskaźnika struktury
Niech populacja generalna ma rozkład dwupunktowy z parametrem p oznaczającym
prawdopodobieństwo , że badana zmienna X w populacji przyjmie wyróżnioną wartość.
Parametr p ( )<p<1 ) można interpretować jako frakcję elementów populacji mających tę
wartość określaną często w literaturze wskaźnikiem struktury w populacji.
Załóżmy dalej , że dla takiej populacji chcemy zweryfikować hipotezę zerową , że
parametr p w populacji ma określoną wartość p 0 . Hipoteza zerowa jest postaci
H 0 : p  p0 Sprawdzianem tej hipotezy jest wskaźnik struktury z dużej próby n –
elementowej ( n  100)
zdefiniowany jako :
pˆ 
m
n
(1)
gdzie m oznacza liczbę wyróżnionych elementów w próbie i jest realizacją zmiennej
losowej X o rozkładzie dwupunktowym.



Statystyka ( 1 ) ma asymptotyczny ( graniczny ) rozkład normalny N  p,
Jeżeli hipoteza zerowa jest prawdziwa , tzn. jeśli



ma asymptotyczny rozkład normalny N  p 0 ,
u
pˆ  p 0
p 0 (1  p 0 )
n

p(1  p) 
.

n

p  p0 , to wskaźnik struktury z próby
p 0 (1  p 0 ) 
 i statystyka :

n

m
 p0
n
p 0 (1  p 0 )
n
ma asymptotyczny ( w przybliżeniu ) rozkład normalny N( 0,1 ), przy czym m oznacza
liczbę jednostek o wyróżnionej wartości cechy w n – elementowej próbie . Obszar
krytyczny w tym teście jest określony relacją
istotności , a
P( u  u )   , gdzie  jest poziomem
u - wartością krytyczną.
Sposób weryfikacji przebiega w podobny sposób jak poprzednio. Można konstruować
również jednostronne obszary krytyczne w zależności od sformułowania hipotezy
alternatywnej.
Test dla dwóch wskaźników struktury
Niech badana cecha X w dwóch populacjach ma rozkład dwupunktowy z parametrami
p1
i
p 2 . Formułujemy hipotezę , że oba te parametry są identyczne . Hipotezę zerową
możemy zapisać w sposób następujący : H 0 : p1  p 2 a hipotezę alternatywną
H1 : p1  p2 albo H1 : p1  p2 lub H1 : p1  p2 . W celu weryfikacji hipotezy zerowej z
m
obu populacji wylosowano próby proste o liczebności n1 , n2  100 jednostek. Niech 1
n1
m2
oraz
oznaczają wskaźniki struktury odpowiednio z pierwszej i drugiej próby . Różnica
n2
tych wskaźników struktury ma asymptotyczny rozkład :

N  p1  p 2 ,

p1 (1  p1 ) p 2 (1  p 2 ) 



n1
n2

Jeśli prawdziwa jest hipoteza zerowa ( H 0
u
: p1  p 2 ), to statystyka :
m1 m2

n1 n 2
pq
n
ma rozkład asymptotycznie normalny N ( 0,1 ) , We wzorze tym
odpowiednio próby pierwszej i drugiej ,
n1 i n 2 są liczebnościami
m1 i m2 są liczbą elementów wyróżnionych
odpowiednio w próbie pierwszej i drugiej , natomiast :
m1  m2
,
n1  n2
p
q  1 p ,
n
n1 * n2
n1  n2
Parametryczne testy istotności – Przykłady
-
test dla wartości średniej
Przykład 1. W celu sprawdzenia opinii, że średnie spożycie masła w czerwcu 2001 roku w
rodzinach dwuosobowych wynosiło 1 kg , wybrano 300 rodzin dwuosobowych. Na
podstawie uzyskanych informacji obliczono x  1,123 kg oraz s  0,139 kg . Przyjmijmy,
że spożycie masła w populacji badanych rodzin ma skończoną wariancję i średnią .
Sprawdźmy zatem H 0 :   1kg wobec H1 :   1kg. Na podstawie charakterystyk z
próby należy obliczyć wartość statystyki u , która wynosi :
u
1,123  1,00
300  16,3268
0,139
Ustalając  =0,05 , odczytujemy z tablic dystrybuanty rozkładu normalnego u 0 , 05  1,96 ,
przy czym
u spełnia relację P( u  u )  0,05 . Ponieważ wartość 16,3268 znalazła się w
zbiorze krytycznym , sprawdzaną hipotezę
=0,05 . Przyjmujemy więc
H 0 należy odrzucić na poziomie istotności
H 1 głoszącą , że przeciętne spożycie masła w czerwcu 1992
roku w populacji badanych rodzin różniło się od wartości hipotetycznej wynoszącej 1 kg.
-
test dla dwóch średnich
Przykład 2. W celu sprawdzenia przypuszczenia , że dzienne wydatki na pieczywo na
osobę w rodzinach trzyosobowych w Rzeszowie są takie same jak w Łańcucie .
Wylosowano z Rzeszowa 12 rodzin , a z Łańcuta 6. Zebrano odpowiednie informacje o
wydatkach na pieczywo w listopadzie 2001 roku . Na podstawie zebranych danych
obliczono dla :
Rzeszowa
x1  2,51 zł
sˆ1  0,38 zł
Łańcuta
x2  2,33 zł
sˆ2  0,58 zł
Przyjmuje się , że dzienne wydatki na pieczywo na osobę w rodzinach trzyosobowych w
Rzeszowie i Łańcucie mają rozkład normalny o takiej samej wariancji.
Hipoteza zerowa jest następująca :
H 0 : 1   2 a alternatywna H1 : 1   2
Obliczona wartość statystyki zgodnie z wzorem
t
X1  X 2
n1 * S  n2 * S  1
1
  
n1  n2  2  n1 n2 
2
1
wynosi
2
2
t=0,796284. Z tablic rozkładu t-Studenta dla v=12 + 6 –2 stopni swobody i przyjętego
poziomu istotności =0,05 , wartość krytyczna t 0, 05,16  2,120 . Zatem nie ma podstaw
do odrzucenia H0 głoszącej , że średnie dzienne wydatki na pieczywo na osobę w
rodzinach trzyosobowych Rzeszowa i Łańcuta są równe.
Test dla wskaźnika struktury - Przykład 3. W celu sprawdzenia przypuszczenia , że 30 %
dorosłych ludzi w Polsce popiera obecne reformy , wybrano losowo 1200 dorosłych osób i
zapytano je o akceptację aktualnych reform. Wśród wylosowanych 362 osoby wyraziły
poparcie dla reform. Czy uzyskane wyniki potwierdzają nasze przypuszczenie ? Aby
udzielić odpowiedzi na pytanie , formułujemy następujące hipotezy : H o : p  0,3 oraz
H1 : p  0,3 , a następnie obliczamy wartość statystyki u , zgodnie z wzorem
m
 p0
pˆ  p 0
n
, i otrzymujemy :
u

p 0 (1  p 0 )
p 0 (1  p 0 )
n
n
362
 0,3
1200
u
 0,126
0,3 * 0,7
1200
Przyjmując
  0,06 , odczytujemy z tablic rozkładu normalnego wartość krytyczną
u 0, 06  1,881. Ponieważ wartość u =0,126 znajduje się w obszarze dopuszczalnym , nie
mamy podstaw od odrzucenia sądu , że 30 % dorosłych osób w Polsce popiera aktualne
reformy ( na poziomie istotności =0,06 )
Testy nieparametryczne
Sprawdzanie hipotezy na podstawie testu zgodności
2
Populacja generalna ma dowolny rozkład o dystrybuancie należącej do zbioru rozkładów o
określonym typie postaci funkcyjnej dystrybuanty. Mogą to być dystrybuanty typu
ciągłego i skokowego. Z populacji tej losujemy niezależnie dużą próbę , a wyniki
losowania dzielimy na r rozłącznych klas o liczebności n i w każdej klasie , przy czym
n
i
 n Podział na klasy tworzy tzw. Rozkład empiryczny . Na podstawie wyników próby
stawiamy hipotezę , że dystrybuanta populacji należy do klasy określonych dystrybuant,
którą będziemy oznaczać przez  ; tzn. H 0 : F ( x)   , gdzie F ( x ) jest dystrybuantą
rozkładu populacji. Porównanie dystrybuanty F ( x) z dystrybuantą empiryczną daje
możliwość weryfikacji postawionej hipotezy. Test zgodności dla tej hipotezy jest
następujący : z hipotetycznego rozkładu należącego do poszczególnych klas wartości
badanej cechy x prawdopodobieństwa pi, że zmienna losowa x o rozkładzie  przyjmie
wartości należące do klasy o numerze i
( i=1,2,3,...,m ) . Z kolei mnożąc p i

przez liczebność całej próby , otrzymujemy liczebności teoretyczne ni  npi , które
wystąpią w poszczególnych klasach , jeżeli postawiona hipoteza H0 jest prawdziwa.
Statystyką weryfikującą H0 jest hipoteza
r
2  
i 1
2:
(ni  npi ) 2
npi
która ma przy słuszności założenia H0 rozkład asymptotyczny
2
o r-1 stopniach
swobody , lub r-1-k stopniach swobody ( r – jest liczbą klas , k – liczbą parametrów ,
które wyznaczamy dla funkcji należącej do  ). Obszar krytyczny w tym teście buduje
 2 . Z tablic rozkładu , dla ustalonego z
2
 , odczytujemy wartość krytyczną   , by zachodziło
się prawostronnie w oparciu o rozkład statystyki
góry poziomu istotności
2
P(  2   2 )   . Jeżeli  emp
 2 , to H0
podstaw do odrzucenia hipotezy.
należy odrzucić , jeżeli
2
2
 emp
.    , to nie ma
Przykład 4 Losowa próba n=200 niezależnych obserwacji miesięcznych wydatków na
żywność rodzin trzyosobowych dała następujący rozkład tych wydatków ( w tys. zł)
Wydatki
1,0 - 1,4
1,4 - 1,8
1,8 – 2,2
2,2 – 2,6
2,6 – 3,0
Liczba rodzin
15
45
70
50
20
Na poziomie istotności =0,05 należy zweryfikować hipotezę ,że rozkład wydatków jest
normalny.
H 0 : F ( x)   , gdzie  jest klasą wszystkich
dystrybuant normalnych. Dwa parametry rozkładu tej dystrybuanty , średnią  i
odchylenie standardowe  , szacujemy z próby za pomocą estymatorów x  2,0 tys. zł . ,
Rozwiązanie Stawiamy hipotezę
s=0,43 tys. zł – są one potrzebne do standaryzacji . Pozostałe obliczenia znajduję się w
tablicy
xi
ni
ui
F(ui)
pi
npi
(ni-npi)2
(ni-npi)2/npi
1,4
15
-1,39
0,082
0,082
16,4
1,96
0,12
1,8
45
-1,46
0,323
0,241
48,2
10,24
0,21
2,2
70
0,46
0,677
0,354
70,8
0,64
0,01
2,6
50
1,39
0,918
0,241
48,2
3,24
0,07
3,0
20
2,32
1,00
0,082
16,4
12,96
0,79
200
1,000
200
1,20
Odpowiednia liczba stopni swobody wynosi 5-1-2=2. Z tablic rozkładu
 2 dla dwóch
stopni swobody i dla przyjętego poziomu istotności =0,05 odczytujemy wartość
krytyczną
2
 02,05  5,991 . Mamy  emp
 1,20  5,991   02,05
, nie ma podstaw do
odrzucenia hipotezy , że rozkład miesięcznych wydatków w populacji rodzin
trzyosobowych jest normalny.
Test zgodności - Kołmogorowa
Test zgodności Kołmogorowa jest mniej pracochłonny niż test
 2 , ale mniej
wszechstronny. Stosuje się go jedynie do weryfikacji hipotez , że populacja ma rozkład
ciągły .W teście tym porównuje się dystrybuantę empiryczną z hipotetyczną. Na
podstawie analizy różnic między wymienionymi dystrybuantami buduje się statystykę :
D n
gdzie D  sup Fn ( x)  F ( x)
x
Z tablic - Kołmogorowa , dla odpowiednich , wartości , które wykorzystujemy do
konstrukcji obszaru krytycznego .
Test - Kołmogorowa służy do weryfikacji następujących hipotez :
1. pewna wylosowana próba zmiennej losowej ma rozkład ciągły o dystrybuancie
F0 ( x) ; na podstawie wyników tej próby należy zweryfikować hipotezę
H 0 : F ( x)  F0 ( x) , gdzie F0 ( x) jest hipotetyczną i ciągłą dystrybuantą ,
2. na podstawie dwu losowo pobranych prób sprawdzić hipotezę , że obie próby
pochodzą z tej samej populacji , tzn. hipotezę H 0 : F1 ( x)  F2 ( x)
Test istotności dla hipotezy
H 0 : F ( x)  F0 ( x) jest następujący :
1. Wyniki próby porządkujemy według rosnącej kolejności zmiennej x i z
odpowiadającymi jej liczebnościami ni
2. Wyznaczamy dla każdego xi wartość empirycznej dystrybuanty Fn (x) , gdzie
Fn ( x) 
n
ik
i
n
3. Z rozkładu hipotetycznego wyznaczamy dla każdej wartości xi wartość
hipotetycznej dystrybuanty F (x)
4. Obliczamy bezwzględną wartość różnicy
Fn ( x)  F ( x) , tzn. różnicę między
dystrybuantą empiryczną a hipotetyczną
5. Obliczamy wartość statystyki :
D  sup Fn ( x)  F ( x)
x
oraz wartość statystyki :
D n
6. Dla ustalonego poziomu istotności  budujemy obszar krytyczny statystyki  i
weryfikujemy hipotezę .
Przykład 5 Zbadano losowo wybranych studentów ze względu na wysokość
wydatków przeznaczonych na sport i turystykę w skali rocznej i otrzymano
następujące wyniki ( w setkach zł )
Wydatki
Liczba studentów
29,5 – 30 ,5
12
30,5 – 31,5
23
31,5 – 32,5
35
32,5 – 33,5
62
33,5 – 34,5
44
34,5 – 35,5
18
35,5 – 36,5
6
Na poziomie istotności =0,05 zweryfikować hipotezę , że rozkład wydatków na
sport i turystykę w grupie studentów jest rozkładem normalnym.
Rozwiązanie : Weryfikujemy hipotezę H 0 : F ( x)  F0 ( x) gdzie F0 ( x) jest
dystrybuantą rozkładu normalnego N (  ,  ) . Z próby obliczamy oszacowania obu
parametrów rozkładu normalnego , otrzymując x  32,9 oraz s  1,4 . Ponieważ
próba jest duża , wartości te przyjmujemy jako estymatory
 i  . Obliczenia
konieczne do znalezienia wartości empirycznej i teoretycznej dystrybuanty zostały
zamieszczone w poniższej tablicy
xj
uj
F(uj ) = F(x) nj
Fn(x)
n
F ( x)  F ( x)

j k
30 ,5
31,5
32,5
33,5
34,5
35,5
36,5
-1,71
-1,00
-0,29
0,43
1,14
1,86
2,57
0,044
0,159
0,386
0,666
0,873
0,969
0,005
Otrzymaliśmy zatem D=0,036 . Ponieważ
12
23
35
62
44
18
6
12
35
70
132
176
194
200
j
n
0,060
0,175
0,350
0,660
0,880
0,970
1,00
0,016
0,016
0,036
0,006
0,007
0,001
0,005
n  14,14 wartość empiryczna
statystyki  - Kołmogorowa wynosi 0,509. Z tablicy rozkładu - Kołmogorowa (
granicznego ) odczytujemy dla przyjętego poziomu istotności 0,05 krytyczną
wartość , która wynosi 1,358. . Nie ma podstaw do odrzucenia hipotezy zerowej ,
że rozkład wydatków jest rozkładem normalnym .
Analiza korelacji i regresji .
Korelacja jest to współzależność , czyli wzajemne oddziaływanie lub współwystępowanie
dwóch zjawisk lub cech tej samej zbiorowości .
Celem analizy współzależności jest stwierdzenie , czy między badanymi zmiennymi
zachodzą jakieś zależności , jaka jest ich siła , kształt i kierunek.
Współzależność między zmiennymi może być :
1. funkcyjna
2. stochastyczna ( probabilistyczna)
Zależność funkcyjna – określonej wartości jednej zmiennej ( X – niezależnej –
objaśniającej ) , odpowiada jedna i tylko jedna wartość drugiej zmiennej ( Y – zależna –
objaśniana ). Zależność funkcyjna ( dokładna ) występuje w naukach przyrodniczych ,
natomiast w naukach społecznych mamy do czynienia z zależnością stochastyczną .
Zależność stochastyczna ( probabilistyczna ) – wraz ze zmianą jednej zmiennej , zmienia
się rozkład prawdopodobieństwa drugiej zmiennej . Szczególnym przypadkiem tej
zależności jest zależność korelacyjna ( statystyczna ) Polega na tym , że określonym
wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej
zmiennej .
Statystyczny opis współzależności może mieć :
 Formę tabelaryczną ( szeregi lub tablice )
 Graficzną ( diagram korelacyjny )
 Parametryczną w postaci odpowiedniej charakterystyki liczbowej.
Badanie współzależności dwóch cech ilościowych ( mierzalnych ) można przeprowadzić za
pomocą tzw. analizy regresji prostej , która służy do określenia relacji między zmienną
zależną i zmienną niezależną ( lub odwrotnie ) .
Korelacja między cechami mierzalnymi nosi nazwę kontyngencji , a tablice prezentujące
takie dane noszą nazwę tablic kontyngencyjnych . Dla potrzeb wykazania zależności w
tablicach kontygencyjnych stosuje się test niezależności
 2 . Test niezależności  2 ,
znajduje zastosowanie zarówno dla korelacji cech mierzalnych jak i niemierzalnych .
Jeśli zbiorowość jest liczna , to wyniki obserwacji dwóch cech grupujemy w tablicy
kombinowanej zwanej tablicą korelacyjną .
Tablica przedstawia rozkład dwuwymiarowy czyli łączy rozkład zbiorowości według
dwóch cech .
Y=yj
X=xi
x1
x2
.
.
.
xi
.
.
.
xk
n.j
y1
y2
…
yj
…
yl
ni .
n11
n21
.
.
.
ni1
.
.
.
nk1
n.1
n12
n22
.
.
.
ni2
.
.
.
nk 2
n.2
...
...
...
...
...
...
...
...
...
...
...
n1j
n2 j
.
.
.
nij
.
.
.
nk j
n.j
...
...
...
...
...
...
...
...
...
...
...
n1 l
n2l
.
.
.
nil
.
.
.
nk l
n.l
n1.
n2.
.
.
.
ni .
.
.
.
nk .
n
W boczku tablicy znajdują się warianty cechy X=xi ( i = 1,2,...,k ), w główce tablicy
znajdują się warianty cechy Y=yj ( j= 1,2, ..., l ). W polach na przecięciu wierszy i
kolumn są umieszczone liczebności nij , oznaczające liczbę jednostek badanej
zbiorowości posiadających i-ty wariant cechy X oraz j-ty wariant cechy Y. Suma
liczebności zapisana w ostatnim wierszu ( n . j ) odnosi się do wariantów cechy Y ,
natomiast suma w ostatniej kolumnie ( n i . ) dotyczy wariantów cechy X.
k
Zachodzi równość :
l
l
k
j 1
i 1
 nij   n. j   ni.  n ,
i 1 j 1
gdzie
n oznacza ogólną liczebność
badanej zbiorowości .
W tablicy korelacyjnej wyróżniamy rozkłady brzegowe i rozkłady warunkowe.
Rozkłady brzegowe pokazują rozłożenie obserwacji ( liczebności ) oddzielnie dla każdej z
obu cech . W ostatniej kolumnie znajduje się rozkład brzegowy zmiennej X , natomiast w
ostatnim wierszu – rozkład brzegowy zmiennej Y. Podstawowymi charakterystykami tych
rozkładów są średnie arytmetyczne i wariancje , które obliczamy jako parametry
ważone według wzorów :
k
x
k
 x i ni .
i 1
s ( x) 
i 1
2
,
n
 ( x i  x ) 2 ni .
n
l
l
y
 y j n. j
j 1
s 2 ( y) 
,
n
(y
j 1
k

x
i 1
2
i
l
 y ) n. j
n
 x2
n
2
j
ni .

y
2
j 1
n
n
j .j
 y2
Rozkłady warunkowe pokazują rozłożenie liczebności przy wartościach jednej cechy pod
warunkiem , że druga przyjmie określoną wartość . W poszczególnych kolumnach
mieszczą się zatem rozkłady warunkowe cechy X , co zapisujemy X ( Y = yj ), natomiast
w poszczególnych wierszach znajdują się rozkłady warunkowe Y , czyli Y ( X = x i ).
Średnie i wariancje rozkładów warunkowych X ( Y = yj ) obliczamy dla poszczególnych
kolumn ( j= 1, 2 ,..., l ) jako :
k
xj 
x n
i
i 1
k
n
i 1
ij
ij
k
s ( x) 
2
j
 (x
i 1
i
 x j ) 2 nij
k
n
i 1
ij
k

x
i 1
k
2
i
nij
n
i 1
 x 2j
ij
gdzie :
xi - wartość cechy X lub środki przedziałów
n ij - liczebności zawarte w j-tej kolumnie
Średnie i wariancje rozkładów warunkowych Y ( X = xi ) obliczamy dla poszczególnych
wierszy ( i=1,2,...,k ) jako :
l
yj 
y n
j
j 1
ij
l
n
j 1
ij
l
s ( y) 
2
i
 ( y j  yi ) 2 nij
j 1
l
n
j 1
gdzie :
ij
l

y
j 1
2
j
nij
 y i2
l
n
j 1
ij
y j - wartości cechy Y lub środki przedziałów ;
n ij - liczebności zawarte w i- tym wierszu
Średnie i wariancje rozkładów warunkowych pozwalają określić rodzaj związku między
badanymi zmiennymi. Rodzaje związku między zmiennymi to :
 Niezależność stochastyczna między zmienny istnieje wtedy , gdy zmieniającym się
wartościom jednej cechy towarzyszą takie same rozkłady warunkowe drugiej
cechy , co wyraża się równością parametrów rozkładów warunkowych cechy X i
cechy Y.
 Związek stochastyczny między zmiennymi istnieje wtedy , gdy zmieniającym się
wartością jednej cechy towarzyszą istotnie różne rozkłady warunkowe drugiej
cechy .
 Związek korelacyjny ( statystyczny ),– związek korelacyjny istnieje , jeżeli
zmieniającym się wartościom jednej cechy towarzyszą zmiany średnich
warunkowych drugiej.
Jeżeli zmiany te mają zgodny kierunek , tzn. rosnącym wartościom jednej cechy
odpowiada wzrost średnich warunkowych drugiej cechy , mamy do czynienia z
korelacją dodatnią , natomiast gdy rosnącym wartościom cechy odpowiadają
malejące średnie warunkowe drugiej cechy , mówimy o korelacji ujemnej.
Przykład 1. W zbiorowości studentów II roku kierunku Informatyka i Ekonometria
AE w Katowicach , którzy przystąpili do egzaminu ze statystyki w czerwcu 2001
roku i odnotowano dwie cechy :
1. ocenę na egzaminie ze statystyki
2. liczbę punktów otrzymanych na egzaminie z matematyki
Wyniki obserwacji pogrupowano i zamieszczono w poniższej tablicy
Liczba punktów z
Ocena ze statystyki yj
matematyki xi
2
3
4
5
20 - 24
1
6
2
25 - 29
2
12
6
30 - 34
9
10
2
35 - 39
6
5
2
Razem
ni.
9
20
21
13
40 - 44
Razem n . j
3
33
4
27
1
5
5
68
Tablica przedstawia łączny rozkład liczby punktów z matematyki (X) i ocen ze statystyki
(Y), czyli rozkład dwuwymiarowy. W ostatniej kolumnie znajduje się rozkład brzegowy
punktów , czyli liczebności studentów ( n i . ) przyporządkowane poszczególnym klasom
cechy X=xi . W ostatnim wierszu znajduje się rozkład brzegowy ocen ze statystyki , czyli
liczebności studentów ( n . j ) przyporządkowane poszczególnym ocenom (Y=yj ) .
W kolumnach tablicy zawarte są rozkłady warunkowe liczby punktów X(Y=yj ) tzn. przy
założeniu , że student otrzymał konkretną oceną. W wierszach znajdują się rozkłady
warunkowe ocen Y(X=xi ) tzn. przy założeniu , że liczba punktów mieściła się w
wyodrębnionej klasie .
Należy ustalić , czy badane zmienne są stochastycznie zależne ?
Średnie warunkowe ocen ze statystyki :
y1  3,11 ; y2  3,20 ; y3  3,67 ; y4  3,69 ;
y5  4,20
Wariancje warunkowe ocen ze statystyki :
s12 ( y)  0,328 ; s22 ( y)  0,360 ; s32 ( y )  0,388 ;
s 42 ( y)  0,538 ; s52 ( y )  0,160
Średnie warunkowe punktów z matematyki :
x1  25,83 ; x2  29,77 ; x3  33,06 ;
x4  36,5
Wariancje warunkowe punktów z matematyki :
s12 ( x)  5,73 ; s 22 ( x)  24,54 ;
s 32 ( x)  31,80 ; s 42 ( x)  14,00
Analiza rozkładów warunkowych ocen ze statystyki wykazała , że zarówno średnie tych
rozkładów , jak i wariancje różnią się między sobą . Taką samą prawidłowość
stwierdzamy , analizując rozkłady warunkowe liczby punktów z matematyki . A zatem
obie badane zmienne są stochastycznie zależne .
Obserwując zmiany średnich warunkowych jednej i drugiej cechy możemy stwierdzić , że
między nimi istnieje związek korelacyjny dodatni , bowiem wzrost wartości jednej cechy
łączy się ze zwiększeniem średnich warunkowych drugiej cechy.
Gdy związek badanych cech jest liniowy , to miarą współzależności jest współczynnik
korelacji liniowej Pearsona . Jest on ilorazem miary łącznego zróżnicowania obu cech tzw.
kowariancji , oraz iloczynu odchyleń standardowych każdej z cech.
r ( xy)  r ( yx) 
cov( xy)
s ( x) s ( y )
Kowariancja jest średnią arytmetyczną iloczynem odchyleń wartości zmiennych X i Y ich
średnich , co zapiszemy dla danych w szeregach :
n
cov( xy)  cov( yx) 
dla danych w tablicy
 (x
i 1
i
 x )( yi  y )
n
k
cov( xy)  cov( yx) 
l
 ( x
i 1 j 1
i
 x )( y j  y )nij
n
Kowariancja pokazuje jedynie kierunek współzależności ( korelacja dodatnia ,
ujemna ) . Porównanie jej do iloczynu odchyleń standardowych daje miernik
unormowany , przyjmujący wartości z przedziału < -1; +1>. Znak współczynnika
korelacji informuje o kierunku związku, natomiast wartość bezwzględna o jego
sile , a zatem :
r(xy) = -1 - oznacza , że między cechami istnieje związek funkcyjny ujemny
-1 < r(xy ) <0 - oznacza , że między cechami istnieje związek korelacyjny
ujemny
r( xy ) = 0 - oznacza , że cechy są niezależne ( brak związku )
0 < r ( xy ) < 1 – oznacza , że między cechami istnieje związek korelacyjny
dodatni
r ( xy ) = 1 – świadczy o istnieniu związku funkcyjnego dodatniego
Współczynnik Pearsona oblicza się według różnie przekształconych wzorów . Przy
obliczeniach dokonanych na podstawie szeregów najczęściej stosowane są
poniższe wzory :
n
r ( xy) 
 ( xi  x )( yi  y )
i 1
ns ( x) s( y )
n
 (x

i 1
i
 x )( y i  y )
n
n
i 1
i 1
 ( xi  x ) 2  ( y i  y ) 2
gdzie :
xi - zaobserwowane wartości cechy X
yi - zaobserwowane wartości cechy Y
i  1,2,3,..., n - kolejne pary obserwacji
i xi
i yi
, y
- średnie arytmetyczne
x
n
n
s ( x) 
 (x
i
 x)2
,
i
n
s( y) 
(y
i
 y) 2
i
n
- odchylenia standardowe
Niekiedy wygodnie jest korzystać ze wzoru o postaci :
r ( xy) 
n xi y i   xi  y i
i
i
i



 n xi2  ( xi ) 2  n yi2  ( yi ) 2 
i
i
 i
 i

Współczynnik korelacji podniesiony do kwadratu
r 2 ( xy)  r 2 ( yx) nazywa się
współczynnikiem determinacji , informuje on , jaka część zmienności jednej z cech
jest wyjaśniana kształtowaniem się drugiej cechy . Z kolei dopełnienie tego
współczynnika do jedności tzw. współczynnik indeterminacji
 2 ( xy)   2 ( yx)
jest
interpretowany jako ta część zmienności jednej z cech , która nie jest wyjaśniana
przez drugą , a zatem może być spowodowana czynnikami nie ujętymi w badaniu
.
Współczynnik korelacji Pearsona jest symetryczny r ( xy)  r ( yx ) , czyli przy jego
obliczeniu nie ma potrzeby rozstrzygać , która cecha jest przyczyną , a która skutkiem .
Jeżeli chcemy interpretować współczynnik determinacji , musimy zwracać uwagę na to ,
jakie powiązanie cech jest logicznie uzasadnione .
Dla danych pogrupowanych w tablicy korelacyjnej współczynnik korelacji obliczamy jako
parametr ważony liczebnościami rozkładów warunkowych ( ni j ) . Wzór ma postać
następującą :
k
r ( xy) 
l
 ( x
i 1 j 1
i
 x )( y j  y )nij
ns ( x) s ( y )
gdzie :
xi - wartość cechy X ( i= 1,2,...,k )
y j - wartość cechy Y ( j= 1,2, ..., l )
W analizie współzależności ważnym zagadnieniem jest rozstrzygnięcie , czy korelacja
stwierdzona w próbie ma także miejsce w populacji , z której pobrano próbę . W ocenie
tego faktu może pomóc test istotności współczynnika korelacji Pearsona .
Założenia testu :
Badane zmienne ( X,Y ) populacji generalnej mają dwuwymiarowy rozkład normalny o
nieznanym współczynniku korelacji  . Z populacji tej wylosowano n – elementową
próbę na podstawie której obliczono współczynnik korelacji rxy .
Weryfikacja hipotezy zerowej :
Ho :   0
Wobec hipotezy alternatywnej :
H1 :   0
H1 :   0
lub
,
H1 :   0
Do weryfikacji hipotezy stosujemy :
test
u
rxy
1 rxy2
n
dla
n  122
lub
test
t
rxy
1  rxy2
n2
dla n < 122
Przy założeniu prawdziwości hipotezy zerowej omawiane statystyki mają odpowiednio
rozkład normalny N(0,1 ) oraz rozkład t- Studenta 0 n-1 stopniach swobody.
Funkcja regresji - to narzędzie do badania mechanizmu powiązań między zmiennymi .
Funkcja regresji to analityczny wyraz przyporządkowania średnich wartości zmiennej
zależnej konkretnym wartością zmiennej niezależnej . Wybór postaci analitycznej nie jest
problemem łatwym .Wyboru postaci analitycznej dokonujemy :
1. na podstawie wstępnej analizy materiału statystycznego
2. wykresy rozrzutu
3. na podstawie źródeł poza statystycznych
Do opisu w sposób syntetyczny współzależności wykorzystuje się odpowiednie funkcje ,
które należy dopasować do smugi punktów przedstawionej na diagramie korelacyjnym .
W praktyce przyjmuje się , że jeśli smuga punktów układa się wzdłuż linii prostej , to
dopasowujemy do niej funkcję liniową , którą oznaczymy symbolem :
yˆ   0  1 xi
(1)
Współczynniki regresji szacuje się za pomocą metody najmniejszych kwadratów. MNK
polega na takim oszacowaniu parametrów funkcji ( 1 ) , by dla danych z próby był
spełniony warunek :
2
n
2
n
 ( 0 ,1 )    yi  yˆ i     yi   o   1 xi   min
i 1
i 1
gdzie :
yi - oznaczają wartości empiryczne zmiennej Y
ŷi - oznaczają wartości teoretyczne wyznaczone na podstawie równania ( 1 )
Istotą MNK jest taki wybór wartości
 0 i 1
dla których funkcja kryterium osiąga
minimum. W tym celu obliczamy odpowiednie pochodne cząstkowe względem
argumentów i przyrównujemy je do zera , a mianowicie :
 
   0
0
 

0
  1
(2)
Uwzględniając wprowadzone oznaczenia , układ równań (2) zapiszemy w postaci :
n
n
y

n



 i
0
1  xi
i 1
 i 1
n
n
n
2
 y i x i   0  x i   1  x i
i 1
i 1
 i 1
(3)
Układ równań (3) nazywa się układem równań normalnych . Rozwiązując układ równań
można otrzymać wzory na wartość  1 i  0 .
n
1 
 (x
i 1
i
 x )( y i  y )
n
 (x
i 1
i
 x)2
 0  y  1 x
Między współczynnikiem regresji a wartością wprowadzonego współczynnika
korelacji istnieje ścisła zależność . Przekształcając odpowiednio wzór na obliczanie
współczynnika  1 otrzymamy :
n
1 
 (x
i 1
i
 x )( y i  y )
=r
n
 (x
i 1
i
sy
 x)2
sx
Okazuje się , że współczynnik korelacji jest ściśle związany ze współczynnikiem
liniowej funkcji regresji i dlatego nazywa się go liniowym współczynnikiem korelacji .
Oceny parametrów a0 i a1 są to estymatory nieobciążone i zgodne parametrów
0
i
1 .
Przedziały ufności dla parametrów regresji są następujące \:
Dla parametru  0
P{a0  t S a0   0  a0  t S a0 }  1  
1
P{a1  t S a   1  a1  t S a }  1  
Dla parametru
1
1
gdzie :
a 0 , a1 - estymatory parametrów
 0 i 1
S a0 - ocena standardowego błędu estymatora a 0
S a0 
S a1 - ocena standardowego błędu estymatora a1
S a1 
S
S
S
x
2
n[ ( x  x ) 2 ]
S
 (x  x)
2
- nieobciążony estymator wariancji składnika losowego, dany wzorem
 ( y  yˆ )
2
n2
t - wartość statystyki t- Studenta odczytana z tablic rozkładu Studenta przy danym
poziomie istotności i stopniach swobody
Gdy próba jest większa od 30 czyli n>30 , wówczas przedziały ufności dla parametrów
regresji są następujące :
Dla parametru  0
P{a0  u S a0   0  a0  u S a0 }  1  
1
 1  a1  u S a }  1  
Dla parametru
P{a1  t u
1
gdzie :
u - odczytuje się z tablic dystrybuanty rozkładu normalnego
-
pozostałe oznaczenia jak wyżej
Test hipotezy o zachodzeniu liniowego związku między X a Y
H 0 : 1  0
H 1 : 1  0
Sprawdzianem zachodzenia liniowego związku między zmiennymi X i Y :
t
a1
S a1
gdzie :
a1 - jest oceną ( estymatorem ) współczynnika kierunkowego linii regresji
S a1 - jest oceną standardowego błędu estymatora a1
Jeśli hipoteza zerowa jest prawdziwa to sprawdzian ma rozkład t o n-2 stopniach
swobody . Sprawdzian t jest szczególnym przypadkiem sprawdzianu :
t
a1   1
S a1
Jest on zbudowany zgodnie ze schematem : ocena parametru – hipotetyczna wartość
parametru / ocena standardowego błędu estymatora .
test ze statystyki – odpowiedź –a
Zad. 1. Czy opis statystyczny oraz wnioskowanie statystyczne losowej próby krajów
europejskich rozpatrywanych ze względu na rozmiary zadłużenia w 2001 roku dotyczą tej
samej zbiorowości statystycznej
a) tak
b) nie
c) i tak i nie
d) trudno powiedzieć
Zad.2. W odpowiedzi na pytanie „ dlaczego korzystamy z Internetu „ Katedra Marketingu
AE w Katowicach uzyskała m.in. następujące dane statystyczne : poszukiwanie informacji
na własne potrzeby ( 80 %), komunikacja z innymi (75 % ), edukacja ( 58%), rozrywka
(58,6%), praca/biznes ( 44,3 % ), zdobywanie informacji o produktach (40,5%), sposób
spędzania wolnego czasu (37,5%), zakupy (9,2%). Czy liczby podane (w procentach) to
:
a) częstości empiryczne
b) prawdopodobieństwa
c) miary opisowe
d) indywidualne dane statystyczne
Zad. 3. Który z aksjomatów A.N. Kołmogorowa jest pewnikiem tego, że
prawdopodobieństwo zdarzenia niemożliwego jest równe zero:
a) pierwszy
b) drugi
c) trzeci
d) żaden
Zad.4. Poniższe dane dotyczą zatłoczenia ( liczby pieszych) w słynnych alejach
handlowych w 13 wybranych miastach w dzień powszedni ( wtorek ) oraz dzień
weekendowy ( sobota ) :
Lp.
Nazwa miasta Liczba
Liczba
pieszych
pieszych
wtorek
sobota
1
Bruksela
3792
3871
2
Genewa
3182
3633
3
Hongkong
10424
8752
4
5
6
7
8
9
10
11
12
13
Londyn
Madryt
Moskwa
Nowy Jork
Paryż
Szanghaj
Sydney
Tokio
Warszawa
Zurych
8789
4280
4289
7028
10692
2456
6380
6393
11892
4672
9239
5250
1712
4586
5511
4104
11890
5067
14351
5549
Czy pozycyjna asymetria rozkładu zatłoczenia w badanych miastach była w dzień
powszedni i w sobotę taka sama oraz dodatnia :
a) nie ; tak
b) tak ; tak
c) tak, nie;
d) nie , nie ?
Zad. 5. Dla 52 wylosowanych gmin pewnego województwa zbadano rozmiary bezrobocia i
uzyskano , że w 1999 roku średnia stopa bezrobocia wynosiła 8,2 % , z przeciętnym
zróżnicowaniem 3,3 %. Czy precyzja na podstawie uzyskanych danych i przy 1-  = 0,95
, oszacowanego przeciętnego poziomu stopy bezrobocia dla całego województwa pozwala
na wnioskowanie :
a) bezpieczne
b) nie w pełni bezpieczne
c) zdecydowanie niebezpieczne
d) trudno powiedzieć ?
Zad.6. Na reprezentatywnej próbie losowej 1167 dorosłych Polaków na początku 2000
roku COBS przeprowadził sondaż opinii dotyczący zabezpieczenia finansowego na
przyszłość. Uzyskano 35 % pozytywnych odpowiedzi. Z jakim względnym błędem
precyzji, przy
1- = 90 , można by uogólnić ten wynik na całą populację dorosłych Polaków i ile
należałoby osób wylosować do następnego badania , aby błąd precyzji nie przekroczył 3
%.
a) 6,5 % ; 678
b) 5,6 %; 876
c) 0,65 % ; 76
d) 0,065 % ; 927 ?
Zad. 7.Wpłaty 11 polskich banków ( w mln zł ) przeznaczone dla klientów upadłego
Banku Staropolskiego były następujące : [ 136,4 114,7 33,5 28,5 26,7 26,0 23,6
21,7 18,6 16,7 16 ,7 ]. W oparciu o te dane, przyjmując poziom istotności =0,01,
stwierdzić , czy przypuszczenie o przeciętnym przekazie wśród wszystkich banków w
wysokości 30,0 mln zł należy :
a) nie odrzucić
b) odrzucić
c) przyjąć
d) brak decyzji ?
Zad.8. Firma budując nowy obiekt, musi przewidzieć miejsca na parkingu dla pojazdów
pracowników i gości. Wśród 200 pracowników stwierdzono, że 150 z nich przyjeżdża do
pracy samochodem. Przyjmując poziom istotności 0,05 sprawdzić przypuszczenie, że
parking dla pracowników powinien stanowić 65 % powierzchni parkingowej . Czy decyzja
taka byłaby :
a) jednoznaczna
b) niejednoznaczna
c) jednoznaczna, ale ...
d) niejednoznaczna , ale ... ?
Zad. 9. W związku ze zróżnicowaniem opinii o celowości budowy rożnej wielkości
supermarketów zbadano zależność pomiędzy wielkością zakupów w średnich i dużych
domach handlowych. Otrzymano m.in. informacje o średnim tygodniowym zakupie
przeciętnego klienta :
- w średnich supermarketach 200 zł , przy przeciętnym zróżnicowaniu
bezwzględnym 50 zł,
- w dużym 220 zł z przeciętnym zróżnicowaniem 200 zł
W pierwszym przypadku zbadano 1000 klientów, w drugim 3000 osób. Czy badaną
zależność należy określić jako :
a) niewielką
b) umiarkowaną
c) wysoką
d) bardzo wysoką ?
Zad.10. W 1999 roku w porównaniu z 1998 r wartość eksportu dwóch towarów wzrosła
o 50 mln zł. W omawianym okresie cena towaru I wzrosła o 8 % , a towaru II o 10 % . O
ile przeciętnie wzrósł eksport z tytułu wzrostu cen, jeżeli w 1998 roku eksport towaru I
osiągnął wartość 60 mln zł , a towaru II 80 mln zł :
a) 9,1 %
b) 10,91 %
c) 109,1%
d) 1% ?
Download
Study collections