Uploaded by vego87v

materiały wpomagające wykład ze statystyki

advertisement
Materiały wspomagające
wykład ze statystyki
Maciej Wolny
T1: Zajęcia organizacyjne
Agenda
1. Program wykładu
2. Cel zajęć
3. Nabyte umiejętności
4. Literatura
5. Warunki zaliczenia
Program wykładu
T1: Zajęcia organizacyjne [1h]
T2: Przedmiot i zadania statystyki [2h]
T3: Metody analizy rozkładu cechy [4h]
T4: Badanie współzależności zjawisk [4h]
T5: Badanie dynamiki zjawisk [4h]
T6: Zmienne losowe i ich podstawowe rozkłady [3h]
T7: Rozkład normalny [2h]
T8: Twierdzenia graniczne [1h]
T9: Próba losowa i rozkłady statystyk z próby [2h]
T10: Estymatory i estymacja przedziałowa [3h]
T11: Hipotezy statystyczne i ich weryfikacja [4h]
Cel
Zaznajomienie z podstawowymi metodami
procesu badania statystycznego
umożliwiającymi wykrywanie prawidłowości
struktury, współzależności i dynamiki zjawisk
masowych oraz nauczenie wnioskowania
statystycznego
Umiejętności
• czytanie, przetwarzanie i przedstawianie danych statystycznych
• określanie i obliczanie charakterystyk badanych zbiorowości
• zastosowanie estymatorów
• weryfikacja hipotez parametrycznych i nieparametrycznych
• wnioskowanie na podstawie przeprowadzonych weryfikacji
• konstruowanie modeli regresji i ich zastosowanie w ekonomii
• prognozowanie na podstawie analizy dynamiki zjawisk
Literatura
[1] Ignatczyk W., Chromińska M., Statystyka. Teoria
i zastosowanie, Wyd. WSB, Poznań 1999
[2] Ostasiewicz S., Rusnak Z., Siedlecka K.,
Statystyka. Elementy teorii i zadania, Wyd. AE we
Wrocławiu, Wrocław 1999
[3] Sobczyk M., Statystyka, PWN, Warszawa 1997
Warunki zaliczenia
Egzamin
1. Pozytywna ocena z ćwiczeń
2. Egzamin pisemny
•
50% zadania
•
50% teoria
3. Ocena
•
60-68% dst
•
68-76% dst plus
•
76-84% db
•
84-92% db plus
•
92-100% bdb
T2: Przedmiot i zadania statystyki
Agenda
1. Definicja
2. Geneza
3. Podstawowe pojęcia i zagadnienia
4. Proces badania statystycznego
Definicja
Statystyka jest to nauka o metodach badania zjawisk
masowych, nauka traktująca o metodach ilościowych
badania prawidłowości zjawisk masowych
Zjawiska masowe to zjawiska, które występują często
(np. zgony, urodzenia, małżeństwa, etc.)
Geneza
Statystyka – łac. status – państwo
Etapy rozwoju badania zjawisk masowych:
• do XVII w. – okres ewidencji i zliczania
(dane, informacje)
• XVII – XVIII w. – opisywanie zbiorowości według wzorca
podanego przez państwoznawców (wykrycie prawidłowości
w zjawiskach masowych np. zgonach)
• od XVIII w. – wprowadzenie rachunku prawdopodobieństwa
(rozwój metod statystycznych opartych na matematyce)
Podstawowe pojęcia (1)
Statystykę dzielimy na:
- opisową, która ukazuje metody gromadzenia, opracowania i
prezentacji danych wraz z ich sumarycznym opisem, przy
wykorzystaniu właściwych narzędzi statystycznych
- matematyczną zwaną wnioskowaniem statystycznym, która
powstała na gruncie rachunku prawdopodobieństwa
„Statystyka” ma zasadniczo cztery znaczenia:
• metoda poznawania zjawisk masowych
• nauka badająca zjawiska masowe
• zbiór liczb charakteryzujący zbiorowość (np. statystyka ludności)
• parametr opisowy rozumiany jako pewna wielkość
charakterystyczna (np. średnia arytmetyczna, odchylenie
standardowe)
Podstawowe pojęcia (2)
Przedmiot badania statystycznego
Zbiorowość statystyczna, populacja, masa statystyczna
Zbiorowością statystyczną nazywamy zespół jednostek objętych
badaniem statystycznym, posiadających jedną lub kilka cech wspólnych
(stałych) oraz wiele cech je różniących
Zbiorowość jednorodna to zbiorowość, którą tworzą jednostki
niezróżnicowane pod względem cechy stałej
Jednostka statystyczna to podstawowy element zbiorowości
statystycznej, który musi być jednoznacznie określony pod względem
rzeczowym (kogo lub co badamy), czasowym (kiedy badamy) i
przestrzennym (gdzie, na jakim terytorium badamy)
Podstawowe pojęcia (3)
Cechami statystycznymi nazywamy własności jednostek statystycznych
stałe
zmienne
przestrzenne
rzeczowe
czasowe
czasowe
przestrzenne
rzeczowe
ilościowe
ciągłe
Źródło: [1]
skokowe
jakościowe
Podstawowe pojęcia (4)
Szereg statystyczny to dane (liczby) odpowiednio uporządkowane
otrzymane w wyniku przeprowadzonego badania statystycznego
szczegółowy
z cechą
mierzalną
(ilościową)
punktowe
geograficzne
proste
skumulowane
Źródło: [2]
czasowy
momentów
z cechą
niemierzalną
(jakościową)
przedziałowe
proste
rozdzielczy
skumulowane
inne
okresów
Szereg szczegółowy
Uporządkowany ciąg wartości badanej cechy
statystycznej
Np. wzrost [cm] w pewnej grupie studentów
159; 159,5; 160; 161; 161; 162; 162; 162,5; 162,5; 163; 163; 163;
163; 163,5; 163,5; 164; 165; 165; 167; 167;167,5; 168; 168; 168;
168,5; 169; 169; 169; 169; 169,5; 169,5; 170; 170; 170,5; 170,5;
170,5; 170,5; 171; 172; 172,5; 173; 174; 175; 176; 176; 176,5; 177;
177; 177; 178; 178,5; 179; 179; 179; 180; 180; 181; 181; 182
Szereg rozdzielczy punktowy
Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną
na części (klasy) według określonej cechy z podaniem liczebności
każdej z wyodrębnionych klas
Np. wzrost [cm] w pewnej grupie studentów
xi
170
170,5
171
171,5
172
172,5
173
173,5
174
174,5
ni
12
14
16
18
18
17
18
15
15
10
Szereg rozdzielczy przedziałowy
Np. wzrost [cm] w pewnej grupie studentów
xi
156-160
160-164
164-168
168-172
172-176
176-180
180-184
184-188
188-192
192-196
ni
2
10
12
12
20
22
15
10
4
1
k≈ n
k ≈ 1 + 3 ,322 log n
x&i - środek i - tego przedziału
np.
x&3 = 166
Prezentacja graficzna szeregów
Histogram jest to zbiór prostokątów, których podstawy, wyznaczone na osi
odciętych, stanowią rozpiętości poszczególnych przedziałów klasowych,
natomiast wysokości są określone na osi rzędnych przez liczebności
odpowiadające przedziałom klasowym
Diagram jest łamaną powstałą przez połączenie punktów, których
współrzędnymi są środki przedziałów klasowych i odpowiadające im
liczebności
25
20
15
10
5
0
155
160
165
170
175
180
185
190
195
Proces badania statystycznego
Badanie statystyczne jest procesem złożonym obejmującym
całokształt czynności badawczych zmierzających do poznania
zjawisk masowych za pomocą metody statystycznej. Proces ten
obejmuje:
• przygotowanie badania
• obserwację statystyczną
• opracowanie statystyczne
• analizę statystyczną
Przygotowanie badania
• sformułowanie problemu badawczego
• określenie i poznanie przedmiotu badania – celu i zakresu
badania oraz postawienie hipotez roboczych, które będą
weryfikowane
• wybór metody obserwacji (pełna lub częściowa)
• konstrukcja formularza statystycznego (układ pytań,
odpowiednie części, koncepcja formularza)
Obserwacja statystyczna
Polega na uchwyceniu interesującego badacza zespołu cech
(określonych w formularzu statystycznym)
Materiał pierwotny – materiał źródłowy otrzymany w toku
specjalnego badania statystycznego
Materiał wtórny – materiał zebrany do innych celów wykorzystany
przez badacza do swoich celów
Opracowanie statystyczne
• kontrola formalna i merytoryczna otrzymanego materiału
• przełożenie treści na liczby
• opracowanie schematów klasyfikacyjnych dla badanych cech
• tablice robocze i wynikowe
• prezentacja graficzna rezultatów badania
Analiza statystyczna
Wykrycie prawidłowości w badanej zbiorowości
- analiza struktury
- analiza współzależności
- analiza dynamiki
- analiza przestrzenna
Podsumowanie
zjawiska masowe – prawidłowości
statystyka opisowa – statystyka matematyczna
szeregi statystyczne – szczegółowy, rozdzielczy punktowy,
rozdzielczy przedziałowy
Szereg statystyczny – rozkład zmiennej, rozkład cechy
(rozkład empiryczny zmiennej)
graficzna prezentacja wyników → różnorakie sposoby
(np. wykresy kołowe)
proces badania statystycznego (przygotowanie badania,
obserwacja statystyczna, opracowanie statystyczne, analiza
statystyczna)
Rozkład empiryczny zmiennej
Rozkładem empirycznym zmiennej nazywamy
przyporządkowanie kolejnym wartością zmiennej xi
odpowiadających im liczebności ni
szereg statystyczny zmiennej = rozkład zmiennej
graficzne przedstawienie rozkładu
Powró
t
T3: Metody analizy rozkładu cechy
Agenda
1. Miary położenia
2. Miary zmienności
3. Miary asymetrii
4. Miary koncentracji
Miary położenia
Miary położenia
klasyczne
średnia
arytmetyczna
pozycyjne
inne
średnia
harmoniczna
średnia
geometryczna
dominanta
kwantyle
kwartyl
pierwszy
mediana
kwartyl
trzeci
Źródło: [2]
decyle
inne
Miary położenia (2)
Miary położenia dzielą się na:
•Miary przeciętne, które charakteryzują średni lub
typowy poziom wartości cechy, wartości wokół których
skupiają się wszystkie pozostałe wartości analizowanej
cechy
•Kwantyle zdefiniowane jako wartości cechy badanej
zbiorowości przedstawionej w postaci szeregu
statystycznego, które dzielą zbiorowość na określone
części pod względem liczby jednostek (części te
pozostają do siebie w określonych proporcjach)
Średnia arytmetyczna (1)
Dla szeregu szczegółowego:
x1 + x2 + ... + xn 1 n
x=
= ∑ xi
n
n i =1
Dla szeregu rozdzielczego punktowego:
x1 ⋅ n1 + x2 ⋅ n2 + ... + xk ⋅ nk 1
x=
= ∑ xi ⋅ ni
n
n i =1
k
k
n = ∑ ni
i =1
Średnia arytmetyczna (2)
Dla szeregu rozdzielczego przedziałowego:
x&1 ⋅ n1 + x& 2 ⋅ n2 + ... + x& k ⋅ nk 1 k
x=
= ∑ x&i ⋅ ni
n
n i =1
k
n = ∑ ni
i =1
Średnia arytmetyczna (3)
Własności
•Suma wartości cechy jest równa iloczynowi
średniej arytmetycznej i liczebności zbiorowości
n
k
i =1
i =1
n ⋅ x = ∑ xi n ⋅ x = ∑ xi ⋅ ni
•Średnia arytmetyczna spełnia warunek
xmin ≤ x ≤ xmax
•Suma odchyleń poszczególnych wartości cechy
od średniej równa się zero
n
∑ ( xi − x ) = 0
i =1
k
∑ ( xi − x )ni = 0
i =1
n
2
(
x
−
x
)
= min
∑ i
•Suma kwadratów odchyleń poszczególnych
wartości cechy od średniej jest minimalna
i =1
k
2
(
x
−
x
)
ni = min
∑ i
i =1
Średnia harmoniczna
Dla szeregu szczegółowego:
xH =
n
n
1
∑x
i =1 i
Dla szeregu rozdzielczego punktowego:
n
xH = k
ni
∑x
i =1 i
Dla szeregu rozdzielczego przedziałowego:
n
xH = k
ni
∑ x&
i =1 i
Średnia geometryczna
Dla szeregu szczegółowego:
xG = n x1 ⋅ x2 ⋅ ... ⋅ xn = n
n
∏ xi
i =1
Dla szeregu rozdzielczego:
xG = n x1 ⋅ x2 ⋅ ... ⋅ xk
n1
n2
nk
=n
n
n
n
xG = n x&1 1 ⋅ x&2 2 ⋅ ... ⋅ x& k k = n
k
∏ xi
ni
i =1
k
ni
&
x
∏ i
i =1
Podsumowanie - Średnie klasyczne
k
• Średnia średnich
1
x = ∑ xi ⋅ ni
n i =1
• Średnia harmoniczna jest stosowana, gdy wartości
cechy podane są w przeliczeniu na stałą jednostkę innej
zmiennej, czyli w postaci wskaźników natężenia
(liczebności w szeregu są wyrażone w jednostkach
licznika jednostek cechy) – np. xi [kg/szt.] a ni [kg],
xi [km/h] a ni [km] lub xi [l/m2] a ni [l]
• Średnia geometryczna ma zastosowanie przy badaniu
średniego tempa zmian zjawisk (zjawiska ujmowane są
dynamicznie)
Przykład (1)
W czteroosobowej rodzinie średnia miesięczna płaca
wynosi 1300 zł. Jakie wynagrodzenie otrzymuje mama,
jeżeli ojciec miesięcznie zarabia 1500 zł, syn 1300 zł, a
córka 1200 zł?
Mama otrzymuje 1200 zł miesięcznie
Średni wiek w n-osobowej grupie uczniów wynosi 11 lat.
Najstarszy członek grupy ma 17 lat, a średnia wieku
pozostałych wynosi 10 lat. Ilu uczniów liczy ta grupa?
Grupa liczy 7 osób
Przykład (2)
Oblicz średnią prędkość samochodu, jeśli wiadomo, że
a) jechał 30 min. z prędkością 100 km/h oraz 45 min.
z prędkością 60 km/h?
B) jechał 50 km z prędkością 100 km/h i 45 km z
prędkością 60 km/h?
Jakie średnie należy zastosować i dlaczego?
W obu przypadkach jechał z prędkością 76 km/h
Dominanta (1)
Dominanta (wartość najczęstsza, moda, modalna) – wartość cechy
statystycznej występująca najczęściej w danym rozkładzie empirycznym.
Wartość najczęściej występująca w szeregu statystycznym.
• w szeregach szczegółowych i rozdzielczych punktowych jest to wartość
cechy, której odpowiada największa liczebność.
• w szeregach rozdzielczych przedziałowych oblicza się przybliżoną
wartość ze wzoru interpolacyjnego (lub graficznie wyznacza się
z histogramu)
Dominanta (2)
nD − nD −
D = x0 D +
⋅ ∆x0 D
( nD − nD − ) + ( nD − nD + )
25
20
15
10
5
0
155
160
165
170
175
180
185
190
195
Kwantyle (1)
Kwantyle to wartości cechy badanej zbiorowości, które dzielą zbiorowość
na określone części pod względem liczby jednostek
Kwartyl pierwszy dzieli zbiorowość na dwie części w ten sposób, że 25%
jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a
75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy
Kwartyl drugi (mediana, wartość środkowa) dzieli zbiorowość na dwie
części w ten sposób, że połowa jednostek zbiorowości ma wartości nie
wyższe niż mediana, a połowa jednostek zbiorowości ma wartości nie
niższe niż mediana
Kwartyl trzeci dzieli zbiorowość na dwie części w ten sposób, że 75%
jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a
25% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy
Kwantyle (2)
Dla szeregu szczegółowego i rozdzielczego punktowego:
x[ np ] +1
np ∉ C


Qp =  1
(
x
+
x
)
np
∈
C
np
np
+
1
 2
p ∈ ( 0 ;1 )
Dla szeregu rozdzielczego przedziałowego:
−
i
np − cum n
Q p = xQ +
⋅ ∆xQ
nQ
Q1 ≡ Q1
4
Q1 ≡ Q2 ≡ Me
2
Q3 ≡ Q3
4
Przykład (3)
Na podstawie poniższych danych porównaj średni wzrost w
obu klasach, wyznacz dominantę i kwartyle oraz odpowiedz na
pytanie: „czy w klasie A jest więcej uczniów o wzroście
większym od przeciętnego?”. Odpowiedź uzasadnij
Wzrost
158-161
Klasa A
3
Klasa B
2
161-164
164-167
167-170
170-173
173-176
5
8
15
6
3
3
6
8
15
6
Przykład (4)
Wzrost
158-161
161-164
164-167
167-170
170-173
173-176
suma
średnia
Klasa A
3
5
8
15
6
3
40
Klasa B
2
3
6
8
15
6
40
środek
159,5
162,5
165,5
168,5
171,5
174,5
n1i x i
478,5
812,5
1324
2527,5
1029
523,5
6695
167,375
n2i x i
319
487,5
993
1348
2572,5
1047
6767
169,175
cum n1i
3
8
16
31
37
40
cum n2i
2
5
11
19
34
40
Przykład (5)
W punkcie skupu makulatury studenci wykonali projekt
ze statystyki badając pewną losowo wybraną próbę z
populacji wagi oddawanej makulatury. Obliczono, że
mediana wynosi 12 kg i umiejscowiona jest w przedziale
od 10 kg do 15 kg, którego liczebność wynosi 35. Jaka
jest liczebność badanej próby, jeśli 30 osób z tej próby
oddało makulaturę o wadzę mniejszej niż 10 kg?
Liczebność badanej próby wynosi 88
Miary zmienności
Miary zmienności
klasyczne
pozycyjne
wariancja
i odchylenie
standardowe
odchylenie
przeciętne
współczynnik
zmienności
Źródło: [2]
rozstęp
odchylenie
ćwiartkowe
współczynnik
zmienności
Klasyczne miary zmienności (1)
Wariancja jest to średnia arytmetyczna kwadratów odchyleń
poszczególnych wartości od średniej arytmetycznej zbiorowości
n
1
2
2
s = ∑ ( xi − x )
n i =1
k
1
2
2
s = ∑ ( xi − x ) ni
n i =1
k
1
2
2
&
s = ∑ ( xi − x ) ni
n i =1
s =x −x
2
2
s 2 ,σ 2 , D 2 ( x )
2
Klasyczne miary zmienności (2)
Odchylenie standardowe określa przeciętne zróżnicowanie
poszczególnych wartości cechy od średniej arytmetycznej. O ile
wartości cechy różnią się średnio od wartości średniej
s= s
s ,σ , S ( x )
2
Klasyczne miary zmienności (3)
Typowy obszar zmienności, który obejmuje około 2/3 jednostek zbiorowości:
x − s < xtyp < x + s
Odchylenie przeciętne – o ile jednostki danej zbiorowości różnią się średnio
względem wartości badanej cechy od średniej arytmetycznej:
1 n
d = ∑| xi − x |
n i =1
1 k
d = ∑| xi − x | ni
n i =1
1 k
d = ∑| x&i − x | ni
n i =1
d≤s
Klasyczne miary zmienności (4)
Wariancja ogólna, która jest sumą wariancji wewnątrzgrupowej i międzygrupowej:
s 2 = sw2 + sm2
Równość
wariancyjna
1 k 2
s = ∑ si ⋅ ni
n i =1
1 k
2
sm = ∑ ( xi − x )2 ni
n i =1
2
w
Współczynnik zmienności:
s
Vs = ⋅ 100%
x
d
Vd = ⋅ 100%
x
Pozycyjne miary zmienności (1)
Rozstęp:
R = xmax − xmin
Odchylenie ćwiartkowe:
Q3 − Q1
Q=
2
Typowy obszar zmienności cechy:
Me − Q < xtyp < Me + Q
Pozycyjne miary zmienności (2)
Współczynnik zmienności I:
Q
VQ =
⋅ 100%
Me
Współczynnik zmienności II:
VQ1 ,Q3
Q3 − Q1
=
⋅ 100%
Q3 + Q1
Przykład (6)
W dwóch przedsiębiorstwach przeprowadzono badanie
robotników pod względem stażu pracy w zakładzie. Otrzymano
następujące dane:
Przedsiębiorstwo I średni staż 15 lat V = 20%
Przedsiębiorstwo II średni staż 10 lat V = 25%
Obliczyć średni staż, s i V dla całej zbiorowości pracowników
wiedząc, że liczba robotników w przedsiębiorstwie I wynosiła
120 osób a w drugim 80 osób.
Średni staż 13 lat, s=3,73 roku, V=29%
Miary asymetrii (1)
Wzrost
Klasa A
Klasa B
158-161
3
2
20
20
161-164
8
3
15
15
164-167
15
6
167-170
6
8
10
10
170-173
5
15
5
5
173-176
3
6
0
0
Klasyczno-pozycyjny wskaźnik
skośności:
Wsk = x − D
Pozycyjny wskaźnik skośności:
Wsp = ( Q3 − Me ) − ( Me − Q1 )
1
2
3
4
5
asymetria
prawostronna
6
1
2
3
4
5
6
asymetria
lewostronna
D ≤ Me ≤ x x ≤ Me ≤ D
Miary asymetrii (2)
Klasyczno-pozycyjny
współczynnik asymetrii
(skośności):
x−D
As =
s
x−D
Ad =
d
Klasyczny współczynnik
asymetrii (skośności):
m3
A = 3
s
Moment centralny
trzeciego rzędu
Moment centralny
rzędu r:
1 n
mr = ∑ ( xi − x )r
n i =1
1 k
mr = ∑ ( x&i − x )r ⋅ ni
n i =1
Pozycyjny współczynnik
asymetrii (skośności):
( Q3 − Me ) − ( Me − Q1 ) Q3 + Q1 − 2 Me
AQ =
=
( Q3 − Me ) + ( Me − Q1 )
2Q
Miary koncentracji (1)
•koncentracja wartości cechy wokół średniej
30
Wykres wysmukły
(leptokurtyczny)
•im większe zróżnicowanie, tym mniejsza koncentracja
25
•współczynnik skupienia (kurtoza):
20
m4
K= 4
s
m4
K' = 4 − 3
s
10
5
0
1
Wykres
spłaszczony
(platokurtyczny)
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
K >3
K' > 0
15
K <3
K' < 0
2
3
4
5
6
7
8
9
10 11 12 13
Miary koncentracji (2)
1
•Krzywa koncentracji Lorenza
0,9
•Współczynnik koncentracji Lorenza
a
5000 − b
KL =
=
5000
5000
0,8
0,7
0,6
0,5
a
0,4
0,3
b
0,2
0,1
1
0
0,9
0,8
0,6
0,4
0,3
ni
∑ ni
skumulowane
odsetki liczebności
0,7
0,5
cum
xn
cum i i
∑ xi ni
skumulowane
odsetki iloczynu
wartości cechy
i liczebności
0,2
0,1
0
brak koncentracji
KL=0
Przykład (7)
Uzupełnić dane dotyczące wzrostu (w cm) w dwóch klasach
Średnia
160
Typowy obszar
zmienności
(155-165)
Współczynnik
zmienności
3,125%
161
(157;165)
2,484%
Dominanta
161
160
Współczynnik
asymetrii
-0,2
0,25
Wariancja
25
16
Podsumowanie - uzupełnienie
Wzór Pearsona:
x − D = 3( x − Me )
Siła asymetrii:
A ≤ 0 ,3 słaba
0 ,3 < A ≤ 0 ,7 umiarkowan a
0 ,7 < A ≤ 0 ,9 silna
0 ,9 < A skrajna
• najważniejsza jest interpretacja
otrzymanych wyników – wszystkie
obliczenia mają sens jedynie, gdy
prowadzą do wniosków
• wszechstronna analiza opisowa polega
na obliczeniu wszystkich adekwatnych
miar wraz z prawidłową interpretacją
otrzymanych wyników
• analiza opisowa populacji na podstawie
próby opiera się na identycznych
zasadach z uwzględnieniem teorii
estymacji
T4: Badanie współzależności zjawisk
Agenda
1. Wprowadzenie
2. Analiza korelacji
3. Analiza regresji
4. Podsumowanie
Korelacja (1)
Korelacja cech ilościowych – Korelacja cech jakościowych
Korelacja liniowa – Korelacja nieliniowa
Zależność korelacyjna (korelacja) polega na tym, że określonym
wartościom jednej zmiennej odpowiadają ściśle określone średnie
wartości drugiej zmiennej
Korelacja dodatnia - wzrostowi wartości jednej cechy odpowiada
wzrost średnich wartości drugiej cechy
Korelacja ujemna - wzrostowi wartości jednej cechy odpowiada
spadek średnich wartości drugiej cechy
Korelacja (2)
Wzrokowa ocena korelacyjnego wykresu rozrzutu punktów empirycznych
30
30
25
25
20
20
15
15
10
10
5
5
0
0
0
2
4
6
8
10
korelacja liniowa dodatnia
0
2
4
6
8
10
korelacja liniowa ujemna
30
35
25
30
25
20
20
15
15
10
10
5
5
0
0
4
4,5
5
5,5
6
6,5
brak korelacji
7
7,5
0
2
4
6
8
10
12
14
16
korelacja krzywoliniowa
Korelacja (3)
Szereg szczegółowy:
Rozkład
warunkowy
i
1
y
y1
x
x1
Rozkład
warunkowy
2
...
n
y2
...
yn
x2
...
xn
Rozkład
brzegowy
Rozkład
brzegowy
Tablica korelacyjna:
y
y1
y2
...
yj
...
ys
ni.
x1
n11
n12
...
n1j
...
n1s
n1.
x2
...
xi
...
xk
n21
...
ni1
...
nk1
n22
...
ni2
...
nk2
...
...
...
...
...
n2j
...
nij
...
nkj
...
...
...
...
...
n2s
...
nis
...
nks
n2.
...
ni.
...
nk.
n.j
n.1
n.2
...
n.j
...
n.s
n
x
Współczynnik korelacji liniowej
Pearsona
Miara siły związku liniowego między cechami
cov( xy )
rxy =
sx ⋅ s y
• symetryczny
cov( xy ) = x ⋅ y − x ⋅ y
Dla szeregu szczegółowego:
Dla tablicy korelacyjnej:
n
rxy =
∑ ( xi − x )( yi − y )
i =1
n
n
∑ ( xi − x )2 ∑ ( yi − y )2
i =1
i =1
1 n
cov( xy ) = ∑ ( xi − x )( yi − y )
n i =1
k
s
∑∑ ( x&i − x )( y& i − y )nij
rxy =
i =1 j =1
k
s
∑ ( x&i − x ) ni⋅ ∑ ( y&i − y )2 n⋅ j
2
i =1
i =1
1 k s
cov( xy ) = ∑∑ ( x&i − x )( y& i − y )nij
n i =1 j =1
Wartość współczynnika korelacji
liniowej Pearsona
− 1 ≤ rxy ≤ 1
rxy < 0 ,2
brak związku liniowego
0 ,2 ≤ rxy < 0 ,4 słaba zależność liniowa
0 ,4 ≤ rxy < 0 ,7 umiarkowan a zależność liniowa
0 ,7 ≤ rxy < 0 ,9 znacząca zależność liniowa
0 ,9 ≤ rxy
bardzo silna zależność liniowa
Przykład (1)
W fabryce zbadano, jak kształtuje się średnia wydajność
pracowników w zależności od czasu nieprzerwanej pracy
Czas pracy w
godz.
1
2
3
4
5
6
7
Wydajność w
szt./godz.
20
22
20
18
15
13
12
Czy istnieje silna zależność między czasem pracy a wydajnością?
Przykład (2)
i
1
2
3
4
5
6
7
Σ
średnia
Xi
1
2
3
4
5
6
7
28
4
Yi
20
22
20
18
15
13
12
120
17,14
XiYi
20
44
60
72
75
78
84
433
61,86
X2
Y2
1
4
9
16
25
36
49
140
20
400
484
400
324
225
169
144
2146
306,57
cov( xy ) = x ⋅ y − x ⋅ y = 61,86 − 4 ⋅ 17 ,14 = −6 ,7
cov( xy ) − 6 ,7
rxy =
=
= −0 ,94
2
sx ⋅ s y
2 ⋅ 3 ,58
S y2 = y 2 − y = 306 ,57 − 17 ,14 2 = 12 ,79
S x2 = x 2 − x = 20 − 4 2 = 20 − 16 = 4
2
Przykład (3)
Istnieje bardzo silna liniowa zależność
korelacyjna między czasem pracy
a wydajnością
Zależność tą cechuje korelacja ujemna,
czyli im dłuższy czas pracy tym niższa
średnia wydajność pracy
Przykład (4)
Dana jest tablica korelacyjna stażu pracy (Y) pracowników
w pewnym zakładzie oraz liczby pobranych przez nich pożyczek (X)
z kasy zapomogowo-pożyczkowej.
Liczba
pożyczek
Staż pracy w latach
0–4
4-8
8 - 12
1–2
30
3
-
3–4
4
18
12
5–6
-
1
8
Obliczyć współczynnik korelacji między stażem pracy
pracowników a liczbą pobranych pożyczek
Przykład (5)
Y
X
1–2
3–4
5–6
nj
nj yj
nj yj 2
ni
nix i
nix i2
20
33
34
9
76
49,5
119
49,5
218
74,25
416,5
272,25
763
132
200
400
792
2000
2928
0–4
30
4
-
4-8
3
18
1
8 - 12
12
8
34
22
68
136
S x2 = 1,81
cov( xy ) = 3 ,53
S y2 = 10 ,83
rxy = 0 ,80
Stosunki (wskaźniki) korelacyjne
Pearsona
sy = s + s
2
2
yw
2
2
s x = s xw
+ s xm
2
2
ym
1 k 2
2
s yw = ∑ s yi ⋅ ni .
n i =1
1 k
2
s ym = ∑ ( yi − y )2 ni .
n i =1
e yx =
2
s ym
s
2
y
s
2
xw
1 s 2
= ∑ s xj ⋅ n. j
n j =1
s
2
xm
1 s
= ∑ ( x j − x ) 2 n. j
n j =1
= 1−
2
s yw
s
2
y
Stosunek korelacyjny
zmiennej Y względem
zmiennej X
niesymetryczne
niezależne od kształtu
zależności
<0; 1>
exy=0 nieskorelowane
exy=1 zależność funkcyjna
2
2
s xm
s xw
exy =
= 1− 2
2
sx
sx
Stosunek korelacyjny
zmiennej X względem
zmiennej Y
Przykład (6)
y& j
x& i
ni
nix i
nix i2
yi
y i ni .
49,5
119
49,5
218
74,25
416,5
272,25
763
2,36
6,94
9,56
20
33
34
9
76
78
236
86
400
132
200
400
136
1,74
792
3,32
2000
4,30
2928
59
73
86
218
1,5
3,5
5,5
nj
nj yj
2
nj yj
xj
x j n. j
S y2 = 10 ,83
S = 1,81
2
x
rxy = 0 ,80
2
30
4
0
6
3
18
1
10
0
12
8
34
22
68
1,17
exy =
= 0,80
1,81
7,37
e yx =
= 0,81
10,83
Kwadraty wskaźników
korelacyjnych
Kwadraty wskaźników korelacyjnych nazywane są
współczynnikami determinacji, które informują w ilu
procentach zmiany zmiennej zależnej są spowodowane
(zdeterminowane) zmianami zmiennej niezależnej
100 ⋅ e
Oceny kwadratów
wskaźników korelacyjnych
wyrażone w procentach
2
yx
100 ⋅ e
2
xy
Stopień krzywoliniowości
Różnica między kwadratami wskaźnika korelacji oraz
współczynnika korelacji
mxy = e − r
2
xy
wartości z przedziału <0;1>
m>0,2 krzywoliniowość
związku jest istotna
w przeciwnym wypadku jeśli
wartość rxy pozwala, można
uznać związek liniowy
2
xy
m yx = e − r
2
yx
2
yx
Współczynnik korelacji rang
Spearmana
Służy do opisu siły korelacji dwóch cech, w sytuacji,
gdy istnieje możliwość uporządkowania obserwacji
empirycznych w określonej kolejności
n
rs = 1 −
6 ⋅∑d
i =1
2
2
i
n( n − 1 )
di oznacza różnicę między rangami
odpowiadających sobie i-tych
obserwacji (wartości) cechy X oraz Y
stosowany zwykle dla cech
jakościowych lub ilościowych z
niewielką liczbą obserwacji
przyjmuje wartości z przedziału <-1;1>
interpretacja wartości identyczna jak
współczynnika korelacji Pearsona
Przykład (6)
i
1
2
3
4
5
6
7
Σ
Xi
1
2
3
4
5
6
7
Yi
2
3
1
5
4
7
6
di
-1
-1
2
-1
1
-1
1
di2
1
1
4
1
1
1
1
10
n
6 ⋅ ∑ d i2
6 ⋅ 10
rs = 1 −
= 1−
= 0 ,82
n( n − 1 )
7( 49 − 1 )
i =1
2
Korelacja wieloraka i cząstkowa (1)
przy badaniu wielu cech, wielu zmiennych
korelacja wieloraka, gdy uwzględnia się
oddziaływanie na jedną zmienną (zależną) wielu
zmiennych (niezależnych)
korelacja cząstkowa, gdy badamy współzależności
tylko niektórych cech (zmiennych), eliminując wpływ
pozostałych
Korelacja wieloraka i cząstkowa (2)
Współczynnik korelacji cząstkowej
rij .kl ...z =
− Pij
Pij jest dopełnieniem algebraicznym
macierzy P współczynników korelacji
par wszystkich włączonych do analizy
zmiennych, powstałym przez skreślenie
i-tego wiersza i j-tej kolumny
Pii Pjj
1
r
21

P =
 ...

 rz1
r12
...
1
...
...
rz 2
...
...
r1 z 
r2 z 

... 

1 
Korelacja wieloraka i cząstkowa (3)
Współczynnik korelacji wielorakiej
Ri . jkl ...z =
Pi jest macierzą powstałą z macierzy P przez
usuniecie i-tego wiersza i i-tej kolumny
det P
1−
det Pi
Korelacja cech jakościowych
RAZEM
ϕ =
RAZEM
+
Cecha Y
Cecha X
+
a
b
a+b
-
c
d
c+d
a+c
b+d
ad − bc
( a + b )( a + c )( b + d )( c + d )
Wprowadzenie - regresja
Funkcja regresji to analityczny wyraz przyporządkowania
średnich wartości zmiennej objaśnianej (zależnej)
konkretnym wartościom zmiennych objaśniających
(niezależnych).
Empiryczna linii regresji zmiennej Y względem X jest linią
łamaną powstałą przez połączenie punktów
o współrzędnych ( x i , y | x i )
Empiryczna linii regresji zmiennej X względem Y jest linią
łamaną powstałą przez połączenie punktów
o współrzędnych ( x | y j , y j )
Funkcja regresji
Na podstawie empirycznych linii regresji można postawić
hipotezę odnośnie typu funkcji matematycznej (liniowa,
wykładnicza, parabola, itd.) opisującej mechanizm powiązań
między badanymi zmiennymi
Funkcja regresji II rodzaju jest przybliżeniem empirycznych
linii regresji.
Wybór postaci analitycznej funkcji regresji II rodzaju należy
dokonywać również na podstawie źródeł
pozastatystycznych (teorii ekonomii, opinii ekspertów,
doświadczeń wynikających z poprzednich badań, etc)
Liniowa funkcja regresji (1)
Funkcja regresji II rodzaju Y względem X:
ˆ = f ( x ) = α 0 + α1 X + ξ
Y
cov( XY )
α1 =
, α 0 = y − α1 x
2
SX
Funkcja regresji II rodzaju X względem Y:
ˆ = g (Y ) = β + β Y + ξ '
X
0
1
cov( XY )
β1 =
, β 0 = x − β1 y
2
SY
Liniowa funkcja regresji (2)
Związki między współczynnikiem korelacji oraz
parametrami strukturalnymi liniowej funkcji regresji
rxy =
α1 β1
α1 = rxy
Sy
β1 = r xy
Sx
Sy
Sx
Badanie dokładności oszacowanej
funkcji regresji (1)
Reszty zbudowanego modelu:
ei = y i − ŷ i
zi = x i − x̂ i
Wariancja resztowa:
n
Se2 =
2
(
y
−
ŷ
)
∑ i
i
i =1
n −2
n
S
2
z
=
2
(
x
−
x̂
)
∑ i
i
i =1
n −2
Badanie dokładności oszacowanej
funkcji regresji (2)
Współczynnik zbieżności:
Współczynnik determinacji:
n
2
=
ϕ yx
2
(
y
−
ŷ
)
∑ i
i
i =1
n
2
(
y
−
y
)
∑ i
n
2
R yx
=
i =1
2
(
ŷ
−
y
)
∑ i
i
i =1
n
2
(
y
−
y
)
∑ i
i =1
R
2
yx
+ϕ
2
yx
2
2
R yx
= ryx
=1
Podsumowanie - regresja
liniowa funkcja regresji
regresja krzywoliniowa
regresja wielu zmiennych
badanie dokładności = weryfikacja
T5: Badanie dynamiki zjawisk
Agenda
1. Podstawowe pojęcia
2. Badanie zmian szeregu dynamicznego
3. Indeksy indywidualne i agregatowe
4. Dekompozycja szeregu dynamicznego
5. Metody wyodrębnienia trendu
Podstawowe pojęcia
Analizę dynamiki zjawisk masowych przedstawia się na podstawie
szeregów czasowych (dynamicznych, chronologicznych).
Szeregiem dynamicznym nazywamy ciąg wartości badanego
zjawiska obserwowanego w kolejnych jednostkach czasu.
W szeregach czasowych zmienną niezależną jest czas, natomiast
zmienną zależną jest wartość badanego zjawiska.
Szeregi czasowe momentów informują o o rozmiarach zjawiska w
pewnych ściśle określonych momentach (chwilach)
Szeregi czasowe okresów informują o rozmiarach zjawiska w
określonych przedziałach czasu.
Średnia w szeregu dynamicznym
W przypadku szeregu czasowego okresów przeciętny poziom
badanego zjawiska oblicza się za pomocą średniej arytmetycznej
(w przypadku nierównych przedziałów czasowych należy przyjąć
odpowiednie wagi).
W przypadku szeregu czasowego momentów oblicza się średnią
chronologiczną:
xch
x1 + x2 x2 + x3
x n −1 + x n 1
1
+
+ ...
x1 + x2 + ... + x n −1 + x n
2
2
2
2
=2
=
n −1
n −1
Badanie zmian szeregu dynamicznego
∆ t ,k = xt − x k ∆ t ,t −1 = xt − xt −1
Przyrosty względne:
∆t / k
xt − x k
=
xk
∆ t / t −1
xt − xt −1
=
x t −1
Indeksy (wskaźniki dynamiki):
it / k
xt
=
xk
i t / t −1
xt
=
x t −1
łańcuchowe
jednopodstawowe
Przyrosty absolutne:
Przykład
Średnia roczna premia w pewnej firmie kształtowała się w ostatnich
latach w następujący sposób:
t
xt
1
1250
2
1320
3
1390
4
1450
5
1550
∆ t,1
0
70
140
200
300
∆ t,3
-140
-70
0
60
160
∆ t,t-1
-
70
70
60
100
∆ t/1
0,0000
0,0560
0,1120
0,1600
0,2400
∆ t/3
-0,1007
-0,0504
0,0000
0,0432
0,1151
∆ t/t-1
-
0,0560
0,0530
0,0432
0,0690
it/1
1,0000
1,0560
1,1120
1,1600
1,2400
it/3
0,8993
0,9496
1,0000
1,0432
1,1151
1,0560
1,0530
1,0432
1,0690
it/t-1
Średnie tempo zmian
iG = n −1
y2 y3
yn
yn
⋅ ⋅ ... ⋅
= n −1
y1 y 2
y n −1
y1
Przyjmując, że średnie tempo przyrostu wartości premii z roku na
rok nie ulegnie zmianie, jaka będzie kształtować się premia w
kolejnych 3 latach?
iG = n −1 i n / 1 = 4 1,24 = 1,055
y 6 * = y 5 ⋅ iG = 1550 ⋅1,055 = 1635 ,25
y7 * = y 5 ⋅ ( iG )2 = 1550 ⋅ (1,055 )2 = 1725 ,19
y 8 * = y 5 ⋅ ( iG )3 = 1550 ⋅ (1,055 )3 = 1820 ,07
T −n
y T * = y n ⋅ ( iG )
Indeksy indywidualne
Indeksy indywidualne są stosowane w badaniu dynamiki zjawisk
jednorodnych. Zwykle rozpatruje się trzy rodzaje indywidualnych
wskaźników dynamiki:
Indywidualny
indeks cen:
Indywidualny
indeks ilości:
Indywidualny
indeks wartości:
p1
ip =
p0
q1
iq =
q0
q1 p1
iw =
q0 p0
Równość indeksowa:
iw = i p ⋅ i q
Indeksy zespołowe (agregatowe)
•Indeksy agregatowe służą do badania dynamiki
zespołu zjawisk – zwykle niejednorodnych i
bezpośrednio niesumowalnych.
•Konstrukcja indeksów agregatowych opiera się na
wykorzystaniu określonych współczynników
przeliczeniowych w postaci wag, którymi najczęściej są
ceny i ilości.
•Wyróżnia się indeksy agregatowe dla wielkości
absolutnych oraz dla wielkości stosunkowych.
•Do zespołowych indeksów wielkości absolutnych
zalicza się: agregatowy indeks wartości, agregatowy
indeks ilości, agregatowy indeks cen.
Indeksy agregatowe (1)
Agregatowy indeks wartości:
n
Iw =
∑q
i =1
n
∑q
i =1
Agregatowy indeks ilości wg
formuły Laspeyresa:
I
L
q
qp
∑
=
∑q p
1 0
0
0
1i
p1i
qp
∑
=
∑q p
1 1
0i
p0 i
0
0
Agregatowy indeks ilości wg
formuły Paashego:
I
P
q
qp
∑
=
∑q p
1 1
0 1
Indeksy agregatowe (2)
Agregatowy indeks cen wg
formuły Laspeyresa:
I
L
p
pq
∑
=
∑p q
1 0
0
I = I ⋅I
L
p
I
P
p
0
Agregatowy indeks cen wg
formuły Fishera:
F
p
Agregatowy indeks cen wg
formuły Paashego:
P
p
pq
∑
=
∑p q
1 1
0 1
Agregatowy indeks ilości wg
formuły Fishera:
I = I ⋅I
F
q
L
q
P
q
Indeksy agregatowe (3)
Równość indeksowa dla indeksów agregatowych:
Iw = I ⋅ I = I ⋅ I = I ⋅ I
L
p
P
q
L
q
P
p
F
p
F
q
Przykład
W pewnym zakładzie produkowane są trzy wyroby. Zebrano
informacje dotyczące produkcji (w setkach sztuk) oraz cen
jednostkowych (w setkach złotych) wyrobów
w dwóch latach: 2003 (okres bazowy) i 2005 (badany okres).
Informacje te przedstawiono w poniższej tabeli.
Wyrób
A
B
C
Produkcja
Ceny jednostkowe
2003 (q0) 2005 (q1) 2003 (p0) 2005 (p1)
0,8
1,2
24
30
1,1
1,4
18
20
1,5
1,2
30
32
Jak zmieniła się wartość produkowanych wyrobów
w porównywanych okresach? Jaki wpływ na zmianę wartości
miała dynamika cen, a jaki dynamika ilości produkowanych
wyrobów?
Model wahań w czasie
Modelem wahań w czasie nazywamy konstrukcję teoretyczną
(równanie lub układ równań), która opisuje kształtowanie się
określonego zjawiska jako funkcji zmiennej czasowej, odchyleń
periodycznych (okresowych) oraz odchyleń przypadkowych.
Na zmienność badanego zjawiska w czasie mają wpływ:
tendencja rozwojowa (trend), wahania okresowe, wahania
przypadkowe (losowe).
Model addytywny:
Yt = F ( t ) + Gi ( t ) + ξ ( t )
Model multiplikatywny:
Yt = F ( t ) ⋅ Gi ( t ) ⋅10
ξ(t )
Yt – poziom badanego zjawiska
F(t) – funkcja trendu
Gi(t) – funkcja wahań okresowych
ξ(t) – składnik losowy
Metody wyodrębniania trendu
Trendem (tendencją rozwojową) nazywamy powolne, regularne
i systematyczne zmiany określonego zjawiska, obserwowane
w dostatecznie długim czasie i będące rezultatem przyczyn
głównych.
Najczęściej do wyodrębnienia wykorzystuje się:
• mechaniczną metodę średnich ruchomych
• analityczną metodę najmniejszych kwadratów
Metoda mechaniczna wyodrębniania
trendu
Polega na zastępowaniu danych empirycznych (dla kolejnych
okresów) średnimi poziomami z okresu badanego i kilku okresów
sąsiednich. Średnie ruchome mogą być obliczane z parzystej
(średnie ruchome scentrowane) lub nieparzystej (średnie ruchome
zwykłe) liczby kolejnych wyrazów szeregu empirycznego. Zwykle
w celu wyodrębnienia trendu stosuje się średnie ruchome zwykłe.
y1 , y 2 ,..., y n
y1 + y 2 + y 3
3
y + y3 + y4
y2 = 2
3
...
y + y n −1 + y n
y n −2 = n −2
3
y1 =
y1 , y 2 ,..., y n
1
1
y1 + y 2 + y 3 + y 4 + y 5
2
y1 = 2
4
1
1
y2 + y3 + y 4 + y5 + y6
2
y2 = 2
4
...
1
1
y n −4 + y n −3 + y n −2 + y n −1 + y n
2
y n −4 = 2
4
Metoda analityczna wyodrębniania
trendu
Polega na dopasowaniu określonej funkcji matematycznej do
całego szeregu czasowego. Istotnym problemem jest dobór
postaci analitycznej funkcji trendu. Do najczęściej stosowanych
funkcji trendu należy funkcja liniowa.
Dla
przenumerowanych
jednostek czasu
Yt = α 0 + α1t + ξ t
Ŷt = a0 + a1t
n
a0 =
∑y
t =1
n
n
t
=y
a1 =
n
∑ y ( t − t ) ∑ y t'
t =1
n
t
2
(
t
t
)
−
∑
t =1
=
t ' =1
n
t
2
t
'
∑
t ' =1
Przykład
Na podstawie danych dotyczących zysków osiąganych przez pewne
przedsiębiorstwo wyodrębnić tendencję rozwojową metodą mechaniczną
(zastosować różne średnie ruchome) oraz analityczną. Jeśli trend się nie
zmieni, to jakie średnie zyski osiągnie przedsiębiorstwo w drugim
kwartale 2007 roku?
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
2000
125,1
121,4
122,8
123,2
122,5
121,3
122,1
121,6
120,6
124,6
123,6
128,1
2001
133,6
124,0
123,9
123,3
123,3
123,1
123,0
121,9
122,3
124,2
124,2
128,4
2002
126,0
126,6
130,2
125,1
125,1
124,6
123,6
122,5
122,7
124,2
125,6
127,4
2003
127,7
126,2
129,3
125,5
125,5
125,2
122,3
124,1
124,1
125,4
127,1
129,4
2004
130,5
132,2
129,8
125,9
127,9
124,9
124,3
124,2
124,3
126,0
125,9
129,4
Rozwiązanie
Średnie ruchome trzyokresowe
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
2000
123,1
122,5
122,8
122,3
122,0
121,7
121,4
122,3
122,9
125,4
2001
128,4
128,6
127,2
123,7
123,5
123,2
123,1
122,7
122,4
122,8
123,6
125,6
2002
126,2
127,0
127,6
127,3
126,8
124,9
124,4
123,6
122,9
123,1
124,2
125,7
2003
126,9
127,1
127,7
127,0
126,8
125,4
124,3
123,9
123,5
124,5
125,5
127,3
2004
129,0
130,7
130,8
129,3
127,9
126,2
125,7
124,5
124,3
124,8
125,4
127,1
Rozwiązanie
135,0
130,0
125,0
120,0
115,0
110,0
1
11
21
31
41
51
Rozwiązanie
Średnie ruchome dziewięciokresowe
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
2000
122,3
122,2
122,5
123,1
2001
124,2
124,4
124,7
124,8
125,0
125,3
125,1
124,9
124,3
123,2
123,2
123,7
2002
124,0
124,4
125,2
125,4
125,8
126,0
126,0
125,8
125,2
125,0
124,8
124,5
2003
124,8
124,9
125,5
125,7
126,0
126,3
126,1
125,9
125,5
125,3
125,4
125,4
2004
126,0
126,7
127,2
127,6
128,0
128,1
128,0
127,7
127,1
126,6
125,9
125,9
Rozwiązanie
135,0
130,0
125,0
120,0
115,0
110,0
1
11
21
31
41
51
Metoda analityczna wyodrębniania
trendu – przykład
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
2000
125,1
121,4
122,8
123,2
122,5
121,3
122,1
121,6
120,6
124,6
123,6
128,1
2001
133,6
124,0
123,9
123,3
123,3
123,1
123,0
121,9
122,3
124,2
124,2
128,4
2002
126,0
126,6
130,2
125,1
125,1
124,6
123,6
122,5
122,7
124,2
125,6
127,4
2003
127,7
126,2
129,3
125,5
125,5
125,2
122,3
124,1
124,1
125,4
127,1
129,4
Arkusz kalkulacyjny MS Excel
2004
130,5
132,2
129,8
125,9
127,9
124,9
124,3
124,2
124,3
126,0
125,9
129,4
Suma
642,9
630,4
636,0
623,0
624,3
619,1
615,3
614,3
614,0
624,4
626,4
642,7
7512,8
Podsumowanie
• badanie dynamiki zjawisk = analiza szeregu czasowego
• składniki modelu wahań w czasie
(trend, wahania sezonowe, wahania przypadkowe)
• główne zastosowanie: prognozowanie i ekonometria
T6: Zmienne losowe i ich podstawowe
rozkłady
Agenda
1. Podstawowe pojęcia
2. Zmienna losowa ciągła i skokowa
3. Podstawowe charakterystyki rozkładów
4. Wybrane rozkłady zmiennej losowej skokowej
5. Wybrane rozkłady zmiennej losowej ciągłej
Podstawowe pojęcia (1)
Zmienną losową nazywamy zmienną, która przyjmuje wartości ze
zbioru liczb rzeczywistych z określonym prawdopodobieństwem.
Zmienną losową nazywamy dyskretną lub skokową, jeżeli
przyjmuje wartości z skończonego zbioru wartości lub
przeliczalnego zbioru wartości.
Zmienną losową nazywamy ciągłą jeżeli wartości tej zmiennej
przyjmują wartości z całego zbioru liczb rzeczywistych lub
z przedziałów (przedziału) liczbowych zbioru liczb rzeczywistych.
Rozkładem prawdopodobieństwa zmiennej losowej nazywamy
funkcję, która przyporządkowuje wartościom zmiennej
prawdopodobieństwo.
Podstawowe pojęcia (2)
Dystrybuantą zmiennej losowej X nazywamy
funkcję zmiennej rzeczywistej taką, że:
F(x)=P(X<x)
Własności dystrybuanty:
• jest funkcją przynajmniej lewostronnie ciągłą
• jest funkcją niemalejącą
F ( x ) = 0 ∧ lim F ( x ) = 1
• xlim
→ −∞
x →∞
Zmienna losowa skokowa
Rozkładem skokowej zmiennej losowej nazywamy
funkcję,która realizacjom zmiennej losowej
przyporządkowuje prawdopodobieństwo:
P(X=xi)=pi
Dystrybuanta zmiennej losowej skokowej:
F( x ) =
∑p
xi < x
i
Wartość oczekiwana zmiennej losowej
skokowej
Wartość oczekiwana (średnia, nadzieja matematyczna):
n
E ( X ) = ∑ x i pi
i =1
Własności wartości oczekiwanej:
• E(c)=c
• E(X+Y)=E(X)+E(Y)
• E(X-Y)=E(X)-E(Y)
• E(cX)= cE(X)
• E(XY)=E(X)E(Y) jeśli zmienne są niezależne
Wariancja zmiennej losowej skokowej
Wariancja zmiennej losowej skokowej (S2(X), D2(X)):
n
S ( X ) = ∑ ( x i − E ( X )) pi
2
2
i =1
S 2 ( X ) = E( X 2 ) − E 2 ( X )
Własności wariancji:
• S2(c)=0
• S2(cX)=c2 S2(X)
• S2(X+Y)= S2(X)+ S2(Y)
• S2(X-Y)= S2(X)+ S2(Y)
Przykład
Rzucamy dwukrotnie symetryczną monetą.
Jeśli wypadnie dwukrotnie orzeł otrzymujemy 2 zł,
jeśli wypadnie dwukrotnie reszka otrzymujemy 3 zł,
jeśli wypadnie za pierwszym razem orzeł, a za drugim
reszka, to otrzymujemy 1 zł. Jeśli natomiast pierwsza
będzie reszka, a później orzeł, to nic nie dostaniemy
a) przedstawić funkcję prawdopodobieństwa „wygranej”
b) przedstawić dystrybuantę analizowanej zmiennej
losowej
c) obliczyć wartość oczekiwaną oraz wariancję
„wygranej”
xi
0
1
2
3
pi
0,25
0,25
0,25
0,25
0
0 ,25

F ( x ) = 0 ,5
0 ,75

1
x ≤0
0 < x ≤1
1< x ≤2
2<x≤3
3<x
xi
0
1
2
3
pi
0,25
0,25
0,25
0,25
x ipi
0
0,25
0,5
0,75
x i2
0
1
4
9
pi
0,25
0,25
0,25
0,25
x i2pi
0
0,25
1
2,25
1,5
3,5
S ( X ) = E ( X ) − E ( X ) = 3 ,5 − (1,5 ) = 1,25
2
2
2
2
Zmienna losowa ciągła
Funkcja gęstości prawdopodobieństwa
zmiennej losowej ciągłej:
P ( x < X < x + ∆x )
f ( x ) = lim
∆x →0
∆x
x
F ( x ) = ∫ f ( x )dx
−∞
Jeśli F(x) jest różniczkowalna:
F' ( x ) = f ( x )
Własności funkcji gęstości:
1. f ( x ) ≥ 0 ∧ 0 ≤ f ( x ) ≤ 1
∞
2. ∫ f ( x )dx = 1
−∞
3. P ( a < X < b ) = P ( a ≤ X ≤ b ) =
b
= ∫ f ( x )dx ⇒ P ( X = a ) = 0
a
Charakterystyki liczbowe rozkładu
zmiennej losowej ciągłej
Wartość oczekiwana:
E( X ) =
∞
∫ x ⋅ f ( x )dx
−∞
por. własności wartości oczekiwanej
Wariancja zmiennej losowej ciągłej:
∞
S ( X ) = ∫ ( x − E ( X )) ⋅ f ( x )dx
2
2
−∞
por. własności wariancji
Przykład
Dla jakiej wartości parametru a poniższa funkcja
jest funkcją gęstości prawdopodobieństwa
x
0 ≤ x ≤1
1
1
f(x) =  x −
3≤x≤a
3
9
poza tym
0
Wyznaczyć dystrybuantę zmiennej X. Obliczyć
E(X) oraz S2(X). Jakie jest prawdopodobieństwo,
że zmienna jest większa od 2 i mniejsza od 4?
Inne charakterystyki liczbowe
rozkładów zmiennych losowych
• Kwantylem rzędu p nazywamy wartość
zmiennej losowej x’, dla której F(x’)=p
• Modą, dominantą zmiennej losowej nazywamy
taką wartość x* zmiennej losowej, dla której:
f(x*)=max f(x) dla zmiennej ciągłej,
P(X=x*)=max P(X=xi) dla zmiennej skokowej
• Współczynnikiem zmienności zmiennej losowej
nazywamy wyrażenie:
2
S (X)
VS =
( ⋅100%)
E( X )
Wybrane rozkłady zmiennej losowej
skokowej (1)
Zmienna losowa X ma rozkład zero-jedynkowy,
jeżeli jej funkcja rozkładu jest określona wzorem:
P(X=1)=p oraz P(X=0)=q=1-p
Dystrybuanta rozkładu zero-jedynkowego:
0 x ≤ 0

F ( x ) = q 0 < x ≤ 1
1 x > 1

Wybrane rozkłady zmiennej losowej
skokowej (2)
Zmienna losowa X ma rozkład dwumianowy,
jeżeli jej funkcja rozkładu jest określona wzorem:
P ( X = k ) = Cnk p k q n −k
k = 0 ,1,2 ,..., n oraz p + q = 1
Dystrybuanta rozkładu dwumianowego:
F ( x ) = ∑ Cnk p k q n −k
k <x
E ( X ) = np oraz S ( X ) = npq
2
Wybrane rozkłady zmiennej losowej
skokowej (3)
Zmienna losowa X ma rozkład Poissona, jeżeli jej
funkcja rozkładu jest określona wzorem:
λ −λ
P( X = k ) =
e
k!
k = 0 ,1,2 ,...
k
Dystrybuanta rozkładu Poissona:
λ k −λ
F( x ) = ∑ e
k <x k !
E( X ) = S 2 ( X ) = λ
Wybrane rozkłady zmiennej losowej
ciągłej (1)
Zmienna losowa X ma rozkład jednostajny
w przedziale <a,b>, jeżeli jej funkcja gęstości jest
określona wzorem:
0
x<a
 1
f( x) = 
a≤x≤b
b − a
x>b
0
Dystrybuanta rozkładu jednostajnego:
0
x<a
x − a
F( x ) = 
a≤x≤b
b − a
x>b
1
Wybrane rozkłady zmiennej losowej
ciągłej (2)
Zmienna losowa X ma rozkład wykładniczy, jeżeli jej
funkcja gęstości jest określona wzorem:
0
f ( x ) =  −λ x
λ e
x <0
x ≥0
Dystrybuanta rozkładu wykładniczego:
0
F( x ) = 
−λ x
1 − e
x <0
x ≥0
Wybrane rozkłady zmiennej losowej
ciągłej (3)
Zmienna losowa X ma rozkład normalny, jeżeli jej
funkcja gęstości jest określona wzorem:
−
1
f( x) =
e
σ 2π
( x − m )2
x ∈ℜ
2σ 2
Dystrybuanta rozkładu normalnego:
1
F( x ) =
σ 2π
x
∫e
−∞
−
( x − m )2
2σ 2
dx
T7: Rozkład normalny
Agenda
1. Funkcja gęstości oraz dystrybuanta
2. Standaryzowany rozkład normalny N(0,1)
3. Tablice dystrybuanty rozkładu normalnego
4. Przykład: „umiem standaryzować i korzystać
z tablic dystrybuanty rozkładu normalnego”
5. Wybrane rozkłady związane z rozkładem
normalnym
Podstawowe określenia
Zmienna losowa X ma rozkład normalny, jeżeli jej funkcja gęstości jest
określona wzorem:
( x − m )2
−
1
f(x) =
e
σ 2π
Dystrybuanta rozkładu normalnego:
F( x ) =
1
σ 2π
2σ 2
x
∫e
x ∈ℜ
( x − m )2
−
2σ 2
dx
−∞
Zmienna losowa X o rozkładzie normalnym
o średniej m i odchyleniu standardowym σ
X - N(m,σ)
Standaryzowany rozkład normalny (1)
Dla rozkładu N(0,1) funkcja gęstości przyjmuje
następującą postać:
1
f(x) =
e
2π
x2
−
2
x ∈ℜ
Dystrybuanta rozkładu normalnego N(0,1):
1
F( x ) =
2π
x
∫e
x2
−
2
dx
−∞
TABLICE ROZKŁADU N(0,1)
Standaryzowany rozkład normalny (2)
Dla rozkładu N(m,σ) należy zastosować
przekształcenie nazywane standaryzacją:
X −m
U=
σ
Zmienna standaryzowana ma rozkład:
U – N(0,1)
Funkcja gęstości rozkładu normalnego
krzywa normalna, krzywa Gaussa-Laplace’a
0,9
N(0;0,5)
0,8
0,7
N(0,1)
0,6
0,5
0,4
b
N(1,5;0,75)
0,3
0,2
N(2;1,5)
0,1
2
6
3,
3,
4
8
2,
6
1,
4
2
1,
2,
8
0,
2
4
0,
-0
,4
-0
,8
-0
,2
-1
,6
-1
-2
,4
-2
,8
-2
,2
-3
,6
-3
-4
0
Własności krzywej Gaussa
1. Jest krzywą w kształcie dzwonu, symetryczną
względem prostej x = m
2. Ma jedno maksimum w punkcie x = m
3. Ma dwa punkty przegięcia o współrzędnych:
1
1
(m −σ ,
) oraz ( m + σ ,
)
σ 2π e
σ 2π e
4. Lewe i prawe ramię (ogon) krzywej zbliżają się
asymptotycznie do osi odciętych
0,15
X
3
3,
35
3,
7
0,25
0,
2
0,
55
0,
9
1,
25
1,
6
1,
95
2,
3
2,
65
-3
,6
5
-3
,3
-2
,9
5
-2
,6
-2
,2
5
-1
,9
-1
,5
5
-1
,2
-0
,8
5
-0
,5
-0
,1
5
-4
Tablice dystrybuanty rozkładu
normalnego
0,45
0,4
0,35
0,3
F(X)
0,2
b
0,1
0,05
0
Przykład
Jaki procent produkcji zakładów obuwniczych
powinno stanowić obuwie o rozmiarach od 27do 33,
jeżeli wiadomo, ze długość stopy u dorosłego
człowieka jest zmienną losową o rozkładzie N(29,3).
P ( 27 < X < 33 ) = FN ( 29 ,3 ) ( 33 ) − FN ( 29 ,3 ) ( 27 ) =
 33 − 29 
 27 − 29 
= Φ
 − Φ
 = Φ(1,33 ) − Φ (− 0 ,67 ) =
 3 
 3 
= 0 ,9082 − (1 − 0 ,7486 ) = 0 ,6568
Produkcja obuwia analizowanego rozmiaru powinna
stanowić 65,68%
Rozkład χ2 (chi – kwadrat)
Rozkładem chi-kwadrat z k stopniami swobody
zmiennej losowej χk2 nazywamy rozkład sumy
k – elementowej kwadratów niezależnych zmiennych
losowych o standaryzowanym rozkładzie normalnym
N(0,1):
χ = X + X + ... + X
2
k
2
1
2
2
2
k
X i − N( 0 ,1 ) i = 1,2 ,..., k
Liczba stopni swobody
Liczba stopni swobody jest równa liczbie
wszystkich obserwacji (pomiarów) pomniejszonej o
liczbę wszystkich ograniczeń narzuconych na te
obserwacje (pomiary)
Ograniczeniem jest każda wielkość, która zostaje
obliczona na podstawie tych samych obserwacji
(pomiarów)
Rozkład t – Studenta
Rozkładem t - Studenta z k stopniami swobody
nazywamy rozkład zmiennej losowej X zdefiniowanej
w następujący sposób:
Tk =
X
χ k2
k
χ , X − N ( 0 ,1 )
2
k
Zmienne X oraz χk2 są niezależne
Rozkład F Fishera – Snedecora
Rozkładem F Fishera – Snedecora (Snedecora,
F Fishera) ze stopniami swobody m1 oraz m2
nazywamy rozkład zmiennej losowej Fm1m2
zdefiniowanej w następujący sposób:
Fm1m 2
1 2
χ m1
m1
=
1 2
χ m2
m2
Zmienne χm12 oraz χm22 są niezależne
T8: Wybrane twierdzenia o rozkładach
Agenda
1. Nierówność Czebyszewa i prawa wielkich liczb
2. Twierdzenie Moivre’a-Laplace’a
3. Centralne twierdzenie graniczne LindbergaLevy’ego
4. Uzupełnienie, wnioski, podsumowanie
Nierówność Czebyszewa
Jeśli
E ( X ) = m, 0 < σ 2 = S 2 ( X ) < ∞ to dla każdego t > 0
σ2
P (| X − m |≥ t ) ≤ 2
t
Jeśli
X − N ( m ,σ ) to:
P (| X − m |≥ 3σ ) ≤ 0 ,01
Słabe Prawo Wielkich Liczb
Jeśli dany jest ciąg niezależnych zmiennych
losowych X1, X2, ..., Xn o jednakowym rozkładzie
(zmienne mają jednakowe rozkłady
prawdopodobieństwa, wartości oczekiwane m oraz
wariancje σ2) to dla każdego ε > 0 otrzymujemy:
 X1 + X 2 + ... + X n

lim P 
− m < ε  = 1
n →∞
n


Mocne Prawo Wielkich Liczb
Jeśli dany jest ciąg niezależnych zmiennych
losowych X1, X2, ..., Xn o jednakowym rozkładzie
(zmienne mają jednakowe rozkłady
prawdopodobieństwa, wartości oczekiwane m oraz
wariancje σ2) to:


X1 + X 2 + ... + X n
P  lim
= m  = 1
n →∞
n


Twierdzenie Moivre’a-Laplace’a
Jeśli X jest zmienną losową o rozkładzie
dwumianowym, n niech oznacza liczbę
doświadczeń a p prawdopodobieństwo
sukcesu, to:
lim Fn ( X ) = FN ( np ,
n →∞
(
X
)
npq )
Twierdzenie Lindeberga-Levy’ego
Jeśli dany jest ciąg niezależnych zmiennych
losowych X1, X2, ..., Xn o jednakowym rozkładzie
(zmienne mają jednakowe rozkłady
prawdopodobieństwa, wartości oczekiwane m oraz
wariancje σ2) to zmienna losowa Zn = X1 + X2 +...+ Xn
ma rozkład normalny przy n→ ∞
Zn − N( nm,σ n )
Uzupełnienie,wnioski, podsumowanie
n → ∞ , p → 0 , np → λ
dwumianowy
n→∞
n→∞
Poissona
λ →∞
normalny
n→∞
m1 → ∞
chi-kwadrat
m2 → ∞
m1 = const
m2 → ∞
F Fishera-Snedecora
t-Studenta
m1 = 1
T9: Próba losowa i podstawowe
rozkłady statystyk z próby
Agenda
1. Podstawowe definicje - próba losowa, statystyka
2. Wybrane rozkłady statystyk z próby związanych
ze średnią
3. Wybrane rozkłady statystyk z próby związanych
z wariancją
4. Podsumowanie
Podstawowe definicje
Jeżeli x1, x2,..., xn jest ciągiem realizacji w doświadczeniu
losowym niezależnych zmiennych X1, X2,..., Xn o jednakowym
rozkładzie, to ciąg x1, x2,..., xn nazywa się statystyczną próbą
prostą dokonaną na zmiennych losowych X1, X2,..., Xn
Statystyką nazywa się zmienną losową będącą funkcją
zmiennych losowych X1, X2,..., Xn stanowiących próbę
Rozkład średniej arytmetycznej
Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ)
o znanych parametrach, to średnia arytmetyczna obliczona na
podstawie n-elementowej próby ma rozkład normalny:
 σ 
X n − N  m,

n

Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ)
o nieznanym σ , to statystyka Tn-1 obliczona na podstawie nelementowej próby ma rozkład t-Studenta z n-1 stopniami
swobody.
X −m
Tn −1 =
n −1
S
Rozkład wariancji z próby
Jeżeli cecha X w populacji generalnej ma rozkład N(m,σ)
o znanych parametrach, to
nS 2
σ2
− χ n2−1
(statystyka nS2/ σ2 ma rozkład chi-kwadrat z n-1 stopniami swobody)
gdzie S2 oznacza wariancję próbkową
Graniczny rozkład częstości
Częstość wystąpienia zdarzenia A w serii n niezależnych
doświadczeń jest określona za pomocą następującego wzoru
Xn
Yn =
n
Z twierdzenia Moivre’a-Laplace’a wynika, że przy dużej
próbie:

pq 

Yn − N  p ,

n


Podsumowanie
• rozkład normalny
•na podstawie próby można wnioskować o wartości
charakterystyki (statystyki) w całej populacji
• próba losowa pozwala szacować (estymować) wartość
charakterystyki w populacji generalnej
T10: Estymatory i estymacja
przedziałowa
Agenda
1. Podstawowe definicje
2. Estymacja punktowa i własności estymatorów
3. Estymacja przedziałowa
4. Podsumowanie
Podstawowe definicje
Estymacją nazywa się szacowanie parametrów lub rozkładu
zmiennej losowej w populacji generalnej na podstawie próby
pobranej z tej populacji
Estymatorem parametru Q rozkładu zmiennej losowej X
nazywamy taką statystykę Qn=f(X1,X2,...,Xn), której rozkład
zależy od szacowanego parametru. Wartość qn policzoną na
podstawie realizacji próby nazywa się oceną parametru Qn.
Wyrażenie Qn-Q nazywa się błędem szacunku, a jego miarą
jest E(Qn-Q)2.
Podstawowe własności estymatorów
Estymatorem zgodnym nazywamy estymator stochastycznie
zbieżny do parametru estymowanego, tzn. taki, który dla
każdego ε > 0 spełnia równość:
lim P(| Qn − Q |< ε ) = 1
x →∞
Estymator nieobciążony to taki estymator, którego wartość
oczekiwana równa jest parametrowi estymowanemu, czyli:
E( Qn ) = Q
Estymacja przedziałowa
Estymacja przedziałowa jest to szacowanie wartości
parametru Q za pomocą tzw. przedziału ufności
Przedziałem ufności nazywamy przedział liczbowy,
o którym przypuszczamy, że mieści się w nim nieznany
parametr populacji
Z przedziałem tym związana jest miara ufności (pewności),
że ten przedział naprawdę zwiera interesujący nas parametr,
zwana poziomem ufności
Estymacja przedziałowa
Rozkład statystyki z próby określa prawdopodobieństwa,
z jakimi ta statystyka może przyjmować wartości
z określonych przedziałów liczbowych.
Jeśli próba została pobrana i otrzymaliśmy konkretną
ocenę pewnego parametru, te prawdopodobieństwa mogą
być wykorzystane jako poziomy ufności związane
z przedziałami, które mogą zawierać nieznany parametr
Przedziały ufności dla średniej
w populacji ze znanym σ
Centralne twierdzenie graniczne mówi, że średnia
z dowolnej (odpowiednio dużej) próby ma rozkład
normalny
X − N ( m,
σ
n
)
gdzie:
m − średnia w populacji,
σ − odchylenie standardow e w populacji,
n − liczebno śi próby
Przez zα/2 będziemy oznaczać taką wartość
standaryzowanej zmiennej losowej normalnej Z,
która odcina pod prawym „ogonem” krzywej
gęstości normalnej pole o mierze α/2
Np. 1,96 jest
wartością zα/2 dla α/2
= 0,025, ponieważ
z=1,96 odcina pole o
mierze 0,025
0,4
0
-3,92
-1,96
0
1,96
3,92
Miara pola pod krzywą z wyłączeniem pól pod „ogonami”
równa 1-α jest nazywana współczynnikiem ufności
0,4
0
-3,92
-1,96
0
1,96
3,92
Miara pól pod „ogonami” równa
prawdopodobieństwem błędu
α
jest
nazywana
0,4
0
-3,92
-1,96
0
1,96
3,92
Współczynniki ufności pomnożony przez 100 daje
poziom ufności wyrażony w procentach
(1-α)100% przedział ufności dla m, gdy σ jest znane, a
próba została pobrana z populacji normalnej lub jest
„dużą próbą”, jest określony w następujący sposób:
( x − zα / 2 ⋅
σ
n
; x + zα / 2 ⋅
σ
n
)
Precyzja (błędem) szacunku to połowa długości
przedziału ufności. Względna precyzja (błąd)
szacunku to iloraz połowy długości przedziału ufności
do wartości prognozy punktowej
Przykład. Wyznaczyć przedział ufności średnich miesięcznych
wydatków na żywność w gospodarstwach domowych
w pewnym mieście przyjmując prawdopodobieństwo błędu na
poziomie 5%. Wylosowano próbę 100-elementową, w której
średnia wynosiła 420 zł. Wiadomo ponadto, że poprzednie
badania przeprowadzane rokrocznie wykazały stałą wariancję
wydatków na żywność w całej populacji rodzin. Wariancja
wynosi 10000.
x = 420 , σ 2 = 10000 , σ = 100 , n = 100,
100
100
)
(420 - 1,96
;420 + 1,96
100
100
( 400 ,4 ; 439,6)
Przedział liczbowy (400,4; 439,6) z prawdopodobieństwem
0,95 pokrywa nieznaną wartość przeciętnych wydatków na
żywność w danym mieście.
Przedziały ufności dla średniej
w populacji z nieznanym σ (n≤30)
(1-α)100% przedział ufności dla m, gdy σ jest nieznane, a
rozkład w populacji jest normalny, jest określony w
następujący sposób:
gdzie:
s
s
( x − tα ⋅
; x + tα ⋅
)
n −1
n −1
tα – jest wartością z rozkładu t-Studenta o n-1 stopniach swobody, która
odcina pod „ogonem” krzywej gęstości rozkładu pole o mierze α,
s – jest odch. standard. obliczonym w próbie
1 n
2
sˆ =
(
x
−
x
)
,
∑
i
n − 1 i =1
1 n
2
s=
(
x
−
x
)
∑
i
n i =1
Przedziały ufności dla średniej
w populacji z nieznanym σ (n>30)
(1-α)100% przedział ufności dla m, gdy σ jest
nieznane, a rozkład w populacji jest normalny oraz
mamy dużą liczbę obserwacji (duża próba), jest
określony w następujący sposób:
s
s
( x − zα / 2 ⋅
; x + zα / 2 ⋅
)
n
n
s
s
( x − zα / 2 ⋅
; x + zα / 2 ⋅
)
n −1
n −1
Przedziały ufności dla
wariancji w populacji
jest
rozkładem
Rozkład
chi-kwadrat
(χ2)
prawdopodobieństwa sumy kwadratów niezależnych,
standaryzowanych, normalnych zmiennych losowych.
Jeżeli próba pobrana została z populacji o rozkładzie
normalnym, to zmienna losowa:
χ =
2
nS
2
σ2
ma rozkład χ2 o n-1 stopniach swobody.
Dla „małej” próby
(1-α)100% przedział ufności dla σ2 w populacji, gdy rozkład
w populacji jest normalny, określony jest wzorem:
 ns 2
ns 2 
 2 ; 2

 χα / 2 χ 1−α / 2 
gdzie:
χ2α/2 jest wartością zmiennej w rozkładzie chi-kwadrat o n-1
stopniach swobody, która odcina pole o mierze α/2 z prawej
strony, natomiast χ21-α/2 odcina pole o mierze 1-α/2 z prawej
strony (tym samym pole o mierze α/2 z lewej strony)
10 stopni
swobody
15 stopni
swobody
20 stopni
swobody
30 stopni
swobody
0,006
0,005
0,004
0,003
0,002
0,001
0
0
10
20
30
40
50
Rozkład chi-kwadrat w zależności od stopni swobody
Dla „dużej” próby
(1-α)100% przedział ufności dla σ w populacji, gdy
rozkład w populacji jest normalny oraz mamy „dużą
próbę”, określony jest wzorem:




s
s


;
zα / 2
zα / 2 

1−
1+

2n
2n 

Przykład. Zbudować przedział ufności dla wariancji będącej
miarą zróżnicowania gęstości zaludnienia w pewnym
województwie, jeśli w 15 wylosowanych kwadratach
województwa o powierzchni 1 km2 każdy, średnia liczba
mieszkańców wynosi 124 osoby oraz wariancja w próbie
wynosi 40. Wcześniejsze badania wykazują, że rozkład
gęstości zaludniania na badanym terenie jest rozkładem
normalnym. Przy konstrukcji przedziału ufności przyjąć poziom
ufności 0,95.
2
2
= 26,1189 χ 0,925;14
= 5,62873
X = 124, S2 ( X ) = 40, χ 0,025;14
 15 ⋅ 40 15 ⋅ 40 
;

 ⇒ (22,97; 106,60 )
 26,1189 5,62873 
95% przedział ufności wariancji gęstości zaludnienia w danym
województwie przedstawia się następująco: (22,97; 106,60).
Przykład. Zbudować przedział ufności dla wariancji będącej
miarą zróżnicowania gęstości zaludnienia w pewnym
województwie, jeśli w 100 wylosowanych kwadratach
województwa o powierzchni 1 km2 każdy, średnia liczba
mieszkańców wynosi 124 osoby oraz wariancja w próbie
wynosi 40. Wcześniejsze badania wykazują, że rozkład
gęstości zaludniania na badanym terenie jest rozkładem
normalnym. Przy konstrukcji przedziału ufności przyjąć poziom
ufności 0,95.
X = 124, S2 ( X ) = 40, Φ( zα / 2 ) = 1 −


40
40

;
1,96
1,96

1
+
1
−

200
200

α
2
⇒ zα / 2 = 1,96


 =  6,3246 ; 6,3246  = (5,55; 7,34)
  1,1386 0,8614 


95% przedział ufności odchylenia standardowego gęstości zaludnienia w
danym województwie przedstawia się następująco: (5,55; 7,34).
Dla wariancji natomiast: (30,85; 53,91)
Przedziały ufności dla
wskaźnika struktury
Związane ze zjawiskami o charakterze bardziej jakościowym
niż ilościowym. Interesuje nas wtedy względna częstość
(frakcja, prawdopodobieństwo) pojawiania się pewnej cechy
w populacji.
Np. frakcja (odsetek, procent) sztuk wadliwych wśród
wyrobów wytworzonych za pomocą pewnej maszyny.
Odsetek osób, które zaciągają i nie spłacają kredytów.
Odsetek przedsiębiorstw, które zalegają ze składkami na
pracownicze ubezpieczenia społeczne.
Dla dużych prób (1-α)100% przedział ufności dla
wskaźnika struktury w populacji p wyznacza wzór:

 p̂ − zα / 2


p̂q̂
; p̂ + zα / 2
n
p̂q̂ 

n 
gdzie :
p̂ oznacza frakcję z próby (czyli liczb ę sukcesów w próbie
podzielone j przez liczebno śi próby) oraz q̂ = 1 − p̂
Przykład. Pobrano próbę 100 konsumentów i stwierdzono,
że 34 osoby w próbie kupują produkt wyprodukowany za
granicą, pozostali nabywają produkt krajowy. Wyznaczyć
95% przedział ufności dla udziału zagranicznych
produktów w badanym rynku.
x = 34 , n = 100 ⇒ p̂ = 0 ,34

0 ,34 ⋅ 0 ,66
0 ,34 ⋅ 0 ,66
 0 ,34 − 1,96
;0 ,34 + 1,96

100
100

(0 ,2472;0 ,4328 )




Z prawdopodobieństwem 0,95 można stwierdzić, że
udział w rynku produktów zagranicznych zawiera się w
przedziale od 24,72% do 43,28%.
Precyzja szacunku
Precyzja (błędem) szacunku to połowa długości
przedziału ufności. Względna precyzja (błąd)
szacunku to iloraz połowy długości przedziału ufności
do wartości estymatora punktowego (środka
przedziału)
Wyznaczanie liczebności
próby
Minimalna wymagana liczebność próby do oszacowania
średniej w populacji, n wynosi:
zα / 2 ⋅ σ
n=
2
B
2
gdzie B jest połową rozpiętości (1-a)100% przedziału ufności
dla n.
Przykład. Rozkład wzrostu studentów jest rozkładem
normalnym N(m,10). Ilu studentów należy wylosować do
próby, aby ocenić przeciętny wzrost studenta z
maksymalnym błędem szacunku 2 cm na poziomie ufności
0,99?
( 2 ,576 ) ⋅ 10
n=
= 165 ,87
2
2
2
2
Minimalna liczebność próby studentów w celu ustalenia
przeciętnego ich wzrostu wynosi 166 osób.
Podsumowanie
Jeżeli pobieramy próby o tej samej liczebności z tej samej
populacji, to im wyższy jest poziom ufności, tym szerszy
jest przedział ufności
Jeżeli pobieramy próby z tej samej populacji, to przy
ustalonym poziomie ufności im liczniejsza próba, tym
węższy jest przedział ufności
T11: Hipotezy statystyczne i ich
weryfikacja
Agenda
1. Podstawowe definicje
2. Testowanie hipotezy o wartości przeciętnej oraz
wyznaczanie zbioru krytycznego
3. Wybrane testy istotności
4. Testowanie hipotez nieparametrycznych
5. Podsumowanie
Podstawowe definicje
Hipotezą statystyczną nazywamy każdy sąd o zbiorowości
generalnej
wydany
bez
przeprowadzenia
badania
całkowitego
Hipotezą zerową (oznaczoną przez H0) jest hipoteza o
wartości jednego (lub wielu) parametru populacji. Hipoteza ta
traktowana jest jako prawdziwa dopóki nie uzyska się
przesłanek do zmiany stanowiska. Hipotezą alternatywną
(oznaczoną przez H1) jest hipotezę, którą jesteśmy skłonni
przyjąć,gdy odrzucamy H0. Jest to hipoteza przypisująca
parametrowi (lub parametrom) populacji wartość niezgodną z
przypisaną mu (im) przez hipotezę zerową.
Sprawdzianem (statystyką testu) nazywamy statystykę
z próby, której wartość obliczona na podstawie wyników
obserwacji jest wykorzystywana do ustalenia czy możemy
hipotezę zerową odrzucić, czy też jej odrzucić nie możemy.
Test statystyczny jest to reguła postępowania, która
przyporządkowuje wynikom próby losowej decyzję przyjęcia
lub odrzucenia hipotezy H0.
Błąd I rodzaju
α = P(H0 odrzucona | H0 prawdziwa)
Błąd II rodzaju
β = P(H0 nie zostaje odrzucona | H0 fałszywa)
Poziom istotności testu hipotezy statystycznej jest
prawdopodobieństwo popełnienia błędu pierwszego rodzaju.
Zbiorem krytycznym nazywamy zbiór tych wartości
sprawdzianu hipotezy, które przemawiają za odrzuceniem
hipotezy H0. Punkty (wartości) krytyczne wyznaczają
granice między obszarami przyjęcia i odrzucenia. Obszar
krytyczny (określony przez wartości krytyczne) ustalany jest
tak, aby prawdopodobieństwo, że sprawdzian hipotezy
przyjmie wartości implikujące odrzucenie hipotezy H0,
wynosi α.
Wartości krytyczne zależą od sformułowania hipotezy
alternatywnej H1.
W testach parametrycznych (istotności) hipoteza H0 jest
zawsze hipotezą „o równości”. Hipoteza alternatywna H1
może być zaprzeczeniem, hipotezą „o większości” lub
„o mniejszości”.
Wartość oczekiwana (średnia)
Wybór sprawdzianu hipotezy
1. Gdy rozkład cechy w populacji generalnej jest N(m,s) oraz
znane jest σ lub nieznane σ, ale jest „duża” próba, s ≈ σ
2. Gdy nieznany jest rozkład, ale próba jest „duża”.
Wtedy sprawdzianem hipotezy H0: m = m0 jest statystyka:
Z=
o rozkładzie N(0,1)
x−m
σ
n
Wybór sprawdzianu hipotezy
3. Gdy rozkład cechy w populacji generalnej jest N(m,σ),
nieznane σ oraz próba jest „mała”
Wtedy sprawdzianem hipotezy H0: m = m0 jest statystyka:
Z=
x−m
σ
n −1
o rozkładzie t-Studenta z (n-1) stopniami swobody
0,4
H1 : m ≠ m0
Jeśli |Z| ≤ zα/2 to nie ma
podstaw do odrzucenia
H 0.
P{| Z |> zα / 2 } = α
Φ ( zα / 2 ) = 1 −
α
2
α
α
2
2
0
-3,92
-1,96
0
1,96
3,92
0,4
Jeśli Z ≥ - zα to nie ma
podstaw do odrzucenia
H 0.
H 1 : m < m0
P{ Z < − zα } = α
Φ( zα ) = 1 − α
α
0
-3,92
-1,96
0
1,96
3,92
0,4
Jeśli Z ≤ zα to nie ma
podstaw do odrzucenia
H 0.
H 1 : m > m0
P{ Z > zα } = α
Φ( zα ) = 1 − α
α
0
-3,92
-1,96
0
1,96
3,92
Przykład 1a. Plony żyta w gospodarstwach indywidualnych
pewnego województwa mają rozkład normalny o nieznanych
parametrach. Przypuszcza się, że plony są rzędu 30 q/ha. Czy
przypuszczenie to jest słuszne na poziomie istotności 0,05,
jeżeli w próbie złożonej z 26 losowo wybranych gospodarstw
otrzymano: średnie plony 28 q/ha oraz s=4 q/ha?
H0: m=30
H1: m<30
W przypadku testu jednostronnego
odczytujemy z tablic rozkładu
t-Studenta wartość dla 2α
28 − 30
Z=
26 − 1 = −2,5
4
z2α = 1,7081
Ponieważ Z < - za to należy odrzucić hipotezę H0 na
rzecz hipotezy alternatywnej H1. Należy przyjąć, że
przypuszczenie dotyczące plonów rzędu 30 q/ha nie
jest słuszne na przyjętym poziomie istotności
Przykład 1b. Plony żyta w gospodarstwach indywidualnych
pewnego województwa mają rozkład normalny o nieznanych
parametrach. Przypuszcza się, że plony są rzędu 30 q/ha. Czy
przypuszczenie to jest słuszne na poziomie istotności 0,05,
jeżeli w próbie złożonej z 26 losowo wybranych gospodarstw
otrzymano: średnie plony 28 q/ha oraz s=4 q/ha?
H0: m=30
H1: m≠30
W przypadku testu dwustronnego
odczytujemy z tablic rozkładu
t-Studenta wartość dla α
28 − 30
Z=
26 − 1 = −2,5
4
zα = 2,0595
Ponieważ |Z| > za to to należy odrzucić hipotezę H0
na rzecz hipotezy alternatywnej H1. Należy przyjąć,
że przypuszczenie dotyczące plonów rzędu 30 q/ha,
nie jest słuszne na przyjętym poziomie istotności
Przykład 2. Przy wycenie prywatyzowanego lasu bukowego
wylosowano 100 buków i stosując odpowiednie urządzenia
pomiarowe określono ich wysokość. W zastosowanym
urządzeniu pomiarowym błąd pomiaru jest wielkością losową
o rozkładzie N(0; 1,25). Sprawdzić na poziomie istotności 0,05,
czy opis drzewostanu wcześniej przez biegłego (oparty na
wyznaczonej przez niego średniej wysokości drzewa m0=25
m) jest do przyjęcia, jeśli z uzyskanej próby 100-elementowej
otrzymano przeciętną wysokość buku równą 27 m, natomiast
odchylenie standardowe w próbie wynosiło 3 m.
H0: m=25
H1: m>25
27 − 25
Z=
100 = 16
1,25
zα = 1,645
Ponieważ Z > zα to hipotezę H0
należy odrzucić na rzecz
hipotezy alternatywnej.
Wysokość drzew jest istotnie
większa od 25 m.
Wariancja
Wybór sprawdzianu hipotezy
1. Gdy rozkład cechy w populacji generalnej jest N(m,s),
wtedy sprawdzianem hipotezy H0: σ2=σ20 wobec hipotezy
alternatywnej H1: σ2>σ20 jest statystyka:
χ =
2
ns
2
σ0
2
gdzie s2 oznacza wariancję próbkową.
Statystyka ta ma rozkład chi-kwadrat o n-1 stopniach
swobody*
Odczytuje się z tablic rozkładu chi-kwadrat wartość
krytyczną χα2 dla przyjętego poziomu istotności α i
porównuje się z otrzymaną wartością statystyki z próby.
Jeśli χα2 < χ2 to hipotezę H0 należy odrzucić na rzecz
hipotezy alternatywnej H1.
2. Gdy pobrana próba jest „duża” wtedy rozkład chi-kwadrat
zmierza do rozkładu normalnego i można skorzystać ze
statystyki:
Z = 2 χ − 2n − 3 = 2
2
ns
2
σ0
2
Statystyka ta ma rozkład normalny N(0,1)
− 2n − 3
Przykład 3. Maszyna wytwarza metalowe płytki wchodzące w
skład akumulatorków. Średnica płytki jest zmienną losową o
średniej 5 mm. Jeżeli wariancja średnicy nie przekroczy 1
mm2, to uważa się, że proces produkcji jest pod kontrolą i
płytki mają dopuszczalne wymiary. Jeżeli wariancja przekracza
podaną wartość, to należy naprawić maszynę. Kontroler
jakości chce sprawdzić na poziomie istotności 0,05, czy
wariancja przekroczyła dopuszczalną normę. W tym celu
pobrał próbkę losową – 30 płytek i obliczył wariancję 1,62
mm2. Czy są podstawy do przypuszczenia, że maszynę należy
oddać do naprawy?
H0: σ2=1 (σ2≤1 ); H1: σ2>1
χ =
2
ns
2
σ0
2
30 ⋅ 1,62
=
= 48 ,6
1,00
χα = 43 ,77
2
Ponieważ χ2 > χα2, to przy przyjętym poziomie istotności
należy odrzucić hipotezę H0 i oddać maszynę do naprawy.
Przykład 4. Maszyna wytwarza metalowe płytki wchodzące w
skład akumulatorków. Średnica płytki jest zmienną losową o
średniej 5 mm. Jeżeli wariancja średnicy nie przekroczy 1
mm2, to uważa się, że proces produkcji jest pod kontrolą i
płytki mają dopuszczalne wymiary. Jeżeli wariancja przekracza
podaną wartość, to należy naprawić maszynę. Kontroler
jakości chce sprawdzić na poziomie istotności 0,05, czy
wariancja przekroczyła dopuszczalną normę. W tym celu
pobrał próbkę losową – 100 płytek i stwierdził wariancję 1,62
mm2. Czy są podstawy do przypuszczenia, że maszynę należy
oddać do naprawy? H : s2=1 (s2≤1 ); H : s2>1
0
χ =
2
ns 2
σ0
2
1
100 ⋅ 1,62
=
= 162 ⇒ Z = 2 χ 2 − 2 n − 3 =
1,00
= 2 ⋅ 162 − 2 ⋅ 100 − 3 = 3 ,89
zα = 1,64
Ponieważ Z > za, to przy przyjętym poziomie istotności
należy odrzucić hipotezę H0 i oddać maszynę do naprawy
Wskaźnik struktury
Zbiorowość generalna ma rozkład dwupunktowy z
parametrem p. Parametr ten jest prawdopodobieństwem
tego, że wyróżniona cecha przyjmuje określoną wartość. Na
podstawie n-elementowej próby (n>100) weryfikuje się
hipotezę H0: p=p0. Hipotezami alternatywnymi mogą być: H1:
p>p0, H1: p<p0 lub H1: p≠p0.
Sprawdzianem hipotezy H0 jest statystyka:
X
− p0
Z= n
p0 q0
n
która ma rozkład N(0,1) przy prawdziwości H0, gdzie X
oznacza ilość jednostek o wyróżnionej wartości cechy w
próbie.
Przykład 5. W pewnej uczelni studiuje 4000 studentów. Do
władz uczelni wpłynęła prośba o wyznaczenie specjalnego
pomieszczenia dla palących. Rektor przychylił się do prośby
pod warunkiem, że palący stanowią ponad 50% wszystkich
studentów. Celem sprawdzenia hipotezy, że frakcja palących
przekracza 50% wylosowano próbę złożoną z 400 studentów.
Z wylosowanych osób 280 oświadczyło, ze stale lub
sporadycznie pali papierosy. Przeprowadź postępowanie
testowe celem podjęcia właściwej decyzji przyjmując poziom
istotności 0,05.
H0: p=0,5 H1: p>0,5
X
280
− p0
− 0 ,5
Z= n
= 400
= 4 ,00
p0 q0
0 ,5 ⋅ 0 ,5
n
400
zα = 1,64
Należy odrzucić hipotezę H0 na rzecz hipotezy H1, ponieważ
Z > za. Oznacza to, że jest więcej niż 50% palących studentów
na uczelni.
Test zgodności chi-kwadrat
Pozwala sprawdzić hipotezę, że populacja ma określony typ
rozkładu – określoną postać funkcyjną dystrybuanty.
Wymaga wprowadzenia pewnej charakterystyki będącej miarą
odległości między dystrybuantą rozkładu empirycznego a
dystrybuantą rozkładu teoretycznego (hipotetycznego).
Odległość między dystrybuantami można oceniać za pomocą
statystyki:
2
r
( ni − npi )
χ =∑
npi
i =1
2
która ma rozkład c2 o r-k-1 stopniach swobody, gdzie r ≥ 5 to
liczba przedziałów klasowych, ni ≥ 8 liczebność i-tego
przedziału, pi – prawdopodobieństwo teoretyczne
Przykład 6. Losowa próba licząca n=200 niezależnych
obserwacji wagi noworodków (w kg) dała następujące wyniki:
waga
liczebności
1,0-1,4
15
1,4-1,8
45
1,8-2,2
70
2,2-2,6
50
2,6-3,0
20
Na poziomie istotności 0,05 zweryfikować hipotezę, że rozkład
wagi noworodków jest zgodny z rozkładem normalnym.
H0: F(x)=FN(x) H1: F(x)≠FN(x)
od do
1 1,4
1,4 1,8
1,8 2,2
2,2 2,6
2,6 3
SUMA
pi
ni
0,065382
0,22967
0,363047
0,258821
0,083079
xini
15
45
70
50
20
200
18
72
140
120
56
406
2,03
χ = 1,145 χα ,5 − 2 −1 = 5 ,991
2
2
((xi-x)^2)ni
10,3335
8,3205
0,063
6,845
11,858
37,42
0,1871
0,432551
npi
((ni-npi)^2)/npi
13,07637
0,282979685
45,93406
0,018993768
72,60949
0,093781314
51,7642
0,060126798
16,61588
0,689234803
200
1,145116369
Ponieważ χα2 > χ2, to nie ma
podstaw do odrzucenia H0
Rozkład wagi noworodków jest zgodny z rozkładem normalnym
Test losowości
Sprawdzenie H0 (o losowości próby) polega na uporządkowaniu wszystkich
wyników próby pobranej ze zbiorowości generalnej o dowolnym rozkładzie
w ciąg niemalejący i wyznaczeniu z tego ciągu mediany (Me).
Następnie powraca się do pierwotnego uporządkowania wyników i
poszczególnym liczbom przypisuje się oznaczenia literowe według zasady:
Jeśli xi < Me, to a,
Jeśli xi > Me, to b.
Wyniki xi=Me nie są brane pod uwagę. W rezultacie takiego postępowania
otrzymujemy ciąg symboli a i b. Każdy podciąg symboli jednego rodzaju
występujących bezpośrednio po sobie nazywamy serią.
Liczbę serii występujących w danym ciągu oznaczamy przez k. Oddzielnie
zlicza się liczbę liter a i oddzielnie b. Liczby te oznaczamy przez n1 i n2.
Liczba serii (k) ma znany i stablicowany rozkład zależny tylko od n1 i n2. Dla
ustalonego poziomu istotności a w tablicach rozkładu serii (testu liczby serii)
szukamy takich dwóch wartości krytycznych k1 i k2, aby spełnione były
warunki:
P( k ≤ k1 ) =
α
2
oraz
P( k ≤ k 2 ) = 1 −
α
2
Jeżeli k1 < k < k2, to nie ma podstaw do odrzucenia H0, o losowości próby.
Jeśli n1 > 20 lub n2 > 20 („duża” próba), to należy dodatkowo obliczyć
statystykę:
gdzie:
2 n1n2
k=
+1
n1 + n2
sk =
k −k
z=
sk
2n1n2 ( 2 n1n2 − n1 − n2 )
( n1 + n2 )2 ( n1 + n2 − 1 )
Rozkład statystyki tej można
przybliżać rozkładem
normalnym. Wartość krytyczną
odczytujemy z tablic rozkładu
N(0,1) dla ustalonego poziomu
istotności i dwustronnego
obszaru krytycznego.
Przykład 7. W celu oszacowania średniej liczby telefonów
zainstalowanych w blokach przy pewnej ulicy wylosowano do
próby 17 bloków i otrzymano następujące wyniki (liczbę
telefonów): 20, 57, 55, 50, 27, 29, 19, 30, 49, 60, 36, 31, 25,
23, 34, 32, 21. Na poziomie istotności a = 0,05 zweryfikować
hipotezę, ze wybór bloków do próby był losowy.
H0: próba jest losowa; H1: próba nie jest losowa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
20
57
55
50
27
29
19
30
49
60
36
31
25
23
34
32
21
19
20
21
23
25
27
29
30
31
32
34
36
49
50
55
57
60
a
b
b
b
a
a
a
a
b
b
b
k =7
a
a
b
b
a
Wybór bloków do próby był
wyborem losowym przy
przyjętym poziomie istotności
n1 = 8
Me = 31
n2 = 8
k1 = 3
k 2 = 12
Podsumowanie
1. Metoda Monte Carlo (symulacje)
2. ... ekonometria, prognozowanie, analiza rynków
finansowych, badania operacyjne ...
3. Kontrola i poprawa jakości – wnioskowanie statystyczne
4. Podejmowanie decyzji w warunkach ryzyka i analiza
ryzyka
Dziękuję za uwagę
Download