Moduł 1. Podstawy prognozowania. Model regresji liniowej

advertisement
M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u
Pro gn o zo w an i e i sy mu l ac je
Janusz Górczyński
Moduł 1. Podstawy prognozowania.
Model regresji liniowej
Wyższa Szkoła Zarządzania i Marketingu
Sochaczew 2012
2
Od Autora
Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i
ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i
symulacje” przygotowanego dla studentów kierunku zarządzanie.
Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni
praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez
wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda
czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy
testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane
wcześniej testy internetowe.
Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów
mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu
wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli
prognostycznych.
Jak korzystać z tych materiałów?
Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie
przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym
stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań
pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych
odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie.
Janusz Górczyński
3
Spis treści
WSTĘP .............................................................................................................................................................................. 4
1
2
PROGNOZOWANIE – POJĘCIA OGÓLNE .................................................................................................... 5
1.1
METODY PROGNOSTYCZNE ........................................................................................................................... 5
1.2
BŁĄD PROGNOZY .......................................................................................................................................... 5
REGRESJA LINIOWA ........................................................................................................................................ 8
2.1
ESTYMACJA MODELU .................................................................................................................................... 8
2.2
BADANIE ISTOTNOŚCI ................................................................................................................................... 9
2.3
DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU .............................................................................................. 11
2.4
BADANIE ZAŁOŻEŃ MODELU LINIOWEGO .................................................................................................... 12
2.5
3
4
2.4.1
Założenie o zerowej wartości oczekiwanej reszt losowych.......................................................... 12
2.4.2
Założenie o normalności składników losowych ........................................................................... 13
2.4.3
Założenie o nieskorelowaniu składników losowych..................................................................... 13
PROGNOZOWANIE ....................................................................................................................................... 15
ARKUSZE OBLICZENIOWE .......................................................................................................................... 16
3.1
SKOPIOWANIE ARKUSZA NA SWÓJ KOMPUTER............................................................................................. 16
3.2
UDOSTĘPNIENIE MAKROPOLECEŃ ............................................................................................................... 17
3.2.1
Udostępnienie makr w MS Excel 2003 ........................................................................................ 17
3.2.2
Udostępnienie makr w MS Excel 2007 i nowszych...................................................................... 17
LITERATURA .................................................................................................................................................... 19
4
Wstęp
Przedmiot „Prognozowanie i symulacje” realizowany jest na wielu kierunkach studiów sprawiając studentom
tych kierunków pewne problemy. Wynikają one między innymi z tego powodu, że przekazywane w ramach przedmiotu
treści i oczekiwane umiejętności wymagają z jednej strony dość dużej wiedzy teoretycznej z zakresu statystyki i
ekonometrii, a z drugiej strony praktycznej umiejętności wykonywania obliczeń statystycznych.
Moim zamiarem jest przedstawienie tych interesujących problemów na wielu przykładach, w tym na przykładach
praktycznych. Pierwsza część prezentowanego materiału zawiera teoretyczne wprowadzenie do metod regresyjnych:
regresji liniowej, regresji wielokrotnej liniowej, regresji krokowej, regresji krzywoliniowej, badaniu istotności
wyestymowanych modeli oraz ich wykorzystania do prognozowania.
W zastosowaniach praktycznych niezbędne są jakieś narzędzia obliczeniowe, z uwagi na potencjalnych
odbiorców tego skryptu będę korzystać wyłącznie z arkusza kalkulacyjnego Excel. Nic oczywiście nie stoi na
przeszkodzie wykorzystywaniu do celów obliczeniowych wyspecjalizowanych pakietów statystycznych (np. Statistica,
SPSS, Statgraphics), ale dostęp do nich może być trudniejszy. Dla ułatwienia obliczeń będę korzystać z trzech
specjalnie przygotowanych skoroszytów MS Excel:
StatystykaJG.xls
Liniowa.xls
TestSerii.xls
Wszystkie trzy skoroszyty są dostępne w zakładce Download/StatystykaJG na stronie naszej Uczelni.1 Każdy z
tych skoroszytów zawiera mniej lub bardziej zaawansowane makropolecenia VBA2.
Skoroszyt StatystykaJG.xls (lub StatystykaJG.xlsm) jest najbardziej rozbudowany, a procedury w
nim zawarte pozwalają na wykonanie większości obliczeń statystycznych realizowanych w typowych programach
przedmiotów statystyka, ekonometria czy prognozowanie. Procedury dostępne są poprzez menu aplikacji, a obsługa
poszczególnych procedur realizowana jest poprzez klasyczne formularze windowsowe.
Skoroszyty Liniowa.xls oraz TestSerii.xls są znacznie skromniejsze, a ich rola ograniczona jest do
dwóch zagadnień: estymacji modelu liniowego oraz wykorzystaniu testu serii. Kolejna różnica związana jest ze
sposobem wykonywania obliczeń, w tych dwóch skoroszytach obliczenia wykonywane są (głównie) poprzez jawne
formuły zapisane w komórkach arkusza.
W pracy przyjęto następującą konwencję zapisu:
1
2
Nazwy skoroszytów i arkuszy są wypisywane czcionką Courier New,
Formuły Excela wypisywane są czcionką Courier New ,
Nazwy poleceń menu, nazwy zakładek i opisy kontrolek formularzy są wypisywane pochyloną czcionką
Times New Roman.
http://www.wszim-sochaczew.edu.pl
Visual Basic for Applications, język programowania pakietu Office
5
1 Prognozowanie – pojęcia ogólne
Prognozowanie (lub inaczej predykcja) jest opartym na naukowych podstawach przewidywaniem
kształtowania się zjawisk i procesów w przyszłości. Przedmiotem prognozowania jest przebieg zjawisk i procesów
przyrodniczych, społecznych, demograficznych, gospodarczych, technicznych itp.
Jeżeli prognozowanie dotyczy procesów i zjawisk zachodzących w gospodarce, to mówimy wtedy o
prognozowaniu gospodarczym.
Z terminem „prognozowanie” związany jest termin „prognozy” („predykcji”). Prognozowanie jest procesem
wnioskowania o przewidywanym kształtowaniu się zjawiska czy procesu w przyszłości, a prognoza (predykcja) jest
konkretnym wynikiem procesu prognozowania.
Prognozowanie gospodarcze (ale nie tylko) jest utrudnione przez specyficzne warunki, w jakich zachodzą
procesy gospodarcze, w tym ich uzależnienie od wielu różnorodnych czynników. Czynniki te, z uwagi na sposób
oddziaływania obiektu prognozy, można podzielić na:
1.1
•
czynniki egzogeniczne (zewnętrzne), czyli takie, na które obiekt prognozy nie ma wpływu, a które
powinny być uwzględnione w prognozowaniu z uwagi na ich ograniczający lub stymulujący wpływ na
przebieg danego zjawiska (np. kurs walutowy na kształtowanie się obrotów danej firmy, przebieg
warunków pogodowych na plonowanie danej rośliny itd.);
•
czynniki endogeniczne (wewnętrzne), czyli takie, na które obiekt prognozy ma wpływ (np. wydajność
pracy, wielkość stosowanego nawożenia itd.).
Metody prognostyczne
W każdym procesie prognozowania można wyróżnić następujące etapy:
Zdefiniowanie problemu prognostycznego,
Zebranie danych statystycznych i ich wstępna analiza,
Wybór metody prognozowania,
Zbudowanie prognozy i ocena jej trafności.
Istotnym elementem procesu prognozowania jest wybór odpowiedniej metody prognozowania, która
determinuje sposób zbudowania prognoz. W zastosowaniach praktycznych najczęściej stosuje się metodę predykcji
nieobciążonej, która sprowadza się do wyznaczenia prognozy na poziomie wartości oczekiwanej zmiennej
prognozowanej w danym punkcie.
Prognozowanie metodą predykcji nieobciążonej jest uzasadnione szczególnie wtedy, gdy można oczekiwać, że w
punkcie prognozy powtórzą się te warunki, które obserwowano dla danych statystycznych wykorzystanych do
zbudowania modelu prognostycznego.
Jeżeli oczekiwanie takie nie jest uprawnione, to w miejsce predykcji nieobciążonej można wybrać takie metody
prognozowania jak największego prawdopodobieństwa czy też metoda minimalizacji oczekiwanej straty.
W pracy tej ograniczono się do wykorzystania metody predykcji nieobciążonej, jako najczęściej stosowanej w
praktycznych rozwiązaniach.
1.2
Błąd prognozy
Z uwagi na fakt, że zmienna objaśniana jest losowa naturalne jest występowanie różnic między rzeczywistą
wartością zmiennej objaśnianej a jej prognozą wyznaczoną dla zadanej wartości zmiennej objaśniającej (lub zadanych
6
wartości zmiennych objaśnianych)3. Realne jest więc wystąpienie błędu prognozy, częściej będziemy używać pojęcia
błąd predykcji.
Dwoma podstawowymi rodzajami mierników dokładności i trafności zbudowanych prognoz są:
mierniki dokładności ex ante,
mierniki dokładności ex post.
Mierniki dokładności ex ante służą do oceny oczekiwanych wielkości odchyleń rzeczywistych wartości
zmiennej objaśnianej od ustalonej prognozy. Wartości tych mierników podawane są w momencie ustalenia prognozy,
a wiec wtedy, gdy nie są jeszcze znane rzeczywiste wartości zmiennej objaśnianej.
W przykładach praktycznych będziemy wykorzystywać arkusze kalkulacyjne StatystykaJG.xls lub
StatystykaJG.xlsm oraz Liniowa.xls, w obu arkuszach wyznaczane są średnie błędy predykcji punktowej
ex ante, można je symbolicznie oznaczyć jako S yˆ P . Błąd ten oznacza, że przy prognozowaniu wartości ŷ p popełniamy
średnio błąd
± S yˆ P . Średni błąd predykcji jest liczbą mianowaną, po jego podzieleniu przez prognozę punktową ŷ p
otrzymamy względny średni błąd predykcji ex ante:
V =
S yˆ p
yˆ p
⋅ 100% .
Względny błąd prognozy ex ante informuje nas o tym, jaki duży (procentowo) błąd popełniamy przyjmując, że
nieznana, prognozowana wartość będzie równa wyznaczonej prognozie punktowej ŷ p .
Średni błąd predykcji
S yˆ P wykorzystujemy także do zbudowania prognozy przedziałowej wg wzoru:
y * ∈< yˆ p − tα ; v S yˆ P ; yˆ p + tα ; v S yˆ P > z P = 1 − α .
Wyznaczony przedział liczbowy pokrywa , z prawdopodobieństwem 1 − α , nieznaną wartość zmiennej zależnej
y* w ustalonym punkcie prognozy.
Ocena prawdziwości mierników ex ante może być zweryfikowana dopiero po rzeczywistym zrealizowaniu się
zmiennej objaśnianej w punkcie, dla którego była postawiona prognoza.
Jeżeli znamy rzeczywistą wartość zmiennej prognozowanej Y w wybranym punkcie, to błąd predykcji ex post
jest równy D = Y − yˆ p .
Wielkość błędu absolutnego prognozy ex post informuje nas o różnicy między rzeczywistą wartością zmiennej
prognozowanej w danym punkcie a postawioną prognozą.
Podobnie jak w przypadku błędu ex ante możemy wyznaczyć względny błąd prognozy ex post z wzoru:
V =
3
D
Y − yˆ p
100% =
100% .
Y
Y
Prognozę tę nazywamy prognozą punktową, symbolicznie oznaczaną jako ŷ p .
7
Jeżeli prognoza była budowana nie dla pojedynczego punktu, lecz dla ich ciągu, to można wyznaczyć średni
błąd prognozy ex post (absolutny i względny) z wzorów:
D=
1
k
V =
1
k
∑
∑
k
i =1
(Yi − yˆ ip )
Yi − yˆ ip
⋅ 100%
i =1
Yi
k
Statystyczną oceną błędu prognozy ex post w takiej sytuacji jest średni kwadratowy błąd prognozy
wyznaczony z wzoru:
S=
1
k
∑
k
i =1
(Yi − yˆ ip ) 2 .
Arkusze kalkulacyjne, które będziemy wykorzystywać w prezentowanych dalej przykładach część z tych
mierników dokładności prognoz wyznaczają, ale nie wszystkie. W miarę potrzeby można je samodzielnie doliczyć
pisząc stosunkowo prostą formułę Excela.
8
2 Regresja liniowa
2.1 Estymacja modelu
Rozważmy populację generalną π, w której obserwujemy dwie zmienne: zmienną losową Y i zmienną ustaloną4
lub losową X. O zmiennej losowej Y zakładamy, że ma rozkład normalny z wartością średnią m będącą funkcją liniową
zmiennej X oraz stałym (niezależnym od zmiennej X) odchyleniem standardowym. Założenie to można zapisać
następująco:
Y ~ N (m( x) = b0 + b1 x; σ y x ) .
(2.1)
Parametry funkcji liniowej m( x) = b0 + b1 x nie są znane i muszą być oszacowane na podstawie odpowiedniej
próby losowej. Oznaczmy element n-elementowej próby losowej jako parę liczb ( yi , xi ) . Zgodnie z modelem funkcji
liniowej między yi a xi zachodzi związek:
yi = m( xi ) = b0 + b1 xi + ei
(2.2)
gdzie ei jest niedopasowaniem (różnicą, odchyleniem, resztą) między wartością obserwowaną w próbie yi a wartością
teoretyczną b0 + b1 xi . Parametry funkcji liniowej (parametry modelu) m( x) = b0 + b1 x musimy tak dobrać, aby
dopasowanie funkcji regresji było „jak najlepsze”. Kryterium to będzie spełnione wtedy, gdy suma kwadratów reszt ei
będzie minimalna (suma kwadratów, ponieważ reszty są zarówno dodatnie jak i ujemne). Wychodząc z wzoru (2.2)
mamy:
s=
∑
n
i =1
∑
n
ei2 =
i =1
[yi − (b0 + b1xi )]2 = minimum
(2.3)
Tak sformułowane kryterium estymacji nieznanych parametrów modelu znane jest w teorii statystyki jako
metoda najmniejszych kwadratów – MNK.
Suma kwadratów odchyleń s zdefiniowana wzorem 2.3 jest funkcją dwóch niewiadomych (zmiennych) - b0 i b1 ,
a problem znalezienia jej minimum rozwiążemy poprzez wyznaczenie i przyrównanie do zera pochodnych funkcji s
względem b0 i b1 :
 ∂s
 ∂b = −2
0
 ∂s

= −2
 ∂b1
∑
∑
n
i =1
[yi − (b0 + b1 xi ] = 0
(2.4)
[y − (b0 + b1 xi ] ⋅ xi = 0
i =1 i
n
Przyrównanie obu pochodnych cząstkowych do zera tworzy tzw. układ równań normalnych, a jego
rozwiązanie daje oceny (oszacowania) nieznanych parametrów modelu. Oszacowania te tradycyjnie będziemy oznaczać
symbolem „daszka” umieszczonym nad szacowanym parametrem. Przykładowo, b0 jest nieznanym parametrem, a b̂0
jego estymatorem (oszacowaniem, oceną). Uwaga to wynika z tego, że w dalszych przekształceniach układu równań
normalnych używać już będziemy symboli ocen parametrów modelu w miejsce samych parametrów. Przekształcając
2.4 otrzymujemy następujące wzory na oceny parametrów modelu:
∑ ( y − y)( x − x ) = ∑
=
∑ (x − x)
∑
n
bˆ1
n
i
i =1
n
i =1
4
i
2
i
i =1
n
∑
− x∑
y i xi − y
x2
i =1 i
n
x
i =1 i
n
x
i =1 i
=
cov xy
var x
bˆ0 = y − bˆ1 x
Zmienna ustalona, inaczej nielosowa; taka, która w kolejnych próbach przyjmuje te same wartości.
(2.5)
9
2.2 Badanie istotności
Korzystając z wzoru 2.5 mamy oceny parametrów modelu liniowego, tym samym mamy także ocenę funkcji
regresji z próby:
(2.6)
mˆ ( x) = bˆ0 + bˆ1 x .
Otwartym pozostaje pytanie, czy prawdziwe jest nasze założenie o tym, że między wartością oczekiwaną
zmiennej losowej Y a wartościami zmiennej X istnieje związek linowy postaci:
m( x) = b0 + b1 x .
Związku takiego nie będzie wtedy, gdy parametr b1 będzie równy zero, tym samym powinniśmy przeprowadzić weryfikację hipotezy zerowej H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . Tak sformułowaną hipotezę nazywać
będziemy hipotezą o nieistotności regresji. Jej odrzucenie oznaczać będzie, że istnieje istotny liniowy związek między
zmienną Y a zmienną X oszacowany równaniem 2.6. Z kolei brak podstaw do odrzucenia hipotezy zerowej oznaczać
będzie, że takiego związku nie ma (wartość oczekiwana zmiennej losowej Y będzie stała, czyli jej ocena będzie równa
średniej tej zmiennej).
Hipotezę H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 zweryfikować możemy metodą analizy wariancji lub testem
t-Studenta.
Przed wprowadzeniem analizy wariancji rozważmy dowolną obserwację ( yi , xi ) oraz odpowiadającą im
teoretyczną wartość zmiennej losowej Y wyznaczoną dla argumentu xi z wyestymowanej funkcji regresji
yˆ = mˆ ( x ) = bˆ + bˆ x . Różnicę (odchylenie) wartości obserwowanej y od średniej y można przedstawić jako sumę
i
i
o
1 i
i
dwóch różnic:
yi − y = ( yˆ i − y ) + ( yi − yˆ i )
(2.7)
Podnosząc obustronnie równość 2.7 do kwadratu i sumując po wskaźniku i otrzymamy, po odpowiednich
przekształceniach, analogiczną równość sum kwadratów odchyleń:
∑
n
i =1
( yi − y )2 = ∑i=1( yˆ i − y )2 + ∑i=1 ( yi − yˆ i )2
n
n
(2.8)
Po lewej stronie równości 2.8 mamy całkowitą sumę kwadratów odchyleń dla zmiennej y, a po prawej stronie
sumę kwadratów odchyleń teoretycznych wartości ŷ od wartości średniej y oraz sumę kwadratów odchyleń dla reszt
losowych.
Składnik
∑
n
i =1
( yˆ i − y )2 reprezentujący sumę kwadratów odchyleń wyjaśnioną modelem funkcji regresji można
przedstawić w znacznie wygodniejszej postaci uwzględniając wyestymowane równanie regresji oraz wzór na ocenę
parametru b̂1 :
∑
n
i =1
( yˆ i − y )2 = bˆ1 cov xy
(2.9)
Równość 2.8, przedstawiająca podział całkowitej zmienności zmiennej losowej Y na dwa niezależne składniki:
zmienność wyjaśnioną modelem oraz zmienność resztową, jest podstawą wykonania analizy wariancji.
10
Tabela analizy wariancji dla weryfikacji H 0 : b1 = 0 wobec H1 : b1 ≠ 0
Zmienność
Stopnie
Suma kwadratów
Średni kwadrat
swobody
odchyleń
odchyleń
2
var R
Modelu
ˆ
vR = 1
s
var R = b cov xy
R =
1
vR
Resztowa
vE = n − 2
var E = var T − var R
Całkowita
vT = n − 1
var y =
∑
n
i =1
s E2 =
F
empiryczne
FR =
s R2
s E2
var E
ve
( yi − y ) 2
Hipotezę H 0 : b1 = 0 będziemy odrzucać na korzyść H1 : b1 ≠ 0 wtedy, gdy wartość empiryczna statystyki F
Fishera-Snedecora będzie większa od wartości krytycznej odczytanej dla ustalonego poziomu istotności α, lub gdy
wyliczony krytyczny poziom istotności (tzw. p-value) będzie mniejszy od przyjętego poziomu istotności (najczęściej
α = 0,05 lub α = 0,01). W takiej sytuacji będziemy wnioskować, że istnieje istotny, liniowy związek między zmienną
losową Y a zmienną X opisany wyestymowanym z próby równaniem regresji postaci mˆ ( x) = bˆ + bˆ x .
0
1
W sytuacji, gdy F empiryczne będzie nie większe od odpowiedniej wartości krytycznej lub p-value większe od
przyjętego poziomu istotności α, to nie mamy podstaw do odrzucenia hipotezy H 0 : b1 = 0 . Tym samym nie istnieje
liniowa zależność funkcyjna między zmiennymi Y i X, a wyestymowane z próby równanie regresji ma postać mˆ ( x) = y .
Parametry b0 i b1 nazywamy odpowiednio stałą regresji i współczynnikiem regresji. Pierwszy z nich nie ma
praktycznie żadnej interpretacji merytorycznej, z kolei współczynnik regresji b1 ma bardzo ładną i przydatną
interpretację: mówi nam o tym, o ile średnio zmieni się zmienna y przy wzroście zmiennej x o jednostkę.
Średni kwadrat odchyleń dla zmienności resztowej s E2 jest oceną wariancji odchyleń od regresji σ y2 / x określonej
w założeniu 2.1:
var y − bˆ1 cov xy
σˆ y2 / x = S y2 / x = s E2 =
.
(2.10)
n−2
Hipoteza H 0 : b1 = 0 przy alternatywie H1 : b1 ≠ 0 może być także weryfikowana przy pomocy statystyki
t-Studenta.
Przy prawdziwości H 0 : b1 = 0 statystyka:
bˆ
bˆ1
t emp. = 1 =
S bˆ
S y2 / x
1
(2.11)
var x
ma rozkład t-Studenta z liczbą stopni swobody v = n − 2 .
Jeżeli temp. > tα , n − 2 , to H 0 : b1 = 0 odrzucamy na korzyść hipotezy alternatywnej. Podobnie jak w przypadku
analizy wariancji decyzję weryfikacyjną można oprzeć o wyznaczony, dla danego t emp . , krytyczny poziom istotności
p-value.
W przypadku odrzucenia hipotezy H 0 : b1 = 0 możemy być zainteresowani weryfikacją hipotezy zerowej
zakładającej określoną (oznaczaną symbolicznie przez b10 ), niezerową wartość współczynnika regresji, czyli
11
H 0 : b1 = b10 . Hipotezę tę, przy dowolnej alternatywie, możemy zweryfikować testem t-Studenta, gdzie wartość
empiryczna tej statystyki dana jest wzorem:
bˆ − b
bˆ − b
temp. = 1 10 = 1 10
(2.12)
Sbˆ
S y2 / x
1
var x
2.3 Dokładność ocen parametrów modelu
Parametry modelu szacujemy na podstawie próby losowej, tym samym mają one charakter losowy, są
zmiennymi losowymi. Tym samym ich konkretna wartość wyznaczona z n-elementowej próby obarczona jest
pewnym błędem. Znajdując oceny tych błędów i korzystając z rozkładu t-Studenta możemy zbudować 1-α procentowe
przedziały ufności dla prawdziwych wartości tych parametrów w populacji generalnej.
Ocenę błędu współczynnika regresji b1 możemy znaleźć ze znanego już wzoru:
S bˆ =
1
S y2 / x
(2.13)
var x
a następnie korzystając z faktu, że zmienna t =
bˆ1 − b1
ma rozkład t-Studenta
S bˆ
budujemy przedział ufności dla
1
współczynnika regresji w populacji:
b1 ∈< bˆ1 − tα , n − 2 Sbˆ ; bˆ1 + tα , n − 2 Sbˆ > z prawdopodobieństwem P = 1 − α .
1
(2.14)
1
Ocenę błędu stałej regresji b0 możemy wyznaczyć z wzoru:
S bˆ =
S y2 / x ⋅
∑
n
x2
i =1 i
(2.15)
n ⋅ var x
0
a następnie korzystając z faktu, że zmienna t =
bˆ0 − b0
ma rozkład t-Studenta budujemy przedział ufności dla stałej
S bˆ
0
regresji w populacji:
b ∈< bˆ − t
0
0
ˆ +t
α , n−2 Sbˆ > z prawdopodobieństwem P = 1 − α .
α , n−2 S bˆ0 ; b0
(2.16)
0
Interpretacja obu przedziałów ufności jest standardowa, w przypadku przedziału ufności dla współczynnika
regresji może mieć postać: z prawdopodobieństwem 1 − α mamy prawo oczekiwać, że współczynnik regresji w
populacji będzie nie mniejszy niż bˆ − t
S , ale nie większy niż bˆ + t
S .
1
α , n − 2 bˆ1
1
α , n − 2 bˆ1
12
2.4
Badanie założeń modelu liniowego
Model regresji liniowej określony wzorem 2.2 wymaga spełnienia trzech ważnych założeń dotyczących rozkładu
reszt losowych.
(2.17)
Eei = 0
D 2 ei = σ y2 / x
(2.18)
Cei e j = 0 dla i ≠ j
(2.19)
Założenia te mogą być jeszcze uzupełnione założeniem o normalności reszt losowych, czyli:
ei ~ N (0; σ y / x )
(2.20)
2.4.1
Założenie o zerowej wartości oczekiwanej reszt losowych.
Sprawdzenie założenia o losowości reszt jest równoważne zweryfikowaniu hipotezy o poprawności doboru
modelu funkcji regresji.
Warunek Eei = 0 (dla i = 1, 2, ..., n) jest spełniony wtedy, gdy wartość oczekiwana zmiennej losowej Y jest
opisana zależnością:
E (Y ) = mˆ ( x) = bˆ0 + bˆ1 x
Niespełnienie warunku Eei = 0 jest sygnałem, że model mˆ ( x) jest źle określony i musi być zmieniony w
zakresie postaci modelu czy doboru zmiennych niezależnych.
Badanie losowości reszt jest wykonywane zawsze a posteriori, czyli po wyestymowaniu modelu funkcji
regresji.
Dla każdej obserwacji empirycznej yi wyznaczamy wartość teoretyczną ŷi wynikającą z wyestymowanego
modelu funkcji regresji. W kolejnym kroku wyznaczamy reszty jako różnice między oryginalną wartością zmiennej
losowej Y a wartością teoretyczną tej zmiennej:
(2.21)
ei = yi − yˆ i
W uporządkowanym rosnąco według wartości zmiennej niezależnej X ciągu reszt określamy liczbę serii S reszt
tych samych znaków. W poprawnie dobranym modelu liczba tych serii powinna należeć do pewnego przedziału
liczbowego. Krańce tego przedziału możemy odczytać z tablic rozkładu serii dla ustalonego poziomu istotności α .
Rozkład serii nie jest symetryczny, stąd z tablic tego rozkładu będziemy odczytywać dwie wartości krytyczne S1* i S 2*
uzależnione od poziomu istotności α oraz liczby reszt jednoimiennych (dodatnich i ujemnych) n1 i n2 :
S1* dla
1
α
2
oraz
S 2* dla 1 − 12 α .
Przedział liczbowy < S1* ; S 2* > wyznacza obszar dopuszczalny dla hipotezy zerowej zakładającej losowość reszt.
Tym samym w sytuacji, gdy wyznaczona liczba serii S należy do przedziału < S1* ; S 2* > , to możemy uważać, że model
funkcji regresji został poprawnie dobrany.
Jeżeli wyznaczona liczba serii S < S1* lub S > S1* , to reszty nie są losowe, a to pociąga konieczność zmiany
modelu funkcji regresji (zmiany postaci funkcji lub/i zmiennych objaśniających).
13
Tablice liczby serii są opracowane jedynie dla liczby reszt dodatnich (ujemnych) nie przekraczających 20, co
może być problemem przy większych próbach losowych. W takich sytuacjach można przybliżyć rozkład liczby serii S
rozkładem normalnym przyjmując, że:
mˆ S =
2 ⋅ n1 ⋅ n2
+1
n1 + n2
σˆ S =
2 ⋅ n1 ⋅ n2 (2 ⋅ n1 ⋅ n2 − n1 − n2 )
(n1 + n2 ) 2 (n1 + n2 − 1)
Pozwala to na standaryzację rozkładu liczby serii S:
S − mˆ S
zS =
σˆ S
(2.22)
(2.23)
i weryfikację równoważnej do H 0 : Eei = 0 hipotezy zerowej H 0 : z = 0 poprzez sprawdzenie, czy statystyka 2.23 trafia
do obszaru krytycznego dla H 0 czy też nie. Oczywiście do weryfikacji H 0 można także wykorzystać krytyczny
poziom istotności p-value.
W arkuszu StatystykaJG.xls (StatystykaJG.xlsm) test serii został zaimplementowany (wbudowany)
do procedur Regresja liniowa jak i Regresja wielokrotna, jego użycie wymaga jedynie zaznaczenia odpowiedniego pola
wyboru na formularzach tych dwóch procedur.
W przypadku, gdy dysponujemy jedynie wynikami próby i wyestymowanym modelem funkcji regresji (np. z
jakiejś publikacji, czy po estymacji modelu z pomocą standardowych poleceń Excela typu Dodaj linię trendu) badanie
poprawności doboru modelu testem serii może być wykonane – po wyznaczeniu reszt losowych – przy pomocy
wspomnianego wcześniej arkusza TestSerii.xls. Wystarczy skopiować do niego (poprzez wartości) uporządkowany
rosnąco wg wartości zmiennej objaśnianej wektor reszt losowych.
2.4.2
Założenie o normalności składników losowych
Założenie o wariancji reszt losowych w praktyce nie jest sprawdzane z tej przyczyny, że z reguły nie
dysponujemy wystarczającą liczbą danych empirycznych. Formalnie dla każdej wartości zmiennej niezależnej X
powinniśmy dysponować taką liczbą pomiarów zmiennej zależnej Y, aby można było oszacować wariancję reszt ei
(wyznaczanych przy tych samych wartościach zmiennej x).
Pewnym rozwiązaniem jest sprawdzenie założenia 2.20 o normalności rozkładu reszt losowych. Jego
nieodrzucenie oznacza, że zmienna losowa Y ma, dla każdej wartości zmiennej X, rozkład normalny o tej samej
wariancji, co wyczerpuje założenie 2.1.
2.4.3
Założenie o nieskorelowaniu składników losowych
Kolejnym założeniem klasycznej regresji liniowej, które możemy sprawdzić analizując reszty, jest założenie o
nieskorelowaniu kolejnych składników losowych (tzw. brak autokorelacji):
Cei e j = cov(ei ; e j ) = 0 dla i ≠ j
(2.24)
Założenie to jest sprawdzane poprzez weryfikację hipotezy zerowej o tym, że współczynnik autokorelacji rzędu
τ (najczęściej pierwszego) jest równy zero. Oceną współczynnika autokorelacji w próbie jest współczynnik korelacji
liniowej wyznaczony wg wzoru:
∑ ee
∑ e ∑
n
ρˆτ = rτ =
j =τ +1
n
j =1
2
j
j j −τ
n
j =τ +1
.
e 2j
(2.25)
14
Hipotezę o braku autokorelacji rzędu τ :
H 0 : ρτ = 0
(2.26)
możemy zweryfikować testem d Durbina-Watsona:
∑
d=
n
j =τ +1
(e j − e j −τ ) 2
∑
n
j =1
e 2j
(2.27)
lub klasycznym testem t-Studenta wyznaczając wartość empiryczną statystyki z wzoru:
t emp. =
rτ n − τ − 2
1 − rτ2
.
Między statystyką d Durbina-Watsona a statystyką t-Studenta zachodzi w przybliżeniu związek:
d ≈ 2(1 − rτ )
(2.28)
(2.29)
z którego wynika, że statystyka d przyjmuje swoje wartości z przedziału domkniętego <0; 4>. W przypadku braku
autokorelacji rzędu τ ( rτ = 0 ) wartość statystyki d jest równa zero.
Rozkład statystyki d przy założeniu, że H 0 : ρτ = 0 jest prawdziwa, zależy od liczby obserwacji n, liczby
zmiennych niezależnych k w modelu funkcji regresji oraz przyjętego poziomu istotności α .
Rozkład statystyki d Durbina-Watsona został stablicowany przy jednostronnej hipotezie alternatywnej
H1 : ρτ > 0 . W tablicach rozkładu statystyki d, dla ustalonych parametrów n i k oraz przyjętego poziomu istotności α ,
podane są dwie wartości d1 i d 2 wyznaczające obszar krytyczny dla hipotezy H 0 : ρτ = 0 .
Przy weryfikowaniu H 0 : ρτ = 0 wobec H1 : ρτ > 0 stosujemy następujące kryteria weryfikacji hipotezy
zerowej:
d ≤ d1 ⇒ H 0 : ρτ = 0 odrzucamy na korzyść H1 : ρτ > 0 ,
d1 < d < d 2 ⇒ nie podejmujemy żadnej decyzji,
d ≥ d2
⇒ nie mamy podstaw do odrzucenia H 0 : ρτ = 0 .
Hipotezę H 0 : ρτ = 0 możemy także zweryfikować wobec H1 : ρτ < 0 , ale przy podejmowaniu decyzji
stosujemy inne kryteria:
d ≥ 4 − d1 ⇒ H 0 : ρτ = 0 odrzucamy na korzyść H1 : ρτ < 0 ,
4 − d 2 < d < 4 − d1 ⇒ nie podejmujemy żadnej decyzji,
d ≤ 4 − d 2 ⇒ nie mamy podstaw do odrzucenia H 0 : ρτ = 0 .
Procedura wykorzystywana w skoroszycie StatystykaJG.xls (StatystykaJG.xlsm) do estymacji regresji liniowej dwóch zmiennych weryfikuje hipotezę o nieskorelowaniu składników losowych za pomocą klasycznej
statystyki t-Studenta wyznaczonej zgodnie z wzorem 2.28.
Problem występowania autokorelacji składników losowych w szczególności dotyczy takich sytuacji, w
których wartości zmiennej losowej Y są powtarzane na tych samych jednostkach eksperymentalnych (np. szeregi
czasowe).
W przypadku stwierdzenia autokorelacji oznacza to, że klasyczna metoda najmniejszych kwadratów nie może
być stosowana do estymacji parametrów modelu, daje bowiem obciążone oceny tych parametrów, a nie nieobciążone.
Rozwiązaniem jest zastosowanie innej metody estymacji parametrów modelu, np. uogólnionej metody najmniejszych
15
kwadratów. W dalszej części zajęć przedstawiona zostanie jedna z wersji UMNK polegającej na transformacji danych
wyjściowych.
2.5
Prognozowanie
Wyestymowany, istotny model funkcji regresji można wykorzystać do wyznaczenia średniej wartości zmiennej
losowej y w interesującym nas punkcie x0 :
mˆ ( x0 ) = bˆ0 + bˆ1 x0
(2.30)
Wyznaczona zgodnie z powyższym wzorem średnia wartość zmiennej y (tzw. wartość regresyjna, także
prognoza punktowa) jest oczywiście losowa (ponieważ losowe są parametry modelu). Ocena wariancji wartości
regresyjnej jest określona wzorem:
 1 (x − x )2 
S m2ˆ ( x 0 ) = S y2 / x  + 0
(2.31)
 .
var x 
 n
Warto zauważyć, że ocena wariancji wartości regresyjnej jest najmniejsza wtedy, gdy x0 = x , inaczej mówiąc
wtedy, gdy wyznaczamy oczekiwaną wartość zmiennej y w punkcie średnim dla zmiennej niezależnej. Ocena wariancji
wartości regresyjnej stosunkowo szybko rośnie w miarę tego, jak punkt x0 odsuwa się dalej (w obu kierunkach) od
wartości średniej zmiennej X.
W klasycznym modelu normalnej regresji liniowej estymator mˆ ( x0 ) określony wzorem 2.30 ma rozkład
normalny z wartością średnią m( x0 ) i odchyleniem standardowym równym pierwiastkowi kwadratowemu z wyrażenia
2.31.
Korzystając dalej z tego, że statystyka:
mˆ ( x0 ) − m( x0 )
t=
S mˆ ( x )
(2.32)
0
ma rozkład t-Studenta z liczbą stopni swobody v = n − 2 budujemy przedział ufności dla m( x0 ) :
m( x0 ) ∈< mˆ ( x0 ) − tα , n−2 S mˆ ( x0 ) ; mˆ ( x0 ) + tα , n−2 S mˆ ( x0 ) > z P = 1 − α .
(2.33)
W klasycznym ujęciu problemu predykcji (prognozowania) chodzi o estymację pojedynczej realizacji zmiennej y
przy ustalonej wartości zmiennej X = x 0 . Zgodnie z modelem liniowym wartość tę wyznaczymy jako:
y x0 = b0 + b1 x0 + e
(2.34)
a jej najlepszym estymatorem nieobciążonym jest wartość regresyjna mˆ ( x0 ) = bˆ0 + bˆ1 x0 .
Błąd prognozy pojedynczej realizacji zmiennej y (błąd predykcji) jest sumą nieskorelowanych błędów odchyleń
pojedynczych realizacji i błędu wartości regresyjnej:
1 ( x0 − x ) 2
+
.
(2.35)
n
var x
Podobnie jak w przypadku wartości regresyjnej możemy zbudować przedział ufności dla prawdziwej wartości
zmiennej losowej y przy ustalonej wartości zmiennej X = x 0 :
S ( y xP0 ) = S y / x + S mˆ ( x 0 ) = S y / x 1 +
y x0 ∈< mˆ ( x 0 ) − tα , n − 2 S ( y xPo ); mˆ ( x 0 ) − tα , n −2 S ( y xPo ) > z P = 1 − α .
(2.36)
16
3 Arkusze obliczeniowe
Jak wspomniałem wcześniej arkusze obliczeniowe zawierają bardziej lub mniej rozbudowane makropolecenia,
dlatego powinniśmy pobrać je ze strony Uczelni i zapisać na lokalnym dysku swojego komputera i dopiero z tej
lokalizacji je uruchamiać.
3.1 Skopiowanie arkusza na swój komputer.
Wchodzimy na stronę WWW Uczelni i przechodzimy do zakładki Download, w której odszukujemy folder
StatystykaJG i otwieramy go. Znajdujemy potrzebny plik i klikamy go prawym przyciskiem myszy, a następnie
wywołujemy (lewym przyciskiem) polecenie Zapisz plik jako … (Save targer as…).
Otwarte zostanie okno dialogowe polecenia Zapisz plik jako…, w którym wskazujemy miejsce zapisania
pobieranego pliku. Po wskazaniu folderu klik przycisku Zapisz kończy pobieranie.
17
W folderze Download/StatystykaJG arkusze obliczeniowe z makrami są także w wersji zarchiwizowanej,
ponieważ może się zdarzyć, że przeglądarka lub jej ustawienia nie pozwolą na pobranie plików Excela z makrami.
Pliki te pobieramy tak, jak to pokazano wyżej, ale po ich pobraniu musimy je rozpakować (wystarczy podwójny klik na
plik archiwum, użyty jest standardowy w środowisku Windows program archiwizujący ZIP).
3.2 Udostępnienie makropoleceń
Przy ich otwieraniu powinniśmy pozwolić na uruchomienie makropoleceń, inaczej arkusze będą niefunkcjonalne
(nieprzydatne). Robimy to trochę inaczej w MS Excel w wersji 2003 oraz w wersjach nowszych.
3.2.1
Udostępnienie makr w MS Excel 2003
Przy wczytywaniu skoroszytu z makrami w MS Excel 2003 zobaczymy pokazany niżej komunikat.
Klik przycisku Włącz makra pozwala na pełne wykorzystanie funkcjonalności arkuszy obliczeniowych. W
przypadku arkusza StatystykaJG.xls zobaczymy rozbudowane menu główne o polecenia statystyczne.
3.2.2
Udostępnienie makr w MS Excel 2007 i nowszych
Po wczytaniu skoroszytu z makrami możemy zobaczyć pokazany niżej komunikat, który informuje nas, że
wczytany skoroszyt zawiera makra i że zostały one wyłączone.
18
W takiej sytuacji klikamy na przycisk Włącz zawartość, co skutkuje włączeniem makr z jednoczesnym
usunięciem komunikatu o ostrzeżeniach.
W przypadku skoroszytu StatystykaJG.xlsm widocznym efektem włączenia makr jest zawartość zakładki
Dodatki, w której widoczne będą polecenia menu tego skoroszytu (np. Hipotezy, Regresja, itd.).
Po takim uruchomieniu skoroszytu z makrami będą one dla nas dostępne i będziemy mogli je wykorzystać do
automatyzacji obliczeń.
19
4 Literatura
1.
Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000
2.
Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe
PWN, Warszawa 2003
3.
Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja
Wydawnicza PLACET, Warszawa, 1998
4.
Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
5.
Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i
Marketingu, Sochaczew, 2000
6.
Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004
7.
Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła
Zarządzania i Marketingu, Sochaczew, 2006
8.
Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania.
Wydawnictwo Naukowe PWN, Warszawa 2008
9.
Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003
Download