M a t e ri ał y p o mo cn ic ze d o e -l e arn i n g u Pro gn o zo w an i e i sy mu l ac je Janusz Górczyński Moduł 1. Podstawy prognozowania. Model regresji liniowej Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2012 2 Od Autora Treści zawarte w tym materiale były pierwotnie opublikowane w serii wydawniczej „Wykłady ze statystyki i ekonometrii”, a obecne ich wydanie zostało dostosowane do potrzeb kursu e-learningowego „Prognozowanie i symulacje” przygotowanego dla studentów kierunku zarządzanie. Prace nad wykorzystaniem komputerów i Internetu w dydaktyce zostały uruchomione w naszej Uczelni praktycznie od momentu jej utworzenia. Początkowo było to realizowane głównie poprzez przygotowywanie przez wykładowców różnego rodzaju materiałów dydaktycznych w wersji cyfrowej (pokazy PowerPoint, dokumenty Worda czy Excela), które były i są udostępniane w zakładce download. Kolejny krok to przygotowanie autorskiej platformy testów internetowych (zakładka Testy). Od 2011 roku została uruchomiona w pełni profesjonalna platforma elearningowa, w której do weryfikacji wiedzy przekazywanej w kolejnych modułach zaadaptowane zostały wspomniane wcześniej testy internetowe. Treści zawarte w tym materiale zostały tak przygotowane, aby ułatwić tym z Was, którzy z różnych powodów mają problemy z matematyką, statystyką i ekonometrią, przypomnienie i zrozumienie materiału z zakresu wykorzystania wybranych fragmentów tej wiedzy do zastosowań praktycznych związanych z budowaniem modeli prognostycznych. Jak korzystać z tych materiałów? Sądzę, że dobrym rozwiązaniem będzie spokojne przeczytanie poszczególnych tematów, prześledzenie przykładowych zadań, a następnie trzeba je samemu rozwiązać. Weryfikatorem przyswojonej wiedzy jest – w pewnym stopniu – interaktywny test komputerowy. W ramach każdego modułu użytkownik dostaje pewną liczbę pytań pokrywających materiał modułu. W pierwszym podejściu próg zaliczenia ustawiany jest z reguły na 50% pozytywnych odpowiedzi, a w przypadku niezaliczenia testu próg jest podnoszony o 5% w każdej kolejnej próbie. Janusz Górczyński 3 Spis treści WSTĘP .............................................................................................................................................................................. 4 1 2 PROGNOZOWANIE – POJĘCIA OGÓLNE .................................................................................................... 5 1.1 METODY PROGNOSTYCZNE ........................................................................................................................... 5 1.2 BŁĄD PROGNOZY .......................................................................................................................................... 5 REGRESJA LINIOWA ........................................................................................................................................ 8 2.1 ESTYMACJA MODELU .................................................................................................................................... 8 2.2 BADANIE ISTOTNOŚCI ................................................................................................................................... 9 2.3 DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU .............................................................................................. 11 2.4 BADANIE ZAŁOŻEŃ MODELU LINIOWEGO .................................................................................................... 12 2.5 3 4 2.4.1 Założenie o zerowej wartości oczekiwanej reszt losowych.......................................................... 12 2.4.2 Założenie o normalności składników losowych ........................................................................... 13 2.4.3 Założenie o nieskorelowaniu składników losowych..................................................................... 13 PROGNOZOWANIE ....................................................................................................................................... 15 ARKUSZE OBLICZENIOWE .......................................................................................................................... 16 3.1 SKOPIOWANIE ARKUSZA NA SWÓJ KOMPUTER............................................................................................. 16 3.2 UDOSTĘPNIENIE MAKROPOLECEŃ ............................................................................................................... 17 3.2.1 Udostępnienie makr w MS Excel 2003 ........................................................................................ 17 3.2.2 Udostępnienie makr w MS Excel 2007 i nowszych...................................................................... 17 LITERATURA .................................................................................................................................................... 19 4 Wstęp Przedmiot „Prognozowanie i symulacje” realizowany jest na wielu kierunkach studiów sprawiając studentom tych kierunków pewne problemy. Wynikają one między innymi z tego powodu, że przekazywane w ramach przedmiotu treści i oczekiwane umiejętności wymagają z jednej strony dość dużej wiedzy teoretycznej z zakresu statystyki i ekonometrii, a z drugiej strony praktycznej umiejętności wykonywania obliczeń statystycznych. Moim zamiarem jest przedstawienie tych interesujących problemów na wielu przykładach, w tym na przykładach praktycznych. Pierwsza część prezentowanego materiału zawiera teoretyczne wprowadzenie do metod regresyjnych: regresji liniowej, regresji wielokrotnej liniowej, regresji krokowej, regresji krzywoliniowej, badaniu istotności wyestymowanych modeli oraz ich wykorzystania do prognozowania. W zastosowaniach praktycznych niezbędne są jakieś narzędzia obliczeniowe, z uwagi na potencjalnych odbiorców tego skryptu będę korzystać wyłącznie z arkusza kalkulacyjnego Excel. Nic oczywiście nie stoi na przeszkodzie wykorzystywaniu do celów obliczeniowych wyspecjalizowanych pakietów statystycznych (np. Statistica, SPSS, Statgraphics), ale dostęp do nich może być trudniejszy. Dla ułatwienia obliczeń będę korzystać z trzech specjalnie przygotowanych skoroszytów MS Excel: StatystykaJG.xls Liniowa.xls TestSerii.xls Wszystkie trzy skoroszyty są dostępne w zakładce Download/StatystykaJG na stronie naszej Uczelni.1 Każdy z tych skoroszytów zawiera mniej lub bardziej zaawansowane makropolecenia VBA2. Skoroszyt StatystykaJG.xls (lub StatystykaJG.xlsm) jest najbardziej rozbudowany, a procedury w nim zawarte pozwalają na wykonanie większości obliczeń statystycznych realizowanych w typowych programach przedmiotów statystyka, ekonometria czy prognozowanie. Procedury dostępne są poprzez menu aplikacji, a obsługa poszczególnych procedur realizowana jest poprzez klasyczne formularze windowsowe. Skoroszyty Liniowa.xls oraz TestSerii.xls są znacznie skromniejsze, a ich rola ograniczona jest do dwóch zagadnień: estymacji modelu liniowego oraz wykorzystaniu testu serii. Kolejna różnica związana jest ze sposobem wykonywania obliczeń, w tych dwóch skoroszytach obliczenia wykonywane są (głównie) poprzez jawne formuły zapisane w komórkach arkusza. W pracy przyjęto następującą konwencję zapisu: 1 2 Nazwy skoroszytów i arkuszy są wypisywane czcionką Courier New, Formuły Excela wypisywane są czcionką Courier New , Nazwy poleceń menu, nazwy zakładek i opisy kontrolek formularzy są wypisywane pochyloną czcionką Times New Roman. http://www.wszim-sochaczew.edu.pl Visual Basic for Applications, język programowania pakietu Office 5 1 Prognozowanie – pojęcia ogólne Prognozowanie (lub inaczej predykcja) jest opartym na naukowych podstawach przewidywaniem kształtowania się zjawisk i procesów w przyszłości. Przedmiotem prognozowania jest przebieg zjawisk i procesów przyrodniczych, społecznych, demograficznych, gospodarczych, technicznych itp. Jeżeli prognozowanie dotyczy procesów i zjawisk zachodzących w gospodarce, to mówimy wtedy o prognozowaniu gospodarczym. Z terminem „prognozowanie” związany jest termin „prognozy” („predykcji”). Prognozowanie jest procesem wnioskowania o przewidywanym kształtowaniu się zjawiska czy procesu w przyszłości, a prognoza (predykcja) jest konkretnym wynikiem procesu prognozowania. Prognozowanie gospodarcze (ale nie tylko) jest utrudnione przez specyficzne warunki, w jakich zachodzą procesy gospodarcze, w tym ich uzależnienie od wielu różnorodnych czynników. Czynniki te, z uwagi na sposób oddziaływania obiektu prognozy, można podzielić na: 1.1 • czynniki egzogeniczne (zewnętrzne), czyli takie, na które obiekt prognozy nie ma wpływu, a które powinny być uwzględnione w prognozowaniu z uwagi na ich ograniczający lub stymulujący wpływ na przebieg danego zjawiska (np. kurs walutowy na kształtowanie się obrotów danej firmy, przebieg warunków pogodowych na plonowanie danej rośliny itd.); • czynniki endogeniczne (wewnętrzne), czyli takie, na które obiekt prognozy ma wpływ (np. wydajność pracy, wielkość stosowanego nawożenia itd.). Metody prognostyczne W każdym procesie prognozowania można wyróżnić następujące etapy: Zdefiniowanie problemu prognostycznego, Zebranie danych statystycznych i ich wstępna analiza, Wybór metody prognozowania, Zbudowanie prognozy i ocena jej trafności. Istotnym elementem procesu prognozowania jest wybór odpowiedniej metody prognozowania, która determinuje sposób zbudowania prognoz. W zastosowaniach praktycznych najczęściej stosuje się metodę predykcji nieobciążonej, która sprowadza się do wyznaczenia prognozy na poziomie wartości oczekiwanej zmiennej prognozowanej w danym punkcie. Prognozowanie metodą predykcji nieobciążonej jest uzasadnione szczególnie wtedy, gdy można oczekiwać, że w punkcie prognozy powtórzą się te warunki, które obserwowano dla danych statystycznych wykorzystanych do zbudowania modelu prognostycznego. Jeżeli oczekiwanie takie nie jest uprawnione, to w miejsce predykcji nieobciążonej można wybrać takie metody prognozowania jak największego prawdopodobieństwa czy też metoda minimalizacji oczekiwanej straty. W pracy tej ograniczono się do wykorzystania metody predykcji nieobciążonej, jako najczęściej stosowanej w praktycznych rozwiązaniach. 1.2 Błąd prognozy Z uwagi na fakt, że zmienna objaśniana jest losowa naturalne jest występowanie różnic między rzeczywistą wartością zmiennej objaśnianej a jej prognozą wyznaczoną dla zadanej wartości zmiennej objaśniającej (lub zadanych 6 wartości zmiennych objaśnianych)3. Realne jest więc wystąpienie błędu prognozy, częściej będziemy używać pojęcia błąd predykcji. Dwoma podstawowymi rodzajami mierników dokładności i trafności zbudowanych prognoz są: mierniki dokładności ex ante, mierniki dokładności ex post. Mierniki dokładności ex ante służą do oceny oczekiwanych wielkości odchyleń rzeczywistych wartości zmiennej objaśnianej od ustalonej prognozy. Wartości tych mierników podawane są w momencie ustalenia prognozy, a wiec wtedy, gdy nie są jeszcze znane rzeczywiste wartości zmiennej objaśnianej. W przykładach praktycznych będziemy wykorzystywać arkusze kalkulacyjne StatystykaJG.xls lub StatystykaJG.xlsm oraz Liniowa.xls, w obu arkuszach wyznaczane są średnie błędy predykcji punktowej ex ante, można je symbolicznie oznaczyć jako S yˆ P . Błąd ten oznacza, że przy prognozowaniu wartości ŷ p popełniamy średnio błąd ± S yˆ P . Średni błąd predykcji jest liczbą mianowaną, po jego podzieleniu przez prognozę punktową ŷ p otrzymamy względny średni błąd predykcji ex ante: V = S yˆ p yˆ p ⋅ 100% . Względny błąd prognozy ex ante informuje nas o tym, jaki duży (procentowo) błąd popełniamy przyjmując, że nieznana, prognozowana wartość będzie równa wyznaczonej prognozie punktowej ŷ p . Średni błąd predykcji S yˆ P wykorzystujemy także do zbudowania prognozy przedziałowej wg wzoru: y * ∈< yˆ p − tα ; v S yˆ P ; yˆ p + tα ; v S yˆ P > z P = 1 − α . Wyznaczony przedział liczbowy pokrywa , z prawdopodobieństwem 1 − α , nieznaną wartość zmiennej zależnej y* w ustalonym punkcie prognozy. Ocena prawdziwości mierników ex ante może być zweryfikowana dopiero po rzeczywistym zrealizowaniu się zmiennej objaśnianej w punkcie, dla którego była postawiona prognoza. Jeżeli znamy rzeczywistą wartość zmiennej prognozowanej Y w wybranym punkcie, to błąd predykcji ex post jest równy D = Y − yˆ p . Wielkość błędu absolutnego prognozy ex post informuje nas o różnicy między rzeczywistą wartością zmiennej prognozowanej w danym punkcie a postawioną prognozą. Podobnie jak w przypadku błędu ex ante możemy wyznaczyć względny błąd prognozy ex post z wzoru: V = 3 D Y − yˆ p 100% = 100% . Y Y Prognozę tę nazywamy prognozą punktową, symbolicznie oznaczaną jako ŷ p . 7 Jeżeli prognoza była budowana nie dla pojedynczego punktu, lecz dla ich ciągu, to można wyznaczyć średni błąd prognozy ex post (absolutny i względny) z wzorów: D= 1 k V = 1 k ∑ ∑ k i =1 (Yi − yˆ ip ) Yi − yˆ ip ⋅ 100% i =1 Yi k Statystyczną oceną błędu prognozy ex post w takiej sytuacji jest średni kwadratowy błąd prognozy wyznaczony z wzoru: S= 1 k ∑ k i =1 (Yi − yˆ ip ) 2 . Arkusze kalkulacyjne, które będziemy wykorzystywać w prezentowanych dalej przykładach część z tych mierników dokładności prognoz wyznaczają, ale nie wszystkie. W miarę potrzeby można je samodzielnie doliczyć pisząc stosunkowo prostą formułę Excela. 8 2 Regresja liniowa 2.1 Estymacja modelu Rozważmy populację generalną π, w której obserwujemy dwie zmienne: zmienną losową Y i zmienną ustaloną4 lub losową X. O zmiennej losowej Y zakładamy, że ma rozkład normalny z wartością średnią m będącą funkcją liniową zmiennej X oraz stałym (niezależnym od zmiennej X) odchyleniem standardowym. Założenie to można zapisać następująco: Y ~ N (m( x) = b0 + b1 x; σ y x ) . (2.1) Parametry funkcji liniowej m( x) = b0 + b1 x nie są znane i muszą być oszacowane na podstawie odpowiedniej próby losowej. Oznaczmy element n-elementowej próby losowej jako parę liczb ( yi , xi ) . Zgodnie z modelem funkcji liniowej między yi a xi zachodzi związek: yi = m( xi ) = b0 + b1 xi + ei (2.2) gdzie ei jest niedopasowaniem (różnicą, odchyleniem, resztą) między wartością obserwowaną w próbie yi a wartością teoretyczną b0 + b1 xi . Parametry funkcji liniowej (parametry modelu) m( x) = b0 + b1 x musimy tak dobrać, aby dopasowanie funkcji regresji było „jak najlepsze”. Kryterium to będzie spełnione wtedy, gdy suma kwadratów reszt ei będzie minimalna (suma kwadratów, ponieważ reszty są zarówno dodatnie jak i ujemne). Wychodząc z wzoru (2.2) mamy: s= ∑ n i =1 ∑ n ei2 = i =1 [yi − (b0 + b1xi )]2 = minimum (2.3) Tak sformułowane kryterium estymacji nieznanych parametrów modelu znane jest w teorii statystyki jako metoda najmniejszych kwadratów – MNK. Suma kwadratów odchyleń s zdefiniowana wzorem 2.3 jest funkcją dwóch niewiadomych (zmiennych) - b0 i b1 , a problem znalezienia jej minimum rozwiążemy poprzez wyznaczenie i przyrównanie do zera pochodnych funkcji s względem b0 i b1 : ∂s ∂b = −2 0 ∂s = −2 ∂b1 ∑ ∑ n i =1 [yi − (b0 + b1 xi ] = 0 (2.4) [y − (b0 + b1 xi ] ⋅ xi = 0 i =1 i n Przyrównanie obu pochodnych cząstkowych do zera tworzy tzw. układ równań normalnych, a jego rozwiązanie daje oceny (oszacowania) nieznanych parametrów modelu. Oszacowania te tradycyjnie będziemy oznaczać symbolem „daszka” umieszczonym nad szacowanym parametrem. Przykładowo, b0 jest nieznanym parametrem, a b̂0 jego estymatorem (oszacowaniem, oceną). Uwaga to wynika z tego, że w dalszych przekształceniach układu równań normalnych używać już będziemy symboli ocen parametrów modelu w miejsce samych parametrów. Przekształcając 2.4 otrzymujemy następujące wzory na oceny parametrów modelu: ∑ ( y − y)( x − x ) = ∑ = ∑ (x − x) ∑ n bˆ1 n i i =1 n i =1 4 i 2 i i =1 n ∑ − x∑ y i xi − y x2 i =1 i n x i =1 i n x i =1 i = cov xy var x bˆ0 = y − bˆ1 x Zmienna ustalona, inaczej nielosowa; taka, która w kolejnych próbach przyjmuje te same wartości. (2.5) 9 2.2 Badanie istotności Korzystając z wzoru 2.5 mamy oceny parametrów modelu liniowego, tym samym mamy także ocenę funkcji regresji z próby: (2.6) mˆ ( x) = bˆ0 + bˆ1 x . Otwartym pozostaje pytanie, czy prawdziwe jest nasze założenie o tym, że między wartością oczekiwaną zmiennej losowej Y a wartościami zmiennej X istnieje związek linowy postaci: m( x) = b0 + b1 x . Związku takiego nie będzie wtedy, gdy parametr b1 będzie równy zero, tym samym powinniśmy przeprowadzić weryfikację hipotezy zerowej H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 . Tak sformułowaną hipotezę nazywać będziemy hipotezą o nieistotności regresji. Jej odrzucenie oznaczać będzie, że istnieje istotny liniowy związek między zmienną Y a zmienną X oszacowany równaniem 2.6. Z kolei brak podstaw do odrzucenia hipotezy zerowej oznaczać będzie, że takiego związku nie ma (wartość oczekiwana zmiennej losowej Y będzie stała, czyli jej ocena będzie równa średniej tej zmiennej). Hipotezę H 0 : b1 = 0 wobec alternatywy H1 : b1 ≠ 0 zweryfikować możemy metodą analizy wariancji lub testem t-Studenta. Przed wprowadzeniem analizy wariancji rozważmy dowolną obserwację ( yi , xi ) oraz odpowiadającą im teoretyczną wartość zmiennej losowej Y wyznaczoną dla argumentu xi z wyestymowanej funkcji regresji yˆ = mˆ ( x ) = bˆ + bˆ x . Różnicę (odchylenie) wartości obserwowanej y od średniej y można przedstawić jako sumę i i o 1 i i dwóch różnic: yi − y = ( yˆ i − y ) + ( yi − yˆ i ) (2.7) Podnosząc obustronnie równość 2.7 do kwadratu i sumując po wskaźniku i otrzymamy, po odpowiednich przekształceniach, analogiczną równość sum kwadratów odchyleń: ∑ n i =1 ( yi − y )2 = ∑i=1( yˆ i − y )2 + ∑i=1 ( yi − yˆ i )2 n n (2.8) Po lewej stronie równości 2.8 mamy całkowitą sumę kwadratów odchyleń dla zmiennej y, a po prawej stronie sumę kwadratów odchyleń teoretycznych wartości ŷ od wartości średniej y oraz sumę kwadratów odchyleń dla reszt losowych. Składnik ∑ n i =1 ( yˆ i − y )2 reprezentujący sumę kwadratów odchyleń wyjaśnioną modelem funkcji regresji można przedstawić w znacznie wygodniejszej postaci uwzględniając wyestymowane równanie regresji oraz wzór na ocenę parametru b̂1 : ∑ n i =1 ( yˆ i − y )2 = bˆ1 cov xy (2.9) Równość 2.8, przedstawiająca podział całkowitej zmienności zmiennej losowej Y na dwa niezależne składniki: zmienność wyjaśnioną modelem oraz zmienność resztową, jest podstawą wykonania analizy wariancji. 10 Tabela analizy wariancji dla weryfikacji H 0 : b1 = 0 wobec H1 : b1 ≠ 0 Zmienność Stopnie Suma kwadratów Średni kwadrat swobody odchyleń odchyleń 2 var R Modelu ˆ vR = 1 s var R = b cov xy R = 1 vR Resztowa vE = n − 2 var E = var T − var R Całkowita vT = n − 1 var y = ∑ n i =1 s E2 = F empiryczne FR = s R2 s E2 var E ve ( yi − y ) 2 Hipotezę H 0 : b1 = 0 będziemy odrzucać na korzyść H1 : b1 ≠ 0 wtedy, gdy wartość empiryczna statystyki F Fishera-Snedecora będzie większa od wartości krytycznej odczytanej dla ustalonego poziomu istotności α, lub gdy wyliczony krytyczny poziom istotności (tzw. p-value) będzie mniejszy od przyjętego poziomu istotności (najczęściej α = 0,05 lub α = 0,01). W takiej sytuacji będziemy wnioskować, że istnieje istotny, liniowy związek między zmienną losową Y a zmienną X opisany wyestymowanym z próby równaniem regresji postaci mˆ ( x) = bˆ + bˆ x . 0 1 W sytuacji, gdy F empiryczne będzie nie większe od odpowiedniej wartości krytycznej lub p-value większe od przyjętego poziomu istotności α, to nie mamy podstaw do odrzucenia hipotezy H 0 : b1 = 0 . Tym samym nie istnieje liniowa zależność funkcyjna między zmiennymi Y i X, a wyestymowane z próby równanie regresji ma postać mˆ ( x) = y . Parametry b0 i b1 nazywamy odpowiednio stałą regresji i współczynnikiem regresji. Pierwszy z nich nie ma praktycznie żadnej interpretacji merytorycznej, z kolei współczynnik regresji b1 ma bardzo ładną i przydatną interpretację: mówi nam o tym, o ile średnio zmieni się zmienna y przy wzroście zmiennej x o jednostkę. Średni kwadrat odchyleń dla zmienności resztowej s E2 jest oceną wariancji odchyleń od regresji σ y2 / x określonej w założeniu 2.1: var y − bˆ1 cov xy σˆ y2 / x = S y2 / x = s E2 = . (2.10) n−2 Hipoteza H 0 : b1 = 0 przy alternatywie H1 : b1 ≠ 0 może być także weryfikowana przy pomocy statystyki t-Studenta. Przy prawdziwości H 0 : b1 = 0 statystyka: bˆ bˆ1 t emp. = 1 = S bˆ S y2 / x 1 (2.11) var x ma rozkład t-Studenta z liczbą stopni swobody v = n − 2 . Jeżeli temp. > tα , n − 2 , to H 0 : b1 = 0 odrzucamy na korzyść hipotezy alternatywnej. Podobnie jak w przypadku analizy wariancji decyzję weryfikacyjną można oprzeć o wyznaczony, dla danego t emp . , krytyczny poziom istotności p-value. W przypadku odrzucenia hipotezy H 0 : b1 = 0 możemy być zainteresowani weryfikacją hipotezy zerowej zakładającej określoną (oznaczaną symbolicznie przez b10 ), niezerową wartość współczynnika regresji, czyli 11 H 0 : b1 = b10 . Hipotezę tę, przy dowolnej alternatywie, możemy zweryfikować testem t-Studenta, gdzie wartość empiryczna tej statystyki dana jest wzorem: bˆ − b bˆ − b temp. = 1 10 = 1 10 (2.12) Sbˆ S y2 / x 1 var x 2.3 Dokładność ocen parametrów modelu Parametry modelu szacujemy na podstawie próby losowej, tym samym mają one charakter losowy, są zmiennymi losowymi. Tym samym ich konkretna wartość wyznaczona z n-elementowej próby obarczona jest pewnym błędem. Znajdując oceny tych błędów i korzystając z rozkładu t-Studenta możemy zbudować 1-α procentowe przedziały ufności dla prawdziwych wartości tych parametrów w populacji generalnej. Ocenę błędu współczynnika regresji b1 możemy znaleźć ze znanego już wzoru: S bˆ = 1 S y2 / x (2.13) var x a następnie korzystając z faktu, że zmienna t = bˆ1 − b1 ma rozkład t-Studenta S bˆ budujemy przedział ufności dla 1 współczynnika regresji w populacji: b1 ∈< bˆ1 − tα , n − 2 Sbˆ ; bˆ1 + tα , n − 2 Sbˆ > z prawdopodobieństwem P = 1 − α . 1 (2.14) 1 Ocenę błędu stałej regresji b0 możemy wyznaczyć z wzoru: S bˆ = S y2 / x ⋅ ∑ n x2 i =1 i (2.15) n ⋅ var x 0 a następnie korzystając z faktu, że zmienna t = bˆ0 − b0 ma rozkład t-Studenta budujemy przedział ufności dla stałej S bˆ 0 regresji w populacji: b ∈< bˆ − t 0 0 ˆ +t α , n−2 Sbˆ > z prawdopodobieństwem P = 1 − α . α , n−2 S bˆ0 ; b0 (2.16) 0 Interpretacja obu przedziałów ufności jest standardowa, w przypadku przedziału ufności dla współczynnika regresji może mieć postać: z prawdopodobieństwem 1 − α mamy prawo oczekiwać, że współczynnik regresji w populacji będzie nie mniejszy niż bˆ − t S , ale nie większy niż bˆ + t S . 1 α , n − 2 bˆ1 1 α , n − 2 bˆ1 12 2.4 Badanie założeń modelu liniowego Model regresji liniowej określony wzorem 2.2 wymaga spełnienia trzech ważnych założeń dotyczących rozkładu reszt losowych. (2.17) Eei = 0 D 2 ei = σ y2 / x (2.18) Cei e j = 0 dla i ≠ j (2.19) Założenia te mogą być jeszcze uzupełnione założeniem o normalności reszt losowych, czyli: ei ~ N (0; σ y / x ) (2.20) 2.4.1 Założenie o zerowej wartości oczekiwanej reszt losowych. Sprawdzenie założenia o losowości reszt jest równoważne zweryfikowaniu hipotezy o poprawności doboru modelu funkcji regresji. Warunek Eei = 0 (dla i = 1, 2, ..., n) jest spełniony wtedy, gdy wartość oczekiwana zmiennej losowej Y jest opisana zależnością: E (Y ) = mˆ ( x) = bˆ0 + bˆ1 x Niespełnienie warunku Eei = 0 jest sygnałem, że model mˆ ( x) jest źle określony i musi być zmieniony w zakresie postaci modelu czy doboru zmiennych niezależnych. Badanie losowości reszt jest wykonywane zawsze a posteriori, czyli po wyestymowaniu modelu funkcji regresji. Dla każdej obserwacji empirycznej yi wyznaczamy wartość teoretyczną ŷi wynikającą z wyestymowanego modelu funkcji regresji. W kolejnym kroku wyznaczamy reszty jako różnice między oryginalną wartością zmiennej losowej Y a wartością teoretyczną tej zmiennej: (2.21) ei = yi − yˆ i W uporządkowanym rosnąco według wartości zmiennej niezależnej X ciągu reszt określamy liczbę serii S reszt tych samych znaków. W poprawnie dobranym modelu liczba tych serii powinna należeć do pewnego przedziału liczbowego. Krańce tego przedziału możemy odczytać z tablic rozkładu serii dla ustalonego poziomu istotności α . Rozkład serii nie jest symetryczny, stąd z tablic tego rozkładu będziemy odczytywać dwie wartości krytyczne S1* i S 2* uzależnione od poziomu istotności α oraz liczby reszt jednoimiennych (dodatnich i ujemnych) n1 i n2 : S1* dla 1 α 2 oraz S 2* dla 1 − 12 α . Przedział liczbowy < S1* ; S 2* > wyznacza obszar dopuszczalny dla hipotezy zerowej zakładającej losowość reszt. Tym samym w sytuacji, gdy wyznaczona liczba serii S należy do przedziału < S1* ; S 2* > , to możemy uważać, że model funkcji regresji został poprawnie dobrany. Jeżeli wyznaczona liczba serii S < S1* lub S > S1* , to reszty nie są losowe, a to pociąga konieczność zmiany modelu funkcji regresji (zmiany postaci funkcji lub/i zmiennych objaśniających). 13 Tablice liczby serii są opracowane jedynie dla liczby reszt dodatnich (ujemnych) nie przekraczających 20, co może być problemem przy większych próbach losowych. W takich sytuacjach można przybliżyć rozkład liczby serii S rozkładem normalnym przyjmując, że: mˆ S = 2 ⋅ n1 ⋅ n2 +1 n1 + n2 σˆ S = 2 ⋅ n1 ⋅ n2 (2 ⋅ n1 ⋅ n2 − n1 − n2 ) (n1 + n2 ) 2 (n1 + n2 − 1) Pozwala to na standaryzację rozkładu liczby serii S: S − mˆ S zS = σˆ S (2.22) (2.23) i weryfikację równoważnej do H 0 : Eei = 0 hipotezy zerowej H 0 : z = 0 poprzez sprawdzenie, czy statystyka 2.23 trafia do obszaru krytycznego dla H 0 czy też nie. Oczywiście do weryfikacji H 0 można także wykorzystać krytyczny poziom istotności p-value. W arkuszu StatystykaJG.xls (StatystykaJG.xlsm) test serii został zaimplementowany (wbudowany) do procedur Regresja liniowa jak i Regresja wielokrotna, jego użycie wymaga jedynie zaznaczenia odpowiedniego pola wyboru na formularzach tych dwóch procedur. W przypadku, gdy dysponujemy jedynie wynikami próby i wyestymowanym modelem funkcji regresji (np. z jakiejś publikacji, czy po estymacji modelu z pomocą standardowych poleceń Excela typu Dodaj linię trendu) badanie poprawności doboru modelu testem serii może być wykonane – po wyznaczeniu reszt losowych – przy pomocy wspomnianego wcześniej arkusza TestSerii.xls. Wystarczy skopiować do niego (poprzez wartości) uporządkowany rosnąco wg wartości zmiennej objaśnianej wektor reszt losowych. 2.4.2 Założenie o normalności składników losowych Założenie o wariancji reszt losowych w praktyce nie jest sprawdzane z tej przyczyny, że z reguły nie dysponujemy wystarczającą liczbą danych empirycznych. Formalnie dla każdej wartości zmiennej niezależnej X powinniśmy dysponować taką liczbą pomiarów zmiennej zależnej Y, aby można było oszacować wariancję reszt ei (wyznaczanych przy tych samych wartościach zmiennej x). Pewnym rozwiązaniem jest sprawdzenie założenia 2.20 o normalności rozkładu reszt losowych. Jego nieodrzucenie oznacza, że zmienna losowa Y ma, dla każdej wartości zmiennej X, rozkład normalny o tej samej wariancji, co wyczerpuje założenie 2.1. 2.4.3 Założenie o nieskorelowaniu składników losowych Kolejnym założeniem klasycznej regresji liniowej, które możemy sprawdzić analizując reszty, jest założenie o nieskorelowaniu kolejnych składników losowych (tzw. brak autokorelacji): Cei e j = cov(ei ; e j ) = 0 dla i ≠ j (2.24) Założenie to jest sprawdzane poprzez weryfikację hipotezy zerowej o tym, że współczynnik autokorelacji rzędu τ (najczęściej pierwszego) jest równy zero. Oceną współczynnika autokorelacji w próbie jest współczynnik korelacji liniowej wyznaczony wg wzoru: ∑ ee ∑ e ∑ n ρˆτ = rτ = j =τ +1 n j =1 2 j j j −τ n j =τ +1 . e 2j (2.25) 14 Hipotezę o braku autokorelacji rzędu τ : H 0 : ρτ = 0 (2.26) możemy zweryfikować testem d Durbina-Watsona: ∑ d= n j =τ +1 (e j − e j −τ ) 2 ∑ n j =1 e 2j (2.27) lub klasycznym testem t-Studenta wyznaczając wartość empiryczną statystyki z wzoru: t emp. = rτ n − τ − 2 1 − rτ2 . Między statystyką d Durbina-Watsona a statystyką t-Studenta zachodzi w przybliżeniu związek: d ≈ 2(1 − rτ ) (2.28) (2.29) z którego wynika, że statystyka d przyjmuje swoje wartości z przedziału domkniętego <0; 4>. W przypadku braku autokorelacji rzędu τ ( rτ = 0 ) wartość statystyki d jest równa zero. Rozkład statystyki d przy założeniu, że H 0 : ρτ = 0 jest prawdziwa, zależy od liczby obserwacji n, liczby zmiennych niezależnych k w modelu funkcji regresji oraz przyjętego poziomu istotności α . Rozkład statystyki d Durbina-Watsona został stablicowany przy jednostronnej hipotezie alternatywnej H1 : ρτ > 0 . W tablicach rozkładu statystyki d, dla ustalonych parametrów n i k oraz przyjętego poziomu istotności α , podane są dwie wartości d1 i d 2 wyznaczające obszar krytyczny dla hipotezy H 0 : ρτ = 0 . Przy weryfikowaniu H 0 : ρτ = 0 wobec H1 : ρτ > 0 stosujemy następujące kryteria weryfikacji hipotezy zerowej: d ≤ d1 ⇒ H 0 : ρτ = 0 odrzucamy na korzyść H1 : ρτ > 0 , d1 < d < d 2 ⇒ nie podejmujemy żadnej decyzji, d ≥ d2 ⇒ nie mamy podstaw do odrzucenia H 0 : ρτ = 0 . Hipotezę H 0 : ρτ = 0 możemy także zweryfikować wobec H1 : ρτ < 0 , ale przy podejmowaniu decyzji stosujemy inne kryteria: d ≥ 4 − d1 ⇒ H 0 : ρτ = 0 odrzucamy na korzyść H1 : ρτ < 0 , 4 − d 2 < d < 4 − d1 ⇒ nie podejmujemy żadnej decyzji, d ≤ 4 − d 2 ⇒ nie mamy podstaw do odrzucenia H 0 : ρτ = 0 . Procedura wykorzystywana w skoroszycie StatystykaJG.xls (StatystykaJG.xlsm) do estymacji regresji liniowej dwóch zmiennych weryfikuje hipotezę o nieskorelowaniu składników losowych za pomocą klasycznej statystyki t-Studenta wyznaczonej zgodnie z wzorem 2.28. Problem występowania autokorelacji składników losowych w szczególności dotyczy takich sytuacji, w których wartości zmiennej losowej Y są powtarzane na tych samych jednostkach eksperymentalnych (np. szeregi czasowe). W przypadku stwierdzenia autokorelacji oznacza to, że klasyczna metoda najmniejszych kwadratów nie może być stosowana do estymacji parametrów modelu, daje bowiem obciążone oceny tych parametrów, a nie nieobciążone. Rozwiązaniem jest zastosowanie innej metody estymacji parametrów modelu, np. uogólnionej metody najmniejszych 15 kwadratów. W dalszej części zajęć przedstawiona zostanie jedna z wersji UMNK polegającej na transformacji danych wyjściowych. 2.5 Prognozowanie Wyestymowany, istotny model funkcji regresji można wykorzystać do wyznaczenia średniej wartości zmiennej losowej y w interesującym nas punkcie x0 : mˆ ( x0 ) = bˆ0 + bˆ1 x0 (2.30) Wyznaczona zgodnie z powyższym wzorem średnia wartość zmiennej y (tzw. wartość regresyjna, także prognoza punktowa) jest oczywiście losowa (ponieważ losowe są parametry modelu). Ocena wariancji wartości regresyjnej jest określona wzorem: 1 (x − x )2 S m2ˆ ( x 0 ) = S y2 / x + 0 (2.31) . var x n Warto zauważyć, że ocena wariancji wartości regresyjnej jest najmniejsza wtedy, gdy x0 = x , inaczej mówiąc wtedy, gdy wyznaczamy oczekiwaną wartość zmiennej y w punkcie średnim dla zmiennej niezależnej. Ocena wariancji wartości regresyjnej stosunkowo szybko rośnie w miarę tego, jak punkt x0 odsuwa się dalej (w obu kierunkach) od wartości średniej zmiennej X. W klasycznym modelu normalnej regresji liniowej estymator mˆ ( x0 ) określony wzorem 2.30 ma rozkład normalny z wartością średnią m( x0 ) i odchyleniem standardowym równym pierwiastkowi kwadratowemu z wyrażenia 2.31. Korzystając dalej z tego, że statystyka: mˆ ( x0 ) − m( x0 ) t= S mˆ ( x ) (2.32) 0 ma rozkład t-Studenta z liczbą stopni swobody v = n − 2 budujemy przedział ufności dla m( x0 ) : m( x0 ) ∈< mˆ ( x0 ) − tα , n−2 S mˆ ( x0 ) ; mˆ ( x0 ) + tα , n−2 S mˆ ( x0 ) > z P = 1 − α . (2.33) W klasycznym ujęciu problemu predykcji (prognozowania) chodzi o estymację pojedynczej realizacji zmiennej y przy ustalonej wartości zmiennej X = x 0 . Zgodnie z modelem liniowym wartość tę wyznaczymy jako: y x0 = b0 + b1 x0 + e (2.34) a jej najlepszym estymatorem nieobciążonym jest wartość regresyjna mˆ ( x0 ) = bˆ0 + bˆ1 x0 . Błąd prognozy pojedynczej realizacji zmiennej y (błąd predykcji) jest sumą nieskorelowanych błędów odchyleń pojedynczych realizacji i błędu wartości regresyjnej: 1 ( x0 − x ) 2 + . (2.35) n var x Podobnie jak w przypadku wartości regresyjnej możemy zbudować przedział ufności dla prawdziwej wartości zmiennej losowej y przy ustalonej wartości zmiennej X = x 0 : S ( y xP0 ) = S y / x + S mˆ ( x 0 ) = S y / x 1 + y x0 ∈< mˆ ( x 0 ) − tα , n − 2 S ( y xPo ); mˆ ( x 0 ) − tα , n −2 S ( y xPo ) > z P = 1 − α . (2.36) 16 3 Arkusze obliczeniowe Jak wspomniałem wcześniej arkusze obliczeniowe zawierają bardziej lub mniej rozbudowane makropolecenia, dlatego powinniśmy pobrać je ze strony Uczelni i zapisać na lokalnym dysku swojego komputera i dopiero z tej lokalizacji je uruchamiać. 3.1 Skopiowanie arkusza na swój komputer. Wchodzimy na stronę WWW Uczelni i przechodzimy do zakładki Download, w której odszukujemy folder StatystykaJG i otwieramy go. Znajdujemy potrzebny plik i klikamy go prawym przyciskiem myszy, a następnie wywołujemy (lewym przyciskiem) polecenie Zapisz plik jako … (Save targer as…). Otwarte zostanie okno dialogowe polecenia Zapisz plik jako…, w którym wskazujemy miejsce zapisania pobieranego pliku. Po wskazaniu folderu klik przycisku Zapisz kończy pobieranie. 17 W folderze Download/StatystykaJG arkusze obliczeniowe z makrami są także w wersji zarchiwizowanej, ponieważ może się zdarzyć, że przeglądarka lub jej ustawienia nie pozwolą na pobranie plików Excela z makrami. Pliki te pobieramy tak, jak to pokazano wyżej, ale po ich pobraniu musimy je rozpakować (wystarczy podwójny klik na plik archiwum, użyty jest standardowy w środowisku Windows program archiwizujący ZIP). 3.2 Udostępnienie makropoleceń Przy ich otwieraniu powinniśmy pozwolić na uruchomienie makropoleceń, inaczej arkusze będą niefunkcjonalne (nieprzydatne). Robimy to trochę inaczej w MS Excel w wersji 2003 oraz w wersjach nowszych. 3.2.1 Udostępnienie makr w MS Excel 2003 Przy wczytywaniu skoroszytu z makrami w MS Excel 2003 zobaczymy pokazany niżej komunikat. Klik przycisku Włącz makra pozwala na pełne wykorzystanie funkcjonalności arkuszy obliczeniowych. W przypadku arkusza StatystykaJG.xls zobaczymy rozbudowane menu główne o polecenia statystyczne. 3.2.2 Udostępnienie makr w MS Excel 2007 i nowszych Po wczytaniu skoroszytu z makrami możemy zobaczyć pokazany niżej komunikat, który informuje nas, że wczytany skoroszyt zawiera makra i że zostały one wyłączone. 18 W takiej sytuacji klikamy na przycisk Włącz zawartość, co skutkuje włączeniem makr z jednoczesnym usunięciem komunikatu o ostrzeżeniach. W przypadku skoroszytu StatystykaJG.xlsm widocznym efektem włączenia makr jest zawartość zakładki Dodatki, w której widoczne będą polecenia menu tego skoroszytu (np. Hipotezy, Regresja, itd.). Po takim uruchomieniu skoroszytu z makrami będą one dla nas dostępne i będziemy mogli je wykorzystać do automatyzacji obliczeń. 19 4 Literatura 1. Aczel A. D., Statystyka w zarządzaniu, Wydawnictwo Naukowe PWN, Warszawa 2000 2. Borkowski B., Dudek H., Szczęsny W., Ekonometria. Wybrane zagadnienia. Wydawnictwo Naukowe PWN, Warszawa 2003 3. Nowak E., (red.), Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Agencja Wydawnicza PLACET, Warszawa, 1998 4. Górczyński J,. Wybrane wzory i tablice statystyczne, Wyd. III poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 5. Górczyński J., Podstawy statystyki, Wyd. II poprawione i uzupełnione. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2000 6. Górczyński J., Podstawy ekonometrii. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2004 7. Górczyński J., Procedury VBA i Microsoft Excel w badaniach statystycznych. Wyższa Szkoła Zarządzania i Marketingu, Sochaczew, 2006 8. Pawełek B., Wanat ST., Zeliaś A., Prognozowanie ekonomiczne. Teoria, przykłady, zadania. Wydawnictwo Naukowe PWN, Warszawa 2008 9. Welfe A., Ekonometria, Polskie Wydawnictwo Ekonomiczne, Warszawa 2003