1.5 Problemy ze zbiorem danych

advertisement
Paweł Strawiński
1.5
Notatki do ćwiczeń z ekonometrii
Problemy ze zbiorem danych
W praktyce ekonometrycznej bardzo rzadko spełnione są wszystkie założenia klasycznego modelu regresji liniowej. Częstym przypadkiem jest, że
zbiór danych którymi dysponujemy posiada pewne niepożądane cechy.
1.5.1
Współliniowość
Zgodnie z założeniami Klasycznego Modelu Regresji Liniowej (KMRL)
zmienne objaśniające w modelu powinny być skorelowane ze zmienną objaśnianą i nieskorelowane między sobą. Ale rzeczywiste dane zawsze są w
pewnym stopniu skorelowane, więc regresory są współliniowe.
Rozpatrzmy prosty model z jedną zmienną objaśnianą y oraz dwiema
zmiennymi objaśniającymi (x1 , x2 ). Zgodnie z założeniami KMRL powinny
zachodzić następujące zależności:
cov(y, x1 ) 6= 0 cov(y, x2 ) 6= 0 cov(x1 , x2 ) = 0
Jest to sytuacja idealna, która z reguły nie występuje gdy obserwacje nie są
danymi eksperymentalnymi.
Wariancję każdego z esytmatorów modelu można zapisać jako:
var(bj ) =
2
(1 − r12
)
σ2
Pn
i=1 (xi,j
− x¯j )2
=
σ2
2
(1 − r12
)Sjj
(1)
Jeśli zmienne objaśniające modelu są silnie skorelowane (korelacja=1) to wariancja estymatora dąży do nieskończoności. Liniowa zależność między regresorami nie jest błędem zbioru danych, jest błędem powstałym podczas
tworzenia modelu. Częściej dochodzi do sytuacji, w której występuje wysoka korelacja między zmiennymi objaśniającymi, ale nie jest to dokładna
zależność liniowa. W takim przypadku są spełnione założenia KMRL, ale
występują następujące problemy:
1. niewielkie zmiany w zbiorze danych powodują duże zmiany w otrzymywanych estymatorach.
2. współczynniki równania regresji mają duże błędy standardowe, oraz
mogą być nieistotne statystycznie, nawet gdy łącznie są istotne, a współczynnik R2 modelu jest wysoki
3. współczynniki równania regresji mają „złe”, czyli niezgodne z teorią
znaki, albo są zbyt małe lub zbyt duże.
20
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Można uogólnić równanie (1) do przypadku wielu zmiennych objaśniających. Niech (x1 , x2 , . . . , xk ) będzie wektorem zmiennych objaśniających. Je2
żeli przez Rk.
oznaczymy współczynnik regresji k-tego regresora na pozostałe,
to wariancję estymatora bk możemy zapisać jako:
var(bj ) =
(1 − rj.2 )
σ2
Pn
i=1 (xi,j
(2)
− x¯j )2
Z powyższego wzoru wynika, że wariancja estymatora parametru βj rośnie
wraz ze skorelowaniem j-tego regresora z pozostałymi, a maleje z wariancją
j-tej zmiennej.
Pakiet STATA wylicza statystykę nazwaną Variance Inflation Factor (VIF).
Jest to prosty test oparty na statystyce R2 .
V IF =
1
1 − rj.2
(3)
Mierzy on jaka część wariancji estymatora jest powodowana przez to, że
zmienna j nie jest ortogonalna względem pozostałych zmiennych objaśniających w modelu regresji.
W praktycznych zastosowaniach współliniowość trudno jest odróżnić od
innych problemów występujących w modelu. Podobne objawy do współliniowości mogą występować gdy w próbie którą dysponujemy jest mała liczba
obserwacji lub zachodzi mała zmienność regresorów.
Przykład.
Dane pochodzą z artykułu Longleya (1967). Celem artykułu była analiza
dokładności procedur obliczających estymatory metodą MNK. Dane te są
tak skonstruowane, że występuje w nich problem współliniowości.
Jest to model wyjaśniający poziom zatrudnienia za pomocą roku year,
deflatora produktu narodowego brutto gnp def, produktu narodowego brutto gnp, oraz zatrudnienia w armii armed forces. Obserwacje pochodzą z
lat 1947-1962 i dotyczą gospodarki USA.
. reg employment year gnp_def gnp armed_forces
Source |
SS
df
MS
-------------+-----------------------------Model |
180110100
4
45027525
Residual | 4898726.13
11 445338.739
-------------+------------------------------
21
Number of obs
F( 4,
11)
Prob > F
R-squared
Adj R-squared
=
=
=
=
=
16
101.11
0.0000
0.9735
0.9639
Paweł Strawiński
Total |
Notatki do ćwiczeń z ekonometrii
185008826
15
12333921.7
Root MSE
= 667.34
-----------------------------------------------------------------------employment |
Coef. Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------year | -576.4642 433.4875 -1.33
0.210
-1530.564 377.6353
gnp_def | -19.76811 138.8927 -0.14
0.889
-325.469 285.9328
gnp |
.064394 .0199519
3.23
0.008
.0204802 .1083078
armed_forces | -.0101452 .3085695 -0.03
0.974
-.689302
.6690116
_cons |
1169087 835902.5
1.40
0.189
-670721.5
3008896
------------------------------------------------------------------------
Gdy pominiemy obserwację z ostatniego roku otrzymamy następujące
wyniki:
. reg employment year gnp_def gnp armed_forces if year<1962
Source |
SS
df
MS
-------------+-----------------------------Model |
152633988
4 38158496.9
Residual | 3153765.27
10 315376.527
-------------+-----------------------------Total |
155787753
14 11127696.6
Number of obs
F( 4,
10)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
15
120.99
0.0000
0.9798
0.9717
561.58
-----------------------------------------------------------------------employment |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------year | -721.7562
369.985 -1.95
0.080
-1546.134 102.6218
gnp_def | -181.1226 135.5249 -1.34
0.211
-483.0908 120.8456
gnp | .0910677 .0202608
4.49
0.001
.0459239 .1362116
armed_forces | -.0749372 .2611272 -0.29
0.780
-.6567649 .5068905
_cons |
1459415 714183.1
2.04
0.068
-131883.9
3050714
------------------------------------------------------------------------
Jak wyraźnie widać z porównania wyników estymacji obu modelu opuszczenie jednej obserwacji powoduje zmianę współczynnika przy zmiennej gdp def
o ponad 800% a przy zmiennej armed forces o ponad 600%.
Jeżeli policzymy statystyki VIF dla obu modeli to przekonamy się, że
wskazują one na znaczną współliniowość zmiennych.
. vif
Variable | VIF model 1 | VIF model 2
-------------+--------------------------year |
143.46
|
154.08
gnp |
132.46
|
121.53
gnp_def |
75.67
|
87.35
armed_forces |
1.55
|
1.56
22
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
-------------+--------------------------Mean VIF |
88.29
|
91.13
Na podstawie wyników testu VIF jedynie zmienną armed forces możemy
uznać za nieskorelowaną z pozostałymi. Spójrzmy jeszcze na tablicę korelacji
między zmiennymi
. corr employment year gnp_def gnp armed_forces (obs=16)
| employ~t
year gnp_def
gnp armed_~s
-------------+--------------------------------------------employment |
1.0000
year |
0.9713
1.0000
gnp_def |
0.9709
0.9911
1.0000
gnp |
0.9836
0.9953
0.9916
1.0000
armed_forces |
0.4573
0.4172
0.4647
0.4464
1.0000
i tablice wariancji-kowariancji estymatorów modelu. Wariancje i kowariancje są znormalizowane do współczynników korelacji.
. vce, corr
|
year gnp_def
gnp armed_~s
_cons
-------------+--------------------------------------------year |
1.0000
gnp_def | -0.2776
1.0000
gnp | -0.6950 -0.4922
1.0000
armed_forces |
0.4166 -0.2303 -0.2420
1.0000
_cons | -0.9999
0.2674
0.7025 -0.4157
1.0000
Jak widać estymator parametru przy zmiennej gnp jest silnie skorelowany
z estymatorem przy zmienniej year i ze stałą modelu.
Walka ze współliniowością w modelu jest trudna. Najprostszym sposobem
jest zwiększenie liczby obserwacji w modelu. Zmienne które są współliniowe
na zbiorze K obserwacji nie muszą być współliniowe na zbiorze K + T obserwacji, bowiem współliniowość w małej próbie może mieć charakter czysto
losowy.
Innym sposobem, często używanym w praktyce ekonometrycznej, jest wyrzucenie zmiennych, które podejrzewamy o powodowanie współliniowości w
modelu. Jest to równoznaczne z przyjęciem założenia, że pomijana zmienna
nie ma wpływu na badane zjawisko ekonomiczne. Takie działanie może spowodować problem błędnej specyfikacji modelu, który szczegółowo zostanie
omówiony w niedalekiej przyszłości. Upraszczając jeżeli błędnie założymy o
zmiennej, że nie występuje w modelu (współczynnik β = 0), a w rzeczywistości jest on statystycznie istotny β 6= 0 to spowoduje to obciążenie pozostałych
estymatorów.
23
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Kolejnym sposobem jest regresja grzbietowa ridge regression. Do estymatora b dodajemy macierz diagonalną D. Zmodyfikowany estymator ma
postać b = (X 0 X + D)−1 X 0 y. W ten sposób powstaje estymator obciążony,
ale o mniejszej wariancji.
1.5.2
Obserwacje nietypowe i braki w obserwacjach
Innym dość często występującym problemem zbiorów danych są obserwacje nietypowe lub braki w obserwacjach. Obserwacje nietypowe charakteryzują się dużą resztą czyli różnicą między wartością rzeczywistą a wartością
teoretyczną wynikającą z modelu ekonometrycznego. Jest wiele powodów dla
których zdarzają się braki. Najczęściej dotyczą one badań przekrojowych, w
których osoby badane nie zawsze odpowiadają na wszystkie pytania. W szeregach czasowych danych może brakować ponieważ nie są zbierane w takich
odstępach jak sobie życzymy, np. potrzebujemy danych miesięcznych a dostępne są jedynie kwartalne, lub nie zostały zebrane z przyczyn losowych (np.
nie można określić PKB dla Polski za lata 1939-45 z powodu wojny).
Gdy występują braki w danych trzeba stwierdzić czy ich niedostępność
jest niezależna od sposobu badania i występuje z nieznanych powodów, czy
może powstaje w skutek nieznanego systematycznego związku ze zjawiskiem
które modelujemy. Pierwszy przypadek - nieznany powód braku w danych jest prosty w analizie. W takim wypadku możemy zignorować braki i oszacować model na danych którymi dysponujemy. W drugim przypadku, gdy
braki w danych powstają w wyniku samoselekcji - brak odpowiedzi jest powodowany przez czynniki inne od losowych - należy zastosować bardziej zaawansowane techniki estymacji. Na przykład jeśli badamy rozkład dochodów
w społeczeństwie to wiemy, że ludzie dużo zarabiający niechętnie przyznają
się do swoich dochodów. Dlatego w ankiecie zamieszcza się odpowiedź np.
dochód 100.000 zł rocznie i wyższy, a prawdziwy rozkład ludzi o dochodach
powyżej tej kwoty jest obliczany za pomocą specjalnego modelu z poprawką
Heckmana.
1.5.3
Obserwacje wpływowe
Nawet gdy jesteśmy pewni, że w modelu nie występuje problem współliniowości lub inny problem z danymi, warto jest zbadać właściwości zbioru
danych. Identyfikacja obserwacji nietypowych może pomóc w lepszym dopasowaniu modelu. Jezeli taką obserwację wykluczymy ze zbioru danych, współczynniki dopasowania powinny się poprawić. Jest to szczególnie istotne gdy
dysponujemy niewielkim zbiorem danych. Po drugie możemy przekonać się
które obserwacje mają duży wpływ na wyniki regresji. Zarówno obserwacje
24
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
nietypowe jak i wpływowe powinniśmy usunąć ze zbioru danych, aczkolwiek
niekiedy może to prowadzić do błędnego modelu. Diagnostyka obserwacji
wpływowych dostarcza informacji o wiarygodności wniosków wyciąganych
na podstawie oszacowanego modelu.
Podstawowym narzędziem do wykrywania obserwacji wpływowych jest
macierz rzutu P = X(X 0 X)−1 X 0 . Wielkość i-tego elementu tej macierzy jest
miarą wpływu i-tej obserwacji. Bowiem:
X
ŷ =
Pi,j yj
Element z diagonali Pi określa wpływ i-tej obserwacji na oszacowania parametrów modelu. Ponieważ macierz P jest idempotentna, elementy diagonalne
są zawarte w przedziale [0,1]. Reguła kciuka mówi że jeżeli Pii > 0.5 to obserwację należy uznać za wpływową.
Innym sposobem jest standaryzacja reszt modelu. Jeżeli każda resztę podzielimy przez jej odchylenie standardowe to otrzymamy statystykę wskazującą na wpływ obserwacji.
ei
eˆi =
se(ei )
Jeżeli ma ona wartość większą od 2 należy uznać ją za wpływową (Greene
2000, p. 61). Oczywiście przy spełnionym założeniu o normalności reszt eˆi ma
rozkład t-Studenta z n − Kstopniami swobody. Jednakże nie ma jednolitej
praktyki postępowania z takimi obserwacjami.
Korzystając z statystyki dźwigni i studentyzowanych reszt można utworzyć szereg statystyk wskazujących na nietypowość obserwacji. Mierzą one
wpływ pojedynczych obserwacji na wyniki oszacowań, uwzględniając ich odstawanie od pozostałych. Statystyka DFITS jest iloczynem studentyzowanej
reszty i monotonicznej transformacji dźwigni.
r
r
ei
hi
hi
DF IT Si = √
= ri
1 − hi
Si 1 − hi 1 − hi
q
Obserwacje dla których wartość statystyki DFITS przekracza 2 Kn powinny
zostać poddane dalszej analizie.
Inną statystyką, która mierzy wpływ pojedynczej obserwacji na wyniki
regresji jest odległość Cooka (Cook’s Distance). Dana jest ona następującym
wzorem:
hi
1 e2i
∼ F (2, n − 2)
CDi =
2
k S (1 − hi )2
gdzie hi = xi (X 0 X)−1 x0i . S 2 jest estymatorem wariancji, a Si2 tym samym estymatorem obliczonym bez uwzględniania obserwacji i. Jeżeli CD > n4 , gdzie
25
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
n jest liczebnością próby to uznajemy obserwację za wpływającą na wyniki
regresji.
Przykład.
Sprawdźmy czy w analizowanym przez nas modelu ze współliniowością
występują obserwacje o znacznym wpływie.
. predict d, cooksd
. list if d>4/e(N)
+----------------------------------------------------------+
| year
gnp_def
gnp
armed_~s
employ~t
d |
|----------------------------------------------------------|
16. | 1962
116.9
554894
2827
70551
.8829132 |
+----------------------------------------------------------+
Pierwsza komenda generuje statystyki Cook’s Distance, druga wyświetla numery obserwacji które według testu należy uznać za podejrzane. Obserwacja
z 1962 roku rzeczywiście nie pasuje do pozostałych.
Możemy również przeprowadzić analizę graficzną obserwacji wpływowych.
. lvr2plot, mlabel (year)
.5
1958
1948
1954
Leverage
.3
.4
1947
1949
1951 1952
1955
1960
1953
1961
1950
.2
1959
1957
.1
1956
0
.1
.2
.3
Normalized residual squared
.4
Pionowa linia na rysunku oznacza przeciętną wielkość znormalizowanej reszty, a linia pozioma przeciętny poziom wpływu. Jeżeli są obserwacje o dużej
reszcie i dużym wpływie - znalazłyby się w prawym górnym rogu wykresu
26
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
3000
- to otrzymane oszacowania parametrów modelu mogą być zaburzone przez
takie obserwacje.
Pokażemy, w jaki sposób pojedyncza obserwacja może wpływać na uzyskiwane wyniki oszacowań. W analizowanym modelu poziom zatrudnienia został
uzależniony od czterech zmiennych objaśniających. W celu przedstawienia
analizy na rysunku ograniczymy model do dwóch zmiennych employment i
gnp. W celu wyeliminowania trendu zawartego w zmiennych, obie zostały
zróżnicowane, czyli zostały obliczone przyrosty wartości zmiennych.
2000
1955
1953
zmiana zatrudnienia
0
1000
−1000
1959
1951
1956
1960
1952
1962
1950
1948
1957
1961
1949
1954
−2000
1958
0
10000
20000
zmiana pkb
30000
40000
Ciągła linia przedstawia wartości dopasowane z modelu obliczonego na
podstawie pełnej próby, linia przerywana na podstawie próby nie zawierającej obserwacji z roku 1962. Wyeliminowanie obserwacji z dużą resztą leżącej
poniżej linii regresji powoduje zwiększenie kąta nachylenia linii regresji, czyli
wartości parametru β. Zmiana jest dość znaczna, ponieważ obserwacja posiadała stosunkowo duży wpływ na wyniki regresji (miała wysoką statystykę
dźwigni).
1.5.4
Przykładowe zadania
Zadanie 1.
Rozważmy następujący model popytu na pieniądz:
Mt = α0 + α1 X1t + α2 X2t + α3 X3t + εt
gdzie:
• X1t = rt stopa procentowa
27
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
• X2t = rt−1 opóźniona stopa procentowa
• X3t = rt − rt−1 miara korekty oczekiwań wynikająca z ostatniej zmiany
stopy procentowej
• εt składnik losowy
Czy parametry powyższego modelu można oszacować za pomocą MNK?
Odpowiedż.
Nie, ponieważ zmienna X3 jest z definicji kombinacją liniową zmiennych
X1 oraz X2 . Wobec tego w modelu wystąpi współliniowość. Natomiast po wyeliminowaniu jednej ze zmiennych objaśniających model można oszacować za
pomocą MNK.
Zadanie 2.
W skład koncernu wchodzą 23 przedsiębiorstwa wytwarzające ten sam wyrób. Cena zbytu tego wyrobu jest identyczna we wszystkich przedsiębiorstwach.
Zbudowano model liniowy opisujący zależność poziomu płac od produkcji w
sztukach (X1 ) oraz od wartośći produkcji w mln USD (X2 ). Czy na podstawie danych dotyczących poszczególnych przedsiębiorstw i pochodzących z tego
samego okresu (dane przekrojowe) można oszacować parametry tego modelu
za pomocą MNK?
Odpowiedź.
Nie można oszacować parametrów tego modelu, ponieważ jeżeli cena jest
jednakowa we wszystkich przedsiębiorstwach, to zachodzi zależność liniowa
między wartocią produkcji w mln USD (X2 ) a poziomem płac X2 = pX1 .
Zatem w modelu występuje dokładna współliniowość.
Zadanie 3.
Pokaż, że w KMRL ortogonalizacja macierzy obserwacji X usuwa problem współliniowości z modelu.
Odpowiedź.
Załóżmy, że macierz X ma dwie nieortogonalne zmienne x1 , x2 . Wte2
= corr(x1 , x2 ) > 0. Wobec tego są one
dy współczynnik częściowego Rx1x2
28
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
współliniowe. Jeśli zortogonalizujemy macierz X to otrzymamy nową parę
2
zmiennych x1 , x∗2 . Współczynnik regresji cząstkowej Rx1x2
∗ = 0. ponieważ
∗
zmienne są ortogonalne, więc corr(x1 , x2 ) = 0. Analogiczne rozumowanie
możemy przeprowadzić dla dowolnej liczby zmiennych. Wobec tego ortogonalizacja macierzy usuwa problem współliniowości.
Literatura
[1] William H. Greene (2003) Econometric Analysis, 5th edition.
[2] Józef Dziechciarz (2000) Zbiór zadań z ekonometrii, Wydawnictwo akademii Ekonomicznej im. Oskara Langego.
[3] Jerzy Mycielski (2000) Notatki do ćwiczeń z ekonometrii, WNE.
29
Download