Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Ocenzurowana zmienna zależna O ocenzurowanej zmiennej zależnej mówimy kiedy obserwujemy jej wartości jedynie w jakimś przedziale [ a, b ] Dla wartości poza tym przedziałem widzimy jedynie wartości brzegowe W takim przypadku, oszacowania MNK oraz MNW niekorygujące ocenzurowania są obciążone Matematycznie można zapisać tę zależność używając funkcji wskaźnikowej (analogicznie jak w modelach dla zmiennych binarnych) * Zakładamy, że istnieje pewna ciągła zmienna y , której w pełni nie obserwujemy To co obserwujemy to ocenzurowana zmienna y : y = y* y=a y=b y * ∈ [ a, b ] y* ≤ a y* ≥ b czaj.org Przykład – zmienna ocenzurowana dwustronnie czaj.org Przykład – zmienna ocenzurowana jednostronnie czaj.org Zmienne ocenzurowane – kiedy się pojawiają Zmienne ocenzurowane mogą pojawić się w danych ankietowych kiedy pytania w ankiecie (np. o dochód) mają skończoną liczbę możliwych odpowiedzi Ocenzurowanie nie zawsze jest błędem. Utrudnia estymację modeli, ale może prowadzić do bardziej wiarygodnych oszacowań. Pomimo, że formalnie nie są to zmienne ocenzurowane, te same modele wykorzystuje się do danych, w których występują pewne rozwiązania brzegowe jak np. wydatki na leki. Histogram zmiennej zależnej często przypomina wtedy ten z poprzedniego slajdu. czaj.org Model Tobitowy (Tobin, 1958) Podstawowy model będący pewnym uogólnieniem regresji liniowej Model funkcji wskaźnikowej: y = y* y=0 y* > 0 y* ≤ 0 , y* = Xβ + ε , ε N ( 0,1) Estymacja metodą największej wiarygodności: 1 yi − Xi β σ φ σ Li = 1 − Φ Xi β σ yi > 0 yi = 0 gdzie φ ( ⋅) , Φ ( ⋅) to gęstość i dystrybuanta standardowego rozkładu normalnego Analogiczny estymator można skonstruować dla dowolnego rozkładu zmiennej i dowolnego punktu cenzurowania czaj.org Przykład – wydatki na leki 1. 2. 3. Wczytaj zbiór danych me.medexp.lpj Narysuj histogram zmiennej objaśnianej meddol oraz policz jaki procent respondentów nie wydał nic na leki Przeprowadź zwykłą regresję liniową, oraz regresję tobitową, aby wyjaśnić co wpływa na wydatki na leki. Czy wyniki się różnią? Jak należy je interpretować? TOBIT ; lhs = ... ; rhs = ... $ Dodatkowe opcje: ; upper – jeśli chcemy cenzurowanie z góry ; limit = ... - definiujemy wartość limitu ; limits = lower, upper – jeśli mamy cenzurowanie z dwóch stron czaj.org Obcięcie próby Obcięciem próby nazywamy sytuację, w której nie posiadamy obserwacji dla pewnych wartości zmiennej objaśnianej Oszacowania MNK są obciążone Jeżeli mamy rozkład obcięty dwustronnie to jego gęstość można zapisać w następujący sposób: f ( x) f ( x | a < X < b) = F (b) − F ( a ) 0 dla a < x < b dla x ∉ [ a, b ] czaj.org Przykładowy kształt rozkładu obciętego czaj.org Obcięcie próby Estymacja metodą największej wiarygodności: Li = f ( yi | a < yi < b, Xi , β ) Np. dla rozkładu normalnego: 1 yi − Xi β φ σ σ Li = b − Xi β a − Xi β Φ − Φ σ σ gdzie φ ( ⋅) , Φ ( ⋅) to gęstość i dystrybuanta standardowego rozkładu normalnego Analogiczny estymator można skonstruować dla dowolnego rozkładu zmiennej i dowolnego punktu obcięcia czaj.org Przykład – indeks osiągnięć 1. 2. Wczytaj zbiór danych me.achievement.lpj Sprawdź jak znajomości języków i typ studiów wpływa na indeks osiągnięć. Wykorzystaj regresję liniową oraz model z obcięciem próby dla 40. TRUNCATION ; lhs = ... ; rhs = ... ; limit = ... $ czaj.org Selekcja próby Selekcja próby jest problemem podobnym do ocenzurowania – dla części obserwacji nie znamy wartości zmiennej objaśnianej Tutaj zakładamy jednak, że to zjawisko zależy od decyzji badanych podmiotów Potrzebujemy wszystkich obserwacji dla zmiennych objaśniających (nawet tych w których brakuje zmiennej objaśnianej) Model selekcji próby, nazywany czasem modelem Heckmana, jest modelem dwuwymiarowym czaj.org Selekcja próby Model składa się z dwóch równań: równania selekcji oraz równania regresji Szukamy związku między zmiennymi objaśniającymi X1 a zmienną objaśnianą y1 , której wartości nie obserwujemy dla niektórych jednostek Zakładamy liniowy związek: y1 = X1β + ε W równaniu selekcji zakładamy, że to czy obserwujemy * wartości zmiennej objaśnianej zależy od funkcji wskaźnikowej y2 Analogicznie jak w modelach dla zmiennej binarnej, zakładamy, że jeżeli y2* > 0 to obserwujemy wartości y1 , w przeciwnym wypadku ich nie obserwujemy Dodatkowo zakładamy: y2* = X 2α + ω czaj.org Selekcja próby Problem selekcji próby pojawia się kiedy błędy losowe ε i ω są skorelowane Aby je modelować zakłada się, że pochodzą z dwuwymiarowego rozkładu normalnego: (ε , ω ) ~ BN ( 0, Σ ) Z macierzą kowariancji: σ 2 σρ Σ= σρ 1 Estymacja modelu: Dwustopniowa (Heckman) Jednostopniowa (jednoczesna) – MNW czaj.org Selekcja próby – estymacja dwustopniowa W pierwszym kroku liczymy model probitowy na zmiennej y2 , zdefiniowanej jak w modelach binarnych: 1 dla y2* > 0 y2 = * 0 dla y 2 ≤0 Mając wartości dopasowane dla takiego modelu liczymy tzw. odwrotność ilorazu Millsa: ( ( ) ) Φ X α ( ) λ X 2 α = Następnie liczymy regresję: φ X 2 α 2 ( ) y1 = X1β + σρλ X 2 α + ε czaj.org Selekcja próby – estymacja dwustopniowa Testując hipotezę: ρσ = 0 , możemy sprawdzić czy problem selekcji próby faktycznie występuje W metodzie dwustopniowej, aby poprawnie zidentyfikować model w wektorze X 2 powinna być chociaż jedna zmienna spoza wektora X1 czaj.org Przykład – płace kobiet 1. 2. 3. 4. Wczytaj zbiór danych me.femlabour.lpj Użyj modelu Heckamana, aby wyjaśnić co wpływa na płace kobiet. Czy wszystkie parametry mają oczekiwane znaki? Wypróbuj model wyjaśniający logarytm płac kobiet Zinterpretuj wyniki PROBIT ; lhs = ... ; rhs = ... ; hold $ SELECTION ; lhs = ... ; rhs = ... $ SELE ; mle ? dla estymacji jednostopniowej (MNW) ; ... $ czaj.org Praca domowa ME.14 (grupy 2-3-osobowe) 1. 2. 3. 4. Wykorzystując zbiór me.medexp.lpj przeanalizuj co determinuje wydatki medyczne (zmienna meddol) Wykorzystaj model selekcji próby, w którym zakładamy, że w równaniu selekcji modelujemy czy ktoś ma dodatnie wydatki na leki czy nie. Czy występuje problem selekcji próby? Zinterpretuj wyniki Porównaj wyniki z modelem Tobitowym i zwykłą regresją liniową czaj.org 2016-02-05 15:58:16