Analiza regresji – część II Agnieszka Nowak - Brzezińska Niebezpieczeństwo ekstrapolacji • Analitycy powinni ograniczyć predykcję i estymację , które są wykonywane za pomocą równania regresji dla wartości objaśniającej w obrębie przedziału wartości x w zbiorze danych. • Np. w zbiorze płatków śniadaniowych najmniejsza zawartość cukru to 0 a największa to 15 więc szacowana wartości odżywcza jest właściwa tylko dla dowolnej wartości z przedziału 0..15. Ekstrapolacja • Ekstrapolacja - szacowanie dla wartości poza przedziałem może być niebezpieczne, ponieważ nie znamy natury relacji pomiędzy x i y poza tym zakresem. • Ekstrapolacji należy oczywiście unikać. • Załóżmy , że nowe płatki zostały wpuszczone na rynek z bardzo dużą zawartością cukru. Np.. 30 gram. • Nasze równanie regresji oszacuje wartość odżywczą płatków na -13.2 ! rysunek • • Chcielibyśmy aby nasze punkty układały się tylko jako czarne punkty. Jednak rzeczywiście relacja między x i y składa się zarówno z punktów czarnych (obserwowanych), jak i szarych (nieobserwowanych). Linia regresji oparta jedynie na dostępnych danych jest taka jak na rysunku. Oszacowanie najmniejszych kwadratów • Gdybyśmy mieli inny zbiór płatków to nie możemy zakładać, że zależność pomiędzy wartością odżywczą a zawartością cukrów będzie dokładnie taka sama jak: rating 59.4 2.42 * sugars Nie – ponieważ b0 i b1 są statystykami, których wartości zmieniają się w zależności od próby. b0 i b1 są używane do estymacji parametrów populacji, w tym przypadku 0,1 czyli wyrazu wolnego oraz współczynnika nachylenia prostej regresji. y 0 1 y 0 1 x • Równanie regresji • Reprezentuje prawdziwą liniową zależność między wartością odżywczą płatków a zawartością cukrów dla wszystkich rodzajów płatków śniadaniowych, nie tylko tych z naszej próby 77 typów płatków. • Losowy błąd w powyższym równaniu regresji stosuje się w celu uwzględnienia nieoznaczoności w modelu, ponieważ dwa różne rodzaje płatków śniadaniowych mogą mieć tę samą zawartość cukrów ale inną wartość odżywczą. W regresji prostej bada się relację pomiędzy dwiema zmiennymi ilościowymi x i y. Model zależności w prostej regresji dla n elementowej próby jest postaci: yi 0 1 xi i Gdzie: Yi – wartość zmiennej y dla obserwacji i-tej Xi- wartość zmiennej x dla i-tej obserwacji i – zakłócenie losowe o rozkładzie N(0,2) czyli ma rozkład normalny o wariancji 2 1 in Są niezależne, a więc: covi j ( i , j ) 0 A 0,1 są współczynnikami modelu. • Taki model regresyjny opisuje często spotykaną w praktyce sytuację, gdy obserwowane wartości funkcji nie są dokładne, ponieważ są losowo zakłócane. • Znając wartości wektora zmiennych objaśniających oraz losowo zakłócane wartości funkcji d, naszym zadaniem jest „odfiltrowanie” zakłóceń i podanie dokładnej postaci funkcji. • Zmienne objaśniające to zmienne nielosowe, ale to nie ma tu akurat znaczenia. • Wyznaczywszy oszacowania parametrów modelu, można obliczyć również wartości reszt, czyli oszacowania dla zakłóceń losowych wyznaczanych jako: y x • Metoda najmniejszych kwadratów gwarantuje, że prosta regresji opisana równaniem y x minimalizuje sumę kwadratów reszt dla wszystkich obserwacji. i i 1 i 0 1 0 Współczynnik determinacji • Pozwala on stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania czy nie. • Nazywa się go często współczynnikiem dopasowania regresji i oznacza jako R2. • Określa on stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Oznacza estymowaną wartość zmiennej objaśnianej y y y Oznacza błąd oszacowania lub resztę. • Suma kwadratów błędów SSE SSE ( y y ) 2 • Całkowita wartość błędu oszacowania gdy użyjemy równania regresji • Całkowita suma kwadratów SST SST ( y y) 2 • Stanowi miarę całkowitej zmienności wartości y bez odniesienia do zmiennej objaśniającej. Mówi się, że SST jest funkcją wariancji zmiennej y. • Regresyjna suma kwadratów SSR SSR ( y y) 2 • Stanowi miarę całkowitej poprawy dokładności przewidywań w przypadku stosowania regresji w porównaniu z sytuacją gdy nie uwzględniamy wartości zmiennej objaśniającej SST = SSR + SSE Współczynnik determinacji (ang. coefficient od determination) • Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą: r2 SSR SST • Możemy go interpretować jako tę część zmienności zmiennej y, która została wyjaśniona przez regresję, czyli przez liniowy związek pomiędzy zmienną celu a zmienną objaśniającą. Współczynniki regresji •Współczynnik determinacji z prostego modelu regresji liniowej dla zestawu danych cereals to 0,5771056. Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y. Współczynnik determinacji • Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R2. • Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Przypomnijmy, że y oznacza estymowaną wartość zmiennej objaśnianej, a jest błędem oszacowania y y lub resztą. • • • • • Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe. Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Jeśli liczymy różnice x – średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y ( ), kiedy y y sumę obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą kwadratów SST (sum of squares total): Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego . SST ( y y ) n 2 i 1 i n SST ( yi y) 2 (n 1)Var ( y) (n 1) y2 i 1 Współczynnik determinacji r2 Współczynnik determinacji r2: r2 SSR SST Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą. Jaka jest wartość maksymalna współczynnika determinacji r2 ? Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r2=1. Jaka jest wartość minimalna współczynnika determinacji r2 ? Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r2=0. Im większa wartość r2 tym lepsze dopasowanie regresji do zbioru danych. Przykład analizy współczynnika R2 dla wielu zmiennych objaśniających Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi. Funkcja r.square Funkcja r.square.adjusted Skorygowany R2 • Jest to sposób na wyeliminowanie z modelu zmiennych objaśniających, które nie są przydatne. • Dodanie zmiennej do modelu regresji zwiększa wartość współczynnika determinacji, niezależnie od przydatności tej zmiennej. • Sposobem jest tu kara miary R2 dla modeli które uwzględniają nieprzydatne zmienne objaśniające. Taką miarą jest skorygowany współczynnik determinacji ( adjusted R2). Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż 0,05 odrzucamy hipotezę zerową, że β = 0. Czyli mówimy, że istnieje istotna zależność między zmiennymi w modelu regresji. Sprawdzanie założeń regresji Istnieją dwie podstawowe metody graficzne używane do sprawdzenia założeń regresji: • Normalny wykres kwantylowy • Wykres standaryzowanych reszt względem wartości przewidywanych • Założenia: liniowość, niezależność, normalność i stała wariancja – mogą zostać zweryfikowane za pomocą normalnego wykresu kwantylowego i wykresu standaryzowanych reszt względem przewidywanych wartości. • Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu. • Normalność można ocenić, sprawdzając, czy wykres wykazuje systematyczne odchylenie od linii prostej. Wtedy można wywnioskować, że wykreślone wartości danych (w tym wypadku reszty) nie pochodzą z żadnego szczególnego rozkładu (rozkładu normalnego w tym przykładzie). Nie wykrywamy systematycznych odchyleń od liniowości na wykresie standaryzowanych reszt, a zatem stwierdzamy, że założenie normalności jest nienaruszone. Normalność Normalne mają być rezydua, czyli różnica między modelem a danymi, a nie same dane!!! Jeżeli zmienna była mierzona przyrządem, to jest duża szansa, że ma rozkład normalny Jeżeli wartości zmiennej są średnimi z jakichś liczb, to zmienna jest najprawdopodobniej normalna Jeżeli zmienna oznacza liczbę czegoś na jednostkę (liczbę komórek w objętości) i średnia tej liczby jest 10 lub więcej, to można przyjąć, że zmienna ma rozkład normalny Metoda 1: Normalny wykres kwantylowy Czytanie wykresu… • Jest wykresem kwantyli próbkowych rozkładu reszt względem kwantyli rozkładu normalnego odpowiedniego rzędu. • Używa się go do określenia, czy dany rozkład odbiega od rozkładu normalnego. • Na wykresie tym, wartości obserwowane dla badanego rozkładu są porównywane z wartościami dla rozkładu normalnego. • Podobnie jak centyl, kwantyl rozkładu jest wartością xp, taką, że p% wartości rozkładu jest mniejsze lub równe xp. • Jeżeli rozkład jest normalny to punkty na wykresie powinny tworzyć linię prostą; zaś systematyczne odchylenia od linii prostej wskazują na nieliniowość. Normalny wykres kwantylowy Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu. Dla rozkładu normalnego Dla rozkładu jednostajnego Dla rozkładu Chi2 (prawoskośny) W praktyce… • Nie możemy liczyć na to że rzeczywiste dane dostarczą nam takich idealnych wykresów kwantylowych. • Obecność błędu próbkowania i innych źródeł szumu powoduj zwykle, że wykres będzie miał mniej jednoznaczny kształt. Dla zbioru Cereals Metoda 2: Wykres standaryzowanych reszt względem wartości przewidywanych • Drugą graficzną metodą używaną do sprawdzenia założeń modelu regresji jest wykres standaryzowanych reszt względem wartości przewidywanych. Czytanie wykresu… • Wykres reszt względem wartości przewidywanych jest sprawdzany ze względu na dostrzegalne wzorce. Jeżeli istnieje oczywista krzywizna na wykresie rozrzutu, to założenie liniowości jest naruszone. • Jeżeli pionowy rozrzut punktów na wykresie jest systematycznie niejednakowy, to założenie o stałej wariancji jest naruszone. Gdy nie wykrywamy takich wzorców to stwierdzamy, że założenia liniowości i stałej wariancji są nienaruszone. • Założenie niezależności jest sensowne w naszym zbiorze danych ponieważ nie spodziewamy się, że wartość odżywcza jednego rodzaju płatków zależy od wartości innego rodzaju płatków. • Dane zależne od czasu mogą być sprawdzone ze względu na niezależność kolejności za pomocą testów przebiegu lub wykresów reszt względem kolejności. Wykres standaryzowanych reszt względem wartości przewidywanych • Sprawdzamy więc, czy istnieją pewne charakterystyczne układy punktów na wykresach reszt względem wartości przewidywanych. • Jeżeli tak, to jedno z założeń zostało naruszone, a jeżeli nie ma takich widocznych wzorców, to założenia pozostają nienaruszone. 4 wzorce archetypów obserwowane na wykresach reszt względem wartości przewidywanych • Wykres A pokazuje poprawny wykres gdzie nie są obserwowane żadne widoczne wzorce i punkty zajmują cały prostokątny obszar od lewej do prawej. • Wykres B pokazuje krzywiznę, co świadczy o naruszonym założeniu niezależności. • Wykres C pokazuje wzór lejka co świadczy o naruszonym założeniu o stałej wariancji. • Wykres D pokazuje wzorzec, który rośnie od lewej strony do prawej, co świadczy o naruszonym założeniu o zerowej średniej. Wykres B • Dlaczego mówimy, że założenie niezależności nie jest tu spełnione ? • Ponieważ zakłada się, że błędy są niezależne, więc reszty (oszacowania błędów) powinny być również niezależne. • Jeżeli jednak reszty tworzą zakrzywiony wzorzec, to możemy przypuszczać, że dla danej reszty sąsiadujące z nią reszty (na lewo i na prawo) będą wewnątrz pewnego marginesu błędu. • Jeżeli reszty byłyby rzeczywiście niezależne, to taka prognoza nie byłaby możliwa. Dlaczego na wykresie C założenie o stałej wariancji nie jest prawdziwe ? • Na wykresie A – wariancja reszt pokazana jako pionowa odległość, jest niemal stała, niezależnie od wartości x. • Z kolei na wykresie C wartości reszt są mniejsze dla mniejszych wartości x i większe dla większych wartości x. • Dlatego zmienność nie jest stała co narusza założenie o stałej wariancji. Dlaczego z wykresu D możemy odczytać że zostało naruszone założenie o zerowej średniej? • Założenie o zerowej średniej stwierdza, że średnia błędu jest równa zero, niezależnie od wartości x. • Jednak na wykresie D dla małych wartości x średnia reszt jest mniejsza od zera, podczas, gdy dla dużych wartości x średnia reszt jest większa od 0. • To stanowi naruszenie założenia o zerowej średniej, jak również naruszenie założenie niezależności. • Jeżeli wykres kwantylowy nie pokazuje systematycznego odchylenia od linii prostej a wykres reszty względem wartości przewidywanych nie pokazuje widocznych wzorców, to możemy wyciągnąć wniosek, że nie ma graficznych dowodów na naruszenie założeń regresji i możemy kontynuować analizę regresji. • Co jednak, gdy te wykresy wskazują na naruszenie założeń regresji ? • Wtedy możemy zastosować transformację zmiennej celu y, taką jak transformacja logarytmiczna. Transformacja logarytmiczna, ln, czyli logarytm naturalny czyli o podstawie e. Przykład zastosowania transformacji • Jak to jest z transformowaniem zmiennych do regresji? • Jedni mówią, że można, inni że to manipulowanie danymi? • Odpowiedź: można, a nawet czasem TRZEBA Transformacje danych – kiedy podejrzewamy, że można • log – jeżeli stosunek pomiędzy największą a najmniejszą wartością przekracza 10 (i zmienne są „skrzywione”) to można, jeżeli przekracza 100, to nawet trzeba Diagnostyka modelu liniowego • Aby model można było uznać za dobry, należy wykonać jego diagnostykę. • Przykład: Oceny współczynników i statystyki testowe są prawie identyczne wniosek Po dopasowaniu modelu, diagnostyka jest krokiem koniecznym, pozwalającym na ocenę, czy model jest dopasowany poprawnie. Współliniowość Gdy zmienne objaśniające są wysoko skorelowane wyniki analizy regresji mogą być niestabilne. Szacowana wartość zmiennej xi może zmienić wielkość a nawet kierunek zależnie od pozostałych zmiennych objaśniających zawartych w tak testowanym modelu regresji. Taka zależność liniowa między zmiennymi objaśniającymi może zagrażać trafności wyników analizy regresji. Do wskaźników oceniających współliniowość należy, m.in. VIF (Variance Inflation Factor) zwany współczynnikiem podbicia (inflacji) wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. Innymi słowy: wskazuje on o ile wariancje współczynników są zawyżone z powodu zależności liniowych w testowanym modelu. Niektóre pakiety statystyczne pozwalają także alternatywnie mierzyć tzw. współczynnik toleracji (TOL - ang. tolerance), który mierzy się jako: 1/VIF 2 1 VIFi (1 Ri ) dla modelu xi = f(x1, …., xi-1, xi+1, …, xp) gdzie zmienna xi będzie wyjaśniana przez wszystkie pozostałe zmienne. Gdy VIF > 10 mówimy, że współliniowość wystąpiła i chcąc się jej pozbyć z modelu, usuwamy te cechy, które są liniową kombinacją innych zmiennych niezależnych. Radą na współliniowość jest według niektórych prac zwiększenie zbioru obserwacji o nowe, tak, by zminimalizować istniejące zależności liniowe pomiędzy zmiennymi objaśniającymi. Oczywiście, zwiększenie liczby obserwacji nie gwarantuje poprawy -stąd takie rozwiązanie na pewno nie należy do najlepszych i jedynych. Lepszym wydaje się komponowanie zmiennych zależnych w nowe zmienne (np. waga i wzrost są skorelowane silnie i zamiast nich stworzenie jednej zmiennej stosunek wzrostu do wagi. Taką nową zmienną nazywa się w literaturze kompozytem. Często - dla dużej liczby zmiennych objaśniających - stosuje sie metodę analizy składowych głównych (ang. principal component analysis) dla redukcji liczby zmiennych do jednego lub kilku kompozytów niezależnych. Przykład modelu ze współliniowością Dla modelu postaci: yi = b0 + b1 x1i + b2 x2i + b3 x3i + e1i Gdzie x3i = 10 * x1i - 2 * x2i . Wtedy powiemy, że zmienna x3 jest kombinacją liniową zmiennych x1 i x2. Próba szacowania takiego modelu związana jest ze świadomym popełnianiem błędu, gdyż w modelu tym występuje dokładna współliniowość (jedna ze zmiennych objaśniających jest kombinacją liniową pozostałych). W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych. Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej: > vif(lm(rating~sugars+fiber, data=dane)) sugars fiber 1.020345 1.020345. Wartości współczynnika VIF nie są zbyt wysokie toteż uznajemy, że w modelu tym nie występuje zjawisko współliniowości. Współliniowość (ang. multicollinearity) • To sytuacja, gdy kilka zmiennych objaśniających jest skorelowanych ze sobą. Prowadzi to bowiem do niestabilności w przestrzeni poszukiwań, a wyniki mogą być niespójne. • Aby uniknąć współliniowości, należy zbadać strukturę korelacji między zmiennymi objaśniającymi. cukry błonnik Błonnik -0.137 Półka 2 0.374 -0.330 potas 0.022 0.905 Dwie zmienne potas i błonnik są silnie skorelowane. Półka 2 -0.331 Jest też inna metoda… • Możemy posłużyć się wskaźnikami podbicia wariancji. Co to jest wskaźnik podbicia wariancji ? • Wartość sbi oznacza zmienność związaną ze współczynnikiem bi dla i-tej zmiennej objaśniającej xi. Wartość sbi możemy wyrazić jako iloczyn standardowego błędu oszacowania s i stałej ci. Stałą ci wyrazimy jako: ci 1 1 (n 1) si2 1 Ri2 • Gdzie si2 oznacza wariancję próby obserwowanych wartości i-tej zmiennej opisującej xi, • A Ri2 oznacza wartość współczynnika regresji wielokrotnej R2 dla regresji zmiennej xi traktowanej jako zmiennej zależnej względem pozostałych zmiennych objaśniających. • Ri2 będzie duże, gdy xi będzie silnie skorelowane z innymi zmiennymi objaśniającymi. ci 1 1 (n 1) si2 1 Ri2 • Pierwszy czynnik mierzy tylko wewnętrzną zmienność i-tej zmiennej objaśniającej xi, • zaś drugi czynnik mierzy korelację między i–tą zmienną objaśniającą x i a pozostałymi zmiennymi objaśniającymi. Dlatego drugi czynnik jest nazywany wskaźnikiem podbicia wariancji VIF dla xi : 1 VIFi 1 Ri2 W praktyce… 1 VIFi 1 Ri2 • Jeśli zmienna xi jest całkowicie nieskorelowana z pozostalymi zmiennymi objaśniającymi, Ri2 = 0. Wtedy VIF = 1. Czyli minimalna wartość wskaźnika inflacji to 1. • W miarę tego jak rośnie stopień korelacji pomiędzy zmienną xi i pozostałymi wartość Ri2 również rośnie. Gdy wartość ta zbliża się do 1, to VIF rośnie do nieskończoności. Zatem nie ma górnej granicy. • Praktyczną zasadą dotyczącą interpretacji wartości wskaźnika podbicia wariacji jest oznanie VIF>=5 jako wskazania umiarkowanej współliniowości i VIV >=10 jako wskazania silnej współliniowości. • Wskaźnik podbicia wariancji =5 odpowiada wartości Ri2 = 0.80. Wartość VIF=10 odpowiada Ri2 = 0.9 W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych. Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej: > vif(lm(rating~sugars+fiber, data=dane)) sugars fiber 1.020345 1.020345 Są trzy typy obserwacji, które mogą ale nie muszą wywierać nadmiernego nacisku na wyniki regresji: • Obserwacje oddalone • Obserwacje wysokiej dźwigni • Obserwacje wpływowe.