Analiza regresji – część II
Agnieszka Nowak - Brzezińska
Niebezpieczeństwo ekstrapolacji
• Analitycy powinni ograniczyć predykcję i estymację ,
które są wykonywane za pomocą równania regresji dla
wartości objaśniającej w obrębie przedziału wartości x w
zbiorze danych.
• Np. w zbiorze płatków śniadaniowych najmniejsza
zawartość cukru to 0 a największa to 15 więc szacowana
wartości odżywcza jest właściwa tylko dla dowolnej
wartości z przedziału 0..15.
Ekstrapolacja
• Ekstrapolacja - szacowanie dla wartości poza
przedziałem może być niebezpieczne, ponieważ
nie znamy natury relacji pomiędzy x i y poza tym
zakresem.
• Ekstrapolacji należy oczywiście unikać.
• Załóżmy , że nowe płatki zostały wpuszczone na
rynek z bardzo dużą zawartością cukru. Np.. 30
gram.
• Nasze równanie regresji oszacuje wartość
odżywczą płatków na -13.2 !
rysunek
•
•
Chcielibyśmy aby nasze punkty układały się tylko jako czarne punkty. Jednak
rzeczywiście relacja między x i y składa się zarówno z punktów czarnych
(obserwowanych), jak i szarych (nieobserwowanych).
Linia regresji oparta jedynie na dostępnych danych jest taka jak na rysunku.
Oszacowanie najmniejszych
kwadratów
• Gdybyśmy mieli inny zbiór płatków to nie możemy
zakładać, że zależność pomiędzy wartością odżywczą a
zawartością cukrów będzie dokładnie taka sama jak:

rating  59.4  2.42 * sugars
Nie – ponieważ b0 i b1 są statystykami, których wartości zmieniają się w zależności
od próby.
b0 i b1 są używane do estymacji parametrów populacji, w tym przypadku 0,1 czyli
wyrazu wolnego oraz współczynnika nachylenia prostej regresji.
y   0  1  
y  0  1 x  
• Równanie regresji
• Reprezentuje prawdziwą liniową zależność między
wartością odżywczą płatków a zawartością cukrów dla
wszystkich rodzajów płatków śniadaniowych, nie tylko
tych z naszej próby 77 typów płatków.
• Losowy błąd  w powyższym równaniu regresji stosuje się
w celu uwzględnienia nieoznaczoności w modelu,
ponieważ dwa różne rodzaje płatków śniadaniowych
mogą mieć tę samą zawartość cukrów ale inną wartość
odżywczą.
W regresji prostej bada się relację pomiędzy dwiema
zmiennymi ilościowymi x i y.
Model zależności w prostej regresji dla n elementowej próby
jest postaci:
yi  0  1 xi   i
Gdzie:
Yi – wartość zmiennej y dla obserwacji i-tej
Xi- wartość zmiennej x dla i-tej obserwacji
i – zakłócenie losowe o rozkładzie N(0,2) czyli ma rozkład
normalny o wariancji 2
1 in
Są niezależne, a więc: covi  j ( i ,  j )  0
A 0,1 są współczynnikami modelu.
• Taki model regresyjny opisuje często spotykaną w
praktyce sytuację, gdy obserwowane wartości
funkcji nie są dokładne, ponieważ są losowo
zakłócane.
• Znając
wartości
wektora
zmiennych
objaśniających oraz losowo zakłócane wartości
funkcji d, naszym zadaniem jest „odfiltrowanie”
zakłóceń i podanie dokładnej postaci funkcji.
• Zmienne objaśniające to zmienne nielosowe, ale
to nie ma tu akurat znaczenia.
• Wyznaczywszy oszacowania parametrów
modelu, można obliczyć również wartości
reszt, czyli oszacowania dla zakłóceń losowych
wyznaczanych jako:   y   x  
• Metoda najmniejszych kwadratów gwarantuje,
że prosta regresji opisana równaniem y   x  
minimalizuje sumę kwadratów reszt dla
wszystkich obserwacji.

i

i
1

i
0

1

0
Współczynnik determinacji
• Pozwala on stwierdzić czy oszacowane równanie regresji
jest przydatne do przewidywania czy nie.
• Nazywa się go często współczynnikiem dopasowania
regresji i oznacza jako R2.
• Określa on stopień w jakim linia regresji najmniejszych
kwadratów wyjaśnia zmienność obserwowanych danych.
Oznacza estymowaną wartość zmiennej objaśnianej

y

y  y Oznacza błąd oszacowania lub resztę.
• Suma kwadratów błędów SSE

SSE   ( y  y ) 2
• Całkowita wartość błędu oszacowania gdy użyjemy równania regresji
• Całkowita suma kwadratów SST
SST   ( y  y) 2
• Stanowi miarę całkowitej zmienności wartości y bez odniesienia do
zmiennej objaśniającej. Mówi się, że SST jest funkcją wariancji zmiennej y.
• Regresyjna suma kwadratów SSR

SSR   ( y  y) 2
• Stanowi miarę całkowitej poprawy dokładności przewidywań w przypadku
stosowania regresji w porównaniu z sytuacją gdy nie uwzględniamy
wartości zmiennej objaśniającej
SST = SSR + SSE
Współczynnik determinacji (ang.
coefficient od determination)
• Mierzy stopień dopasowania regresji jako przybliżenia liniowej
zależności pomiędzy zmienną celu a zmienną objaśniającą:
r2 
SSR
SST
• Możemy go interpretować jako tę część zmienności zmiennej
y, która została wyjaśniona przez regresję, czyli przez liniowy
związek pomiędzy zmienną celu a zmienną objaśniającą.
Współczynniki regresji
•Współczynnik determinacji z prostego modelu regresji liniowej dla zestawu
danych cereals to 0,5771056.
Na ile dobra jest regresja?
Współczynnik determinacji jest opisową miarą
siły liniowego związku
między zmiennymi, czyli miarą dopasowania
linii regresji do danych
współczynnik determinacji ---przyjmuje
wartości z przedziału [0,1] i wskazuje jaka część
zmienności zmiennej y jest
wyjaśniana przez znaleziony model.
Na przykład dla R2=0.619 znaleziony model
wyjaśnia około 62% zmienności y.
Współczynnik determinacji
• Oczywiście zawsze można znaleźć taką linię regresji metodą
najmniejszych kwadratów, która modeluje zależność
pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak
nie ma gwarancji, że taka regresja będzie przydatna. Zatem
powstaje pytanie, w jaki sposób możemy stwierdzić, czy
oszacowane równanie regresji jest przydatne do
przewidywania. Jedną z miar dopasowania regresji jest
współczynnik determinacji R2.
• Określa on stopień, w jakim linia regresji najmniejszych
kwadratów wyjaśnia zmienność obserwowanych danych.
Przypomnijmy, że y
oznacza estymowaną wartość

zmiennej objaśnianej, a
jest błędem oszacowania
y y
lub resztą.
•
•
•
•
•
Suma kwadratów błędu oszacowania lub suma kwadratów błędów
reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia
równania regresji.
Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości
zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe.
Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj
prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się
bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co
sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację
o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy.
Jeśli liczymy różnice x – średnia(x) dla każdego rekordu, a następnie sumę

kwadratów tych miar, tak jak przy oszacowanej wartości y ( ),
kiedy
y  y sumę
obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą
kwadratów SST (sum of squares total):
Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej
bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją
wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia
standardowego .
SST   ( y  y )
n
2
i 1
i
n
SST   ( yi  y) 2  (n  1)Var ( y)  (n  1) y2
i 1
Współczynnik determinacji r2
Współczynnik determinacji r2:
r2 
SSR
SST
Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy
zmienną celu a zmienną objaśniającą.
Jaka jest wartość maksymalna współczynnika determinacji r2 ?
Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy
gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie
ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a
wtedy SST = SSR a r2=1.
Jaka jest wartość minimalna współczynnika determinacji r2 ?
Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc
r2=0.
Im większa wartość r2 tym lepsze dopasowanie regresji do zbioru
danych.
Przykład analizy współczynnika R2 dla
wielu zmiennych objaśniających
Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z
zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych
objaśniających.
Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie.
Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych
objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych
osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między
pojedynczymi zmiennymi.
Funkcja r.square
Funkcja r.square.adjusted
Skorygowany R2
• Jest to sposób na wyeliminowanie z modelu
zmiennych objaśniających, które nie są przydatne.
• Dodanie zmiennej do modelu regresji zwiększa
wartość współczynnika determinacji, niezależnie
od przydatności tej zmiennej.
• Sposobem jest tu kara miary R2 dla modeli które
uwzględniają nieprzydatne zmienne objaśniające.
Taką miarą jest skorygowany współczynnik
determinacji ( adjusted R2).
Test istotności regresji
Ponieważ wartość p jest znacznie mniejsza niż 0,05 odrzucamy hipotezę zerową, że β = 0.
Czyli mówimy, że istnieje istotna zależność między zmiennymi w modelu regresji.
Sprawdzanie założeń regresji
Istnieją dwie podstawowe metody graficzne
używane do sprawdzenia założeń regresji:
• Normalny wykres kwantylowy
• Wykres standaryzowanych reszt względem
wartości przewidywanych
• Założenia: liniowość, niezależność, normalność i stała wariancja –
mogą zostać zweryfikowane za pomocą normalnego wykresu
kwantylowego i wykresu standaryzowanych reszt względem
przewidywanych wartości.
• Wykres kwantylowy to wykres kwantyli próbkowych rozkładu
reszt (rezyduów) względem kwantyli rozkładu normalnego
odpowiedniego rzędu.
• Normalność można ocenić, sprawdzając, czy wykres wykazuje
systematyczne odchylenie od linii prostej. Wtedy można
wywnioskować, że wykreślone wartości danych (w tym wypadku
reszty) nie pochodzą z żadnego szczególnego rozkładu (rozkładu
normalnego w tym przykładzie). Nie wykrywamy systematycznych
odchyleń od liniowości na wykresie standaryzowanych reszt, a
zatem stwierdzamy, że założenie normalności jest nienaruszone.
Normalność
Normalne mają być rezydua, czyli różnica między
modelem a danymi, a nie same dane!!!
Jeżeli zmienna była mierzona przyrządem, to jest
duża szansa, że ma rozkład normalny
Jeżeli wartości zmiennej są średnimi z jakichś liczb,
to zmienna jest najprawdopodobniej normalna
Jeżeli zmienna oznacza liczbę czegoś na jednostkę
(liczbę komórek w objętości) i średnia tej liczby
jest 10 lub więcej, to można przyjąć, że zmienna
ma rozkład normalny
Metoda 1: Normalny wykres kwantylowy
Czytanie wykresu…
• Jest wykresem kwantyli próbkowych rozkładu reszt względem
kwantyli rozkładu normalnego odpowiedniego rzędu.
• Używa się go do określenia, czy dany rozkład odbiega od rozkładu
normalnego.
• Na wykresie tym, wartości obserwowane dla badanego rozkładu są
porównywane z wartościami dla rozkładu normalnego.
• Podobnie jak centyl, kwantyl rozkładu jest wartością xp, taką, że p%
wartości rozkładu jest mniejsze lub równe xp.
• Jeżeli rozkład jest normalny to punkty na wykresie powinny tworzyć
linię prostą; zaś systematyczne odchylenia od linii prostej wskazują
na nieliniowość.
Normalny wykres kwantylowy
Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów)
względem kwantyli rozkładu normalnego odpowiedniego rzędu.
Dla rozkładu normalnego
Dla rozkładu jednostajnego
Dla rozkładu Chi2 (prawoskośny)
W praktyce…
• Nie możemy liczyć na to że rzeczywiste dane
dostarczą nam takich idealnych wykresów
kwantylowych.
• Obecność błędu próbkowania i innych źródeł
szumu powoduj zwykle, że wykres będzie miał
mniej jednoznaczny kształt.
Dla zbioru Cereals
Metoda 2: Wykres standaryzowanych reszt
względem wartości przewidywanych
• Drugą graficzną metodą używaną do
sprawdzenia założeń modelu regresji jest
wykres standaryzowanych reszt względem
wartości przewidywanych.
Czytanie wykresu…
• Wykres reszt względem wartości przewidywanych jest sprawdzany
ze względu na dostrzegalne wzorce. Jeżeli istnieje oczywista
krzywizna na wykresie rozrzutu, to założenie liniowości jest
naruszone.
• Jeżeli pionowy rozrzut punktów na wykresie jest systematycznie
niejednakowy, to założenie o stałej wariancji jest naruszone. Gdy nie
wykrywamy takich wzorców to stwierdzamy, że założenia liniowości i
stałej wariancji są nienaruszone.
• Założenie niezależności jest sensowne w naszym zbiorze danych
ponieważ nie spodziewamy się, że wartość odżywcza jednego
rodzaju płatków zależy od wartości innego rodzaju płatków.
• Dane zależne od czasu mogą być sprawdzone ze względu na
niezależność kolejności za pomocą testów przebiegu lub wykresów
reszt względem kolejności.
Wykres standaryzowanych reszt
względem wartości przewidywanych
• Sprawdzamy więc, czy istnieją pewne
charakterystyczne układy punktów na
wykresach
reszt
względem
wartości
przewidywanych.
• Jeżeli tak, to jedno z założeń zostało
naruszone, a jeżeli nie ma takich widocznych
wzorców, to założenia pozostają nienaruszone.
4 wzorce archetypów obserwowane na wykresach
reszt względem wartości przewidywanych
• Wykres A pokazuje poprawny wykres gdzie nie są
obserwowane żadne widoczne wzorce i punkty
zajmują cały prostokątny obszar od lewej do
prawej.
• Wykres B pokazuje krzywiznę, co świadczy o
naruszonym założeniu niezależności.
• Wykres C pokazuje wzór lejka co świadczy o
naruszonym założeniu o stałej wariancji.
• Wykres D pokazuje wzorzec, który rośnie od lewej
strony do prawej, co świadczy o naruszonym
założeniu o zerowej średniej.
Wykres B
• Dlaczego mówimy, że założenie niezależności nie
jest tu spełnione ?
• Ponieważ zakłada się, że błędy są niezależne, więc
reszty (oszacowania błędów) powinny być
również niezależne.
• Jeżeli jednak reszty tworzą zakrzywiony wzorzec,
to możemy przypuszczać, że dla danej reszty
sąsiadujące z nią reszty (na lewo i na prawo) będą
wewnątrz pewnego marginesu błędu.
• Jeżeli reszty byłyby rzeczywiście niezależne, to
taka prognoza nie byłaby możliwa.
Dlaczego na wykresie C założenie o stałej wariancji
nie jest prawdziwe ?
• Na wykresie A – wariancja reszt pokazana jako
pionowa odległość, jest niemal stała,
niezależnie od wartości x.
• Z kolei na wykresie C wartości reszt są
mniejsze dla mniejszych wartości x i większe
dla większych wartości x.
• Dlatego zmienność nie jest stała co narusza
założenie o stałej wariancji.
Dlaczego z wykresu D możemy odczytać że zostało
naruszone założenie o zerowej średniej?
• Założenie o zerowej średniej stwierdza, że średnia
błędu jest równa zero, niezależnie od wartości x.
• Jednak na wykresie D dla małych wartości x
średnia reszt jest mniejsza od zera, podczas, gdy
dla dużych wartości x średnia reszt jest większa
od 0.
• To stanowi naruszenie założenia o zerowej
średniej, jak również naruszenie założenie
niezależności.
• Jeżeli wykres kwantylowy nie pokazuje
systematycznego odchylenia od linii prostej a
wykres
reszty
względem
wartości
przewidywanych nie pokazuje widocznych
wzorców, to możemy wyciągnąć wniosek, że nie
ma graficznych dowodów na naruszenie założeń
regresji i możemy kontynuować analizę regresji.
• Co jednak, gdy te wykresy wskazują na
naruszenie założeń regresji ?
• Wtedy możemy zastosować transformację
zmiennej celu y, taką jak transformacja
logarytmiczna.
Transformacja logarytmiczna, ln, czyli
logarytm naturalny czyli o podstawie
e.
Przykład zastosowania transformacji
• Jak to jest z transformowaniem zmiennych do
regresji?
• Jedni mówią, że można, inni że to
manipulowanie danymi?
• Odpowiedź: można, a nawet czasem TRZEBA
Transformacje danych – kiedy
podejrzewamy, że można
• log – jeżeli stosunek pomiędzy największą a
najmniejszą wartością przekracza 10 (i
zmienne są „skrzywione”) to można, jeżeli
przekracza 100, to nawet trzeba
Diagnostyka modelu liniowego
• Aby model można było uznać za dobry, należy wykonać
jego diagnostykę.
• Przykład:
Oceny współczynników i statystyki
testowe są prawie identyczne
wniosek
Po dopasowaniu modelu, diagnostyka jest krokiem
koniecznym, pozwalającym na ocenę, czy model jest
dopasowany poprawnie.
Współliniowość
Gdy zmienne objaśniające są wysoko skorelowane wyniki analizy regresji mogą być
niestabilne. Szacowana wartość zmiennej xi może zmienić wielkość a nawet kierunek zależnie
od pozostałych zmiennych objaśniających zawartych w tak testowanym modelu regresji. Taka
zależność liniowa między zmiennymi objaśniającymi może zagrażać trafności wyników analizy
regresji.
Do wskaźników oceniających współliniowość należy, m.in. VIF (Variance Inflation Factor) zwany
współczynnikiem podbicia (inflacji) wariancji. VIF pozwala wychwycić wzrost wariancji ze
względu na współliniowość cechy.
Innymi słowy: wskazuje on o ile wariancje współczynników są zawyżone z powodu zależności
liniowych w testowanym modelu. Niektóre pakiety statystyczne pozwalają także alternatywnie
mierzyć tzw. współczynnik toleracji (TOL - ang. tolerance), który mierzy się jako: 1/VIF
2 1
VIFi  (1  Ri )
dla modelu xi = f(x1, …., xi-1, xi+1, …, xp) gdzie zmienna xi będzie wyjaśniana przez wszystkie
pozostałe zmienne.
Gdy VIF > 10 mówimy, że współliniowość wystąpiła i chcąc się jej pozbyć z modelu,
usuwamy te cechy, które są liniową kombinacją innych zmiennych niezależnych.
Radą na współliniowość jest według niektórych prac zwiększenie zbioru obserwacji o
nowe, tak, by zminimalizować istniejące zależności liniowe pomiędzy zmiennymi
objaśniającymi. Oczywiście, zwiększenie liczby obserwacji nie gwarantuje poprawy -stąd
takie rozwiązanie na pewno nie należy do najlepszych i jedynych. Lepszym wydaje się
komponowanie zmiennych zależnych w nowe zmienne (np. waga i wzrost są
skorelowane silnie i zamiast nich stworzenie jednej zmiennej stosunek wzrostu do wagi.
Taką nową zmienną nazywa się w literaturze kompozytem.
Często - dla dużej liczby zmiennych objaśniających - stosuje sie metodę analizy
składowych głównych (ang. principal component analysis) dla redukcji liczby zmiennych
do jednego lub kilku kompozytów niezależnych.
Przykład modelu ze współliniowością
Dla modelu postaci:
yi = b0 + b1 x1i + b2 x2i + b3 x3i + e1i
Gdzie x3i = 10 * x1i - 2 * x2i .
Wtedy powiemy, że zmienna x3 jest kombinacją liniową zmiennych x1 i x2.
Próba szacowania takiego modelu związana jest ze świadomym popełnianiem błędu,
gdyż w modelu tym występuje dokładna współliniowość (jedna ze zmiennych
objaśniających jest kombinacją liniową pozostałych).
W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z
funkcji vif której argumentem jest model regresji dla danego zbioru danych.
Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej:
> vif(lm(rating~sugars+fiber, data=dane))
sugars
fiber
1.020345 1.020345.
Wartości współczynnika VIF nie są zbyt wysokie toteż uznajemy, że w modelu tym
nie występuje zjawisko współliniowości.
Współliniowość (ang. multicollinearity)
• To sytuacja, gdy kilka zmiennych objaśniających jest
skorelowanych ze sobą. Prowadzi to bowiem do niestabilności
w przestrzeni poszukiwań, a wyniki mogą być niespójne.
• Aby uniknąć współliniowości, należy zbadać strukturę korelacji
między zmiennymi objaśniającymi.
cukry
błonnik
Błonnik
-0.137
Półka 2
0.374
-0.330
potas
0.022
0.905
Dwie zmienne potas i błonnik są silnie skorelowane.
Półka 2
-0.331
Jest też inna metoda…
• Możemy posłużyć się wskaźnikami podbicia wariancji. Co to jest wskaźnik
podbicia wariancji ?
• Wartość sbi oznacza zmienność związaną ze współczynnikiem bi dla i-tej
zmiennej objaśniającej xi. Wartość sbi możemy wyrazić jako iloczyn
standardowego błędu oszacowania s i stałej ci. Stałą ci wyrazimy jako:
ci 
1
1
(n  1) si2 1  Ri2
• Gdzie si2 oznacza wariancję próby obserwowanych wartości i-tej zmiennej
opisującej xi,
• A Ri2 oznacza wartość współczynnika regresji wielokrotnej R2 dla regresji
zmiennej xi traktowanej jako zmiennej zależnej względem pozostałych
zmiennych objaśniających.
• Ri2 będzie duże, gdy xi będzie silnie skorelowane z innymi zmiennymi
objaśniającymi.
ci 
1
1
(n  1) si2 1  Ri2
• Pierwszy czynnik mierzy tylko wewnętrzną zmienność i-tej
zmiennej objaśniającej xi,
• zaś drugi czynnik mierzy korelację między i–tą zmienną
objaśniającą x i a pozostałymi zmiennymi objaśniającymi.
Dlatego drugi czynnik jest nazywany wskaźnikiem podbicia
wariancji VIF dla xi :
1
VIFi 
1  Ri2
W praktyce…
1
VIFi 
1  Ri2
• Jeśli zmienna xi jest całkowicie nieskorelowana z pozostalymi
zmiennymi objaśniającymi, Ri2 = 0. Wtedy VIF = 1. Czyli
minimalna wartość wskaźnika inflacji to 1.
• W miarę tego jak rośnie stopień korelacji pomiędzy zmienną xi
i pozostałymi wartość Ri2 również rośnie. Gdy wartość ta
zbliża się do 1, to VIF rośnie do nieskończoności. Zatem nie ma
górnej granicy.
• Praktyczną zasadą dotyczącą interpretacji wartości wskaźnika
podbicia wariacji jest oznanie VIF>=5 jako wskazania
umiarkowanej współliniowości i VIV >=10 jako wskazania silnej
współliniowości.
• Wskaźnik podbicia wariancji =5 odpowiada wartości Ri2 = 0.80.
Wartość VIF=10 odpowiada Ri2 = 0.9
W środowisku R sprawdzanie współliniowości
nie jest trudne. Wystarczy skorzystać z funkcji
vif której argumentem jest model regresji dla
danego zbioru danych.
Przykład dotyczący naszego zbioru płatków
zbożowych przedstawiamy poniżej:
> vif(lm(rating~sugars+fiber, data=dane))
sugars
fiber
1.020345 1.020345
Są trzy typy obserwacji, które mogą ale nie
muszą wywierać nadmiernego nacisku na
wyniki regresji:
• Obserwacje oddalone
• Obserwacje wysokiej dźwigni
• Obserwacje wpływowe.
Download

Analiza regresji – część II