Regresja wielokrotna

advertisement
Dzisiaj na wykładzie
•Regresja wieloraka – podstawy i
założenia
•Przykładowe oblicznia w Statistica
•Weryfikacja założeń w Statistica
•Zadanie
Regresja wieloraka
Bada związki między zmienną
objaśnianą (zależną) i zmiennymi
objaśniającymi (niezależnymi)
Typowe zadanie
Jak przewidzieć odsetek upadków
zwierząt przy transporcie?
Jakie zmienne związane są z upadkami
zwierząt? Co decyduje o upadkach
zwierząt?
Które z nich są najważniejsze i w jakim
stopniu są powiązane ze stratami
zwierząt?
regresja pierwszego rzędu
y = a + b1x1 + b2x2 + b3x3 + ... + e
drugiego rzędu
y = a + b1x1 + b2x2x2 + ...
y = a + b1x1 + b2x2 + b3x2x3 +
Dlaczego te regresje są liniowe?
y = a + b1x1 + b2x2 + b3x3 + ... + e
a to wyraz wolny. Średnia?
b1, b2, b3 – cząstkowe
współczynniki regresji to
niezależne wkłady każdej ze
zmiennych objaśniających
Dlaczego cząstkowe?
Współczynniki cząstkowe obrazują
zależności po uwzględnieniu
pozostałych czynników.
przykład: długość włosów i wzrost
Jak je oszacować?
Jak wyznaczyć prostą regresji
•metoda najmniejszych kwadratów
•metoda najmniejszych kwadratów ważonych
•metoda najmniejszych reszt bezwględnych
Metoda najmniejszych kwadratów
Wy kr. rozrzutu: upadki (%) wzgldy stans (km)
dy stans (km) = 1,4419 + 15,277 * upadki (%)
Korelacja: r =
,91987
120
110
100
90
80
70
60
dystans (km)
50
40
30
20
1
2
3
4
5
upadki (%)
6
7
8
95% p.uf ności
R-kwadrat czyli współczynnik
determinacji
• Mówi o jakości przewidywania
• R2=30% znaczy 30% wariancji opisane
przez zmienne opisujące i 70% wciąż
nie opisane (błędy)
R-kwadrat
R-kwadrat = 1 - SSE / SST
• SSE - suma kwadratów reszt
• SST - suma kwadratów obserwacji
R-kwadrat skorygowane
R-kwadrat zależy od liczby zmiennych
objaśniających! Im więcej zmiennych tym
większy.
• R-kwadrat skorygowane NIE zależy od liczby
zmiennych objaśniających
• Porównując dwa modelu o różnej liczbie
zmiennych patrz na R-kwadrat skorygowane
R czyli korelacja
• R to pierwiastek z R-kwadrat. Tylko dodatni
( 0 - 1 ) !!!
• wskazuje na stopień powiązania zmiennych
Zależność między zmiennymi
jest liniowa
• Trudne do sprawdzenia
• Małe odstępstwa niegroźne
• Liniowość oceniamy na oko – wykresy
rozrzutu
• Co jeżeli zależność nie jest liniowa?
– transformacja danych
– regresja nieliniowa
Regresja mówi o
współwystępowaniu zjawisk, a
nie o przyczynach i skutkach!
Regresja liczby kradzieży na
liczbę policjantów jest
dodatnia!
Zwodnicza regresja
Jeżeli w modelu umieścisz dużą liczbę
zmiennych objaśniających część z nich
na pewno będzie istotna.
Im więcej danych tym mniej złudne są
wyniki. Ile?
Reszty mają rozkład
normalny
• Ważne przy testowaniu, nie przy
szacowaniu
• Stosujemy histogramy reszt i
wykresy normalności reszt
• Niewielkie odchylenia nie są groźne
• Dobry model daje duży R-kwadrat i
normalność reszt. Czy taki potrafimy
znaleźć?
Nadmiarowość danych
• % upadków przy transporcie tak samo
dobrze opisuje liczba przejechanych
kilometrów jak i dystans do ubojni (to
to samo)
• Statistica daje sygnał o „złym
uwarunkowaniu macierzy”, ale nie
zawsze.
Odstające obserwacje
Znacznie przekłamują oszacowania.
Najczęściej to błędy powstałe przy
wpisywaniu danych.
Najlepiej usunąć je przed analizą
regresji.
Przykładowe dane
Analiza bez
interakcji z
wieloma
zmiennymi
objaśniającymi
ciągłymi
Który model jest najlepszy?
• Ten z max. R-kwadrat? Im szerszy
model tym większy wsp. determ.
• Lepiej stosować statystykę Fj
SSEj / MSE
Jak wyznaczyć najlepszy
model?
• Najlepiej rozpatrywać każdy model z
osobna (Statistica tego nie ułatwia).
• Jeżeli więcej zmiennych kandydujących
to korzystamy z regresji krokowej
– wstecznej
– postępującej
R. krokowa postępująca
1. Najprostszy model – tylko wyraz
wolny
2. Testujemy każdy z osobna, i
dodajemy do modelu zmienną, której
F>Fwprow.
3. Kontynuujemy - wprowadzamy
następne zmienne i usuwamy te, dla
których F<Fusun.
y = -0,27 + 0,04  dystans + 0,45  obsada
BETA to współ., po standaryzacji wszystkich zmiennych
na średnią 0 i odch. std=1. Wskazują relatywny wkład
każdej zmiennej.
Po dopasowaniu modelu zawsze
analizujemy reszty.
Powtarzamy analizę jeżeli mamy duże
wartości odstające!
Wykres reszt wg przypadków
Jeśli jedna lub więcej reszt wychodzi poza
granicę ±3s usuwamy dane i powtarzamy
analizę.
Odległości Mahalanobisa
• Odległości przypadków
przewidywanych od średniej
przewidywań.
• Sposób na analizę wartości
ekstremalnych po stronie zmiennych
objaśniających.
Wykres odstających wg. przypadków
Reszty usunięte
•...to reszty jakie byśmy uzyskali, gdyby
dany przypadek pominąć przy obliczeniach
regresji.
•Jeśli reszta usunięta znacznie się różni
od zwykłej reszty standaryzowanej, to
dany przypadek przekłamuje całą analizę!
Reszty wzg. usuniętych reszt
Reszty względem usunięty ch reszt
Zmienna zależna:
upadki (%)
2,0
1,5
1,0
0,5
0,0
-0,5
Usunięte reszty
-1,0
-1,5
-2,0
-2,5
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
Reszty
0,4
0,6
0,8
1,0
1,2
95% p.uf ności
Problem na ćwiczenia
udział tłuszczu w ciele
•Ważny dla zdrowia
•Trudny w pomiarze - wymaga
ważenia ciała w wodzie.
•Czy można go przewidzieć na
podstawie łatwych pomiarów.
Density determined from underwater weighing
Percent body fat from Siri's (1956) equation
Age (years)
Weight (lbs)
Height (inches)
Neck circumference (cm)
dane
Chest circumference (cm)
Abdomen 2 circumference (cm)
BODYFAT
Hip circumference (cm)
http://lib.stat.cmu.edu/datasets/
Thigh circumference (cm)
Knee circumference (cm)
Ankle circumference (cm)
Biceps (extended) circumference (cm)
Forearm circumference (cm)
Wrist circumference (cm)
Zadania na ćwiczenia
•Skonstruuj dobry model predykcji udziału
tłuszczu w ciele
•Które zmienne są najlepiej objaśniają udział
tłuszczu w ciele człowieka?
•Dokonaj analizy reszt. Usuń przypadki
zniekształcające przewidywanie i popraw
model.
zadanie dla chętnych
Zbrodnie Detroit
http://lib.stat.cmu.edu/datasets/detroit
The data are on the homicide rate in Detroit for the years 1961-1973.
FTP - Full-time police per 100,000 population
skonstruuj
UEMP - % unemployed in the population
MAN - number of manufacturing workers in thousands
model
LIC - Number of handgun licences per 100,000 population
GR - Number of handgun registrations per 100,000 population predykcji
CLEAR - % homicides cleared by arrests
liczby
WM - Number of white males in the population
NMAN - Number of non-manufacturing workers in thousands zabójstw
GOV - Number of government workers in thousands
HE - Average hourly earnings
WE - Average weekly earnings
HOM - Number of homicides per 100,000 of population
ACC - Death rate in accidents per 100,000 population
ASR - Number of assaults per 100,000 population
Download