Lab 1

advertisement
Zadanie 0 – zaznajomienie z SAS-em
a)
b)
c)
d)
e)
f)
Skopiuj zbiór danych ch01pr19.txt i program prog1.sas do swojej kartoteki.
Zastąp “?” w prog1.sas właściwą ścieżką do zbioru danych .
Przeczytaj sashandout.
Uruchom SAS-a i skopiuj prog1.sas do okna edytora.
Uruchom program prog1.sas
Skopiuj do raportu (np. w wordzie)
a) wyestymowane współczynniki regresji.
b) wykres rozrzutu - gpa vs act.
c) histogram i qqplot wartości resztowych.
1. Zbiór danych individuals.dat zawiera dane dla 55 899 respondentów ankiety
przeprowadzonej w marcu 2000 przez Bureau of Labor Statistics, USA. W zbiorze
znajdują się wartości zmiennych: id, wiek (w latach), wykształcenie: 1=wykształcenie
podstawowe, 2=szkoła średnia, bez dyplomu, 3=wykształcenie średnie,
4=wykształcenie policealne, bez licencjatu, 5=licencjat, 6=wykształcenie wyższe,
płeć: 1=mężczyzna, 2=kobieta, roczne zarobki i sektor zatrudnienia :5=sektor
prywatny, 6=sektor rządowy, 7=własny interes.
a) Narysuj wykresy kołowe i słupkowe porównujące strukturę wykształcenia
wśród kobiet i mężczyzn
b) Narysuj wykresy słupkowe przedstawiające średnie zarobki w funkcji
wykształcenia i sektora zatrudnienia. Wykresy zrób osobno dla kobiet i
mężczyzn i porównaj wyniki w tych dwóch grupach.
c) Narysuj histogramy średnich zarobków osobno dla kobiet i mężczyzn. Opisz
kształt uzyskanych rozkładów. Podaj wartości statystyk opisujących centrum,
rozrzut i kształt rozkładu.
2. Zbiór danych dane5.txt zawiera dane dotyczące poziomu cholesterolu u pacjentów
kilka dni po ataku serca.
a) Wykreśl wykresy kwantylowe poziomów cholesterolu w grupie kontrolnej i
dla pacjentów dwa, cztery i czternaście dni po ataku. Przetestuj normalność w
każdej z tych grup.
b) Na jednym wykresie porównaj wykresy pudełkowe dwa, cztery i czternaście
dni po zawale.
c) Zastosuj test Studenta dla par do porównania poziom cholesterolu dwa i cztery
dni po ataku, i cztery i czternaście dni po ataku.
d) Pomnóż trzy ostatnie wartości poziomu cholesterolu dwa dni po ataku przez
100 (będą to obserwacje odstające). Zastosuj test Studenta, test znaków i
znakowany test Wilcoxona do porównania poziomu cholesterolu dwa i cztery
dni po ataku, w oparciu o dane z obserwacjami odstającymi. Porównaj wyniki.
3. a) Zastosuj test Studenta dla dwóch prób do porównania cholesterolu w grupie
kontrolnej i pacjentów dwa dni po ataku (w oparciu o oryginalne dane).
stisuj
b) Pomnóż trzy ostatnie wartości cholesterolu w grupie kontrolnej i w grupie
pacjentów dwa dni po zabiegu przez 100. Zastosuj test Studenta i test WilcoxonaManna-Whitneya do porówania tych dwóch prób w oparciu o dane z obserwacjami
odstającymi. Porównaj wyniki.
4. Oto kod, który można wykorzystać do wczytania zbioru dane2.txt.
data ind2;
infile 'c:/mbogdan/ECMI/data/dane2.txt' DLM='09'x;
input edu state gender exp union salary age race job sector status;
run;
Ten zbiór zawiera
zmiennych:
534 rekordów i 11
EDUCATION: liczba lat przeznaczonych na wykształcenie
STATE: 1 - SOUTH, 0 – in other case
GENDER: 1 – kobieta, 0 – mężczyzna
WORK EXPERIENCE: w latach
UNION: 1 – członek związku, 0 – w przeciwnym wypadku
SALARY: w dolarach na godzinę
AGE: w latach
RACE: 3 – biały, 2 – latynos, 1 – inna
JOB TYPE: 1 – manager, 2 – dealer/marketing, 3 – urzędnik,
4 – usługi, 5 – własny interes, 6 – inny
SECTOR: 2 – budownictwo, 1 – produkcja, 0 – inne
MARITAL STATUS: 0 – wolny, 1 – żonaty/zamężna
a) Narysuj wykres słupkowy porównujący proporcje żonatych mężczyzn i zamężnych
kobiet. Przetestuj czy stan cywilny zależy od płci.
b) Porównaj wykresy słupkowe przedstawiające frakcje kobiet i mężczyzn
zatrudnionych w różnych sektorach. Przetestuj czy sektor zatrudnienia zależy od płci.
c) Porównaj wykresy słupkowe przedstawiające proporcje zatrudnienia w różnych
zawodach dla trzech ras. Przetestuj czy zawód jest zależny od rasy.
5. Zbiór danych ch01pr20.txt zawiera dane dotyczące serwisowania drukarek. W drugiej
kolumnie znajduje się liczba drukarek a w pierwszej kolumnie czas (w godzinach) potrzebny
na serwis.
a) Zastosuj procedurę GPLOT do wykreślenia wykresu rozrzutu. Dołącz wykres
wyestymowanej zależności używając opcji i=sm70s w komendzie SYMBOL .
b) Przeanalizuj dane za pomocą procedury REG.
Znajdź równanie prostej regresji.
Wyznacz 95% przedział ufności dla współczynnika nachylenia.
Znajdź wynik testu weryfikującego zależność czasu od liczby kopiarek.
Wyznacz estymator średniego czasu potrzebnego do obsłużenia 11 kopiarek i
odpowiedni 95% przedział ufności.
v) Wyznacz 95% przedział predykcyjny na czas obługi 11 drukarek.
vi) Zastosuj PROC GPLOT i wykreśl 95% pasmo predykcyjne
(I=RLCLI w komendzie SYMBOL) i pasmo 95% przedziałów ufności dla średniego
czasu obługi drukarek (I=RLCLM).
i)
ii)
iii )
iv)
6. Do tego zadania wykorzystamy zbiór danych ch03pr15.txt. W pierwszej kolumnie mamy
wartości stężenia pewnego roztworu, a w drugiej czas.
a) Wykorzystaj PROC REG do analizy regresji: Y –stężenie, X – czas. Znajdź równanie
prostej regresji, R2 i zweryfikuj czy Y zależy od X.
b) Narysuj wykres rozrzutu Y vs X i nałóż na niego najlepiej pasującą krzywą (i=smnns).
c) Zastosuj procedurę Boxa-Coxa aby znaleźć odpowiednią transformację dla stężenia.
d) Skonstruuj nową zmienną odpowiedzi zgodnie z wyborem sugerowanym przez procedurę
Boxa-Coxa. Powtórz punkty a) i b) na nowych danych.
1
d) Skonstruuj nową zmienną objaśniającą zgodnie z regułą x1 
. Powtórz punkty a) i b)
x
dla regresji oryginalnych wartości Y na nową zmienną objaśniającą x1.
Podsumuj wyniki. Który model jest najlepszy dla tych danych ?
Do tego zadania wykorzystamy dane ze zbioru CH06PR15.txt, opisujące stopień
zadowolenia pacjenta. W kolejnych kolumnach są zapisane: wyniki testu oceniającego stopień
zadowolenia pacjenta, jego wiek, indeks ``powagi’’ choroby i indeks opisujący stopień
niepokoju pacjenta.
a) Przeprowadź analizę regresji stopnia zadowolenia na pozostałe zmienne. Znajdź równanie
regresji , R2 i wynik testu weryfikującego czy co najmniej jedna ze zmiennych niezależnych
ma wpływ na stopień zadowolenia.
b) Znajdź 95% przedziały ufności na współczynniki regresji i wyniki testów dla
indywidualnych współczynników.
c) Wykreśl wartości resztowe w funkcji przewidywanego stopnia zadowolenia. Zinterpretuj
wynik.
d) Wykreśl wykres kwantylowy dla reszt. Czy rozkład reszt jest w przybliżeniu normalny ?
e) Skonstruuj 95% przedział predykcyjny dla satysfakcji pacjenta który ma 90 lat, indeks
‘’powagi’’ jego choroby wynosi 35 and stopień niepokoju 2.0.
7.
Download