Zadanie 0 – zaznajomienie z SAS-em a) b) c) d) e) f) Skopiuj zbiór danych ch01pr19.txt i program prog1.sas do swojej kartoteki. Zastąp “?” w prog1.sas właściwą ścieżką do zbioru danych . Przeczytaj sashandout. Uruchom SAS-a i skopiuj prog1.sas do okna edytora. Uruchom program prog1.sas Skopiuj do raportu (np. w wordzie) a) wyestymowane współczynniki regresji. b) wykres rozrzutu - gpa vs act. c) histogram i qqplot wartości resztowych. 1. Zbiór danych individuals.dat zawiera dane dla 55 899 respondentów ankiety przeprowadzonej w marcu 2000 przez Bureau of Labor Statistics, USA. W zbiorze znajdują się wartości zmiennych: id, wiek (w latach), wykształcenie: 1=wykształcenie podstawowe, 2=szkoła średnia, bez dyplomu, 3=wykształcenie średnie, 4=wykształcenie policealne, bez licencjatu, 5=licencjat, 6=wykształcenie wyższe, płeć: 1=mężczyzna, 2=kobieta, roczne zarobki i sektor zatrudnienia :5=sektor prywatny, 6=sektor rządowy, 7=własny interes. a) Narysuj wykresy kołowe i słupkowe porównujące strukturę wykształcenia wśród kobiet i mężczyzn b) Narysuj wykresy słupkowe przedstawiające średnie zarobki w funkcji wykształcenia i sektora zatrudnienia. Wykresy zrób osobno dla kobiet i mężczyzn i porównaj wyniki w tych dwóch grupach. c) Narysuj histogramy średnich zarobków osobno dla kobiet i mężczyzn. Opisz kształt uzyskanych rozkładów. Podaj wartości statystyk opisujących centrum, rozrzut i kształt rozkładu. 2. Zbiór danych dane5.txt zawiera dane dotyczące poziomu cholesterolu u pacjentów kilka dni po ataku serca. a) Wykreśl wykresy kwantylowe poziomów cholesterolu w grupie kontrolnej i dla pacjentów dwa, cztery i czternaście dni po ataku. Przetestuj normalność w każdej z tych grup. b) Na jednym wykresie porównaj wykresy pudełkowe dwa, cztery i czternaście dni po zawale. c) Zastosuj test Studenta dla par do porównania poziom cholesterolu dwa i cztery dni po ataku, i cztery i czternaście dni po ataku. d) Pomnóż trzy ostatnie wartości poziomu cholesterolu dwa dni po ataku przez 100 (będą to obserwacje odstające). Zastosuj test Studenta, test znaków i znakowany test Wilcoxona do porównania poziomu cholesterolu dwa i cztery dni po ataku, w oparciu o dane z obserwacjami odstającymi. Porównaj wyniki. 3. a) Zastosuj test Studenta dla dwóch prób do porównania cholesterolu w grupie kontrolnej i pacjentów dwa dni po ataku (w oparciu o oryginalne dane). stisuj b) Pomnóż trzy ostatnie wartości cholesterolu w grupie kontrolnej i w grupie pacjentów dwa dni po zabiegu przez 100. Zastosuj test Studenta i test WilcoxonaManna-Whitneya do porówania tych dwóch prób w oparciu o dane z obserwacjami odstającymi. Porównaj wyniki. 4. Oto kod, który można wykorzystać do wczytania zbioru dane2.txt. data ind2; infile 'c:/mbogdan/ECMI/data/dane2.txt' DLM='09'x; input edu state gender exp union salary age race job sector status; run; Ten zbiór zawiera zmiennych: 534 rekordów i 11 EDUCATION: liczba lat przeznaczonych na wykształcenie STATE: 1 - SOUTH, 0 – in other case GENDER: 1 – kobieta, 0 – mężczyzna WORK EXPERIENCE: w latach UNION: 1 – członek związku, 0 – w przeciwnym wypadku SALARY: w dolarach na godzinę AGE: w latach RACE: 3 – biały, 2 – latynos, 1 – inna JOB TYPE: 1 – manager, 2 – dealer/marketing, 3 – urzędnik, 4 – usługi, 5 – własny interes, 6 – inny SECTOR: 2 – budownictwo, 1 – produkcja, 0 – inne MARITAL STATUS: 0 – wolny, 1 – żonaty/zamężna a) Narysuj wykres słupkowy porównujący proporcje żonatych mężczyzn i zamężnych kobiet. Przetestuj czy stan cywilny zależy od płci. b) Porównaj wykresy słupkowe przedstawiające frakcje kobiet i mężczyzn zatrudnionych w różnych sektorach. Przetestuj czy sektor zatrudnienia zależy od płci. c) Porównaj wykresy słupkowe przedstawiające proporcje zatrudnienia w różnych zawodach dla trzech ras. Przetestuj czy zawód jest zależny od rasy. 5. Zbiór danych ch01pr20.txt zawiera dane dotyczące serwisowania drukarek. W drugiej kolumnie znajduje się liczba drukarek a w pierwszej kolumnie czas (w godzinach) potrzebny na serwis. a) Zastosuj procedurę GPLOT do wykreślenia wykresu rozrzutu. Dołącz wykres wyestymowanej zależności używając opcji i=sm70s w komendzie SYMBOL . b) Przeanalizuj dane za pomocą procedury REG. Znajdź równanie prostej regresji. Wyznacz 95% przedział ufności dla współczynnika nachylenia. Znajdź wynik testu weryfikującego zależność czasu od liczby kopiarek. Wyznacz estymator średniego czasu potrzebnego do obsłużenia 11 kopiarek i odpowiedni 95% przedział ufności. v) Wyznacz 95% przedział predykcyjny na czas obługi 11 drukarek. vi) Zastosuj PROC GPLOT i wykreśl 95% pasmo predykcyjne (I=RLCLI w komendzie SYMBOL) i pasmo 95% przedziałów ufności dla średniego czasu obługi drukarek (I=RLCLM). i) ii) iii ) iv) 6. Do tego zadania wykorzystamy zbiór danych ch03pr15.txt. W pierwszej kolumnie mamy wartości stężenia pewnego roztworu, a w drugiej czas. a) Wykorzystaj PROC REG do analizy regresji: Y –stężenie, X – czas. Znajdź równanie prostej regresji, R2 i zweryfikuj czy Y zależy od X. b) Narysuj wykres rozrzutu Y vs X i nałóż na niego najlepiej pasującą krzywą (i=smnns). c) Zastosuj procedurę Boxa-Coxa aby znaleźć odpowiednią transformację dla stężenia. d) Skonstruuj nową zmienną odpowiedzi zgodnie z wyborem sugerowanym przez procedurę Boxa-Coxa. Powtórz punkty a) i b) na nowych danych. 1 d) Skonstruuj nową zmienną objaśniającą zgodnie z regułą x1 . Powtórz punkty a) i b) x dla regresji oryginalnych wartości Y na nową zmienną objaśniającą x1. Podsumuj wyniki. Który model jest najlepszy dla tych danych ? Do tego zadania wykorzystamy dane ze zbioru CH06PR15.txt, opisujące stopień zadowolenia pacjenta. W kolejnych kolumnach są zapisane: wyniki testu oceniającego stopień zadowolenia pacjenta, jego wiek, indeks ``powagi’’ choroby i indeks opisujący stopień niepokoju pacjenta. a) Przeprowadź analizę regresji stopnia zadowolenia na pozostałe zmienne. Znajdź równanie regresji , R2 i wynik testu weryfikującego czy co najmniej jedna ze zmiennych niezależnych ma wpływ na stopień zadowolenia. b) Znajdź 95% przedziały ufności na współczynniki regresji i wyniki testów dla indywidualnych współczynników. c) Wykreśl wartości resztowe w funkcji przewidywanego stopnia zadowolenia. Zinterpretuj wynik. d) Wykreśl wykres kwantylowy dla reszt. Czy rozkład reszt jest w przybliżeniu normalny ? e) Skonstruuj 95% przedział predykcyjny dla satysfakcji pacjenta który ma 90 lat, indeks ‘’powagi’’ jego choroby wynosi 35 and stopień niepokoju 2.0. 7.