Informacje dotyczące projektu Statystyczna analiza danych 1. Poprawnie wykonana analiza musi zawierać następujące pliki: - zbiór danych zapisany w formacie .xls lub .sta, na którym przeprowadzana jest analiza – proszę również podać informację o źródłach danych, proszę o przedstawienie nie tylko standaryzowanych danych, ale przede wszystkim oryginalnych - zapisane wyniki w formacie .stw (skoroszyt Statistici) - opis analizy w formacie .pdf lub jako raport Statistici; opis musi zawierać: ogólny opis danych (czego dotyczące dane, z jakiego okresu itp.), najważniejsze wyniki (przeklejone ze Statistici tabelki lub wykresy) wraz z interpretacją. Forma przesłania projektu: mailowo w nieprzekraczalnym terminie do 30 czerwca, proszę nie pakować plików. Plik zawierający opis wyników należy nazwać podając nazwiska Autorów oraz numer grupy w następujący sposób: Nowak_Kowalski_grupa9. Uwzględnienie tych wskazówek ułatwi sprawdzanie projektu i późniejsze wpisywanie ocen poszczególnym osobom. Elementy projektu: Projekt powinien składać się z czterech części: I. Część dotycząca wykrywania obserwacji odstających: 1. Ogólny opis danych na podstawie statystyk opisowych: obliczenie i interpretacja: średnich, odchyleń standardowych, kwartyli, współczynnika zmienności. 2. Należy zastosować następujące metody w celu wykrycia obserwacji odstających: wykres ramka-wąsy, metody bazujące na odległości Mahalanobisa (metoda Campbella, metoda Gnanadesikana-Ketteringa) oraz test Hampela. II. Część dotycząca budowy modelu regresji oraz wykrywania obserwacji odstających w analizie regresji (czyli obserwacji wpływowych i nietypowych) 1. Wybrać jedną zmienną jako zmienną objaśniającą. Pozostałe zmienne należy traktować jako potencjalne zmienne objaśniające. Budowa modelu regresji: wybór zmiennych do modelu regresji, uwzględniając podane na zajęciach metody (współczynnik zmienności, istotności korelacji ze zmienną objaśniana, brak istotnej korelacji z pozostałymi zmiennymi objaśniającymi). 2. Estymacja modelu - interpretacja parametrów modelu, ocena istotności współczynników regresji - na bazie testu. 3. Ocena modelu (na bazie analizy wariancji) oraz współczynnika determinacji skorygowanego. 4. Identyfikacja obserwacji odstających (wpływowych i nietypowych) na bazie: wielkości wpływowych, odległości Mahalanobisa, Cooka, współczynnika DFFITS oraz analiza reszt (test dla reszt studentyzowanych usuniętych) 5. Prezentacja graficzna modelu 1 III. Analiza głównych składowych: 1. Wyznaczyć dla całego zbioru danych macierz korelacji. 2. Ocena na bazie kryteriów dotyczących wartości własnych, jak poszczególne główne składowe odzwierciedlają informację o zmienności badanych cech. 3. Przedstawienie wag poszczególnych składowych – na bazie wektorów własnych. 4. Przedstawienie danych na rysunku dwu - oraz trójwymiarowym, opis w jakim stopniu każdy z rysunków odzwierciedla informacje z przestrzeni p-wymiarowej. Analiza rysunku: identyfikacja obserwacji odstających, wyodrębnienie podobnych grup badanych obiektów. Ocena jakości odtworzenia poszczególnych punktów za pomocą wybranego kryterium i uwzględnienie tej oceny w opisie rysunku. Przy ocenie rysunku należy również opisać, w jaki sposób odtwarzane są badane zmienne. 5. Przedstawić ranking badanych obiektów, uwzględniając stymulanty i destymulanty. Wyniki zinterpretować. Podać dokładny opis tworzenia rankingu (które zmienne zostały wybrane do tworzenia rankingu, pod jakim kątem tworzony jest ranking, opis stymulant, destymulant, czy wagi wyznaczone na bazie głównych składowych były zmieniane ze względu na znak (np. z dodatnich na ujemne). Jeżeli wagi są zmieniane, ranking należy wykonać w Excelu na danych standaryzowanych, opis rankingu i jego prezentacja musi być zawarta w pliku doc lub pdf, w którym opisywany jest cały projekt. IV. Analiza skupień 1. Wybór odpowiedniej miary odległości (należy ustalić, czy w zbiorze danych występują obserwacje nietypowe, jeśli tak należy zastanowić się, czy chcemy stłumić, czy uwypuklić ich wpływ). Należy podać, wybraną miarę odległości wraz z uzasadnieniem. 2. Wybór odpowiedniej metody aglomeracji (zalecana jest metoda Warda, gdyż grupując kolejne obiekty, wykorzystuje kryterium oparte na zmienności wewnątrz oraz pomiędzy skupieniami). 3. Przedstawić dendrogram. Na bazie wzrokowej oceny dendrogramu oraz wykresu przebiegu aglomeracji ocenić, jakie mamy możliwości podziału obiektów na skupienia. 4. Za pomocą analizy zmienności wewnątrz i pomiędzy skupieniami wybrać najwłaściwszą klasyfikację (najlepszą miarą jest wskaźnik c). Ten punkt wykonać w Excelu – jako przykład niech posłuży rozwiązanie zadania na laboratorium. W projekcie należy przedstawić następujące informacje: ślady macierzy B, T, W, wartości wskaźnika c dla kolejnych kroków oraz wnioski, która klasyfikacja została wybrana. Jeśli jest to możliwe podać elementy wyodrębnionych skupień i spróbować ustalić, co jest cechą charakterystyczną danego skupienia, czyli co wyróżnia dane skupienie od innych skupień. 2