Uploaded by barteki7

Informacje dotyczące projektu

advertisement
Informacje dotyczące projektu
Statystyczna analiza danych
1. Poprawnie wykonana analiza musi zawierać następujące pliki:
- zbiór danych zapisany w formacie .xls lub .sta, na którym przeprowadzana jest
analiza – proszę również podać informację o źródłach danych, proszę o
przedstawienie nie tylko standaryzowanych danych, ale przede wszystkim
oryginalnych
- zapisane wyniki w formacie .stw (skoroszyt Statistici)
- opis analizy w formacie .pdf lub jako raport Statistici; opis musi zawierać: ogólny
opis danych (czego dotyczące dane, z jakiego okresu itp.), najważniejsze wyniki
(przeklejone ze Statistici tabelki lub wykresy) wraz z interpretacją.
Forma przesłania projektu: mailowo w nieprzekraczalnym terminie do 30 czerwca,
proszę nie pakować plików. Plik zawierający opis wyników należy nazwać podając nazwiska
Autorów oraz numer grupy w następujący sposób: Nowak_Kowalski_grupa9.
Uwzględnienie tych wskazówek ułatwi sprawdzanie projektu i późniejsze wpisywanie ocen
poszczególnym osobom.
Elementy projektu:
Projekt powinien składać się z czterech części:
I. Część dotycząca wykrywania obserwacji odstających:
1. Ogólny opis danych na podstawie statystyk opisowych: obliczenie i interpretacja: średnich,
odchyleń standardowych, kwartyli, współczynnika zmienności.
2. Należy zastosować następujące metody w celu wykrycia obserwacji odstających:
wykres ramka-wąsy, metody bazujące na odległości Mahalanobisa (metoda Campbella,
metoda Gnanadesikana-Ketteringa) oraz test Hampela.
II. Część dotycząca budowy modelu regresji oraz wykrywania obserwacji odstających w
analizie regresji (czyli obserwacji wpływowych i nietypowych)
1. Wybrać jedną zmienną jako zmienną objaśniającą. Pozostałe zmienne należy traktować
jako potencjalne zmienne objaśniające. Budowa modelu regresji: wybór zmiennych do
modelu regresji, uwzględniając podane na zajęciach metody (współczynnik zmienności,
istotności korelacji ze zmienną objaśniana, brak istotnej korelacji z pozostałymi zmiennymi
objaśniającymi).
2. Estymacja modelu - interpretacja parametrów modelu, ocena istotności współczynników
regresji - na bazie testu.
3. Ocena modelu (na bazie analizy wariancji) oraz współczynnika determinacji
skorygowanego.
4. Identyfikacja obserwacji odstających (wpływowych i nietypowych) na bazie: wielkości
wpływowych, odległości Mahalanobisa, Cooka, współczynnika DFFITS oraz analiza reszt
(test dla reszt studentyzowanych usuniętych)
5. Prezentacja graficzna modelu
1
III. Analiza głównych składowych:
1. Wyznaczyć dla całego zbioru danych macierz korelacji.
2. Ocena na bazie kryteriów dotyczących wartości własnych, jak poszczególne główne
składowe odzwierciedlają informację o zmienności badanych cech.
3. Przedstawienie wag poszczególnych składowych – na bazie wektorów własnych.
4. Przedstawienie danych na rysunku dwu - oraz trójwymiarowym, opis w jakim stopniu
każdy z rysunków odzwierciedla informacje z przestrzeni p-wymiarowej. Analiza rysunku:
identyfikacja obserwacji odstających, wyodrębnienie podobnych grup badanych obiektów.
Ocena jakości odtworzenia poszczególnych punktów za pomocą wybranego kryterium i
uwzględnienie tej oceny w opisie rysunku. Przy ocenie rysunku należy również opisać, w jaki
sposób odtwarzane są badane zmienne.
5. Przedstawić ranking badanych obiektów, uwzględniając stymulanty i destymulanty.
Wyniki zinterpretować. Podać dokładny opis tworzenia rankingu (które zmienne zostały
wybrane do tworzenia rankingu, pod jakim kątem tworzony jest ranking, opis stymulant,
destymulant, czy wagi wyznaczone na bazie głównych składowych były zmieniane ze
względu na znak (np. z dodatnich na ujemne). Jeżeli wagi są zmieniane, ranking należy
wykonać w Excelu na danych standaryzowanych, opis rankingu i jego prezentacja musi być
zawarta w pliku doc lub pdf, w którym opisywany jest cały projekt.
IV. Analiza skupień
1. Wybór odpowiedniej miary odległości (należy ustalić, czy w zbiorze danych występują
obserwacje nietypowe, jeśli tak należy zastanowić się, czy chcemy stłumić, czy uwypuklić ich
wpływ). Należy podać, wybraną miarę odległości wraz z uzasadnieniem.
2. Wybór odpowiedniej metody aglomeracji (zalecana jest metoda Warda, gdyż grupując
kolejne obiekty, wykorzystuje kryterium oparte na zmienności wewnątrz oraz pomiędzy
skupieniami).
3. Przedstawić dendrogram. Na bazie wzrokowej oceny dendrogramu oraz wykresu przebiegu
aglomeracji ocenić, jakie mamy możliwości podziału obiektów na skupienia.
4. Za pomocą analizy zmienności wewnątrz i pomiędzy skupieniami wybrać najwłaściwszą
klasyfikację (najlepszą miarą jest wskaźnik c). Ten punkt wykonać w Excelu – jako
przykład niech posłuży rozwiązanie zadania na laboratorium. W projekcie należy przedstawić
następujące informacje: ślady macierzy B, T, W, wartości wskaźnika c dla kolejnych kroków
oraz wnioski, która klasyfikacja została wybrana. Jeśli jest to możliwe podać elementy
wyodrębnionych skupień i spróbować ustalić, co jest cechą charakterystyczną danego
skupienia, czyli co wyróżnia dane skupienie od innych skupień.
2
Download