Prezentacja i wizualizacja danych Organizacyjnie Prowadzący: mgr. Mariusz Rafało [email protected] http://mariuszrafalo.pl (hasło:WIZ) Zajęcia Spotykamy się 7 razy Na każdych zajęciach realizujemy projekty Zaliczenie: Projekty (ćwiczenia) realizowane na zajęciach Projekt zaliczeniowy Faktoryzacja zmiennych cut library(plyr) pp<-cut(Cars93$Price,3) pp.new<mapvalues(pp,from=c("(7.35,25.6]","(25.6,43.7]", "(43.7,62]"),to=c("tanie","średnie","drogie")) plot(pp.new,main="Cenyaut") Analiza czynnikowa Analiza czynnikowa - zadania • Badanie wzajemnych relacji pomiędzy dużą liczbą zmiennych • Wykrywanie zmiennych ukrytych (ang. latent), których przejawem są wartości zmiennych obserwowanych • Pozwala na zmniejszenie liczby zmiennych: sprowadzenie ich do mniejszej liczby nieskorelowanych ze sobą czynników (ang. Factors) • Zidentyfikowane czynniki mają odrębną interpretację, mogą świadczyć o istnieniu zmiennej ukrytej Analiza czynnikowa - wyniki • Redukcja liczby zmiennych • Zmiana układu zmiennych • Wyznaczenie wag poszczególnych zmiennych obserwowalnych w danym czynniku • Budowanie zmiennych, mierzonych na różnych skalach Analiza czynnikowa – kiedy stosować • Eksploracja–poznanie struktury zmiennych • Poszukiwanie zmiennych ukrytych • Określenie jednoznacznych skal i wag dla czynników • Wiele zmiennych jest ze sobą skorelowanych Wykres osypiska library(psych) library(stats) dane.fa<Cars93[,c("Min.Price","Max.Price","MPG.city","MP G.highway","EngineSize","Horsepower","RPM","Rev. per.mile","Fuel.tank.capacity","Passengers","Len gth","Wheelbase","Width","Turn.circle","Weight") ] pca.model<-princomp(dane.fa,cor=TRUE) plot(pca.model,type="lines",main="Wykresosypiska ") Czynniki ## ##Min.Price ##Max.Price ##MPG.city ##MPG.highway ##EngineSize ##Horsepower ##RPM ##Rev.per.mile ##Fuel.tank.capacity ##Passengers ##Length ##Wheelbase ##Width ##Turn.circle ##Weight Factor1 NA NA NA NA 0.74 NA -0.64 -0.69 NA NA 0.77 0.76 0.85 0.77 0.70 Factor2 0.93 0.91 NA NA NA 0.77 NA NA NA NA NA NA NA NA NA Factor3 NA NA -0.72 -0.85 NA NA NA NA NA NA NA NA NA NA NA Warsztat nr 1. Analiza churn w telekomunikacji Ćwiczenie 1 1. Załaduj dane z pliku telco.csv 2. Przedstaw graficznie rozkład zmiennych: DayCalls, EveCalls, NightCalls, IntlCalls (4 histogramy z linią rozkładu na jednym wykresie) 3. Przedstaw na wykresie kołowym odsetek zjawiska churn w badanej próbie 4. Przedstaw graficznie liczbę klientów w poszczególnych stanach 5. Przedstaw graficznie kontakty klientów z call center dla klientów churn i noChurn Ćwiczenie 2 6. Przygotuj raporty odpowiadające na pytania: a) Czy długość stażu wpływa na liczbę połączeń telefonicznych (przedstaw na jednym wykresie) b) Czy liczba/długość połączeń różnią się w przypadku zjawiska churn? c) Zbadaj relację: długości połączeń, liczba kontaktów z call center i zjawiska churn: co z nich wynika? Dziękuję za uwagę