Wprowadzenie do Hurtowni Danych

advertisement
Prezentacja i wizualizacja danych
Organizacyjnie
Prowadzący:
mgr. Mariusz Rafało
[email protected]
http://mariuszrafalo.pl (hasło:WIZ)
Zajęcia
Spotykamy się 7 razy
Na każdych zajęciach realizujemy projekty
Zaliczenie:
Projekty (ćwiczenia) realizowane na zajęciach
Projekt zaliczeniowy
Faktoryzacja zmiennych
cut
library(plyr)
pp<-cut(Cars93$Price,3)
pp.new<mapvalues(pp,from=c("(7.35,25.6]","(25.6,43.7]",
"(43.7,62]"),to=c("tanie","średnie","drogie"))
plot(pp.new,main="Cenyaut")
Analiza czynnikowa
Analiza czynnikowa - zadania
• Badanie wzajemnych relacji pomiędzy dużą liczbą zmiennych
• Wykrywanie zmiennych ukrytych (ang. latent), których
przejawem są wartości zmiennych obserwowanych
• Pozwala na zmniejszenie liczby zmiennych: sprowadzenie ich
do mniejszej liczby nieskorelowanych ze sobą czynników
(ang. Factors)
• Zidentyfikowane czynniki mają odrębną interpretację, mogą
świadczyć o istnieniu zmiennej ukrytej
Analiza czynnikowa - wyniki
• Redukcja liczby zmiennych
• Zmiana układu zmiennych
• Wyznaczenie wag poszczególnych zmiennych
obserwowalnych w danym czynniku
• Budowanie zmiennych, mierzonych na różnych skalach
Analiza czynnikowa – kiedy stosować
• Eksploracja–poznanie struktury zmiennych
• Poszukiwanie zmiennych ukrytych
• Określenie jednoznacznych skal i wag dla czynników
• Wiele zmiennych jest ze sobą skorelowanych
Wykres osypiska
library(psych)
library(stats)
dane.fa<Cars93[,c("Min.Price","Max.Price","MPG.city","MP
G.highway","EngineSize","Horsepower","RPM","Rev.
per.mile","Fuel.tank.capacity","Passengers","Len
gth","Wheelbase","Width","Turn.circle","Weight")
]
pca.model<-princomp(dane.fa,cor=TRUE)
plot(pca.model,type="lines",main="Wykresosypiska
")
Czynniki
##
##Min.Price
##Max.Price
##MPG.city
##MPG.highway
##EngineSize
##Horsepower
##RPM
##Rev.per.mile
##Fuel.tank.capacity
##Passengers
##Length
##Wheelbase
##Width
##Turn.circle
##Weight
Factor1
NA
NA
NA
NA
0.74
NA
-0.64
-0.69
NA
NA
0.77
0.76
0.85
0.77
0.70
Factor2
0.93
0.91
NA
NA
NA
0.77
NA
NA
NA
NA
NA
NA
NA
NA
NA
Factor3
NA
NA
-0.72
-0.85
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
NA
Warsztat nr 1. Analiza churn w telekomunikacji
Ćwiczenie 1
1. Załaduj dane z pliku telco.csv
2. Przedstaw graficznie rozkład zmiennych: DayCalls, EveCalls,
NightCalls, IntlCalls (4 histogramy z linią rozkładu na jednym
wykresie)
3. Przedstaw na wykresie kołowym odsetek zjawiska churn w
badanej próbie
4. Przedstaw graficznie liczbę klientów w poszczególnych stanach
5. Przedstaw graficznie kontakty klientów z call center dla klientów
churn i noChurn
Ćwiczenie 2
6. Przygotuj raporty odpowiadające na pytania:
a) Czy długość stażu wpływa na liczbę połączeń telefonicznych
(przedstaw na jednym wykresie)
b) Czy liczba/długość połączeń różnią się w przypadku zjawiska
churn?
c) Zbadaj relację: długości połączeń, liczba kontaktów z call
center i zjawiska churn: co z nich wynika?
Dziękuję za uwagę
Download