Marzec Jerzy, UEK w Krakowie Modelowanie marketingowe, zad. Przedłużenie umowy … Rozwiązanie przykładu empirycznego 6a) „przedłużenie umowy dot. usług telekomunikacyjnych dla T=200” – analiza wyników estymacji modelu logitowego z pomocą programu Gretl. W celu przeprowadzenia analizy danego zjawiska zbudowano model logitowy postaci yt = 1 gdy zt ≥ 0, albo yt = 0 gdy zt < 0 zt = β1 plect + β 2 wiek t + β 3 ln(kosztt ) + β 4telefont + + β przywiazanie + β druga _ umowa + β + ε t 6 t 7 t 5 gdzie zmienna yt informuje o tym czy klient o numerze t „przedłużył umowę” (yt =1–tak, yt=0–nie), płeć (1–mężczyzna, 0–kobieta), wiek – wiek kupującego (w setkach lat), koszt – wielkość średniomiesięcznych kosztów korzystania z usługi (w setkach zł), telefon – Abonent przy podpisywaniu ostatniej umowy otrzymał telefon w cenie usługi (tak/nie), przywiązanie – informacja o tym, że w przeszłości Abonent przedłużył co najmniej raz umowę abonamentową (tak/nie), informacja czy Abonent posiada drugą umowę dla telefonu (lub numeru) stacjonarnego (tak/nie), t – numer obserwacji (klienta), t=1,…,T. Próba obejmuje 200 obserwacji (T=200). Wyniki estymacji (komenda dostępna w opcji Model/Ograniczona zmienna zależna (albo modele nieliniowe) /Model logitowy/binarny) Model logitowy:Estymacja Logit, wykorzystane obserwacje 1-200 Zmienna zależna: y_1_0 parametr β7 β1 β2 β3 β4 β5 β6 Zmienna Współczynnik Błąd stand. const -3,24852 0,803399 plec -1,66602 0,393751 wiek 4,33002 1,49391 ln_koszt -0,129096 0,377017 telefon 0,550967 0,550348 przywiązanie 1,56405 0,36948 druga_umowa 1,12344 0,356093 z -4,0435 -4,2311 2,8984 -0,3424 1,0011 4,2331 3,1549 Efekt krańcowy* ---0,37652 1,07015 -0,0319056 0,136873 0,36614 0,270809 0,475000 Odch.stand.zm.zależnej 0,293053 Skorygowany R-kwadrat -97,82680 Kryt. inform. Akaike'a 232,7418 Kryt. Hannana-Quinna * Efekty krańcowe dla średnich Liczba przypadków 'poprawnej predykcji' = 153 (76,5%) f(beta'x) do średnich niezależnych zmiennych = 0,247 Test ilorazu wiarygodności: Chi-kwadrat(6) = 81,1051 [0,0000] Średn.aryt.zm.zależnej McFadden R-kwadrat Logarytm wiarygodności Kryt. bayes. Schwarza 0,247146 0,242468 209,6536 218,9971 W omawianym przypadku prawdopodobieństwo sukcesu dla klienta o numerze t, czyli prawdopodobieństwo zdarzenia Yt=1, oznaczamy w skrócie przez Pr(Yt=1) lub pt. Przez sukces rozumiemy przedłużenie umowy1. Po oszacowaniu parametrów modelu otrzymuje się oceny dla Pr(Yt=1). 1 W modelach logitowych i probitowych prawdopodobieństwo jest liczbą z przedziału (0; 1), więc nie utożsamiamy prawdopodobieństwa z liczbą wyrażoną w procentach, która jest częstością (np. 20% oznacza 20 osób na sto, czyli co piąta osoba). 1/6 Marzec Jerzy, UEK w Krakowie Modelowanie marketingowe, zad. Przedłużenie umowy … Opis wybranych elementów z powyższej tabeli. Współczynnik – to oceny parametrów β (wagi), Błąd stand. – błędy estymacji parametrów (wag). z – wartość statystyki o rozkładzie normalnym będącej ilorazem oceny wybranego (pojedynczego) parametru i błędu szacunku. Wykorzystujemy ją w celu weryfikacji hipotezy prostej dot. pojedynczego parametru, np. H0: β1=0 wobec H0: β1≠0 (β1>0 albo β1<0). Średn.aryt.zm.zależnej – próbkowa częstość zaobserwowania sukcesu (Y=1), czyli częstość przedłużenia umowy. W tym przykładzie częstość przedłużenia umowy (w tej próbie) wynosi 47,5%. Efekty krańcowe (pomijamy indeks t, interpretacja jest dla ustalonego klienta) W modelu zaprezentowanym powyżej, w równaniu regresji dla zmiennej ukrytej zt, która ma interpretację skłonności do podpisania umowy, każda zmienna objaśniająca pojawia się tylko raz. Wówczas znaki efektów krańcowych względem poszczególnych zmiennych objaśniających (płeć, wiek, …) są identyczne dla wszystkich obserwacji (klientów) i jednocześnie są identyczne ze znakami ocen stosownych parametrów (β) występujących przy tych zmiennych. • • • • • • Efekty krańcowe można obliczyć dla każdego klienta. Modele typu logitowy i probitowy są tzw. modelami nieliniowymi, w konsekwencji wartości efektów krańcowych są różne dla poszczególnych obserwacji. Innymi słowy wartości efektów krańcowych zależą od konkretnych wartości zmiennych objaśniających (zgrupowanych w umownym wektorze xt). Efekt krańcowy względem zmiennej np. xt2 (np. wiek) – w przypadku danego klienta (o numerze t) informują o ile jednostek zmieni się (wzrośnie, gdy efekt jest dodatni albo spadnie, gdy jest ujemny) Pr(yt=1) na skali (0; 1), gdy wartość zmiennej x2 wzrośnie o małą jednostkę, tj. np. o 1 rok. Jeżeli w równaniu dla zmiennej ukrytej zt pojawił się zmienna poddana logarytmowaniu, np. ln(xt3), to efekt krańcowy względem zmiennej xt3 informuje o ile jednostek na skali (0; 1) zmieni się Pr(yt=1), gdy nastąpi względna zmiana zmiennej xt3 – domyślnie zmiana ta jest równa 1, czyli 100%. Rozważamy jednak niewielkie zmiany zmiennej xt3. Gdy xt3 wzrośnie o 1%, to dla β3<0 (β3>0), Pr(yt=1) będzie niższe (wyższe) o tyle ile wynosi efekt krańcowy podzielony przez 100 (1% to jedna setna ze 100%). Efekty prezentowane w tabeli są obliczone dla tzw. typowej obserwacji (o wartości poszczególnych cech - zmiennych objaśniających - reprezentowany przez x-sy, które są równe średnim wartościom z próby)2. Efekt względem zmiennej płec: Pr-o sukcesu w przypadku klienta mężczyzny (plec=1) jest o około 0,38 niższe niż dla klienta kobiety (plec=0). Efekt względem zmiennej wiek, który jest mierzony w setkach lat. Niech przykładowo wiek typowego klienta wynosi około 50 lat. Jeżeli jego wiek zwiększy się o np. 10 lat, czyli 1/10 jednostki, to Pr-o sukcesu wzrośnie o około 0,1 (1/10 z wartości 1,07015). Innymi słowy z każdym rokiem Pr-o sukcesu rośnie o około 0,01. 2 Obliczenie wartości średnich dla zmiennych zero-jedynkowych jest kontrowersyjne, ale w ten sposób liczy Gretl. W przypadku zero-jedynkowych zmiennych objaśniających byłoby właściwym przyjęcie wartości najczęstszych (tzw. wartości modalnej rozkładu próbkowego tej cechy). Jednakże w tym przypadku różnice te są niewielkie, a dla wybranych zmiennych zaniedbywanie małe. 2/6 Marzec Jerzy, UEK w Krakowie • • • • Modelowanie marketingowe, zad. Przedłużenie umowy … Względem zmiennej telefon: Dołączenie do umowy telefonu w cenie usługi zwiększa Pr-o sukcesu o około 0,14. Względem zmiennej przywiązanie: Jeżeli klient w przeszłości przedłużył umowę (przywiązanie=1), to obecnie Pr-o sukcesu będzie wyższe o około 0,37 w stosunku do sytuacji, gdy to zdarzenie nie miało miejsca (przywiązanie=0). Względem zmiennej druga_umowa: Jeżeli klient podpisze równocześnie drugą umowę na inną usługę telekomunikacyjną (zmienne druga_umowa zmienia wartość z 0 na 1), to Pr-o sukcesu wzrośnie o około 0,27. Względem zmiennej koszt (w regresji pojawia się ln(koszt)): jeżeli koszt usługi wzrośnie o 1%, to Pr-o sukcesu spadnie o około 0,03/100, czyli 0,0003. Zatem wpływ niewielkich zmian kosztu usługi dla decyzje klientów jest zaniedbywany. Cztery zmienne płec, telefon, przywiązanie i druga_umowa są zmiennymi zero-jedynkowymi. Zatem można porównywać siłę wpływu tych poszczególnych zmiennych na Pr-o sukcesu. Czyni się to poprzez porównanie wartości bezwzględnych dla efektów krańcowych. W tym przypadku, spośród tych czterech zmiennych największą siłę ma płec, następnie przywiązanie, druga_umowa, natomiast najsłabszy wpływ charakteryzuje zmienną telefon. Mierniki dopasowania Mierniki dopasowania służą do oceny „jakości dopasowania” oszacowanego modelu do danych. Budowa tabeli trafności • Tabela trafności jest konstruowana na podstawie zliczenia porównań prognoz decyzji klienta ( ŷt ) i faktycznych decyzji klienta (yt). Reguła tworzenia prognoz dla decyzji klienta jest następująca. Jeżeli dla wybranego klienta nr t ocena Pr-o sukcesu jest większa niż progowa wartość prawdopodobieństwa (np. ustalona na poziomie 0.5), to prognozowaną decyzją jest podpisanie umowy (yt =1). • W ikonie „Model logitowy” można obliczyć prognozy prawdopodobieństwa sukcesu (Y=1) poprzez komendę (pod prawym przyciskiem myszy) „Analizy/Prognoza”. • Przykład dla klienta nr 200, skoro prognoza Pro-a(yt=1)=0,7406>0,5, to model prognozuje sukces ( ŷt =1), czyli przedłużenie umowy. W rzeczywistości także zaobserwowaliśmy sukces (yt =1)3. Tabela trafności - wyniki sumaryczne dla wszystkich klientów Prognoza (przewidywane) Stan faktyczny (stany natury) Y^=0 Y^=1 Y=0 (porażka) 79 26 Y=1 (sukces) 21 74 Razem 105 95 200 Mamy 200 klientów, z których 95 przedłużyło umowę. Natomiast liczba klientów, w przypadku których model prognozuje sukces (Y^=1), gdyż ocena Pr-a(Y=1) jest większa niż prawdopodobieństwo graniczne (punkt ucięcia) = 0,5, gdy faktycznie ją przedłużyli, wynosi 74. Liczba klientów, w przypadku których model prognozuje zdarzenie „ klient nie przedłuży umowy” (Y^=0) i jednocześnie faktycznie jej nie przedłuży (Y=0), wynosi 79. 3 Niestety Gretl nie prezentuje prognoz zmiennej Y, a jedynie oceny prawdopodobieństwa, że Y =1; zob. komenda „Analiza/ Prognozy” wywołana w ramach danego modelu. 3/6 Marzec Jerzy, UEK w Krakowie Modelowanie marketingowe, zad. Przedłużenie umowy … Łączny miernik dopasowania, tak zwane „zliczeniowe R2” wynosi 76,5%, gdyż jest równy ilorazowi „Liczby przypadków poprawnej predykcji” =79+74=153 i liczby wszystkich obserwacji T=200. Warto policzyć mierniki cząstkowe dla poszczególnych podrób. Duże różnice w ich wartościach mogą wskazywać, że model mniej skutecznie prognozuje decyzje dla obserwacji należących do jednego ze stanów natury. Mierniki cząstkowe dla Y=0 zlicz_R2_cząstkowy=79/105 = 75,2%. Natomiast dla obserwacji Y=1 otrzymujemy zlicz_R2_cząstkowy równy 74/95=77,9%. Różnice między wartościami obu tych wskaźników są niewielkie. Zliczeniowe R2 wynosi 76,5% i jest średnią ważoną obu mierników cząstkowych, gdzie wagami są udziały sukcesów i porażek w próbie (=75,2%·105/200+77,9%·95/200). Natomiast błędne prognozy to przypadki, gdy prognozuje się porażkę (Y^=0) a faktycznie miał miejsce sukces (Y=1) oraz gdy prognozujemy sukces (Y^=1) a w rzeczywistości wystąpiła porażka (Y=0). W sumie tych przypadków mamy 21+26=47. Odsetek błędnych prognoz wynosi 23,5% (=47/200). Testowanie hipotez Typy hipotez. 1. Hipotezy proste dot. jednego parametru. W przypadku modeli typu logitowy lub probitowy stosujemy statystykę opartą na rozkładzie normalnym4. Dla mało licznej próby stosuje się test t-Studenta. Można także wykorzystać F (dla małej próby) i chi2 (dla dużej próby). Wówczas F jest równoważny statystyce t, a chi2 daje te same konkluzje co statystyka z. 2. Hipotezy złożone dotyczą restrykcji narzucanych na kilka parametrów jednocześnie, w formie koniunkcji warunków. Przykładowo, w przypadku testu dotyczącego tzw. istotności ocen parametrów: w H0 zakłada się, że wybrane dwa parametry są równocześnie równe zero, co oznacza że łączny wpływ wybranych dwóch zmiennych dla Pro-o sukcesu jest statystycznie nieistotny. Wówczas wykorzystuje się statystykę testową o rozkładzie F albo chi2 (test Walda). Między statystykami F i chi2 występuje zależność F(J, T‒k) = chi-kwadrat(J)/ J, gdzie J to liczba restrykcji narzuconych na parametry w H0, k to liczba parametrów w modelu odpowiadającym hipotezie H1. Dla licznej próby, tzn. gdy T jest duże, otrzymujemy te same wartości krytyczne. Podejście to stosuje się, gdy model pełny (z zestawem wszystkich zmiennych objaśniających) redukujemy do prostszego poprzez usunięcie kilku zmiennych, czyli przyjęcie, iż oceny parametrów przy usuwanych zmiennych nie różnią się istotnie do zera.5 Przykład – hipoteza prosta Hipoteza H0: β3 =0 (zmiana kosztu korzystania z usługi nie wpływa istotnie na zróżnicowanie Pr(y=1) w próbie) H1: β3 ≠ 0 (zmiana kosztu korzystania z usługi wpływa istotnie na zróżnicowanie Pr(y=1)). Z uwagi na nierówność (≠) w hipotezie alternatywnej mamy do czynienia z testem dwustronnym. Statystyka testowa z= -0,3424, która ma rozkład normalny przy prawdziwości H0. 4 W Gretlu statystyka testowa o rozkładzie normalnym ma symbol „z”. Wyniki dla „testowania hipotez” otrzymuje się poprzez polecenie „Analiza/Testy pominiętych zmiennych” wywołane w ramach danego modelu. 5 4/6 Marzec Jerzy, UEK w Krakowie Modelowanie marketingowe, zad. Przedłużenie umowy … Odczytujemy z Gretla wartość krytyczną testu dwustronnego (dwustronnego zbiór krytycznego) dla poziomu istotności alfa=0,05. Wartość krytyczna wynosi 1,95996. Konstruujemy zbiór krytyczny Zk = (-nieskończoność; -1,95996) lub (1,95996; +nieskończoność). Odpowiedź. Statystyka testowa z= ‒0,3424, a więc nie zawiera się w zbiorze krytycznym. Zatem na poziomie istotności 0,05 nie ma podstaw do odrzucenia hipotezy, że wpływ kosztów usługi na Pr-o sukcesu nie jest statystycznie istotny. Wartość krytyczną odczytujemy z tablic dla testu dwustronnego (polecenie: Narzędzia/Tablice statystyczne), a zatem należy w opcji „prawostronne prawdopodobieństwa” wpisać alfa/2, gdzie alfa to poziom istotności, np. 0,05 lub 0,1, rzadziej 0,01. Przykładowo • Wartość krytyczna = 1,64485 dla poziomu istotności 0,1 (gdy tzw. dwustronny obszar krytyczny = 0,1) – wpisujemy 0,05 dla „prawostronnego prawdopodobieństwa”. • Gdybyśmy przyjęli poziom istotności alfa=0,05, to krytyczna wart. = 1,95996 wg Gretla dla „prawostronnego prawdopodobieństwa”=0,025. Analogiczne testowanie można przeprowadzić dla pozostałych parametrów. Warto zauważyć, że jeszcze w przypadku jednej zmiennej telefon okaże się, że nie ma podstaw do odrzucenia hipotezy, iż β4 =0. Dla pozostałych zmiennych odrzucamy hipotezę zerową tej postaci. Przykład hipotezy złożonej. Zamierzamy usunąć z modelu pewne zmienne. Poprzednie wyniki testu dla pojedynczego parametru wskazują, że dotyczy to zmiennych ln(kosztu) i telefon. Wówczas liczba tzw. restrykcji na parametry modelu ogólnego wynosi 2. Hipoteza zerowa: parametry regresji dla wskazanych zmiennych są równe zero, tj. ln_koszt i telefon. H0: β3=β4=0, H1: β3≠0 lub β4≠0 Wyniki z Gretla6: Hipoteza zerowa: parametry regresji dla wskazanych zmiennych są równe zero ln_koszt, telefon Statystyka testu: F(2, 193) = 0,564378, wartość p 0,569649 gdzie liczba 2 to liczba parametrów (restrykcji) występujących w H0, a 193 to liczba stopni swobody w modelu ogólnym, którą liczy się jako 200-7, gdzie 7 to liczba wszystkich parametrów (odpowiadających H1). Odczytanie wartości krytycznych dla statystyki o rozkładzie chi2 i F (Narzędzia /Tablice statystyczne): Chi-kwadrat(2): prawostronne prawdopodobieństwo = 0,05 prawdopodobieństwo dopełnienia = 0,95 Krytyczna wart. = 5,99146 F(2, 193): prawostronne prawdopodobieństwo = 0,05 prawdopodobieństwo dopełnienia = 0,95 Krytyczna wart. = 3,04272 6 Opcja w ramach ikonki Model uruchamiamy polecenie Testy/Test pominiętych zmiennych. 5/6 Marzec Jerzy, UEK w Krakowie Modelowanie marketingowe, zad. Przedłużenie umowy … Zatem wartość krytyczna dla statystyki testowej F(2, 193) wynosi = 3,04272 dla poziomu istotności alfa (prawostronnego prawdopodobieństwo) = 0,05. Test oparty na rozkładzie F ma tylko prawostronny zbiór krytyczny. Zbiór krytyczny=(3,04272; +nieskończoność) dla alfa=0,05. Zatem wartość statystyki wynosi F(2, 193)=0,564378 i nie należy do zbioru krytycznego, więc nie ma podstaw do odrzucenia H0 na rzecz H1. Dane sugerują usunięcie obu wspominanych zmiennych. W konsekwencji można zbudować model nowy bez tych zmiennych. Można przyjąć inne wartości dla poziomu istotności alfa, np. 0,1, ale wówczas wartość krytyczna dla powyższego testu wynosi 2,33028, co prowadzi do tej samej konkluzji. W tym przypadku między statystykami F i chi2 występuje równość postaci F(2, 193) = chi-kwadrat(2)/2. 6/6