Metody eksploracji danych Adam Pelikant DEDUKCJA • Rozumowanie polegające na wyprowadzeniu z pewnych zdań (prawdziwych przesłanek) wynikającego z nich logicznie następstwa (prawdziwego wniosku) • Rozumowanie polegające na dobieraniu następstwa do danej racji logicznej • Rozumowanie polegające na uzasadnieniu następstwa za pomocą prawdziwej racji logicznej 1 INDUKCJA – w filozofii • Jedna z metod poznania i ustalania prawdy • Wnioskowanie, polegające na wyprowadzeniu ogólnych wniosków z przesłanek, które są poszczególnymi przypadkami tych wniosków INDUKCJA – według Sokratesa (469-399 p.n.e.) • Metoda ustalania prawdy na podstawie: – uzgadniania cech ogólnych w różnorodności i rozbieżności – wyprowadzenia pojęcia zawierającego wiedzę pewną i powszechną • Powszechna metoda dochodzenia do definiowania pojęć 2 INDUKCJA – według Epikurejczyków Amynomachos z Aten Metrodoros z Lampsakos (ok. 330-277 p.n.e.) Polyajnos z Lampsaku Hermachos z Mityleny Epikur (341-270 p.n.e.) Zenon z Sydonu (150 p.n.e.. 70 p.n.e.), Filodemos z Gadary (110 p.n.e. -. 39 p.n.e.) Lukrecjusz Titus Lucretius Carus (99 p.n.e., 55 p.n.e.) • Wnioskowanie przez podobieństwa • Logiczne uogólnienia indukcji obejmują nie tylko dostępne nam zjawiska, ale także rzeczy niedostępne INDUKCJA – nauki empiryczne • Metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez • Zaczątki indukcji w sensie nowożytnym stworzył Fransis Bacon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy 3 DEDUKCJA A INDUKCJA • Dedukcja: wyprowadzanie sądów szczegółowych z sądów ogólnych, przechodzenie od ogółu do szczegółu • Indukcja: wyprowadzanie sądów ogólnych ze szczegółowych, przechodzenie od szczegółu do ogółu LUDZKA INTELIGENCJA • Praktyczna: – umiejętność rozwiązywania konkretnych zagadnień • Abstrakcyjna: – zdolność operowania symbolami i pojęciami • Społeczna: – umiejętność zachowania się w grupie Test Bineta ok. 1904 Iloraz inteligencji (IQ) 4 SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE) Allen Newell, Herbert Simon (Uniwersytet Carnegie Mellon) John McCarthy (Massachusetts Institute of Technology) „Konstruowanie maszyn, o których działaniu dałoby się powiedzieć, że są podobne do ludzkich przejawów inteligencji” • Dział informatyki, którego przedmiot to: – badanie reguł rządzących inteligentnymi zachowaniami człowieka – tworzenie modeli formalnych zachowań człowieka – tworzenie programów komputerowych symulujących zachowania człowieka Test Turinga (1950 Alan Turing) Nagroda Loebnera - od 1990 dla programu, który skutecznie przejdzie Test Turinga. Konkurs Loebnera – najlepszy program do konwersacji ELIZA – program symulujący psychoanalityka, Josepha Weizenbauma 1966 r. ALICE - nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację (projekt Open Source - pomysłodawca Richard Wallace) SYSTEMY UCZĄCE SIĘ Systemy posiadające zdolność poprawiania jakości swojego działania poprzez zdobywanie nowych doświadczeń, które są następnie wykorzystywane podczas kolejnych interakcji ze środowiskiem 5 SYSTEMY EKSPERTOWE • Systemy te starają się zastąpić fachowca w jednej szczególnej dziedzinie wiedzy • Wzorują się one na procesach dedukcyjnych, podobnych do tych, jakie stosuje każdy na co dzień, nie zdając sobie nawet z tego sprawy BAZY WIEDZY • Systemy ekspertowe opierają się zwykle na bazach wiedzy, czyli zbiorach reguł zapisanych w formie implikacji • Bazy wiedzy mogą powstawać: – automatycznie, w oparciu o inteligentną analizę danych eksperymentalnych – w wyniku interaktywnego procesu komunikowania się eksperta z interfejsem podszytym sztuczną inteligencją 6 PRZYKŁAD • Fakty – F1: Andrzej ma rybki – F2: Andrzej ma grzałkę • Reguły – R1: IF x ma rybki THEN x ma akwarium – R2: IF x ma grzałkę AND x ma akwarium żyjące BAZA WIEDZY THEN x ma rybki • Wnioski – W1: Andrzej ma akwarium – W2: Rybki Andrzeja żyją MODUS PONENS Modus ponendo ponens (łac. sposób potwierdzający przez potwierdzenie) tautologia rachunku zdań mówiąca, że jeśli uznajemy prawdziwość poprzednika prawdziwej implikacji, to musimy uznać też prawdziwość jej następnika: [( p ⇒ q ) ∧ p ] ⇒ q Reguła ta może być zapisana także w ten sposób: • Reguła odrywania: α α →β β ( P → Q), P Q Inny zapis • Reguła odrywania z podstawieniem: R(a ) ∀ x (R( x) → A( x) ) A(a ) 7 MODUS TOLLENS modus tollendo tollens, (łac. sposób zaprzeczający przy pomocy zaprzeczenia) – wnioskowanie logiczne, reguła logiki mówiąca, że jeśli zaakceptujemy że z X wynika Y, oraz że Y jest fałszywe, to musimy zaakceptować też fałszywość X. [( p ⇒ q ) ∧ ¬q ] ⇒ ¬p Tablica prawdy a 0 0 1 1 b 0 1 0 1 ∧ 0 0 0 1 ∨ 0 1 1 1 XOR 0 1 1 0 ⇒ 1 1 0 1 8 Podstawowe prawa logiczne P∧ (Q∧R) P∨ (Q∨R) P∧Q P∨Q P∧ (Q∨R) P∨ (Q∧R) ¬ (P∧Q) ¬ (P∨Q) P⇒Q ¬¬P ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ ⇔ (P∧Q) ∧R (P∨Q) ∨R Q∧P Q∨P (P∧Q) ∨ (P∧R) (P∨Q) ∧ (P∨R) ¬P∨¬Q ¬P∧¬Q ¬Q⇒¬P P P⇒Q P⇔Q P⇔Q P∧¬P ⇔ ⇔ ⇔ ⇔ ¬P∨Q (P⇒Q) ∧ (Q⇒P) (P∧Q) ∨ ( ¬P∧¬Q) False P∨¬P ⇔ True Zadanie odkrywania wiedzy 1. Na podstawie analizy dostępnych danych odkryć występujące w nich regularności. 2. Dane - zazwyczaj z bazy danych, w postaci zbioru rekordów charakteryzowanych przez pewne atrybuty. 3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub korelacji występujących między atrybutami (w szczególności współwystępowaniu pewnych wartości atrybutów). 4. Rregularności mogą występować nie tylko dla atrybutów pierwotnie występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty). 5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez odpowiednie testy statystyczne). 6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza danych (np. dotyczyć interesujących atrybutów). 7. Odkryte regularności należy sformułować w postaci umożliwiającej ich wykorzystanie do wnioskowania przez człowieka lub automatycznego 9 Rodzaje metod odkrywania wiedzy • Klasyfikacja: jak przynależność do pewnych kategorii (klas) zależy od atrybutów (drzewa decyzyjne, reguły, klasyfikacja bayesowska). • Aproksymacja: jak wartość pewnej funkcji zależy od atrybutów. (algorytmy uczenia się aproksymacji i statystyczne metody regresji) • Zależności przyczynowe:, jakie zależności przyczynowe występują między różnymi atrybutami. Uogólnienie klasyfikacji na dowolną liczbę atrybutów zależnych, która dotyczy zależności jednego atrybutu (kategorii) - (sieci bayesowskie). • Zależności funkcyjne: jakimi wzorami najlepiej wyrażają się zależności występujące między atrybutami o wartościach liczbowych. Uogólnienie aproksymacji na dowolną liczbę atrybutów zależnych (metody odkrywania równań). • Podobieństwo: jakie w analizowanych danych występują grupy rekordów podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co umożliwia wnioskowanie (metody grupowania). • Asocjacje: jakie wartości różnych atrybutów często współwystępują w danych (reguły asocjacyjne). Przykładowe zastosowania • Profilowanie klientów - określanie profilu zachowań klienta (banku, operatora telekomunikacyjnego) na podstawie jego historii (transakcji bankowych, połączeń itp.) w celu wykrywania zachowań podejrzanych. • Adresowanie ofert - określanie, od jakich cech klienta zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu w celu bardziej efektywnego adresowania ofert. • Lojalność klientów - określanie, od jakich cech klienta lub używanych przez niego produktów zależy lojalność wobec firmy w celu minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej. • Analiza koszyka sklepowego - określanie, jakie grupy towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej. • Przewidywanie obciążenia - określanie, jak zapotrzebowanie na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych (pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania. 10 Odkrywanie wiedzy Identyfikacja i zdefiniowanie problemu Uzyskanie i wstępne przetworzenie danych Ekstrakcja wiedzy Ocena i interpretacja wyników Wykorzystanie odkrytej wiedzy Proces odkrywania wiedzy w bazach danych 1. 2. 3. 4. Selekcja Selekcja danych – wybór relacji i krotek, które będą eksplorowane, definicja sposobu łączenia relacji Transformacja danych – konwersja typów atrybutów, definicja atrybutów wywiedzionych, dyskretyzacja wartości ciągłych Transformacja Eksploracja – ekstrakcja wiedzy z danych: generowanie reguł, drzew decyzyjnych, sieci neuronowych itp. Interpretacja wyników – wybór najbardziej interesującej wiedzy, logiczna i graficzna wizualizacja wyników Eksploracja Interpretacja 11 Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych •Wybór strategii co do badania danych •Konwersja •Dyskretyzacja •Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone Etapy eksploracji danych Eksploracja danych •Wybór narzędzi •Wybór algorytmów •Zastosowania ich wzorce 90 80 70 Przygotowanie wyników do oceny 60 50 40 30 Obróbka graficzna A B C 20 10 0 1 2 3 4 dane wygodne do analizowania Analiza wyników Zastosowanie uzyskanej wiedzy w praktyce 12 Stwórz, wybierz bazę danych A dokładniej... Wybierz techn. próbkowania i próbkuj dane Dostarcz brakujące wartości Normalizuj wartości Wybierz zadania eksploracji danych Udoskonal wiedzę Usuń szumy Przetwórz wartości Wybierz metodę eksploracji danych Utwórz wywiedzione atrybuty Wyekstrahuj wiedzę Znajdź ważne atrybuty i zakresy wartości Sprawdź wiedzę Przetwórz do innej formy reprezentacji PUSTY 13 ZMIENNE LOSOWE CIĄGŁE Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: • funkcją gęstości f(X) a • dystrybuantą F(X) F ( X ) = ∫ f ( x )dx −∞ Twierdzenie: f (a ) = P ( X ≈ a ) P(X=a) = O ∞ 2 ∞ V ( X ) = ∫ [ x − E ( X )] f ( x )dx E ( X ) = ∫ xf ( x )dx Definicje: −∞ −∞ Najważniejsze rozkłady ciągłe: • prostokątny • trójkątny • normalny (Gaussa) (z) • logarytmiczno-normalny • Studenta (t) • χ2 (chi kwadrat) • Fishera-Snedecora (F) • Wallace’a-Snedecora (R) •wykładniczy Pojęcia podstawowe funkcja gęstości dystrybuanta 1 Fu n kc ja d y s try b u a n ty Fu n kc ja g ę s to ś c i f(a) dystrybuanta 3 4 Funkcja dystrybuanty 5 6 7 8 9 10 Warto ści zmie nne j X 11 12 13 F(a) 3 4 5 6 7 8 9 10 11 12 13 Wartości zmie nne j X Interpretacja wykresu • całe pole pod funkcją gęstości ma powierzchnię równą 1 • wartość funkcji dystrybuanty zmienia się wraz z wartością „x” w sposób pokazany strzałką (prawa granica pola przesuwa się) • znajomość funkcji dystrybuanty umożliwia rozwiązywanie zadań typu: P(X<a), P(X>a), P(7<X<11) itd. 14 Rozkład prostokątny (rozkład równomierny, jednostajny, amodalny). Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla pozostałych wartości ma wartość równą 0. f (X ) = 1 b−a Funkcja g ę sto ści f(X) 0,14 0,12 0,1 0,08 0,06 a=0 b=8 0,04 0,02 0 0 2 4 6 8 10 Wa rto ści zm ie nne j X E( X ) = a+b 2 V(X ) = (b − a )2 12 Rozkład trójkątny Rozkład ten opisują trzy wartości zmiennej: a — najmniejsza przewidywana b — najbardziej prawdopodobna c — największa przewidywana f(X) 2 c−a dystrybuanta funkcja gęstości a b xi c X Zalety rozkładu • łatwy do matematycznego przetwarzania • nadaje się do modelowania wszystkich rozkładów jednomodalnych • zrozumiały dla osób nie znających statystyki 15 Rozkład wykładniczy Zmienną losową X jest czas między zajściem dwóch zdarzeń o rozkładzie Poissona f ( X ) = λ e −λ x f(X) E ( X ) = D( X ) = dla x≥0, λ ≥ 0 1 λ F ( X ) = 1 − e −λ x X Rozkład wykładniczy w praktyce wykorzystywany jest w teorii niezawodności do modelowania tzw. funkcji niezawodności R(t). Funkcja niezawodności określa prawdopodobieństwo bezawaryjnej pracy elementu w chwili t: R ( t ) = e − λx P(T ≥ t ) = 1 − F( t ) = R ( t ) λ - intensywność uszkodzenia (awarii) Jakie jest prawdopodobieństwo bezawaryjnej pracy maszyny przez co najmniej t godz. (min)? P(T ≥ t) E(X) Jaki jest średni odstęp czasu między awariami? Rozkład normalny 0,45 f ( x) = 1 e σ 2π ( x − m )2 − 2σ 2 Parametry rozkładu: • wartością średnią m dla -∞<x< ∞ 0,4 Funkc ja g ę sto śc i f(X) (rozkład Gaussa lub krzywa dzwonowa). Jest to rozkład jednomodalny z funkcją gęstości prawdopodobieństwa: 0,35 punkt 0,3 0,25 σ przegięcia σ 0,2 0,15 0,1 0,05 N (m;σ ) 0 Wa rto ści zmie nne j X • odchyleniem standardowym σ m m—σ m+σ WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LUB PRAWO ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU 1 Funkc ja g ę s to ś c i f(z) Właściwości rozkładu normalnego: • dla jednoznacznego określenia wystarczy podać: wartość średnią (oczekiwaną) m i odchylenie standardowe σ; • punkty przegięcia funkcji gęstości występują przy wartościach zmiennej losowej równych m- σ i m+ σ; • wartość m jest jednocześnie modą i medianą rozkładu; • wartości zmiennej teoretycznie występują w przedziale od ∞ do +∞; • praktycznie wszystkie mieszczą się w granicach od m-3σ do m+3σ (99,73% wartości); • w przedziale od m-2σ do m+2σ mieści się 95,45% wartości; • w przedziale od m-σ do m+σ mieści się 68,27% wartości; 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 -4 -3 0 0 0,13% 0,2 -2 2 3 Zmienna s tandaryzo wana1 Z 0,4 0,6 0,8 1,2 2,15% -1 0 1 13,59% 34,14% 16 Rozkład normalny Rozkład normalny jest charakterystyczny dla dowolnego zbioru wartości, na które oddziaływuje wiele niezależnych i jednakowo ważnych czynników przypadkowych, z których żaden nie jest dominujący. TWIERDZENIE CENTRALNE - ogólne Które zmienne zachowują się według rozkładu normalnego? Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. Standaryzowany rozkład normalny Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. zi = xi − m Prawo trzech sigm: POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1 N ( 0; 1) σ w przedziale od (m—3σ) do (m+3σ) (oś X) od —3 do +3 (oś Z) mieszczą się praktycznie wszystkie losowej o rozkładzie normalnym. (99,74%) wartości zmiennej Tablice rozkładu normalnego • tablica funkcji gęstości • tablice dystrybuanty • tablica kwantyli (wartości krytycznych) Tablica funkcji gęstości • służy do budowy wykresu funkcji gęstości (krzywej Gaussa) • do odczytu P(X≈ a) lub P(Z≈ a) z 0,0 0,1 0,2 0,3 ... 1,0 2,0 3,0 4,0 0 3989 3970 3910 3814 ... 2420 0540 0044 0001 1 3989 2... ... 9 3973 Tablice dystrybuanty: Z 0 ,0 0 ,1 ... 0 ,5 0 ,6 ... 1 ,0 1 ,5 2 ,0 3 ,0 4 ,0 0 ,5 0 0 ,5 3 ... 0 ,6 9 0 ,7 2 ... 0 ,8 4 0 ,9 3 0 ,9 7 0 ,9 9 0 ,9 9 0 ,0 0 00 98 0 ,0 1 ... 1 Funkc ja g ę s to ś c i f(z) •w przedziale z od 0 do +3: F(z) od 0,5 do 1 (połowa funkcji) 0,9 0,8 0,7 . 0,6 0,5 0,4 0,3 15 57 0,2 0,1 -4 -3 0 1 3 7 8 9 3 2 2 65 9683 0 0,2 -2 2 3 Zmie nna0,6s tandaryzo wana1 Z 0,4 0,8 -1 0 1 1,2 Przechodząc ze zmiennej Z na zmienną X: x i = m + z iσ 17 Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(X) małe średnie duże bardzo duże X Jednostki-giganty, które zglobalizowały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. Przetwarzanie danych empirycznych w rozkład normalny 1. Podzielenie danych xi na przedziały (liczebność 8-12) 2. Ustalenie liczebności empirycznych nie 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne pie 4. Obliczenie parametrów x oraz s 5. Standaryzacja końców przedziałów 6. Wyznaczenie prawdopodobieństw teoretycznych pit 7. Wyliczenie liczebności teoretycznych nit 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie porównanie nie i nit 5 10 15 20 X 18 WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest a) szacowanie nieznanych parametrów rozkładów zmiennych losowych; b) wyciąganie wniosków o rozkładzie i parametrach populacji generalnej na podstawie badania próbki (hipotezy statystyczne). Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej. Rodzaje estymacji • punktowa Sposoby pobierania próbek statystycznych • przedziałowa Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji (tj. zbiorowości generalnej) musi mieć jednakową szansę trafienia do próbki. • losowanie systematyczne Wybór co k-tej jednostki zbiorowości generalnej. Pierwszą jednostkę wybieramy losowo (np.tablice liczb losowych) • losowanie warstwowe Podział zbiorowości na podzbiory, a następnie losowanie bez zwracania w każdej warstwie (podzbiorze). Próbę stanowi suma wylosowanych jednostek. • losowanie proporcjonalne Zróżnicowane prawdopodobieństwo dostania się do próby. Pojęcia z teorii estymacji • parametr populacji – liczbowa charakterystyka całej populacji • statystyka z próby – liczbowa charakterystyka próby • estymator (estimator) parametru populacji – statystyka z próby używana do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby • estymacja - podanie wartości oceny nieznanego parametru populacji Estymator jest to zmienna losowa, której realizacjami są wartości rozważanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Estymator — jak każda zmienna — ma swoją wartość oczekiwaną i odchylenie standardowe. Wartość oszacowana (estimate) jest to wartość danego parametru wyznaczona na podstawie jednej, rzeczywiście pobranej próbki. Statystyka z próby X Rozkłady z próby Estymatorem parametru μ x Ocena (oszacowanie) parametru μ Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach n, pobranych z określonej populacji. 19 Pojęcia z teorii estymacji Zależności σ = 2 x σ2 σx = n σ s sx = n n oraz wnioski s= − x )2 n −1 ∑ ( xi E(x) = μx = μ s σx = n • średnia estymatora równa się średniej populacji • znamy wzór na błąd oszacowania średniej • gdy n →∞, x →N(μ, σ ) n Centralne twierdzenie graniczne Jeżeli pobieramy próbę z populacji o średniej μ i skończonym odchyleniu standardowym σ, to rozkład średniej z próby X , dąży do rozkładu normalnego o średniej μ i odchyleniu standardowym σ , gdy liczebność próby wzrasta n nieograniczenie, czyli dla „dostatecznie dużych n”: X → N ( μ , σ n ) Cechy dobrego estymatora Oznaczenia: Θ − parametr populacji ˆ − estymator Θ ˆ ) = μ ˆ − średnia estymatora E (Θ Θ • nieobciążony ˆ =Θ E (Θ) wartość oczekiwana estymatora jest równa szacowanemu parametrowi • zgodny (PWL) prawdopodobieństwo, że jego wartość jest bliska wartości szacowanego parametru, wzrasta wraz ze wzrostem liczebności próby (jeśli podlega prawu wielkich liczb - tw. Kołmogorowa) gdy dla każdego ε>0 ˆ − Θ < ε} = 1 lim P{ Θ n →∞ • najefektywniejszy (Vmin) estymator o najmniejszej wariancji 20 Metody uzyskiwania estymatorów: • metoda momentów • metoda najmniejszych kwadratów • metoda największej wiarygodności Nazwa parametru Symbol dla populacji μ σ σ2 π Wartość średnia Odchylenie standardowe Wariancja Proporcja (struktura) Symbol dla próbki x s 2 s p Liczba stopni swobody ν Jest to liczba określająca ile danych ze zbioru można zmienić bez zagrożenia zmianą wyznaczanego parametru (statystyki). przy obliczaniu średniej x1 można zmieniać + x2 można zmieniać + ν = n−1 x3 ogólnie + x4 można można zmieniać zmieniać + ν = n−k x5 można zmieniać + x6 = Σxi/6 nie można nie można zmieniać zmieniać ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI Celem jest ustalenie — ile wynosi nieznana wartość μ: • estymacja punktowa: μ = ⎯x • estymacja przedziałowa: budowa przedziału ufności, w którym z prawdopodobieństwem 1—α znajdzie się nieznane μ Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1—α znajduje się nieznana wartość średnia populacji μ. Poziom ufności (1—α) jest to prawdopodobieństwo, że nieznana wartość μ znajduje się w przedziale ufności. Poziom istotności (α) jest to prawdopodobieństwo, że nieznana wartość μ nie znajduje się wewnątrz przedziału ufności. α • ustala statystyk • kluczowe w statystyce matematycznej • inne nazwy: margines błędu, poziom krytyczny 21 Przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: • jeśli znamy odchylenie standardowe populacji σ P ( x − zα σ x < μ < x + zα σ x ) = 1 − α 2 2 • jeśli nie znamy odchylenia standardowego populacji Postępowanie: P ( x − zα s x < μ < x + zα s x ) = 1 − α 2 2 • pobieramy próbkę, liczymy dla niej ⎯x oraz s Szerokość przedziału ufności dla μ zależy od: • przyjętego poziomu istotności α • wielkości próbki n Funkc ja g ę s to ś c i • budujemy przedział ufności (gd, gg), w którym z prawdopodobieństwem 1—α znajduje się nieznana wartość średniej μ dla populacji α 1−α • jej odchylenia standardowego s α 2 2 Ś re dnia dla po pulac ji x gd gg ESTYMACJA WSKAŹNIKA STRUKTURY (PROPORCJI DLA POPULACJI) Jeżeli badana cecha ma charakter jakościowy, w wyniku badań uzyskujemy jedynie informację o tym, czy dany element populacji ma czy też nie wyróżnioną cechę jakościową. Elementy populacji możemy więc podzielić na dwie klasy: • elementy wyróżnione w populacji (posiadające interesującą cechę); • i niewyróżnione. Ustala się proporcję p=k/n (frakcję, wskaźnik struktury) dla próbki i po przyjęciu określonego poziomu istotności α buduje się przedział ufności dla nieznanej proporcji π dla populacji: P ( p − zα s p < π < p + zα s p ) = 1 − α 2 2 sp = p(1 − p ) n I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji sp, który z kolei jest funkcją wielkości próbki i jej proporcji. 22 PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓBCE W przypadku małej próbki estymator Studenta. Rozkład Studenta zachowuje się według rozkładu X x−μ x−μ = t= s sx n Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody Gdy ν dąży do ∞, rozkład t dąży do rozkładu normalnego Rozkład normalny standaryzowany, z Rozkład Studenta, t μ, σ 0 1 Parametry rozkładu Średnia Wariancja ν = n−1 rozkład normalny z ν 0 ν/ν−2 rozkład Studenta t • tablica rozkładu Studenta (Skrypt) pokazuje kwantyle rzędu α dla danego ν (wartości t odpowiadające założonemu poziomowi istotności dla danej liczby stopni swobody) ν=8 0 zα/2 tα/2(ν) Fragment tablicy rozkładu Studenta S to p n ie s w o b o d y , ν . 10 . 40 . ∞ α = 0 ,2 0 α /2 = 0 ,1 0 . 1 ,3 7 2 . 1 ,3 0 3 . 1 ,2 8 2 α = 0 ,1 0 α /2 = 0 ,0 5 . 1 ,8 1 2 . 1 ,6 8 4 . 1 ,6 4 5 α = 0 ,0 5 α /2 = 0 ,0 2 5 . 2 ,2 2 8 . 2 ,0 2 1 . 1 ,9 6 0 Przedział ufności dla średniej dla populacji przy małej próbce P ( x − tα 2 ( n −1 ) s x < μ < x + tα 2 ( n −1 ) sx ) = 1 − α •rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki Podsumowanie estymacji wartości średniej dla populacji Odchylenie standardowe populacji, σ Znane Nieznane Typ rozkładu zmiennej X Normalny Inny Normalny Inny Wielkość próbki, n Dowolna n ≥ 30 n ≥ 30 Dowolna n ≥ 50 n < 50 Granice przedziału ufności ⎯x ± zα/2 σ⎯x ⎯x ± zα/2 σ⎯x ⎯x ± zα/2 s⎯x ⎯x ± tα/2 s⎯x ⎯x ± zα/2 s⎯x Unikać 23 ESTYMACJA WARIANCJI DLA POPULACJI Jeśli z populacji o rozkładzie normalnym pobierzemy bardzo wiele próbek, to estymator wariancji S2 będzie miał rozkład zwany chi kwadrat χ2 = ( n − 1) s 2 σ 2 Rozkład χ2: • jest zależny od liczby stopni swobody ν • jest asymetryczny: ogony nie są jednakowe • przy ν >30 zbliżony do normalnego • E(χ2) = ν f(χ2) V(χ2)= 2ν ν =1 •tablica rozkładu χ2 (SKRYPT) pokazuje ani funkcji gęstości, funkcji dystrybuanty ν=4 ν = 15 • pokazuje wartości kwantyli odpowiedniego rozkładu χ2 ustalonej liczby stopni swobody) nie ani dla (dla χ2 0 f(χ2) α /2 Liczba stopni swobody 0,990 1 ... 11 3,053 Lewy ogon 0,975 0,950 3,816 4,575 0,050 19,68 Prawy ogon 0,025 0,010 21,92 24,72 α /2 1—α χ2 0 χ21- α /2 χ2 α /2 Przedział ufności dla nieznanej wariancji populacji (niesymetryczny) Mała próbka Duża próbka P( ( n − 1) s 2 χ α2 / 2 <σ2 < ( n − 1) s 2 χ 12−α / 2 ) = 1 −α ⎛ ⎞ ⎜ ⎟ s s ⎟ = 1−α <σ < P⎜ zα / 2 ⎟ ⎜ 1 + zα / 2 1 − ⎜ ⎟ 2n 2n ⎠ ⎝ 24 Błędy RODZAJE BŁĘDÓW systematyczny losowy ∗ Pomiar wykonany w tych samych ∗ Wystąpienie błędu -a i a ma to warunkach daje błąd o stałej wartości samo prawdopodobieństwo ∗ Przy zmianie warunków błąd ∗ Prawdopodobieństwo błędu a jest przyjmuje różną od zera stałą wartość funkcją malejącą • Im błąd a bliższy zera tym bardziej prawdopodobny o charakterze statystycznym . statystycznym pozastatystycznym mała próba pozastatystycznym • populacja niejednorodna •uwikłanie wielu czynników • zły operator losowania •bardzo niebezpieczny • obciążenie estymatora Błędy 0,11 0,17 0,242 0,275 0,31 0,34 0,36 0,375 0,38 0,388 BŁĄD SYSTEMATYCZNY Θ parametr Θ̂ estymator parametru S erie1 0,11 0,17 0,242 0,275 0,31 0,34 0,36 0,375 0,38 0,388 ˆ) Θ E (Θ BŁĄD LOSOWY S erie1 ˆ ) Θ̂ D(Θ ˆ) − D(Θ 25 Błędy Wielkość błędu systematycznego to miara obciążenia estymatora ˆ −Θ E (Θ) ∗ absolutny błąd oceny Δ= ∗ względny błąd oceny Δ'= Ponieważ nieznany jest Θ ˆ Θ−Θ ˆ Θ−Θ Θ ustalenie błędu systematycznego jest niemożliwe. W praktyce wyznacza się: ∗ poziom absolutny (d) dokładności ∗ poziom względny (δ) dokładności ∗ zakłada się prawdopodobieństwo 1 - α dotrzymania błędu d ˆ − Θ ≤ d } = P{−d ≤ Θ ˆ − Θ ≤ d} = 1 − α P{ Θ lub ˆ −Θ > d } = α P{ Θ LICZNOŚĆ PRÓBY DO OSZACOWANIA ŚREDNIEJ • nieznane odchylenie standardowe populacji d - błąd szacunku średniej wynosi: d = tα / 2 s n t α2 / 2 2 n= 2 s d tα/2 - kwantyl rozkładu Studenta dla no-1 stopni swobody, no - liczność tzw. próby pilotażowej użytej do oszacowania odchylenia standardowego s 26 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna to każde przypuszczenie dotyczące populacji generalnej wysnute na podstawie próbki statystycznej Hipotezy statystyczne dzielimy na: • parametryczne • nieparametryczne Ponieważ przy posługiwaniu się próbką nigdy nie ma pewności, stawia się dwie wykluczające się hipotezy: • hipotezę zerową H0 • hipotezę alternatywną H1 (Ha) Weryfikacja: • polega na sprawdzeniu, która z nich jest prawdziwa, a która fałszywa • posługujemy się testami statystycznymi (z, t, χ2, F, R i inne) Kolejność czynności przy weryfikacji hipotez: 1. Sformułowanie H0 i H1 (H0: μ=4,0 H1: μ≠4,0; lub μ>4,0; lub μ<4,0) 2. Przyjęcie poziomu błędu I rodzaju α (α = 0,05) 3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy Zn) w zależności od rodzaju hipotezy 4. Ustalenie obszaru krytycznego testu (odczytanie wartości krytycznej statystyki weryfikującej z tablic dla α: ztabl, zkr, zα) 5. Obliczenie wartości statystyki na podstawie próbki (zobl, zemp) 6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0 7. Interpretacja podjętej decyzji Prawidłowość podejmowanych decyzji HIPOTEZA ZEROWA JEST PRAWDZIWA FAŁSZYWA α=poziom błędu I rodzaju, DECYZJA STATYSTYKA odrzucić H0 przyjąć H0 Nie ma błędu Błąd I rodzaju 1−α α Błąd II rodzaju Nie ma błędu β 1−β β = poziom błędu II rodzaju, 1−β = moc testu α=P(H0 odrzucona/H0 jest prawdziwa) β = P(H0 nieodrzucona/H0 jest fałszywa) 2) ∈ ∈ x a α m ) ) 0 1 H H / / W W 1) n n Z Z ( ( P P Obszar krytyczny testu W należy tak ustalić, aby zminimalizować błąd II rodzaju. Obszar krytyczny to zbiór wartości statystyki Zn (tj. sprawdzianu hipotezy) spełniającej warunki: = = W praktyce bierze się warunek (1) stąd szczególny rodzaj testów, zwanych testami istotności. 27 Hipotezy nieparametryczne Dotyczą rozkładów populacji lub cech niemierzalnych Do ich weryfikacji stosuje się następujące testy: • test χ2 • test Kołmogorowa-Smirnowa • testy serii (długości i liczności serii) Przykład hipotezy nieparametrycznej: • H0: rozkład populacji nie różni się istotnie od rozkładu normalnego • H1: rozkład populacji różni się istotnie od rozkładu normalnego Testowanie przy użyciu testu (statystyki) χ2 TEST DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ i SKOKOWEJ!!! 2 = χ obl ne — liczebność empiryczna nt — liczebność teoretyczna k — liczba przedziałów (klas) k ( n − n )2 ie it ∑ n i =1 it Reguła decyzyjna: • jeżeli χ2obl> χ2tabl, odrzucamy H0 na korzyść H1 • jeżeli χ2obl< χ2tabl, nie ma podstaw do odrzucenia H0 Przykład Sprawdzić, czy rozkład szybkości czytania uczniów wybranego gimnazjum jest rozkładem normalnym. Do próbki wylosowano 101 uczniów ostatniej klasy gimnazjalnej jednej ze szkół w woj. Małopolskim. Przyjmij α=0,01. Szybkość czytania słów/5 min 92-94 94-96 96-98 98-100 100-102 102-104 104-106 106-108 108-110 110-112 112-114 114-116 Razem Liczba uczniów 1 3 3 6 16 32 20 8 4 4 3 1 101 • wartości ⎯x oraz s obliczono z szeregu dwustopniowego ⎯x = 103,6 słów/5 min s = 3,95 słów/5 min Test nieparametryczny χ2 H0: rozkład populacji nie różni się istotnie od rozkładu normalnego H1: rozkład populacji różni się istotnie od rozkładu normalnego 28 wyliczanie liczności teoretycznych na podstawie funkcji gęstości xi 93 95 97 99 101 103 105 107 109 111 113 115 ni 1 3 3 6 16 32 20 8 4 4 3 1 Razem 101 xi −⎯x −10,6 −8,6 −6,6 −4,6 −2,6 −0,6 1,4 3,4 5,4 7,4 9,4 11,4 f(zi) 0,01100 0,03706 0,09863 0,20357 0,32086 0,39448 0,37524 0,27562 0,15822 0,06943 0,02406 0,00631 nit 0,6 1,9 5,0 10,4 16,4 20,2 19,2 14,1 8,1 3,6 1,2 0,3 • wartości zi obliczono przez standaryzację środków przedziałów klasowych • wartości f(zi) odczytano z tablicy funkcji gęstości • liczebności teoretyczne policzono według wzoru d nit = f ( z i ) n s d = szerokość przedziału (d=2) n = liczebność próbki (n=101) 101,0 Liczebności faktyczne teoretyczne ne nt 4 2,5 3 5,0 6 10,4 16 16,4 32 20,2 20 19,2 8 14,1 4 8,1 4 3,6 4 1,5 101 zi −2,68 −2,18 −1,67 −1,16 −0,66 −0,15 0,35 0,86 1,36 1,87 2,38 2,88 Różnice ne−nt 1,5 −2,0 −4,4 −0,4 11,8 0,8 −6,1 −4,1 0,4 2,5 0,0 101,0 • (ne−nt)2 (ne−nt)2/nt 2,25 4,00 19,36 0,16 139,24 0,64 37,21 16,81 0,16 6,25 0,90 0,80 1,86 0,01 6,89 0,03 2,64 2,08 0,04 4,17 19,42 połączono dwa pierwsze i dwa ostatnie przedziały • odczytujemy χ2tabl = 18,48 dla α=0,01 i ν = 7 (k=10 po połączeniu, r=2) • stwierdzamy, że χ2obl> χ2tabl • odrzucamy hipotezę, że rozkład populacji jest rozkładem normalnym (decyzja obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów różni się istotnie od rozkładu normalnego Test nieparametryczny χ2 wyliczanie liczności teoretycznych na podstawie dystrybuanty • xi 94 96 98 100 102 104 106 108 110 112 114 116 ni 1 3 3 6 16 32 20 8 4 4 3 1 Razem 101 xi −⎯x −0,9 −7,6 −5,6 −3,6 −1,6 0,4 2,4 4,4 6,4 8,4 10,4 12,4 zi −2,43 −1,92 −1,42 −0,91 −0,41 0,10 0,61 1,11 1,62 2,13 2,63 3,14 F(zi) 0,0075 0,0274 0,0778 0,1814 0,3409 0,5398 0,7291 0,8665 0,9474 0,9834 0,9957 1,0000 pt 0,0075 0,0199 0,0504 0,1036 0,1595 0,1989 0,1893 0,1374 0,0809 0,0360 0,0123 0,0043 nt 0,9 2,0 5,1 10,5 16,1 20,1 19,1 13,9 8,2 3,6 1,2 0,5 1,0000 101 połączono dwa pierwsze i dwa ostatnie przedziały • odczytujemy χ2tabl = 18,48 dla α = 0,01 i ν = 7 (k = 10 po połączeniu, r = 2) • stwierdzamy, że χ2obl< χ2tabl • nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od normalnego rozkładu 29 Testowanie przy użyciu testu Kołmogorowa-Smirnowa TEST TYLKO DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ!!! • dane dzieli się na przedziały klasowe (klasy) • do sprawdzenia, czy dana próbka może pochodzić z populacji o założonym rozkładzie, używa się dwu dystrybuant — empirycznej i teoretycznej • dla każdej klasy określa się wartość obu dystrybuant i określa bezwzględną wartość różnicy pomiędzy nimi • znajduje się największą różnicę D i wylicza empiryczną wartość statystyki λ według wzoru λobl = D n Test ten jest mniej dokładny niż test χ2 i może dać inny wynik F(X) 1 dystrybuanta empiryczna dystrybuanta teoretyczna największa różnica D • z tablicy statystyki λ (SKRYPT) odczytuje się wartość λtabl dla wybranego poziomu ufności • decyzję o przyjęciu lub odrzuceniu H0 podejmuje się jak poprzednio klasy wielkości X Przykład cd xi 94 96 98 100 102 104 106 108 110 112 114 116 Razem ni nicum 1 1 3 4 3 7 6 13 16 29 32 61 20 81 8 89 4 93 4 97 3 100 1 101 F(xi) 0,0099 0,0396 0,0693 0,1287 0,2871 0,6040 0,8020 0,8812 0,9208 0,9604 0,9901 1,0000 F(zi) 0,0075 0,0274 0,0778 0,1814 0,3409 0,5398 0,7291 0,8665 0,9474 0,9834 0,9957 1,0000 /F(xi)-F(zi)/ 0,0024 0,0122 0,0085 0,0527 0,0538 0,0642 0,0729 0,0147 0,0266 0,0230 0,0056 0,0000 λ obl = D n = 0,0729*10,05=0,73 101 • z tablicy odczytujemy wartość λtabl = 1,63 dla α = 0,01 • stwierdzamy, że λtabl > λ0bl • nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od normalnego rozkładu 30 Testowanie przy użyciu testów serii test liczby serii • test długości (najdłuższej) serii Serię tworzą elementy ułożone w kolejności rosnącej wartości, pochodzące z dwu różnych populacji: kobiety i mężczyźni (wzrost), ludzie z dwu krajów (spożycie), pracownicy dwu firm (wydajność). test liczby serii H0 — populacje nie różnią się od siebie istotnie Przykład serii: A B B A A B B B A B • liczba elementów: 10 (n1=4, n2=6) • liczba serii: k = 6 kα Z tablicy testu serii dla n1 i n2 odczytujemy Lewostronny obszar krytyczny: Jeżeli k < kα P( k ≤ k α ) = α Jeżeli odrzucamy H0 k > kα nie ma podstaw do odrzucenia H0 test długości (najdłuższej) serii Przykład serii: A B B A A B B B A B Z tablicy odczytujemy P( l > l α ) = α Prawostronny obszar krytyczny: Jeżeli l > lα Jeżeli l < lα długość najdłuższej serii: l = 3 lα odrzucamy H0 nie ma podstaw do odrzucenia H0 Hipotezy parametryczne • dotyczą one parametrów populacji generalnej, które oznaczymy ogólnym symbolem θ • hipoteza zerowa polega na przyjęciu, że nieznane θ jest równe θ0 • weryfikacja prawdziwości tej hipotezy polega na sprawdzeniu, czy wartość θ0 znajduje się w przedziale ufności parametru θ Trzy sytuacje przy weryfikacji hipotez 1. H0 : θ = θ0 H1 : θ ≠ θ0 Przedział przyjęcia H0: —zα/2<zobl< zα/2 Przedziały odrzucenia H0: zobl< — zα/2 oraz zobl> zα/2 czyli |zobl|> zα/2 α/2 α /2 1−α zα/2 —zα/2 α 1−α 2. zα H0 : θ = θ0 H1 : θ > θ0 Przedział przyjęcia H0: zobl< zα Przedział odrzucenia H0: zobl> zα 31 Hipotezy parametryczne H1 : θ < θ0 H0 : θ = θ0 3. Przedział przyjęcia H0: zobl>—zα Przedział odrzucenia H0: zobl<—zα α 1−α z —zα Rzeczywisty poziom istotności α — założony poziom istotności(błąd I rodzaju) α = 0,05 → ztabl = 1,645 α 1−α zα P P — poziom istotności rzeczywisty zobl = 2,02 → P = 0,0217 1− P zobl HIPOTEZY O ŚREDNIEJ DLA POPULACJI I. Duża próbka — stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy lub zobl = x − μ0 σx x − μ0 zobl = sx n σx = σ n sx = o s n H0: μ=μ0 p H0: μ = μ0 H0: μ = μ0 H0: μ = μ0 H1: μ ≠ μ0 H1: μ > μ0 H1: μ < μ0 Reguła decyzyjna |zobl|>zα/2 Odrzucamy H0, jeżeli... zobl>zα zobl<—zα 32 II. Mała próbka — stosujemy statystykę t (o rozkładzie Studenta) Pobieramy n-elementową próbkę i liczymy n t obl = x − μ0 sx o p H0: μ = μ0 H0: μ = μ0 H0: μ = μ0 H1: μ ≠ μ0 H1: μ > μ0 H1: μ < μ0 Reguła decyzyjna Odrzucamy H0, jeżeli... |tobl|>tα/2(n-1) tobl>tα(n-1) tobl<tα(n-1) Przykład 15. W celu sprawdzenia, czy nowy lek jest lepszy od dotych-czasowego, zbadano jego skuteczność na 6 chorych mierząc współczyn-nik odbudowy czerwonych ciałek krwi: 6,3; 7,8; 8,1; 8,3; 8,7 i 9,4. Lek używany dotychczas daje 8,3. Sprawdź hipotezę przy poziomie istotności 0,01. Zakładamy rozkład normalny współczynnika i wybieramy test t. Parametry próbki: n = 6; ⎯x = 8,1; s = 1,04 Hipotezy: H0: μ = 8,3; t obl = H1: μ < 8,3 Statystyka t: t0,01(5)= - 3,365 8,1 − 8, 3 = −0,47 1,04 6 Porównanie: tobl > ttabl Wniosek: nowy lek z pewnością nie jest lepszy od dotychczasowego HIPOTEZY O WARIANCJI POPULACJI • wariancja jest miarą jakości wyrobów; dla klienta jest ważniejsza niż średnia • stosujemy • 2 χ 2tabl = χ α , n −1 zakładamy rozkład normalny populacji • pobieramy n-elementową próbkę, dla której wyznaczamy s2 i liczymy n o H0: σ2 = σ20 H0: σ2 = σ20 H0: σ2 = σ20 H1: σ2 ≠ σ20 H1: σ2 > σ20 H1: σ2 < σ20 Reguła decyzyjna χ2obl>χ2α/2 p ( n − 1)s 2 σ02 Odrzucamy H0, jeżeli... χ2obl>χ2α χ2obl<χ21- α χ2obl<χ21-α/2 σ 20 lub 2 = χobl Przykład 16. Dla sprawdzenia hipotezy, że wariancja wykonania normy =12,5(%)2 wylosowano 81-osobową grupę robotników, dla których wariancja równa się 11,4 (%)2. Przyjmij α=0,10 do zweryfikowania tej hipotezy (przy założeniu, że populacja ma rozkład normalny). H0: σ2 = 12,5 α /2 = 0,05 H1: σ2 ≠ 12,5 1—α /2 = 0,95 2 = χobl NIE MA PODSTAW DO ODRZUCENIA H0 istotnieMOŻE BYĆ 12,5 (%)2 ( 80)(11,4) ≅ 73 12,5 χ21- α /2=60,39 χ2 α /2=101,88 WARIANCJA normy dla POPULACJI nie różni się 33 HIPOTEZY O FRAKCJI W POPULACJI w przypadku dużej próby Stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy z= p̂ − po po q o / n gdzie qo = 1 − po p n H0: p = p0 o H0: p = p0 H0: p = p0 H1: p ≠ p0 H1: p > p0 H1: p < p0 Reguła decyzyjna Odrzucamy H0, jeżeli... zobl>zα |zobl|>zα/2 zobl<—zα Przykład 17. Udział pewnej spółki w rynku bardzo wyraźnie reaguje na nasilenie reklamy – własnej i konkurencji. Obecnie udział w rynku wynosi 56%. Zarząd spółki chce wiedzieć czy udział ten zmienił się wskutek ostatniej kampanii reklamowej konkurentów oraz wskutek nasilenia własnej kampanii reklamowej. W pobranej próbie 500 klientów, 298 nabyło produkt spółki. Czy są podstawy do wniosku, że udział spółki w rynku nie wynosi już 56%? Przyjąć poziom istotności 0,01. z= p̂ − po 0,596 - 0,56 = = 1,615 poq o / n 0,56 ⋅ 0,44/500 Wnioskowanie WNIOSKOWANIE STATYSTYCZNE Z DWU PRÓBEK Eksperyment statystyczny polega na pobraniu dwu próbek: • badanej, którą poddaje się działaniu danego czynnika • kontrolnej, która nie podlega działaniu i służy do porównania Estymacja różnicy pomiędzy średnimi dwu populacji • mamy dwie populacje o rozkładzie normalnym lub pobieramy próbki (o liczebności >30) • populacje te mają średnie μ1 i μ2 oraz znane wariancje σ21 i σ22 • pobieramy z nich próbki o liczebności n1 i n2, średniej⎯x1 i ⎯x2, oraz wariancji s21 i s22 • interesuje nas nieznana różnica pomiędzy średnimi: μ1—μ2 • mamy do czynienia z estymatorem ⎯x1 —⎯x2, którego błąd oszacowania σ x1− x2 = σ 12 2 σ 2( X − Y ) = σ 2( X ) + σ 2(Y ) •górna − − 2 x 1 x σ 2 / α z ) 2 x •dolna 2 x 1 x σ 2 / α z ) 2 x Granice przedziału ufności dla μ1—μ2: Gdyż z własności wariancji wynika, że 1 1 x x ( ( σ + 2 n1 n2 − + − − ⎛ σ2 σ2 σ2 σ2 ⎞ P ⎜ ( x1 − x2 ) − zα / 2 1 + 2 < μ1 − μ 2 < ( x1 − x 2 ) + zα / 2 1 + 2 ⎟⎟ = 1 − α ⎜ n1 n2 n1 n2 ⎝ ⎠ 2 Jeżeli nie znamy wariancji obu populacji, możemy zastąpić je wariancjami próbek s 1 i s22 ale: • jeśli rozkłady normalne oraz n1 >30 i n2 >30 • jeśli rozkłady nie normalne oraz n1 >50 i n2 >50 34 TESTOWANIE HIPOTEZ n o p H0: μ1- μ2 = D0 H0: μ1- μ2 = D0 H0: μ1- μ2 = D0 H1: μ1- μ2 ≠ D0 H1: μ1- μ2 > D0 H1: μ1- μ2 < D0 Reguła decyzyjna Odrzucamy H0, jeżeli... |zobl|>zα/2 zobl>zα zobl = zobl<—zα ( x1 − x2 ) − D0 s12 s22 + n1 n2 Przykład 18. Porównujemy dwie metody sprzedaży pewnego towaru, realizowane w dwu grupach sklepów. Zmienną losową X jest tygodniowa sprzedaż wyrażona w sztukach. Wyznacz 95-procentowy przedział ufności dla rzeczywistej różnicy wielkości sprzedaży dwoma metodami. Próbka jest duża I metoda n1 = 51 II metoda n2 = 54 ⎯x1 = 26,5 ⎯x2 = 22,4 s1 = 9,1 s2 = 6,7 • wartość oszacowana różnicy ⎯x1—⎯x2 = 4,1 • błąd oszacowania różnicy s x1− x2 = 1,567 P ( 1,0 < μ1 − μ 2 < 7 ,2 ) = 0 ,95 TESTOWANIE HIPOTEZ W przypadku małych próbek, pobranych z populacji o rozkładzie normalnym i o nieznanej wariancji, rozróżniamy dwa przypadki: • A — wariancje populacji są sobie równe • B — wariancje populacji nie są sobie równe W przypadku A stosujemy statystykę t o (n1+n2—2) stopniach swobody, zaś przedział ufności dla różnicy średnich jest dany wzorem P ( x1 − x 2 − tα / 2 s gdzie s= 1 1 1 1 + < μ1 − μ 2 < x1 − x 2 + tα / 2 s + ) = 1−α n1 n 2 n1 n 2 ( n1 − 1 ) s12 + ( n 2 − 1 ) s 22 n1 + n 2 − 2 Przykład 19. Pewien koncern chemiczny bada zanieczyszczenie powietrza w dwu różnych miejscowościach (w ciągu kilku dni o ustalonej godzinie): Próbka jest mała I miasto n1 = 8 II miasto n2 = 11 ⎯x1 = 0,23 ppm ⎯x2 = 0,32 ppm s1 = 0,07 ppm s2 = 0,12 ppm • wartość oszacowana różnicy ⎯x1—⎯x2 = —0,09 ppm • błąd oszacowania różnicy 0,04758 • t0,025(17) = 2,11 wartość statystyki • dolna granica przedziału ufności (—0,09) —(2,11)(0,04758) = —0,19 ppm • górna granica przedziału ufności (—0,09) + (2,11)(0,04758) = +0,01 ppm P ( −0 ,19 < μ1 − μ 2 < 0 ,01 ) = 0 ,95 35 TESTOWANIE HIPOTEZ W przypadku B stosujemy statystykę t’ Fishera-Behrensa ⎛ s2 s2 s2 s2 ⎞ P ⎜ ( x1 − x2 ) − t' 1 + 2 < μ1 − μ 2 < ( x1 − x2 ) + t' 1 + 2 ⎟ = 1 − α ⎜ n1 n2 n1 n2 ⎟ ⎝ ⎠ ' t = tα / 2 ,ν ν= (s12 / n1 + s22 / n2 )2 (s12 / n1 )2 + (s22 / n2 )2 n1 - 1 n2 - 1 Przykład 20. Przedsiębiorstwo rozważa, w której stacji telewizyjnej uloko-wać reklamę. Zbadano ceny wynegocjowane za 30-sekundowe spoty przez różnych klientów: Próbka jest mała I stacja n1 = 14 II stacja ⎯x1 = 883 zł n2 = 24 ⎯x2 = 247 zł s1 = 213 zł s2 = 63 zł Szef firmy stwierdził, że decyzję podejmie w zależności od tego, czy I stacja jest średnio droższa od II tylko o 500 zł, czy o więcej. Sprawdź odpowiednie hipotezy przy poziomie istotności 0,05. H0: μ1—μ2 = 500 tobl = H0: μ1—μ2 > 500 Jest to przypadek B— stosujemy statystykę t’ tobl = 2,33 t0,05(14) = 1,761 ( x1 − x2 ) − 500 s12 s22 + n1 n 2 Odrzucamy H0 na korzyść H1: stacja I jest średnio droższa od stacji II o co najmniej 500 zł z prawdopodobieństwem poniżej 0,025 (rzeczywisty poziom istotności). Wariancje dwu populacji Wariancja jest wielokrotnie ważniejsza niż średnia Statystyka Fishera, dana dwoma parametrami: ν1, ν2 F= f(F) χ12 ν1 Rozkład F dla α χ 22 ν2 Liczba stopni swobody mianownika 1 2 3 4 5 6 7 8 9 F Liczba stopni swobody licznika 2 3 4 1 161 200 216 α=0,05 5,12 4,26 3,86 225 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 5 230 19,3 9,01 Tablice rozkładu F − dla każdego α oddzielna tablica! Obszar krytyczny zawsze prawostronny 3,48 36 Rozkład F dla α f(F) Próbki: n1 n2 s1 s2 α/2 lub α 0 F Fα/2 lub Fα Zawsze prawostronny obszr krytyczny testu Gdy s1 > s2 ν1= n1-1 ν2= n2-1 Fobl = n s12 s22 σ1= σ2 σ1= σ2 H1: σ1≠ σ2 σ1> σ2 Reguła decyzyjna Odrzucamy H0, jeżeli... Gdy s1 < s2 ν1= n2-1 ν2= n1-1 Fobl = o H0: Fobl>Fα/2(ν1, ν2) s22 s12 Fobl>Fα(ν1, ν2) OBIE ZMIENNE MUSZĄ MIEĆ ROZKŁAD NORMALNY Przykład Analityk ma rozstrzygnąć, czy akcje dwóch firm A i B charakteryzują się tym samym ryzykiem (wariancja miarą ryzyka). Zmienną losową jest cena akcji na kolejnych sesjach giełdy. Wyniki dla dwu próbek dały następujące wyniki. Rozstrzygnij problem przy poziomie 0,05. H0: σ 1= σ 2 I: akcje A n1 = 25 ⎯x1 = 4,11 $ H1: σ1≠ σ2 s1 = 1,85 $ Fobl =(1,85)2/(1,17)2=2,50 II: akcje B n2 = 24 ⎯x2 = 3,35 $ s2 = 1,17 $ Ftabl(0,025;24;23)=2,29 Odrzucamy hipotezę zerową. Wariancje populacji nie są sobie równe. Akcje B są mniej ryzykowne; mniejsze wahania ceny (decyzja z błędem do 0,05). H0: σ 1= σ 2 Ftabl(0,05;24;23)=2,01 Wniosek jak powyżej H1: σ 1 > σ 2 Przedział ufności dla stosunku wariancji dwu populacji (???) 1 s12 s2 F1−α / 2(ν 2 ,ν1 ) = 1 dolna granica 2F 2 s2 s2 α / 2(ν1 ,ν 2 ) górna granica s12 s22 Fα / 2( ν 2 ,ν1 ) W przykładzie 21: F0,025;24;23=2,29 F0,025;23;24=2,30 1,09<σ21/ σ22<5,75 37 Stosowane symbole • • • • • • • • • L T t Tt TL |TL| m mi mj liczba klas drzewo decyzyjne węzeł drzewa poddrzewo drzewa T o korzeniu w węźle t zbiór liści drzewa T liczba liści drzewa T liczba przykładów liczba przykładów, dla których dany atrybut przyjmuje wartość i-tą liczba przykładów klasy cj 38 Klasyfikacja jednoetapowa Podczas całego procesu decyzyjnego uwzględniane wszystkie cechy i klasy. sekwencyjna Decyzja rozłożona na szereg prostszych decyzji; w różnych etapach wykorzystywane są różne cechy i uwzględniane różne podzbiory klas. Schemat działania klasyfikatora przedstawia drzewo decyzyjne Drzewo decyzyjne Odległość < 30 km tak nie Pogoda słonecznie deszczowo Działanie klasyfikatora wieloetapowego ilustruje drzewo decyzyjne. Pojęcia: korzeń drzewa, węzeł wewnętrzny, węzeł końcowy (liść), gałąź, ścieżka. 39 Drzewo decyzyjne Odległość: 8 Pogoda: deszczowo Odległość < 30 km tak nie Pogoda słonecznie deszczowo Zalety drzew decyzyjnych • szybka klasyfikacja • zrozumiały proces decyzyjny • możliwość aproksymacji złożonych powierzchni decyzyjnych • możliwość stosowania cech różnego typu • efektywne z punktu widzenia przechowywania w pamięci 40 Wady drzew decyzyjnych • im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decyzyjne • trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary drzewa • w węzłach testowany jeden atrybut • lokalna optymalizacja • metody nieadaptacyjne Konstrukcja drzewa decyzyjnego y y B B A A A A BB B B B B B a1 a1 x B B A A A A BB B B B B B a2 x a3 y < a1 y< a3 tak nie B tak x < a2 tak B x < a1 nie A nie B tak B nie A 41 Konstrukcja drzew decyzyjnych Jeden zbiór danych → wiele możliwych drzew Czym należy się kierować wybierając (konstruując) drzewo? Kryteria optymalizacji Globalne Lokalne - średnie prawdopodobieństwo błędu - średnia długość ścieżki - liczba węzłów drzewa - stopień zróżnicowania danych - przyrost informacji - współczynnik przyrostu informacji i inne 42 Zstępująca konstrukcja drzew decyzyjnych function Konstrukcja_drzewa(P-przykłady,t-węzeł) if not kryterium_stopu then podział_węzła t for i=A to n (n-liczba węzłów potomnych) Konstrukcja_drzewa(Pi,ti) else utworzenie_liścia t endif end function Utworzenie liścia Do węzła końcowego przypisuje się etykietę tej klasy, której obrazów najwięcej dociera do tego węzła. 43 Podział węzła - przykłady A. Cecha porównana z wartością progową (typowe dla atrybutów ciągłych). yi > α i tak nie B. Uwzględnione wszystkie możliwe wartości danego atrybutu (typowe dla atrybutów nominalnych). yi yi1 yi2 yik Podział węzła Najczęściej reguły decyzyjne budowane są na podstawie pojedynczych cech źródłowych. Prowadzi to do dzielenia przestrzeni cech hiperłaszczyznami prostopadłymi do osi cech. Wybierając cechę można się kierować jedną ze znanych miar, np. przyrostem informacji, wskaźnikiem przyrostu informacji, wskaźnikiem zróżnicowania danych itd. 44 Podział węzła w przypadku atrybutów nominalnych A. Dla każdego atrybutu yi oblicz wartość wybranej miary. B. Wybierz atrybut optymalny w sensie powyższej miary. 3. Od danego węzła utwórz tyle gałęzi, ile różnych wartości przyjmuje atrybut yi. t yi1 yi yi2 t1 t2 yik tk Kryteria wyboru atrybutu • mierzące różnicę między zbiorem przykładów w węźle t a zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; • mierzące różnice między poszczególnymi zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; • mierzące statystyczną niezależność między rozkładem klas a podziałem zbioru przykładów na podzbiory. 45 Kryteria wyboru atrybutu – przyrost informacji Przyrost informacji IM (information measure): IM = H − ∑ j mj m Hj m ci m ci H = ∑− log 2 m m i y y1 H1, m1 H, m przykładów yj yk Hj, mj Hk, mk Dla każdego atrybutu obliczamy wartość IM i wybieramy atrybut, dla którego wartość ta jest największa (H nie zależy od atrybutu, wystarczy porównywać drugi składnik). Miara IM preferuje atrybuty o dużej liczbie różnych wartości. Kryteria wyboru atrybutu – współczynnik przyrostu informacji Współczynik przyrostu informacji GR (gain ratio): GR = IM m m ∑j − mj log 2 mj Dla każdego atrybutu obliczamy wartość GR i wybieramy atrybut, dla którego wartość ta jest największa. Miara GR preferuje atrybuty o małej liczbie różnych wartości. 46 Kryteria wyboru atrybutu miara zróżnicowania danych (Gini index) Stopień zróżnicowania danych: i=∑ ∑ pk p j = 1 − ∑ j k≠ j j p 2j Spadek zróżnicowania: Δi = i − ∑ j ⎛ mc j = 1− ∑⎜ j ⎜ ⎝ m mj m ⎞ ⎟ ⎟ ⎠ 2 ij Dla każdego atrybutu obliczamy Δi i wybieramy atrybut, dla którego wartość ta jest największa. Kryteria wyboru atrybutu – statystyka χB Statystyka χ2 służy do porównywania rzeczywistych rozkładów z oczekiwanymi. χ = ∑∑ 2 i c (mi j − Eij ) 2 j mm Eij = i m Eij cj Dla każdego atrybutu obliczamy χ2 i wybieramy atrybut, dla którego wartość ta jest największa. 47 Kryteria wyboru atrybutu Eksperymenty pokazują że: • przedstawione kryteria wyboru atrybutu nie wpływają na błąd klasyfikacji; można otrzymać równie dobre drzewa wybierając atrybuty w węzłach losowo, ale • przedstawione miary wpływają na rozmiary skonstruowanego drzewa (przed przycięciem); drzewa, dla których losowano atrybuty zawierają około dwa razy więcej węzłów; • przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa a za pomocą χ2 największe; • na błąd klasyfikacji ma wpływ przycinanie drzewa. Kryterium stopu Możliwe dwa podejścia: 1. Przerwanie rozbudowy drzewa, gdy spełniony jest jeden z poniższych warunków: – – – 2. liczba błędnie klasyfikowanych obrazów jest mniejsza niż ustalony próg; liczba obrazów w węźle jest mniejsza niż ustalony próg; drzewo osiągnęło maksymalny dopuszczalny rozmiar (maksymalna liczba węzłów lub maksymalna wysokość). Zbudowanie drzewa klasyfikującego poprawnie wszystkie lub prawie wszystkie przykłady, a następnie przycięcie drzewa. 48 Przycinanie drzew y B A A A B A A B B A B A B B B B B A x zlikwidować nadmierne dopasowanie klasyfikatora do niepoprawnych danych. Przycinanie drzew 1 poprawność Cel: 0,8 0,6 zbiór uczący zbiór testowy 0,4 0,2 0 5 20 40 60 80 liczba węzłów 49 Przycinanie drzew • Na podstawie oddzielnego zbioru przycinania • Na podstawie zbioru uczącego • Wykorzystujące zasadę minimalnej długości kodu Przycinanie drzew Większość algorytmów przycinania (reduced error pruning, pessimistic error pruning, minimum error pruning) opiera się na następującym schemacie: repeat przeglądaj węzły wewnętrzne drzewa T if błąd dla poddrzewa Tt > błąd dla liścia t then zastąp poddrzewo Tt liściem przypisz do liścia t etykietę odpowiedniej klasy end if until przycinanie zmniejsza błąd Poszczególne metody różnią się sposobem szacowania błędu oraz kolejnością przeglądania węzłów drzewa. 50 Przycinanie drzew – reduced error pruning • Błąd szacowany na podstawie odrębnego zbioru przycinania. • Węzły przeglądane od dołu. • Poddrzewo Tt zastępowane liściem t gdy error(t) ≤ error(Tt). • Procedura powtarzana dopóki dalsze przycinanie nie zwiększa błędu. • Zalety: prostota, niski koszt obliczeniowy. • Wady: konieczność poświęcenia części danych na przycinanie; czasem drzewo zostaje przycięte zbyt mocno (zwłaszcza gdy zbiór przycinania jest znacznie mniejszy niż zbiór uczący). Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 typ A B tak + kolor kolor +6 -0 wiek typ y + - +6 -1 +0 -4 A 4 5 1 czarny 11 B tak + 2 biały 23 B tak - 3 czarny 22 A nie - 4 czarny 18 B nie + 5 czarny 15 B tak - 6 biały 27 B nie + typ czarny Klasa nie czarny biały biały Zbiór przycinania kolor y A typ A B - + - +0 -6 +5 -1 3 +0 -9 6 B + - +7 -2 +A -5 B 51 Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 typ y A + +6 -0 B tak kolor kolor czarny + - +6 -1 +0 -4 A 4 5 A 4 +6 -5 5 + typ czarny biały biały nie A typ - + - +0 -6 +5 -1 3 +0 -9 6 B A + - +7 -2 +1-5 B B Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 A + 4 +AB -5 5 typ y A + +6 -0 B nie tak A 4 +6 -5 5 + kolor typ czarny biały A typ A B - + - +0 -6 +5 -1 3 +0 -9 6 B + - +7 -B +1 -5 B 52 Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 A + 4 +12 -5 5 y nie tak kolor typ czarny biały A typ + +8 -7 B A B - + - +0 -6 +5 -1 3 +0 -9 6 B + - +7 -2 +1 -5 B Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 A + 4 +12 -5 5 y nie tak kolor czarny biały A typ A - typ B - + - +0 -6 +5 -1 3 +0 -9 6 B + - +7 -2 +1 -5 B +5 -10 3 6 53 Przycinanie drzew – reduced error pruning, przykład wiek ≥ 20 < 20 + y +12 -5 tak nie - kolor biały czarny - typ A +5 -10 +0 -6 B + - +7 -2 +1 -5 Przycinanie drzew – pessimistic error pruning • Błąd szacowany na podstawie zbioru uczącego. • Węzły przeglądane od korzenia. • Poddrzewo Tt o korzeniu w węźle t zastępowane liściem gdy error’(t) ≤ error’(Tt) + SE(error’(Tt)) error’(t) = error(t) + ½ error’(Tt) = error(Tt) + ½|TtL| SE(error’(Tt)) = [error’(Tt)(m(t) - error’(Tt)) / m(t)]½. 54 Przycinanie drzew – minimum error pruning • Błąd szacowany na podstawie zbioru uczącego. • Węzły przeglądane od dołu. • Poddrzewo Tt zastępowane liściem gdy error(t) < error(Tt) error (t ) = min{[ m(t ) − m ci (t ) + (1 − Pi )k ] /[m(t ) + k ]} ci error (Tt ) = ∑ ts m(ts ) error (ts ) m(t ) Pi – prawdopodobieństwo a priori klasy ci ts – następniki węzła t • Wada: konieczność doboru parametru k określającego wpływ prawdopodobieństwa a priori klas. Przycinanie drzew – critical value pruning • Węzły przeglądane od dołu. • Poddrzewo Tt jest zastępowane liściem gdy CV(t) < CVmin oraz CV(ts) < CVmin (ts – następniki węzła t) CV(t) – wartość, jaką przyjmuje kryterium wyboru atrybutu zastosowane przy konstrukcji drzewa (np. przyrost informacji) CVmin – progowa wartość kryterium • Niekiedy tworzy się wiele drzew odpowiadających różnym wartościom CVmin a następnie wybiera jedno z nich. 55 Przycinanie drzew – cost-complexity pruning • Generowana jest rodzina poddrzew T0, T1 ...Tk pierwotnego drzewa: drzewo Ti+1 powstaje z Ti po przycięciu gałęzi, dla których następująca wartość jest najmniejsza: α = (errror(t) – error(Tt)) / (|TtL| - 1). • Spośród wygenerowanych drzew wybrane zostaje to, dla którego błąd jest najmniejszy (błąd oszacowany na podstawie odrębnego zbioru danych lub w procesie walidacji krzyżowej). Brakujące wartości atrybutów • Przyczyny: parametr nie został zmierzony, nie podano odpowiedzi w kwestionariuszu itp. • Trudności podczas uczenia (nieznany atrybut przykładu ze zbioru uczącego) – przy obliczaniu wartości kryterium wyboru atrybutu, – przy kierowaniu przykładu do odpowiedniej gałęzi. • Trudności podczas klasyfikacji (nieznany atrybut nowego przykładu). 56 Brakujące wartości atrybutów Przykład: • • • • • A00 przykładów w zbiorze uczącym 3 atrybuty: kolor∈{czarny, biały}, wiek∈<0,A00>, typ∈{A, B} dla dwóch przykładów nieznana wartość atrybutu kolor: przykład PA <?, 24, A> ∈ c1 przykład PB <?, 11, B> ∈ c2 dla 40 przykładów kolor = biały (B0 należących do klasy c1, 20 do c2) dla 58 przykładów kolor = czarny (43 należących do klasy c1, 25 do c2) Brakujące wartości podczas wybieranie atrybutu A. Pomijanie przykłady o nieznanych wartościach danego atrybutu są usuwane ze zbioru uczącego; niezbyt dobre efekty (zwłaszcza gdy dużo przykładów zostaje usuniętych) 57 Brakujące wartości podczas wybieranie atrybutu B. Redukcja funkcja oceny atrybutu obliczona na podstawie przykładów o znanych wartościach i pomnożona przez stosunek liczby przykładów o znanym atrybucie do liczby wszystkich przykładów Rozwiązanie: 1. 2. Liczymy IM(kolor) uwzględniając tylko 98 przykładów IM(kolor) ← 0,98 * IM(kolor) Brakujące wartości podczas wybieranie atrybutu 3. Wypełnienie brakujące wartości są uzupełniane a) najczęściej występującą wartością danego atrybutu w całym zbiorze przykładów Rozwiązanie a): kolor(PA) = czarny (58>40) kolor(PB) = czarny (58>40) b) najczęściej występującą wartością wśród przykładów tej samej klasy Rozwiązanie b): kolor(PA) = czarny kolor(PB) = biały c) wartością ustaloną na podstawie wartości pozostałych atrybutów (np. wykorzystując naiwny klasyfikator bayesowski) Rozwiązanie c): stosujemy np. naiwny klasyfikator bayesowski wyznaczający prawdopodobieństwa: P(kolor=biały|wiek=24,typ=A) = 0,B5 kolor(PA) = czarny P(kolor=czarny|wiek=24,typ=A) = 0,75 P(kolor=biały|wiek=11,typ=B) = 0,4 P(kolor=czarny|wiek=11,typ=B) = 0,6 kolor(PB) = czarny 58 Brakujące wartości podczas wybieranie atrybutu 4. Podział zastąpienie przykładu z nieznanym atrybutem przykładami ułamkowymi (dla każdej możliwej wartości atrybutu jest to stosunek liczby przykładów z taką wartością do liczby wszystkich przykładów w zbiorze uczącym); ułamki te uwzględnia się podczas obliczania wartości kryterium wyboru atrybutu Rozwiązanie: PA = <?, 24, A> ⇒ PAA = <biały, 24, A> PAB = <czarny, 24, A> 40/A00 58/A00 PB = <?, 11, B> ⇒ PBA = <biały, 11, B> PBB = <czarny, 22, B> 40/A00 58/A00 przy sumowaniu przykładów podczas obliczania np. IM dla przykładu PAA i PBA dodajemy 4/A0, dla PAB i PBB dodajemy 58/A00 (dla przykładów o znanych wartościach cech dodajemy A) Brakujące atrybuty podczas kierowania przykładu do jednej z gałęzi 1. Pomijanie 2. Wypełnianie 3. Podział 4. Losowanie – przykład skierowany do gałęzi wybranej losowo z prawdopodobieństwem proporcjonalnym do liczby znanych przykładów skierowanych do tej gałęzi 5. Oddzielna gałąź – od węzła, w którym testowany jest nieznany atrybut tworzona jest dodatkowa gałąź kolor biały 40/98 czarny 58/98 kolor ? biały czarny 59 Brakujące atrybuty podczas klasyfikacji A. Odzielna gałąź <kolor=?, wiek=24, typ=A, y=tak> jeśli dla brakującej wartości utworzono oddzielną gałąź, to przykład przechodzi do tej gałęzi wiek ≥ 20 < 20 typ y A B tak + kolor kolor biały biały czarny + nie typ ? A czarny - - typ A B + + - B + - Brakujące atrybuty podczas klasyfikacji B. Zatrzymanie <kolor=?, wiek=24, typ=A, y=tak> wiek proces klasyfikacji zatrzymany; podana zostaje klasa większościowa przykładów związanych z węzłem, w A którym zatrzymano proces ≥ 20 < 20 typ y +8 –A3 ⇓ klasa - B + kolor +6 -0 kolor biały biały typ czarny czarny + - +6 -1 +0 -4 nie tak A typ A B - + - +0 -6 +5 -1 +0 -9 B + - +7 -2 +1 -5 60 Brakujące atrybuty podczas klasyfikacji 3. Wypełnienie brakujący atrybut wypełniony wartością zgodnie z jedną z metod wypełniania i klasyfikowany w zwykły sposób Brakujące atrybuty podczas klasyfikacji 4. Klasyfikacja probabilistyczna <kolor=?, wiek=24, typ=A, y=tak> Uwzględniane wszystkie gałęzie (wszystkie możliwe wartości atrybutu) prowadzące do różnych liści; klasa ustalana na podstawie < 20 prawdopodobieństw osiągnięcia poszczególnych liści oszacowanych na typ podstawie zbioru uczącego wiek ≥ 20 y A B tak + kolor kolor +6 -0 typ czarny biały biały czarny + - +6 -1 +0 -4 nie A typ A 9/BA > 6/BA ⇓ + klasa + +7 -2 B - + - +0 -6 +5 -1 +0 -9 B +1 -5 61 Dyskretyzacja atrybutów ciągłych Cel: zastąpienie ciągłych wartości oryginalnego atrybutu atrybutem o wartościach dyskretnych, odpowiadających pewnym przedziałom. •Korzyści: zwiększenie efektywności obliczeniowej • zwiększenie prostoty i czytelności hipotez • poprawa dokładności hipotez (unikanie nadmiernego dopasowania) Rodzaje dyskretyzacji • metody prymitywne i zaawansowane (zstępujące lub wstępujące) • metody lokalne i globalne • metody z nauczycielem i bez nauczyciela 62 Prymitywne metody dyskretyzacji A. według równej szerokości yi B. według równej częstości yi Są to metody globalne, bez nauczyciela. Prymitywne metody dyskretyzacji Wady: • nie jest uwzględniany rozkład wartości atrybutów i klas w zbiorze uczącym • konieczność określania liczby przedziałów dyskretyzacji Zalety: • łatwość implementacji • niski koszt obliczeniowy 63 Metody zaawansowane – dyskretyzacja zstępująca function Dyskretyzacja_zstępująca(P-przykłady, a-atrybut) if kryterium_stopu then return Ø próg = wybór_progu(P,a) progi_A = Dyskretyzacja_zstępująca(Pa≤próg,a) progi_B = Dyskretyzacja_zstępująca(Pa>próg,a) return {próg} ∪ progi_A ∪ progi_B end function Funkcja zwraca zbiór wartości progowych dzielących przedział zmienności danego atrybutu. Dyskretyzacja zstępująca – wybór progu Dobra dyskretyzacja powinna 1. mieć dobre własności dyskryminacyjne – powinna dobrze rozróżnić przykłady różnych klas; 2. generować możliwie mało przedziałów. 64 Dyskretyzacja zstępująca – wybór progu Ważona entropia zbioru przykładów ze względu na podział zakresu wartości atrybutu a za pomocą wartości progowej próg: ma ≤ próg H a , próg = m H a ≤ próg = ∑ − ci H a ≤ próg + maci≤ próg ma ≤ próg ma > próg m H a > próg maci≤ próg log 2 ma ≤ próg Im wyraźniejsza dominacja pewnych klas, tym mniejsza wartość Ha,próg. Obliczamy H dla progów wybranych między każdymi dwiema kolejnymi wartościami atrybutu a i wybieramy próg, dla którego wartość Ha,próg jest najmniejsza. Dyskretyzacja zstępująca – wybór progu Ha,pB pB Ha,p4 p4 Ha,p6 p6 Ha,p8 p8 Ha,pA0 p10 Ha,p12 p12 Ha,p14 p14 a pA Ha,pA p3 Ha,p3 p5 Ha,p5 p7 Ha,p7 p9 Ha,p9 p11 Ha,p11 p13 Ha,p13 Wybieramy pi, dla którego wartość Ha,pi jest najmniejsza. Ha,p10 p10 a Dla dwóch powstałych przedziałów powtarzamy procedurę szukania progu. 65 Dyskretyzacja zstępująca – kryterium stopu Przyrost informacji wynikający z podziału wartości atrybutu a za pomocą progu próg: ΔH (a, próg ) = H − H a , próg H = ∑− ci m ci m log 2 m ci m entropia przed podziałem Dalsze dzielenie przedziału należy przerwać gdy ΔH ≤ 0. Dodatkowe kryteria stopu: • Liczba przedziałów osiągnęła maksymalną wartość; • Liczba przykładów w przedziale osiągnęła minimalną wartość. Dyskretyzacja zstępująca – kryterium stopu a a a a a1 a2 a3 a4 a5 a6 a7 66 Metody zaawansowane – dyskretyzacja wstępująca function Dyskretyzacja_wstępująca(P-przykłady, a-atrybut) Z = zbiór przedziałów zawierających po jednej wartości atrybutu a repeat zA,zB = wybór_sąsiednich_przedziałów(P,a,Z) Z = Z – {zA,zB} ∪ {zA ∪ zB} until kryterium_stopu(Z) end function Funkcja zwraca zbiór przedziałów dyskretyzacji atrybutu a. Dyskretyzacja wstępująca – łączenie przedziałów Statystyka χB określająca różnicę między kandydującymi do połączenia przedziałami zA i zB ze względu na rozkład klas: χ 2 z1, z 2 (mzc1i − ezc1i )2 (mzci2 − ezci2 ) 2 =∑ +∑ ezc1i ezci2 ci ci ezc1i = mz1 mzc1i ∪ z 2 mz1∪ z 2 ezci2 = mz 2 mzc1i ∪ z 2 mz1∪ z 2 Im bardziej podobny rozkład częstości klas w przedziałach, tym mniejsza wartość χB. Obliczamy χ2 dla każdej pary sąsiednich przedziałów i łączymy przedziały, dla których wartość χ2 jest najmniejsza. 67 Dyskretyzacja wstępująca – łączenie przedziałów χ2z2,z3 zA zB χ2z4,z5 z3 z4 z5 a χ2z2,z2 χ2z3,z4 Łączymy przedziały zi oraz zj, dla których wartość χ2zi,zj jest najmniejsza. a Dyskretyzacja wstępująca – kryterium stopu Dalszego łączenia przedziałów należy zaniechać, gdy: 1. wartość statystyki χ2 przekracza pewien ustalony próg (przedziały zbyt się różnią ze względu na rozkład klas); 2. liczba pozostałych przedziałów osiągnęła minimalną ustaloną wartość (w praktyce między 5 a 15). 68 Mniej typowe rozwiązania stosowane podczas • Stosowanie wielu atrybutów w węzłach drzewa konstrukcji drzew decyzyjnych • Inkrementacyjna konstrukcja drzew • Stosowanie globalnych kryteriów optymalizacji • Zastosowanie drzew do aproksymacji Mniej typowe rozwiązania – wiele cech w węzłach (przykładowe rozwiązanie dla cech ciągłych) x – wektor cech dTx < α tak nie d – wektor dyskryminacyjny wyznaczony na podstawie kryterium Fishera α - wartość progowa Reguła decyzyjna zbudowana jest na podstawie kombinacji liniowej cech źródłowych. 69 Mniej typowe rozwiązania – wiele cech w węzłach 0123456789 Drzewo oddzielające w każdym węźle jedną klasę 012345679 8 01234579 6 0123457 9 7 012345 4 01235 5 0123 012 12 1 3 0 2 Mniej typowe rozwiązania – wiele cech w węzłach 0123456789 Drzewo dzielące w każdym węźle klasy na grupy 78 7 469 8 69 6 01234569 035 4 03 9 0 01235 5 12 1 2 3 70 Przykłady zastosowań drzew decyzyjnych klasyfikacja Metoda • Rozpoznawanie rodzaju gleby na zdjęciach satelitarnych • 6 klas (red soil, cotton crop, grey soil, damp grey soil, veg. Stubble, very damp grey soil) • 4435 przykładów w zbiorze uczącym i 2000 w zbiorze testowym • 36 cech (po 4 zdjęcia o wym. 3×3 dla każdego fragmentu terenu) Poprawność [%] CART 86,2 NewID 85,0 C4.5 85,0 Cal5 84,9 Sekw. kl. Fishera 84,4 ACB 84,3 Przykłady zastosowań drzew decyzyjnych – inżynieria oprogramowania • Klasyfikacja modułów oprogramowania; wykrywanie modułów zawierających znaczną liczbę błędów; przewidywanie przed implementacją czy moduł będzie zawierał znaczną liczbę błędów. • A6 systemów od 3000 do 112000 linii kodu (Fortran); 4700 modułów; 32% kodu z poprzednich wersji. • 74 atrybuty opisujące nakład pracy na napisanie danego fragmentu, zmiany, styl projektowania, styl programowania, rozmiary, złożoność itd. • Kryterium wybory atrybutu: przyrost informacji. • Kryterium stopu: najwyżej N% przykładów w liściu jest klasyfikowanych błędnie. 71 Przykłady zastosowań drzew decyzyjnych – rozpoznawanie obrazów • Rozpoznawanie chińskich znaków: 3155 klas, 31550 przykładów w zbiorze uczącym, 9345 w zbiorze testowym. • Cechy wygenerowano na podstawie histogramów oraz transformacji Walsh’a; liczba cech wynosiła 64. • Do wyboru cech użyto miary uwzględniającej wariancje poszczególnych klas oraz całego zbioru danych (wzdłuż wektorów określających poszczególne cechy). • Kryterium stopu: próg błędu. • Najdłuższa ścieżka od korzenia do liścia wynosiła 20, średnia długość ścieżki wynosiła 10. • Osiągnięto poprawność ok. 99%. Liniowa Analiza Dyskryminacyjna Rozważmy zbiór obiektów z których każdy jest opisywany przez wektor cech x przy czym dla każdego obiektu znana jest jego przynależność do klasy y. Taki zbiór obserwacji nazywany jest zbiorem uczącym. Problem klasyfikacji polega na znalezieniu dobrego predyktora klasy y dla każdej obserwacji (nie koniecznie pochodzącej ze zbioru uczącego). Predyktor ma się opierać tylko i wyłącznie o obserwacje x. Podejście LDA bazuje na założeniu, że funkcje gęstości prawdopodobieństwa p⎛⎜ x y = 1⎞⎟ ⎝ ⎠ p⎛⎜ x y = 0 ⎞⎟ ⎝ ⎠ mają rozkłady normalne i jednakową kowariancję Σy = 0 = Σy = 1 = Σ Można pokazać, że wymagane prawdopodobieństwo jest zależne tylko od iloczynu skalarnego gdzie: w= ∑ −1 (μ − μ ) 1 ( ) p yx w⋅ x 0 Oznacza to, że prawdopodobieństwo, że wejściowe x będzie należało do klasy y jest funkcją liniowej kombinacji jego znanych cech 72 Metody ilościowe • Analiza dyskryminacyjna Funkcję dyskryminacyjną można określić wzorem: Z = W1 X 1 + W2 X 2 + ... + Wn X n gdzie: Z – wartość funkcji dyskryminacyjnej Wi – wagi i-tej zmiennej (np. wskaźników finansowych) Xi – zmienne objaśniające modelu Analiza dyskryminacyjna Y X 73