Metody eksploracji danych DEDUKCJA

advertisement
Metody eksploracji danych
Adam Pelikant
DEDUKCJA
• Rozumowanie polegające na wyprowadzeniu z pewnych
zdań (prawdziwych przesłanek) wynikającego z nich
logicznie następstwa (prawdziwego wniosku)
• Rozumowanie polegające na dobieraniu następstwa do
danej racji logicznej
• Rozumowanie polegające na uzasadnieniu następstwa za
pomocą prawdziwej racji logicznej
1
INDUKCJA – w filozofii
• Jedna z metod poznania i ustalania prawdy
• Wnioskowanie, polegające na wyprowadzeniu ogólnych
wniosków z przesłanek, które są poszczególnymi
przypadkami tych wniosków
INDUKCJA –
według Sokratesa (469-399 p.n.e.)
• Metoda ustalania prawdy na podstawie:
– uzgadniania cech ogólnych w różnorodności i rozbieżności
– wyprowadzenia pojęcia zawierającego wiedzę pewną
i powszechną
• Powszechna metoda dochodzenia do definiowania pojęć
2
INDUKCJA –
według Epikurejczyków
Amynomachos z Aten
Metrodoros z Lampsakos (ok. 330-277 p.n.e.)
Polyajnos z Lampsaku
Hermachos z Mityleny
Epikur (341-270 p.n.e.)
Zenon z Sydonu (150 p.n.e.. 70 p.n.e.),
Filodemos z Gadary (110 p.n.e. -. 39 p.n.e.)
Lukrecjusz Titus Lucretius Carus (99 p.n.e., 55 p.n.e.)
• Wnioskowanie przez podobieństwa
• Logiczne uogólnienia indukcji obejmują nie tylko dostępne
nam zjawiska, ale także rzeczy niedostępne
INDUKCJA – nauki empiryczne
• Metoda polegająca na wprowadzeniu uogólnień na
podstawie eksperymentów i obserwacji faktów,
formułowaniu i weryfikacji hipotez
• Zaczątki indukcji w sensie nowożytnym stworzył Fransis
Bacon, który uznał, że indukcja i eksperyment to dwie
skuteczne metody ustalania prawdy
3
DEDUKCJA A INDUKCJA
• Dedukcja: wyprowadzanie sądów szczegółowych z sądów
ogólnych, przechodzenie od ogółu do szczegółu
• Indukcja: wyprowadzanie sądów ogólnych ze
szczegółowych, przechodzenie od szczegółu do ogółu
LUDZKA INTELIGENCJA
• Praktyczna:
– umiejętność rozwiązywania konkretnych zagadnień
• Abstrakcyjna:
– zdolność operowania symbolami i pojęciami
• Społeczna:
– umiejętność zachowania się w grupie
Test Bineta ok. 1904
Iloraz inteligencji (IQ)
4
SZTUCZNA INTELIGENCJA
(ARTIFICIAL INTELLIGENCE)
Allen Newell, Herbert Simon (Uniwersytet Carnegie Mellon)
John McCarthy (Massachusetts Institute of Technology)
„Konstruowanie maszyn, o których działaniu dałoby się powiedzieć,
że są podobne do ludzkich przejawów inteligencji”
• Dział informatyki, którego przedmiot to:
– badanie reguł rządzących inteligentnymi zachowaniami człowieka
– tworzenie modeli formalnych zachowań człowieka
– tworzenie programów komputerowych symulujących zachowania
człowieka
Test Turinga (1950 Alan Turing)
Nagroda Loebnera - od 1990 dla programu, który skutecznie przejdzie Test Turinga.
Konkurs Loebnera – najlepszy program do konwersacji
ELIZA – program symulujący psychoanalityka, Josepha Weizenbauma 1966 r.
ALICE - nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką
konwersację (projekt Open Source - pomysłodawca Richard Wallace)
SYSTEMY UCZĄCE SIĘ
Systemy posiadające zdolność poprawiania jakości swojego
działania poprzez zdobywanie nowych doświadczeń, które są
następnie wykorzystywane podczas kolejnych interakcji ze
środowiskiem
5
SYSTEMY EKSPERTOWE
• Systemy te starają się zastąpić fachowca w jednej
szczególnej dziedzinie wiedzy
• Wzorują się one na procesach dedukcyjnych,
podobnych do tych, jakie stosuje każdy na co dzień, nie
zdając sobie nawet z tego sprawy
BAZY WIEDZY
• Systemy ekspertowe opierają się zwykle na bazach
wiedzy, czyli zbiorach reguł zapisanych w formie
implikacji
• Bazy wiedzy mogą powstawać:
– automatycznie, w oparciu o inteligentną analizę danych
eksperymentalnych
– w wyniku interaktywnego procesu komunikowania się eksperta z
interfejsem podszytym sztuczną inteligencją
6
PRZYKŁAD
• Fakty
– F1: Andrzej ma rybki
– F2: Andrzej ma grzałkę
• Reguły
– R1: IF x ma rybki THEN x ma akwarium
– R2: IF x ma grzałkę AND x ma akwarium
żyjące
BAZA WIEDZY
THEN x ma rybki
• Wnioski
– W1: Andrzej ma akwarium
– W2: Rybki Andrzeja żyją
MODUS PONENS
Modus ponendo ponens (łac. sposób potwierdzający przez potwierdzenie) tautologia rachunku zdań mówiąca, że jeśli uznajemy prawdziwość poprzednika
prawdziwej implikacji, to musimy uznać też prawdziwość jej następnika:
[( p ⇒ q ) ∧ p ] ⇒ q
Reguła ta może być zapisana także w ten sposób:
• Reguła odrywania:
α α →β
β
( P → Q), P
Q
Inny zapis
• Reguła odrywania z podstawieniem:
R(a ) ∀ x (R( x) → A( x) )
A(a )
7
MODUS TOLLENS
modus tollendo tollens, (łac. sposób zaprzeczający przy pomocy
zaprzeczenia) – wnioskowanie logiczne, reguła logiki mówiąca, że jeśli
zaakceptujemy że z X wynika Y, oraz że Y jest fałszywe, to musimy
zaakceptować też fałszywość X.
[( p ⇒ q ) ∧ ¬q ] ⇒ ¬p
Tablica prawdy
a
0
0
1
1
b
0
1
0
1
∧
0
0
0
1
∨
0
1
1
1
XOR
0
1
1
0
⇒
1
1
0
1
8
Podstawowe prawa logiczne
P∧ (Q∧R)
P∨ (Q∨R)
P∧Q
P∨Q
P∧ (Q∨R)
P∨ (Q∧R)
¬ (P∧Q)
¬ (P∨Q)
P⇒Q
¬¬P
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
(P∧Q) ∧R
(P∨Q) ∨R
Q∧P
Q∨P
(P∧Q) ∨ (P∧R)
(P∨Q) ∧ (P∨R)
¬P∨¬Q
¬P∧¬Q
¬Q⇒¬P
P
P⇒Q
P⇔Q
P⇔Q
P∧¬P
⇔
⇔
⇔
⇔
¬P∨Q
(P⇒Q) ∧ (Q⇒P)
(P∧Q) ∨ ( ¬P∧¬Q)
False
P∨¬P
⇔
True
Zadanie odkrywania wiedzy
1. Na podstawie analizy dostępnych danych odkryć występujące w nich
regularności.
2. Dane - zazwyczaj z bazy danych, w postaci zbioru rekordów
charakteryzowanych przez pewne atrybuty.
3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub
korelacji występujących między atrybutami (w szczególności
współwystępowaniu pewnych wartości atrybutów).
4. Rregularności mogą występować nie tylko dla atrybutów pierwotnie
występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w
procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty).
5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez
odpowiednie testy statystyczne).
6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza
danych (np. dotyczyć interesujących atrybutów).
7. Odkryte regularności należy sformułować w postaci umożliwiającej ich
wykorzystanie do wnioskowania przez człowieka lub automatycznego
9
Rodzaje metod odkrywania wiedzy
• Klasyfikacja: jak przynależność do pewnych kategorii (klas) zależy od
atrybutów (drzewa decyzyjne, reguły, klasyfikacja bayesowska).
• Aproksymacja: jak wartość pewnej funkcji zależy od atrybutów. (algorytmy
uczenia się aproksymacji i statystyczne metody regresji)
• Zależności przyczynowe:, jakie zależności przyczynowe występują między
różnymi atrybutami. Uogólnienie klasyfikacji na dowolną liczbę atrybutów
zależnych, która dotyczy zależności jednego atrybutu (kategorii) - (sieci
bayesowskie).
• Zależności funkcyjne: jakimi wzorami najlepiej wyrażają się zależności
występujące między atrybutami o wartościach liczbowych. Uogólnienie
aproksymacji na dowolną liczbę atrybutów zależnych (metody odkrywania
równań).
• Podobieństwo: jakie w analizowanych danych występują grupy rekordów
podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co
umożliwia wnioskowanie (metody grupowania).
• Asocjacje: jakie wartości różnych atrybutów często współwystępują w danych
(reguły asocjacyjne).
Przykładowe zastosowania
• Profilowanie klientów - określanie profilu zachowań klienta (banku, operatora
telekomunikacyjnego) na podstawie jego historii (transakcji bankowych,
połączeń itp.) w celu wykrywania zachowań podejrzanych.
• Adresowanie ofert - określanie, od jakich cech klienta zależy
prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu
w celu bardziej efektywnego adresowania ofert.
• Lojalność klientów - określanie, od jakich cech klienta lub używanych przez
niego produktów zależy lojalność wobec firmy w celu minimalizacji
prawdopodobieństwa przejścia do firmy konkurencyjnej.
• Analiza koszyka sklepowego - określanie, jakie grupy towarów są często
kupowane łącznie lub w bliskiej sekwencji czasowej.
• Przewidywanie obciążenia - określanie, jak zapotrzebowanie na dostawy
(energii, surowca itp.) zależy od czynników zewnętrznych (pora roku,
miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w
celu przewidywania przyszłego zapotrzebowania.
10
Odkrywanie wiedzy
Identyfikacja i
zdefiniowanie
problemu
Uzyskanie i wstępne
przetworzenie
danych
Ekstrakcja wiedzy
Ocena i interpretacja
wyników
Wykorzystanie
odkrytej wiedzy
Proces odkrywania wiedzy w bazach
danych
1.
2.
3.
4.
Selekcja
Selekcja danych – wybór relacji i krotek, które będą
eksplorowane, definicja sposobu łączenia relacji
Transformacja danych – konwersja typów atrybutów,
definicja atrybutów wywiedzionych, dyskretyzacja wartości
ciągłych
Transformacja
Eksploracja – ekstrakcja wiedzy z danych: generowanie
reguł, drzew decyzyjnych, sieci neuronowych itp.
Interpretacja wyników – wybór najbardziej interesującej
wiedzy, logiczna i graficzna wizualizacja wyników
Eksploracja
Interpretacja
11
Etapy eksploracji danych
Analiza problemu
dane
Selekcja i czyszczenie danych
dane wyselekcjonowane
Transformacja danych
•Wybór strategii co do badania danych
•Konwersja
•Dyskretyzacja
•Zmiana reprezentacji z relacyjnej na
transakcyjną
dane przetworzone
Etapy eksploracji danych
Eksploracja danych
•Wybór narzędzi
•Wybór algorytmów
•Zastosowania ich
wzorce
90
80
70
Przygotowanie wyników do oceny
60
50
40
30
Obróbka graficzna
A
B
C
20
10
0
1
2
3
4
dane wygodne do
analizowania
Analiza wyników
Zastosowanie uzyskanej wiedzy w praktyce
12
Stwórz,
wybierz bazę
danych
A dokładniej...
Wybierz techn.
próbkowania i
próbkuj dane
Dostarcz
brakujące
wartości
Normalizuj
wartości
Wybierz zadania
eksploracji
danych
Udoskonal
wiedzę
Usuń szumy
Przetwórz
wartości
Wybierz metodę
eksploracji danych
Utwórz
wywiedzione
atrybuty
Wyekstrahuj
wiedzę
Znajdź ważne
atrybuty i zakresy
wartości
Sprawdź
wiedzę
Przetwórz do
innej formy
reprezentacji
PUSTY
13
ZMIENNE LOSOWE CIĄGŁE
Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego
zbioru wartości (przy założeniu, że będą mierzone z wystarczającą
dokładnością).
Zmienna ciągła jest opisywana dwoma funkcjami:
• funkcją gęstości f(X)
a
• dystrybuantą F(X)
F ( X ) = ∫ f ( x )dx
−∞
Twierdzenie:
f (a ) = P ( X ≈ a )
P(X=a) = O
∞
2
∞
V ( X ) = ∫ [ x − E ( X )] f ( x )dx
E ( X ) = ∫ xf ( x )dx
Definicje:
−∞
−∞
Najważniejsze rozkłady ciągłe:
• prostokątny
• trójkątny
• normalny (Gaussa) (z)
• logarytmiczno-normalny
• Studenta (t)
• χ2 (chi kwadrat)
• Fishera-Snedecora (F)
• Wallace’a-Snedecora (R)
•wykładniczy
Pojęcia podstawowe
funkcja gęstości
dystrybuanta
1
Fu n kc ja d y s try b u a n ty
Fu n kc ja g ę s to ś c i
f(a)
dystrybuanta
3
4
Funkcja dystrybuanty
5
6
7
8
9
10
Warto ści zmie nne j X
11
12
13
F(a)
3
4
5
6
7
8
9
10
11
12
13
Wartości zmie nne j X
Interpretacja wykresu
• całe pole pod funkcją gęstości ma powierzchnię równą 1
• wartość funkcji dystrybuanty zmienia się wraz z wartością „x” w
sposób pokazany strzałką (prawa granica pola przesuwa się)
• znajomość funkcji dystrybuanty umożliwia rozwiązywanie
zadań typu: P(X<a), P(X>a), P(7<X<11) itd.
14
Rozkład prostokątny
(rozkład równomierny, jednostajny, amodalny).
Jego funkcja gęstości ma stałą wartość w przedziale (a, b),
natomiast dla pozostałych wartości ma wartość równą 0.
f (X ) =
1
b−a
Funkcja g ę sto ści f(X)
0,14
0,12
0,1
0,08
0,06
a=0
b=8
0,04
0,02
0
0
2
4
6
8
10
Wa rto ści zm ie nne j X
E( X ) =
a+b
2
V(X ) =
(b − a )2
12
Rozkład trójkątny
Rozkład ten opisują trzy wartości
zmiennej:
a — najmniejsza przewidywana
b — najbardziej prawdopodobna
c — największa przewidywana
f(X)
2
c−a
dystrybuanta
funkcja gęstości
a
b
xi
c
X
Zalety rozkładu
• łatwy do matematycznego przetwarzania
• nadaje się do modelowania wszystkich rozkładów jednomodalnych
• zrozumiały dla osób nie znających statystyki
15
Rozkład wykładniczy
Zmienną losową X jest czas między zajściem
dwóch zdarzeń o rozkładzie Poissona
f ( X ) = λ e −λ x
f(X)
E ( X ) = D( X ) =
dla x≥0, λ ≥ 0
1
λ
F ( X ) = 1 − e −λ x
X
Rozkład wykładniczy w praktyce wykorzystywany jest w teorii
niezawodności do modelowania tzw. funkcji niezawodności
R(t). Funkcja niezawodności określa prawdopodobieństwo
bezawaryjnej pracy elementu w chwili t:
R ( t ) = e − λx
P(T ≥ t ) = 1 − F( t ) = R ( t )
λ - intensywność uszkodzenia (awarii)
Jakie jest prawdopodobieństwo bezawaryjnej pracy maszyny przez
co najmniej t godz. (min)?
P(T ≥ t)
E(X)
Jaki jest średni odstęp czasu między awariami?
Rozkład normalny
0,45
f ( x) =
1
e
σ 2π
( x − m )2
−
2σ 2
Parametry rozkładu:
• wartością średnią m
dla
-∞<x< ∞
0,4
Funkc ja g ę sto śc i f(X)
(rozkład Gaussa lub krzywa dzwonowa).
Jest to rozkład jednomodalny z funkcją
gęstości prawdopodobieństwa:
0,35
punkt
0,3
0,25
σ
przegięcia
σ
0,2
0,15
0,1
0,05
N (m;σ )
0
Wa rto ści zmie nne j X
• odchyleniem standardowym σ
m
m—σ
m+σ
WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LUB PRAWO
ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU
1
Funkc ja g ę s to ś c i f(z)
Właściwości rozkładu normalnego:
• dla jednoznacznego określenia wystarczy podać: wartość
średnią (oczekiwaną) m i odchylenie standardowe σ;
• punkty
przegięcia
funkcji
gęstości występują
przy
wartościach zmiennej losowej równych m- σ i m+ σ;
• wartość m jest jednocześnie modą i medianą rozkładu;
• wartości zmiennej teoretycznie występują w przedziale od ∞ do +∞;
• praktycznie wszystkie mieszczą się w granicach od m-3σ do
m+3σ (99,73% wartości);
• w przedziale od m-2σ do m+2σ mieści się 95,45% wartości;
• w przedziale od m-σ do m+σ mieści się 68,27% wartości;
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
-4
-3
0
0
0,13%
0,2
-2
2
3
Zmienna
s tandaryzo
wana1 Z
0,4
0,6
0,8
1,2
2,15%
-1
0
1
13,59% 34,14%
16
Rozkład normalny
Rozkład normalny jest charakterystyczny dla dowolnego zbioru wartości, na które
oddziaływuje wiele niezależnych i jednakowo ważnych czynników przypadkowych, z
których żaden nie jest dominujący.
TWIERDZENIE CENTRALNE - ogólne
Które zmienne zachowują się według rozkładu normalnego?
Te, które kształtują się pod wpływem wielu czynników, z których żaden
nie ma charakteru dominującego.
Standaryzowany rozkład normalny
Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać
z tablicy dystrybuanty.
Tablica została przygotowana dla rozkładu znormalizowanego
zmiennej standaryzowanej Z.
zi =
xi − m
Prawo trzech sigm:
POWIERZCHNIA CAŁEGO POLA POD
FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1
N ( 0; 1)
σ
w przedziale od (m—3σ) do (m+3σ) (oś X)
od —3
do +3
(oś Z)
mieszczą się praktycznie wszystkie
losowej o rozkładzie normalnym.
(99,74%)
wartości
zmiennej
Tablice rozkładu normalnego
• tablica funkcji gęstości
• tablice dystrybuanty
• tablica kwantyli (wartości krytycznych)
Tablica funkcji gęstości
• służy do budowy wykresu funkcji
gęstości (krzywej Gaussa)
• do odczytu P(X≈ a) lub P(Z≈ a)
z
0,0
0,1
0,2
0,3
...
1,0
2,0
3,0
4,0
0
3989
3970
3910
3814
...
2420
0540
0044
0001
1
3989
2...
...
9
3973
Tablice dystrybuanty:
Z
0 ,0
0 ,1
...
0 ,5
0 ,6
...
1 ,0
1 ,5
2 ,0
3 ,0
4 ,0
0 ,5 0
0 ,5 3
...
0 ,6 9
0 ,7 2
...
0 ,8 4
0 ,9 3
0 ,9 7
0 ,9 9
0 ,9 9
0 ,0 0
00
98
0 ,0 1
...
1
Funkc ja g ę s to ś c i f(z)
•w przedziale z od 0 do +3: F(z) od 0,5
do 1 (połowa funkcji)
0,9
0,8
0,7
.
0,6
0,5
0,4
0,3
15
57
0,2
0,1
-4
-3
0
1
3
7
8
9
3
2
2
65
9683
0
0,2
-2
2
3
Zmie
nna0,6s tandaryzo
wana1 Z
0,4
0,8
-1
0
1
1,2
Przechodząc ze zmiennej
Z na zmienną X: x i = m +
z iσ
17
Rozkład logarytmiczno-normalny
Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się
rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz
wielu wartości małych i średnich mają również wartości bardzo duże
(zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż
kopalin użytecznych itd.).
f(X)
małe
średnie
duże
bardzo duże
X
Jednostki-giganty, które zglobalizowały gospodarkę światową:
duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp.
Przetwarzanie danych empirycznych w rozkład normalny
1. Podzielenie danych xi na przedziały (liczebność 8-12)
2. Ustalenie liczebności empirycznych nie
3. Przeliczenie liczebności na prawdopodobieństwa empiryczne pie
4. Obliczenie parametrów x oraz s
5. Standaryzacja końców przedziałów
6. Wyznaczenie prawdopodobieństw teoretycznych pit
7. Wyliczenie liczebności teoretycznych nit
8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie porównanie nie i nit
5
10
15
20
X
18
WNIOSKOWANIE STATYSTYCZNE
Przedmiotem tego działu jest
a) szacowanie nieznanych parametrów rozkładów zmiennych losowych;
b) wyciąganie wniosków o rozkładzie i parametrach populacji generalnej
na podstawie badania próbki (hipotezy statystyczne).
Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej.
Rodzaje estymacji
• punktowa
Sposoby pobierania próbek statystycznych
• przedziałowa
Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji
(tj. zbiorowości generalnej) musi mieć jednakową szansę trafienia do
próbki.
• losowanie systematyczne
Wybór co k-tej jednostki zbiorowości generalnej. Pierwszą jednostkę wybieramy
losowo (np.tablice liczb losowych)
• losowanie warstwowe
Podział zbiorowości na podzbiory, a następnie losowanie bez zwracania w każdej
warstwie (podzbiorze). Próbę stanowi suma wylosowanych jednostek.
• losowanie proporcjonalne
Zróżnicowane prawdopodobieństwo dostania się do próby.
Pojęcia z teorii estymacji
•
parametr populacji – liczbowa charakterystyka całej populacji
•
statystyka z próby – liczbowa charakterystyka próby
•
estymator (estimator) parametru populacji – statystyka z próby
używana do oszacowania tego parametru. Oceną lub szacunkiem
parametru jest konkretna wartość liczbowa estymatora z danej próby
•
estymacja - podanie wartości oceny nieznanego parametru populacji
Estymator jest to zmienna losowa, której realizacjami są wartości
rozważanego parametru powstałe przez pobranie z populacji bardzo
wielu próbek. Estymator — jak każda zmienna — ma swoją wartość
oczekiwaną i odchylenie standardowe.
Wartość oszacowana (estimate) jest to wartość danego parametru
wyznaczona na podstawie jednej, rzeczywiście pobranej próbki.
Statystyka
z próby
X
Rozkłady z próby
Estymatorem
parametru μ
x
Ocena
(oszacowanie)
parametru μ
Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich
możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na
podstawie badania losowych prób o tych samych rozmiarach n, pobranych z
określonej populacji.
19
Pojęcia z teorii estymacji
Zależności
σ =
2
x
σ2
σx =
n
σ
s
sx =
n
n
oraz wnioski
s=
− x )2
n −1
∑ ( xi
E(x) = μx = μ
s
σx =
n
• średnia estymatora równa się średniej populacji
• znamy wzór na błąd oszacowania średniej
• gdy
n →∞, x →N(μ,
σ
)
n
Centralne twierdzenie graniczne
Jeżeli pobieramy próbę z populacji o średniej μ i skończonym
odchyleniu standardowym σ, to rozkład średniej z próby X
,
dąży do rozkładu normalnego o średniej μ i odchyleniu
standardowym σ , gdy liczebność próby wzrasta
n
nieograniczenie, czyli dla „dostatecznie dużych n”: X → N ( μ ,
σ
n
)
Cechy dobrego estymatora
Oznaczenia:
Θ − parametr populacji
ˆ − estymator
Θ
ˆ ) = μ ˆ − średnia estymatora
E (Θ
Θ
• nieobciążony
ˆ =Θ
E (Θ)
wartość oczekiwana estymatora jest równa szacowanemu parametrowi
• zgodny (PWL)
prawdopodobieństwo, że jego wartość jest bliska wartości szacowanego
parametru, wzrasta wraz ze wzrostem liczebności próby (jeśli podlega
prawu wielkich liczb - tw. Kołmogorowa)
gdy dla każdego ε>0
ˆ − Θ < ε} = 1
lim P{ Θ
n →∞
• najefektywniejszy (Vmin)
estymator o najmniejszej wariancji
20
Metody uzyskiwania estymatorów:
• metoda momentów
• metoda najmniejszych kwadratów
• metoda największej wiarygodności
Nazwa parametru
Symbol
dla populacji
μ
σ
σ2
π
Wartość średnia
Odchylenie standardowe
Wariancja
Proporcja (struktura)
Symbol
dla próbki
x
s
2
s
p
Liczba stopni swobody ν
Jest to liczba określająca ile danych ze zbioru można zmienić bez
zagrożenia zmianą wyznaczanego parametru (statystyki).
przy obliczaniu średniej
x1
można
zmieniać
+
x2
można
zmieniać
+
ν = n−1
x3
ogólnie
+
x4
można
można
zmieniać
zmieniać
+
ν = n−k
x5
można
zmieniać
+
x6
= Σxi/6
nie można
nie można
zmieniać
zmieniać
ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI
Celem jest ustalenie — ile wynosi nieznana wartość μ:
• estymacja punktowa: μ = ⎯x
• estymacja przedziałowa: budowa przedziału ufności, w którym z
prawdopodobieństwem 1—α znajdzie się nieznane μ
Przedział
ufności
jest
to
przedział,
w
którym
z
prawdopodobieństwem 1—α znajduje się nieznana wartość
średnia populacji μ.
Poziom ufności (1—α) jest to prawdopodobieństwo, że nieznana
wartość μ znajduje się w przedziale ufności.
Poziom istotności (α) jest to prawdopodobieństwo, że nieznana
wartość μ nie znajduje się wewnątrz przedziału ufności.
α
• ustala statystyk
• kluczowe w statystyce matematycznej
• inne nazwy: margines błędu, poziom krytyczny
21
Przedział ufności dla nieznanej średniej dla populacji przy
dużej próbce:
• jeśli znamy odchylenie standardowe populacji σ
P ( x − zα σ x < μ < x + zα σ x ) = 1 − α
2
2
• jeśli nie znamy odchylenia standardowego populacji
Postępowanie:
P ( x − zα s x < μ < x + zα s x ) = 1 − α
2
2
• pobieramy próbkę, liczymy dla niej ⎯x oraz s
Szerokość przedziału ufności dla μ
zależy od:
• przyjętego poziomu istotności α
• wielkości próbki n
Funkc ja g ę s to ś c i
• budujemy przedział ufności (gd, gg), w którym z prawdopodobieństwem
1—α znajduje się nieznana wartość średniej μ dla populacji
α
1−α
• jej odchylenia standardowego s
α
2
2
Ś re dnia dla po pulac ji
x
gd
gg
ESTYMACJA WSKAŹNIKA STRUKTURY
(PROPORCJI DLA POPULACJI)
Jeżeli badana cecha ma charakter jakościowy, w wyniku badań
uzyskujemy jedynie informację o tym, czy dany element populacji ma czy
też nie wyróżnioną cechę jakościową. Elementy populacji możemy więc
podzielić na dwie klasy:
• elementy wyróżnione w populacji (posiadające interesującą cechę);
• i niewyróżnione.
Ustala się proporcję p=k/n (frakcję, wskaźnik struktury) dla próbki i po
przyjęciu określonego poziomu istotności α buduje się przedział ufności
dla nieznanej proporcji π dla populacji:
P ( p − zα s p < π < p + zα s p ) = 1 − α
2
2
sp =
p(1 − p )
n
I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji sp, który z kolei jest funkcją
wielkości próbki i jej proporcji.
22
PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI
PRZY MAŁEJ PRÓBCE
W przypadku małej próbki estymator
Studenta.
Rozkład Studenta
zachowuje się według rozkładu
X
x−μ x−μ
=
t=
s
sx
n
Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody
Gdy ν dąży do ∞, rozkład t dąży do rozkładu normalnego
Rozkład normalny standaryzowany, z Rozkład Studenta, t
μ, σ
0
1
Parametry rozkładu
Średnia
Wariancja
ν = n−1
rozkład normalny z
ν
0
ν/ν−2
rozkład Studenta t
• tablica
rozkładu Studenta (Skrypt)
pokazuje kwantyle rzędu α dla danego ν
(wartości t odpowiadające założonemu
poziomowi istotności dla danej liczby
stopni swobody)
ν=8
0
zα/2
tα/2(ν)
Fragment tablicy rozkładu Studenta
S to p n ie s w o b o d y , ν
.
10
.
40
.
∞
α = 0 ,2 0
α /2 = 0 ,1 0
.
1 ,3 7 2
.
1 ,3 0 3
.
1 ,2 8 2
α = 0 ,1 0
α /2 = 0 ,0 5
.
1 ,8 1 2
.
1 ,6 8 4
.
1 ,6 4 5
α = 0 ,0 5
α /2 = 0 ,0 2 5
.
2 ,2 2 8
.
2 ,0 2 1
.
1 ,9 6 0
Przedział ufności dla średniej dla populacji przy małej próbce
P ( x − tα
2
( n −1 )
s x < μ < x + tα
2
( n −1 )
sx ) = 1 − α
•rozkład Studenta daje szersze przedziały ufności niż rozkład normalny,
gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki
Podsumowanie estymacji wartości średniej dla populacji
Odchylenie
standardowe
populacji, σ
Znane
Nieznane
Typ rozkładu
zmiennej X
Normalny
Inny
Normalny
Inny
Wielkość
próbki, n
Dowolna
n ≥ 30
n ≥ 30
Dowolna
n ≥ 50
n < 50
Granice
przedziału
ufności
⎯x ± zα/2 σ⎯x
⎯x ± zα/2 σ⎯x
⎯x ± zα/2 s⎯x
⎯x ± tα/2 s⎯x
⎯x ± zα/2 s⎯x
Unikać
23
ESTYMACJA WARIANCJI DLA POPULACJI
Jeśli z populacji o rozkładzie normalnym pobierzemy bardzo wiele
próbek, to estymator wariancji S2 będzie miał rozkład zwany chi
kwadrat
χ2 =
( n − 1) s 2
σ
2
Rozkład χ2:
• jest zależny od liczby stopni swobody ν
• jest asymetryczny: ogony nie są jednakowe
• przy ν >30 zbliżony do normalnego
• E(χ2) = ν
f(χ2)
V(χ2)= 2ν
ν =1
•tablica rozkładu χ2 (SKRYPT)
pokazuje ani funkcji gęstości,
funkcji dystrybuanty
ν=4
ν = 15
• pokazuje wartości kwantyli
odpowiedniego
rozkładu
χ2
ustalonej liczby stopni swobody)
nie
ani
dla
(dla
χ2
0
f(χ2) α /2
Liczba
stopni
swobody
0,990
1
...
11
3,053
Lewy ogon
0,975
0,950
3,816
4,575
0,050
19,68
Prawy ogon
0,025
0,010
21,92
24,72
α /2
1—α
χ2
0
χ21- α /2
χ2 α /2
Przedział ufności dla nieznanej wariancji populacji (niesymetryczny)
Mała próbka
Duża próbka
P(
( n − 1) s 2
χ α2 / 2
<σ2 <
( n − 1) s 2
χ 12−α / 2
) = 1 −α
⎛
⎞
⎜
⎟
s
s
⎟ = 1−α
<σ <
P⎜
zα / 2 ⎟
⎜ 1 + zα / 2
1
−
⎜
⎟
2n
2n ⎠
⎝
24
Błędy
RODZAJE
BŁĘDÓW
systematyczny
losowy
∗ Pomiar wykonany w tych samych
∗ Wystąpienie błędu -a i a ma to
warunkach daje błąd o stałej wartości
samo prawdopodobieństwo
∗ Przy zmianie warunków błąd
∗ Prawdopodobieństwo błędu a jest
przyjmuje różną od zera stałą wartość
funkcją malejącą
• Im błąd a bliższy zera tym
bardziej prawdopodobny
o charakterze
statystycznym
.
statystycznym
pozastatystycznym
mała próba
pozastatystycznym
• populacja niejednorodna •uwikłanie wielu czynników
• zły operator losowania
•bardzo niebezpieczny
• obciążenie estymatora
Błędy
0,11
0,17
0,242
0,275
0,31
0,34
0,36
0,375
0,38
0,388
BŁĄD SYSTEMATYCZNY
Θ
parametr
Θ̂
estymator parametru
S erie1
0,11
0,17
0,242
0,275
0,31
0,34
0,36
0,375
0,38
0,388
ˆ) Θ
E (Θ
BŁĄD LOSOWY
S erie1
ˆ ) Θ̂ D(Θ
ˆ)
− D(Θ
25
Błędy
Wielkość błędu systematycznego to miara obciążenia estymatora
ˆ −Θ
E (Θ)
∗ absolutny błąd oceny Δ=
∗ względny błąd oceny Δ'=
Ponieważ nieznany jest
Θ
ˆ
Θ−Θ
ˆ
Θ−Θ
Θ
ustalenie błędu systematycznego jest niemożliwe.
W praktyce wyznacza się:
∗ poziom absolutny (d) dokładności
∗ poziom względny (δ) dokładności
∗ zakłada się prawdopodobieństwo 1 - α dotrzymania błędu d
ˆ − Θ ≤ d } = P{−d ≤ Θ
ˆ − Θ ≤ d} = 1 − α
P{ Θ
lub
ˆ −Θ > d } = α
P{ Θ
LICZNOŚĆ PRÓBY DO OSZACOWANIA
ŚREDNIEJ
• nieznane odchylenie standardowe populacji
d - błąd szacunku średniej wynosi:
d = tα / 2
s
n
t α2 / 2 2
n= 2 s
d
tα/2 - kwantyl rozkładu Studenta dla no-1 stopni swobody,
no - liczność tzw. próby pilotażowej użytej do oszacowania
odchylenia standardowego s
26
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Hipoteza statystyczna to każde przypuszczenie dotyczące populacji generalnej wysnute na
podstawie próbki statystycznej
Hipotezy statystyczne dzielimy na:
• parametryczne
• nieparametryczne
Ponieważ przy posługiwaniu się próbką nigdy nie ma pewności, stawia się dwie wykluczające
się hipotezy:
• hipotezę zerową H0
• hipotezę alternatywną H1 (Ha)
Weryfikacja:
• polega na sprawdzeniu, która z nich jest prawdziwa, a która fałszywa
• posługujemy się testami statystycznymi (z, t, χ2, F, R i inne)
Kolejność czynności przy weryfikacji hipotez:
1. Sformułowanie H0 i H1 (H0: μ=4,0 H1: μ≠4,0; lub μ>4,0; lub μ<4,0)
2. Przyjęcie poziomu błędu I rodzaju α (α = 0,05)
3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy Zn)
w zależności od rodzaju hipotezy
4. Ustalenie obszaru krytycznego testu (odczytanie wartości krytycznej statystyki
weryfikującej z tablic dla α: ztabl, zkr, zα)
5. Obliczenie wartości statystyki na podstawie próbki (zobl, zemp)
6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0
7. Interpretacja podjętej decyzji
Prawidłowość podejmowanych decyzji
HIPOTEZA
ZEROWA JEST
PRAWDZIWA
FAŁSZYWA
α=poziom błędu I rodzaju,
DECYZJA STATYSTYKA
odrzucić H0
przyjąć H0
Nie ma błędu
Błąd I rodzaju
1−α
α
Błąd II rodzaju
Nie ma błędu
β
1−β
β = poziom błędu II rodzaju, 1−β = moc testu
α=P(H0 odrzucona/H0 jest prawdziwa)
β = P(H0 nieodrzucona/H0 jest fałszywa)
2)
∈
∈
x
a
α m
) )
0 1
H H
/
/
W W
1)
n n
Z Z
(
(
P P
Obszar krytyczny testu W należy tak ustalić, aby zminimalizować błąd II rodzaju.
Obszar krytyczny to zbiór wartości statystyki Zn (tj. sprawdzianu hipotezy)
spełniającej warunki:
=
=
W praktyce bierze się warunek (1) stąd szczególny rodzaj testów, zwanych testami
istotności.
27
Hipotezy nieparametryczne
Dotyczą rozkładów populacji lub cech niemierzalnych
Do ich weryfikacji stosuje się następujące testy:
• test χ2
• test Kołmogorowa-Smirnowa
• testy serii (długości i liczności serii)
Przykład hipotezy nieparametrycznej:
• H0: rozkład populacji nie różni się istotnie od rozkładu normalnego
• H1: rozkład populacji różni się istotnie od rozkładu normalnego
Testowanie przy użyciu testu (statystyki) χ2
TEST DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ i SKOKOWEJ!!!
2
=
χ obl
ne — liczebność empiryczna
nt — liczebność teoretyczna
k
— liczba przedziałów (klas)
k ( n − n )2
ie
it
∑
n
i =1
it
Reguła decyzyjna:
• jeżeli χ2obl> χ2tabl, odrzucamy H0 na korzyść H1
• jeżeli χ2obl< χ2tabl, nie ma podstaw do odrzucenia H0
Przykład
Sprawdzić, czy rozkład szybkości czytania uczniów wybranego gimnazjum jest
rozkładem normalnym.
Do próbki wylosowano 101 uczniów ostatniej klasy gimnazjalnej jednej ze szkół
w woj. Małopolskim. Przyjmij α=0,01.
Szybkość czytania
słów/5 min
92-94
94-96
96-98
98-100
100-102
102-104
104-106
106-108
108-110
110-112
112-114
114-116
Razem
Liczba
uczniów
1
3
3
6
16
32
20
8
4
4
3
1
101
•
wartości ⎯x oraz s obliczono
z szeregu dwustopniowego
⎯x = 103,6 słów/5 min
s = 3,95 słów/5 min
Test nieparametryczny χ2
H0: rozkład populacji nie różni się istotnie od rozkładu normalnego
H1: rozkład populacji różni się istotnie od rozkładu normalnego
28
wyliczanie liczności teoretycznych na podstawie funkcji gęstości
xi
93
95
97
99
101
103
105
107
109
111
113
115
ni
1
3
3
6
16
32
20
8
4
4
3
1
Razem
101
xi −⎯x
−10,6
−8,6
−6,6
−4,6
−2,6
−0,6
1,4
3,4
5,4
7,4
9,4
11,4
f(zi)
0,01100
0,03706
0,09863
0,20357
0,32086
0,39448
0,37524
0,27562
0,15822
0,06943
0,02406
0,00631
nit
0,6
1,9
5,0
10,4
16,4
20,2
19,2
14,1
8,1
3,6
1,2
0,3
•
wartości zi obliczono przez
standaryzację środków przedziałów
klasowych
• wartości f(zi) odczytano z tablicy
funkcji gęstości
•
liczebności teoretyczne policzono
według wzoru
d
nit = f ( z i ) n
s
d = szerokość przedziału (d=2)
n = liczebność próbki (n=101)
101,0
Liczebności
faktyczne
teoretyczne
ne
nt
4
2,5
3
5,0
6
10,4
16
16,4
32
20,2
20
19,2
8
14,1
4
8,1
4
3,6
4
1,5
101
zi
−2,68
−2,18
−1,67
−1,16
−0,66
−0,15
0,35
0,86
1,36
1,87
2,38
2,88
Różnice
ne−nt
1,5
−2,0
−4,4
−0,4
11,8
0,8
−6,1
−4,1
0,4
2,5
0,0
101,0
•
(ne−nt)2
(ne−nt)2/nt
2,25
4,00
19,36
0,16
139,24
0,64
37,21
16,81
0,16
6,25
0,90
0,80
1,86
0,01
6,89
0,03
2,64
2,08
0,04
4,17
19,42
połączono dwa pierwsze i dwa
ostatnie przedziały
• odczytujemy χ2tabl = 18,48 dla
α=0,01 i ν = 7 (k=10 po
połączeniu, r=2)
• stwierdzamy, że χ2obl> χ2tabl
• odrzucamy hipotezę, że rozkład
populacji jest rozkładem
normalnym (decyzja obarczona
błędem nie większym niż 0,01)
stwierdzamy, że rozkład szybkości
czytania uczniów różni się istotnie
od rozkładu normalnego
Test nieparametryczny χ2
wyliczanie liczności teoretycznych na podstawie dystrybuanty
•
xi
94
96
98
100
102
104
106
108
110
112
114
116
ni
1
3
3
6
16
32
20
8
4
4
3
1
Razem
101
xi −⎯x
−0,9
−7,6
−5,6
−3,6
−1,6
0,4
2,4
4,4
6,4
8,4
10,4
12,4
zi
−2,43
−1,92
−1,42
−0,91
−0,41
0,10
0,61
1,11
1,62
2,13
2,63
3,14
F(zi)
0,0075
0,0274
0,0778
0,1814
0,3409
0,5398
0,7291
0,8665
0,9474
0,9834
0,9957
1,0000
pt
0,0075
0,0199
0,0504
0,1036
0,1595
0,1989
0,1893
0,1374
0,0809
0,0360
0,0123
0,0043
nt
0,9
2,0
5,1
10,5
16,1
20,1
19,1
13,9
8,2
3,6
1,2
0,5
1,0000
101
połączono dwa pierwsze i dwa ostatnie przedziały
• odczytujemy χ2tabl = 18,48 dla α = 0,01 i ν = 7 (k = 10 po połączeniu, r = 2)
• stwierdzamy, że χ2obl< χ2tabl
• nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym
(decyzja ta jest obarczona błędem nie większym niż 0,01)
stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od
normalnego
rozkładu
29
Testowanie przy użyciu testu Kołmogorowa-Smirnowa
TEST TYLKO DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ!!!
•
dane dzieli się na przedziały klasowe (klasy)
• do sprawdzenia, czy dana próbka może pochodzić z populacji o założonym rozkładzie, używa
się dwu dystrybuant — empirycznej i teoretycznej
• dla każdej klasy określa się wartość obu dystrybuant i określa bezwzględną wartość różnicy
pomiędzy nimi
• znajduje się największą różnicę D i wylicza empiryczną wartość statystyki λ według wzoru
λobl = D n
Test ten jest mniej dokładny niż test χ2 i może dać inny wynik
F(X)
1
dystrybuanta empiryczna
dystrybuanta teoretyczna
największa różnica D
• z tablicy statystyki λ (SKRYPT) odczytuje się wartość
λtabl dla wybranego poziomu ufności
• decyzję o przyjęciu lub odrzuceniu H0 podejmuje
się jak poprzednio
klasy wielkości
X
Przykład cd
xi
94
96
98
100
102
104
106
108
110
112
114
116
Razem
ni
nicum
1
1
3
4
3
7
6 13
16 29
32 61
20 81
8 89
4 93
4 97
3 100
1 101
F(xi)
0,0099
0,0396
0,0693
0,1287
0,2871
0,6040
0,8020
0,8812
0,9208
0,9604
0,9901
1,0000
F(zi)
0,0075
0,0274
0,0778
0,1814
0,3409
0,5398
0,7291
0,8665
0,9474
0,9834
0,9957
1,0000
/F(xi)-F(zi)/
0,0024
0,0122
0,0085
0,0527
0,0538
0,0642
0,0729
0,0147
0,0266
0,0230
0,0056
0,0000
λ obl = D n
= 0,0729*10,05=0,73
101
• z tablicy odczytujemy wartość λtabl = 1,63 dla α = 0,01
• stwierdzamy, że λtabl > λ0bl
• nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym
(decyzja ta jest obarczona błędem nie większym niż 0,01)
stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od
normalnego
rozkładu
30
Testowanie przy użyciu testów serii
test liczby serii
• test długości (najdłuższej) serii
Serię tworzą elementy ułożone w kolejności rosnącej wartości, pochodzące z dwu różnych
populacji: kobiety i mężczyźni (wzrost), ludzie z dwu krajów (spożycie), pracownicy dwu firm
(wydajność).
test liczby serii
H0 — populacje nie różnią się od siebie istotnie
Przykład serii: A B B A A B B B A B
• liczba elementów: 10 (n1=4, n2=6)
• liczba serii: k = 6
kα
Z tablicy testu serii dla n1 i n2 odczytujemy
Lewostronny obszar krytyczny:
Jeżeli
k < kα
P( k ≤ k α ) = α
Jeżeli
odrzucamy H0
k > kα
nie ma podstaw do odrzucenia H0
test długości (najdłuższej) serii
Przykład serii: A B B A A B B B A B
Z tablicy odczytujemy
P( l > l α ) = α
Prawostronny obszar krytyczny:
Jeżeli
l > lα
Jeżeli
l < lα
długość najdłuższej serii: l = 3
lα
odrzucamy H0
nie ma podstaw do odrzucenia H0
Hipotezy parametryczne
•
dotyczą one parametrów populacji generalnej, które oznaczymy ogólnym symbolem θ
• hipoteza zerowa polega na przyjęciu, że nieznane θ jest równe θ0
• weryfikacja prawdziwości tej hipotezy polega na sprawdzeniu, czy wartość θ0 znajduje się w
przedziale ufności parametru θ
Trzy sytuacje przy weryfikacji hipotez
1.
H0 : θ = θ0
H1 : θ ≠ θ0
Przedział przyjęcia H0: —zα/2<zobl< zα/2
Przedziały odrzucenia H0: zobl< — zα/2 oraz zobl> zα/2
czyli |zobl|> zα/2
α/2
α /2
1−α
zα/2
—zα/2
α
1−α
2.
zα
H0 : θ = θ0
H1 : θ > θ0
Przedział przyjęcia H0: zobl< zα
Przedział odrzucenia H0: zobl> zα
31
Hipotezy parametryczne
H1 : θ < θ0
H0 : θ = θ0
3.
Przedział przyjęcia H0: zobl>—zα
Przedział odrzucenia H0: zobl<—zα
α
1−α
z
—zα
Rzeczywisty poziom istotności
α — założony poziom istotności(błąd I rodzaju)
α = 0,05 → ztabl = 1,645
α
1−α
zα
P
P — poziom istotności rzeczywisty
zobl = 2,02 → P = 0,0217
1− P
zobl
HIPOTEZY O ŚREDNIEJ DLA POPULACJI
I. Duża próbka — stosujemy statystykę z [o rozkładzie normalnym N(0;1)]
Pobieramy próbkę i liczymy
lub
zobl =
x − μ0
σx
x − μ0
zobl =
sx
n
σx =
σ
n
sx =
o
s
n
H0: μ=μ0
p
H0: μ = μ0
H0: μ = μ0
H0: μ = μ0
H1: μ ≠ μ0
H1: μ > μ0
H1: μ < μ0
Reguła decyzyjna
|zobl|>zα/2
Odrzucamy H0, jeżeli...
zobl>zα
zobl<—zα
32
II. Mała próbka
— stosujemy statystykę t (o rozkładzie Studenta)
Pobieramy n-elementową próbkę i liczymy
n
t obl =
x − μ0
sx
o
p
H0: μ = μ0
H0: μ = μ0
H0: μ = μ0
H1: μ ≠ μ0
H1: μ > μ0
H1: μ < μ0
Reguła decyzyjna
Odrzucamy H0, jeżeli...
|tobl|>tα/2(n-1)
tobl>tα(n-1)
tobl<tα(n-1)
Przykład 15. W celu sprawdzenia, czy nowy lek jest lepszy od dotych-czasowego, zbadano jego
skuteczność na 6 chorych mierząc współczyn-nik odbudowy czerwonych ciałek krwi: 6,3; 7,8;
8,1; 8,3; 8,7 i 9,4.
Lek używany dotychczas daje 8,3. Sprawdź hipotezę przy poziomie istotności 0,01.
Zakładamy rozkład normalny współczynnika i wybieramy test t.
Parametry próbki: n = 6; ⎯x = 8,1; s = 1,04
Hipotezy: H0: μ = 8,3;
t obl =
H1: μ < 8,3
Statystyka t: t0,01(5)= - 3,365
8,1 − 8, 3
= −0,47
1,04
6
Porównanie: tobl > ttabl
Wniosek: nowy lek z pewnością nie jest lepszy od dotychczasowego
HIPOTEZY O WARIANCJI POPULACJI
•
wariancja jest miarą jakości wyrobów; dla klienta jest ważniejsza
niż średnia
•
stosujemy
•
2
χ 2tabl = χ α
, n −1
zakładamy rozkład normalny populacji
• pobieramy n-elementową próbkę, dla której wyznaczamy s2 i liczymy
n
o
H0: σ2 = σ20
H0: σ2 = σ20
H0: σ2 = σ20
H1: σ2 ≠ σ20
H1: σ2 > σ20
H1: σ2 < σ20
Reguła decyzyjna
χ2obl>χ2α/2
p
( n − 1)s 2
σ02
Odrzucamy H0, jeżeli...
χ2obl>χ2α
χ2obl<χ21- α
χ2obl<χ21-α/2
σ
20
lub
2 =
χobl
Przykład 16. Dla sprawdzenia hipotezy, że wariancja wykonania normy
=12,5(%)2
wylosowano 81-osobową grupę robotników, dla których wariancja równa się 11,4 (%)2. Przyjmij
α=0,10 do zweryfikowania tej hipotezy (przy założeniu, że populacja ma rozkład normalny).
H0: σ2 = 12,5
α /2 = 0,05
H1: σ2 ≠ 12,5
1—α /2 = 0,95
2 =
χobl
NIE MA PODSTAW DO ODRZUCENIA H0
istotnieMOŻE BYĆ 12,5 (%)2
( 80)(11,4)
≅ 73
12,5
χ21- α /2=60,39 χ2 α /2=101,88
WARIANCJA normy dla POPULACJI nie różni się
33
HIPOTEZY O FRAKCJI W POPULACJI w przypadku dużej próby
Stosujemy statystykę z [o rozkładzie normalnym N(0;1)]
Pobieramy próbkę i liczymy
z=
p̂ − po
po q o / n
gdzie qo = 1 − po
p
n
H0: p = p0
o
H0: p = p0
H0: p = p0
H1: p ≠ p0
H1: p > p0
H1: p < p0
Reguła decyzyjna
Odrzucamy H0, jeżeli...
zobl>zα
|zobl|>zα/2
zobl<—zα
Przykład 17. Udział pewnej spółki w rynku bardzo wyraźnie reaguje na nasilenie reklamy –
własnej i konkurencji. Obecnie udział w rynku wynosi 56%. Zarząd spółki chce wiedzieć czy
udział ten zmienił się wskutek ostatniej kampanii reklamowej konkurentów oraz wskutek
nasilenia własnej kampanii reklamowej. W pobranej próbie 500 klientów, 298 nabyło produkt
spółki. Czy są podstawy do wniosku, że udział spółki w rynku nie wynosi już 56%?
Przyjąć poziom istotności 0,01.
z=
p̂ − po
0,596 - 0,56
=
= 1,615
poq o / n
0,56 ⋅ 0,44/500
Wnioskowanie
WNIOSKOWANIE STATYSTYCZNE Z DWU PRÓBEK
Eksperyment statystyczny polega na pobraniu dwu próbek:
• badanej, którą poddaje się działaniu danego czynnika
• kontrolnej, która nie podlega działaniu i służy do porównania
Estymacja różnicy pomiędzy średnimi dwu populacji
• mamy dwie populacje o rozkładzie normalnym lub pobieramy próbki
(o liczebności >30)
• populacje te mają średnie μ1 i μ2 oraz znane wariancje σ21 i σ22
• pobieramy z nich próbki o liczebności n1 i n2, średniej⎯x1 i ⎯x2, oraz wariancji s21 i s22
• interesuje nas nieznana różnica pomiędzy średnimi: μ1—μ2
• mamy do czynienia z estymatorem ⎯x1 —⎯x2, którego błąd oszacowania
σ x1− x2 =
σ 12
2
σ 2( X − Y ) = σ 2( X ) + σ 2(Y )
•górna
−
−
2
x
1
x
σ
2
/
α
z
)
2
x
•dolna
2
x
1
x
σ
2
/
α
z
)
2
x
Granice przedziału ufności dla μ1—μ2:
Gdyż z własności wariancji wynika, że
1 1
x x
( (
σ
+ 2
n1 n2
−
+
−
−
⎛
σ2 σ2
σ2 σ2 ⎞
P ⎜ ( x1 − x2 ) − zα / 2 1 + 2 < μ1 − μ 2 < ( x1 − x 2 ) + zα / 2 1 + 2 ⎟⎟ = 1 − α
⎜
n1 n2
n1 n2
⎝
⎠
2
Jeżeli nie znamy wariancji obu populacji, możemy zastąpić je wariancjami próbek s
1
i s22 ale:
• jeśli rozkłady normalne oraz n1 >30 i n2 >30
• jeśli rozkłady nie normalne oraz n1 >50 i n2 >50
34
TESTOWANIE HIPOTEZ
n
o
p
H0: μ1- μ2 = D0
H0: μ1- μ2 = D0
H0: μ1- μ2 = D0
H1: μ1- μ2 ≠ D0
H1: μ1- μ2 > D0
H1: μ1- μ2 < D0
Reguła decyzyjna
Odrzucamy H0, jeżeli...
|zobl|>zα/2
zobl>zα
zobl =
zobl<—zα
( x1 − x2 ) − D0
s12 s22
+
n1 n2
Przykład 18. Porównujemy dwie metody sprzedaży pewnego towaru, realizowane w dwu
grupach sklepów. Zmienną losową X jest tygodniowa sprzedaż wyrażona w sztukach. Wyznacz
95-procentowy przedział ufności dla rzeczywistej różnicy wielkości sprzedaży dwoma metodami.
Próbka jest duża
I metoda
n1 = 51
II metoda
n2 = 54
⎯x1 = 26,5
⎯x2 = 22,4
s1 = 9,1
s2 = 6,7
• wartość oszacowana różnicy ⎯x1—⎯x2 = 4,1
• błąd oszacowania różnicy
s x1− x2 = 1,567
P ( 1,0 < μ1 − μ 2 < 7 ,2 ) = 0 ,95
TESTOWANIE HIPOTEZ
W przypadku małych próbek, pobranych z populacji o rozkładzie normalnym i o nieznanej wariancji,
rozróżniamy dwa przypadki:
• A — wariancje populacji są sobie równe
• B — wariancje populacji nie są sobie równe
W przypadku A stosujemy statystykę t o (n1+n2—2) stopniach swobody, zaś przedział ufności dla
różnicy średnich jest dany wzorem
P ( x1 − x 2 − tα / 2 s
gdzie
s=
1
1
1
1
+
< μ1 − μ 2 < x1 − x 2 + tα / 2 s
+
) = 1−α
n1 n 2
n1 n 2
( n1 − 1 ) s12 + ( n 2 − 1 ) s 22
n1 + n 2 − 2
Przykład 19. Pewien koncern chemiczny bada zanieczyszczenie powietrza w dwu różnych
miejscowościach (w ciągu kilku dni o ustalonej godzinie):
Próbka jest mała
I miasto
n1 = 8
II miasto
n2 = 11
⎯x1 = 0,23 ppm
⎯x2 = 0,32 ppm
s1 = 0,07 ppm
s2 = 0,12 ppm
• wartość oszacowana różnicy ⎯x1—⎯x2 = —0,09 ppm
• błąd oszacowania różnicy
0,04758
•
t0,025(17) = 2,11
wartość statystyki
• dolna granica przedziału ufności
(—0,09) —(2,11)(0,04758) = —0,19 ppm
• górna granica przedziału ufności (—0,09) + (2,11)(0,04758) = +0,01 ppm
P ( −0 ,19 < μ1 − μ 2 < 0 ,01 ) = 0 ,95
35
TESTOWANIE HIPOTEZ
W przypadku B stosujemy statystykę t’ Fishera-Behrensa
⎛
s2 s2
s2 s2 ⎞
P ⎜ ( x1 − x2 ) − t' 1 + 2 < μ1 − μ 2 < ( x1 − x2 ) + t' 1 + 2 ⎟ = 1 − α
⎜
n1 n2
n1 n2 ⎟
⎝
⎠
'
t = tα / 2 ,ν
ν=
(s12 / n1 + s22 / n2 )2
(s12 / n1 )2 + (s22 / n2 )2
n1 - 1
n2 - 1
Przykład 20. Przedsiębiorstwo rozważa, w której stacji telewizyjnej uloko-wać reklamę. Zbadano
ceny wynegocjowane za 30-sekundowe spoty przez różnych klientów:
Próbka jest mała
I stacja
n1 = 14
II stacja
⎯x1 = 883 zł
n2 = 24
⎯x2 = 247 zł
s1 = 213 zł
s2 = 63 zł
Szef firmy stwierdził, że decyzję podejmie w zależności od tego, czy I stacja jest średnio droższa od II
tylko o 500 zł, czy o więcej. Sprawdź odpowiednie hipotezy przy poziomie istotności 0,05.
H0: μ1—μ2 = 500
tobl =
H0: μ1—μ2 > 500
Jest to przypadek B— stosujemy statystykę t’
tobl = 2,33
t0,05(14) = 1,761
( x1 − x2 ) − 500
s12 s22
+
n1 n 2
Odrzucamy H0 na korzyść H1: stacja I jest średnio droższa od stacji II o co najmniej 500 zł z
prawdopodobieństwem poniżej 0,025 (rzeczywisty poziom istotności).
Wariancje dwu populacji
Wariancja jest wielokrotnie ważniejsza niż średnia
Statystyka Fishera, dana dwoma parametrami: ν1, ν2
F=
f(F)
χ12
ν1
Rozkład F dla α
χ 22
ν2
Liczba stopni
swobody
mianownika
1
2
3
4
5
6
7
8
9
F
Liczba stopni swobody licznika
2
3
4
1
161
200
216
α=0,05
5,12
4,26
3,86
225
19,2
9,12
6,39
5,19
4,53
4,12
3,84
3,63
5
230
19,3
9,01
Tablice rozkładu F −
dla każdego α
oddzielna tablica!
Obszar krytyczny zawsze
prawostronny
3,48
36
Rozkład F dla α
f(F)
Próbki:
n1
n2
s1
s2
α/2 lub α
0
F
Fα/2 lub Fα
Zawsze prawostronny obszr krytyczny testu
Gdy s1 > s2 ν1= n1-1
ν2= n2-1
Fobl =
n
s12
s22
σ1= σ2
σ1= σ2
H1:
σ1≠ σ2
σ1> σ2
Reguła decyzyjna
Odrzucamy H0, jeżeli...
Gdy s1 < s2 ν1= n2-1
ν2= n1-1
Fobl =
o
H0:
Fobl>Fα/2(ν1, ν2)
s22
s12
Fobl>Fα(ν1, ν2)
OBIE ZMIENNE MUSZĄ MIEĆ ROZKŁAD NORMALNY
Przykład
Analityk ma rozstrzygnąć, czy akcje dwóch firm A i B charakteryzują się tym samym ryzykiem
(wariancja miarą ryzyka). Zmienną losową jest cena akcji na kolejnych sesjach giełdy. Wyniki dla
dwu próbek dały następujące wyniki. Rozstrzygnij problem przy poziomie 0,05.
H0: σ 1= σ 2
I: akcje A
n1 = 25
⎯x1 = 4,11 $
H1: σ1≠ σ2
s1 = 1,85 $
Fobl
=(1,85)2/(1,17)2=2,50
II: akcje B n2 = 24
⎯x2 = 3,35 $
s2 = 1,17 $
Ftabl(0,025;24;23)=2,29
Odrzucamy hipotezę zerową. Wariancje populacji nie są sobie równe. Akcje B są mniej
ryzykowne; mniejsze wahania ceny (decyzja z błędem do 0,05).
H0: σ 1= σ 2
Ftabl(0,05;24;23)=2,01
Wniosek jak powyżej
H1: σ 1 > σ 2
Przedział ufności dla stosunku wariancji dwu populacji (???)
1
s12
s2
F1−α / 2(ν 2 ,ν1 ) = 1
dolna granica
2F
2
s2
s2 α / 2(ν1 ,ν 2 )
górna granica
s12
s22
Fα / 2( ν 2 ,ν1 )
W przykładzie 21:
F0,025;24;23=2,29
F0,025;23;24=2,30
1,09<σ21/ σ22<5,75
37
Stosowane symbole
•
•
•
•
•
•
•
•
•
L
T
t
Tt
TL
|TL|
m
mi
mj
liczba klas
drzewo decyzyjne
węzeł drzewa
poddrzewo drzewa T o korzeniu w węźle t
zbiór liści drzewa T
liczba liści drzewa T
liczba przykładów
liczba przykładów, dla których dany atrybut przyjmuje wartość i-tą
liczba przykładów klasy cj
38
Klasyfikacja
jednoetapowa
Podczas całego procesu
decyzyjnego
uwzględniane wszystkie
cechy i klasy.
sekwencyjna
Decyzja rozłożona na szereg
prostszych decyzji;
w różnych etapach
wykorzystywane są różne cechy
i uwzględniane różne podzbiory
klas. Schemat działania
klasyfikatora przedstawia
drzewo decyzyjne
Drzewo decyzyjne
Odległość < 30 km
tak
nie
Pogoda
słonecznie
deszczowo
Działanie klasyfikatora wieloetapowego ilustruje drzewo decyzyjne.
Pojęcia: korzeń drzewa, węzeł wewnętrzny, węzeł końcowy (liść), gałąź, ścieżka.
39
Drzewo decyzyjne
Odległość:
8
Pogoda:
deszczowo
Odległość < 30 km
tak
nie
Pogoda
słonecznie
deszczowo
Zalety drzew decyzyjnych
• szybka klasyfikacja
• zrozumiały proces decyzyjny
• możliwość aproksymacji złożonych powierzchni decyzyjnych
• możliwość stosowania cech różnego typu
• efektywne z punktu widzenia przechowywania w pamięci
40
Wady drzew decyzyjnych
• im więcej klas oraz im bardziej się one nakładają,
tym większe drzewo decyzyjne
• trudno zapewnić jednocześnie wysoką jakość klasyfikacji i
małe rozmiary drzewa
• w węzłach testowany jeden atrybut
• lokalna optymalizacja
• metody nieadaptacyjne
Konstrukcja drzewa decyzyjnego
y
y
B B
A A
A
A BB B
B B
B
B
a1
a1
x
B B
A A
A
A BB B
B B
B
B
a2
x
a3
y < a1
y< a3
tak
nie
B
tak
x < a2
tak
B
x < a1
nie
A
nie
B
tak
B
nie
A
41
Konstrukcja drzew decyzyjnych
Jeden zbiór danych → wiele możliwych drzew
Czym należy się kierować wybierając
(konstruując) drzewo?
Kryteria optymalizacji
Globalne
Lokalne
- średnie prawdopodobieństwo błędu
- średnia długość ścieżki
- liczba węzłów drzewa
- stopień zróżnicowania danych
- przyrost informacji
- współczynnik przyrostu informacji
i inne
42
Zstępująca konstrukcja drzew decyzyjnych
function Konstrukcja_drzewa(P-przykłady,t-węzeł)
if not kryterium_stopu then
podział_węzła t
for i=A to n (n-liczba węzłów potomnych)
Konstrukcja_drzewa(Pi,ti)
else
utworzenie_liścia t
endif
end function
Utworzenie liścia
Do węzła końcowego przypisuje się etykietę tej klasy,
której obrazów najwięcej dociera do tego węzła.
43
Podział węzła - przykłady
A. Cecha porównana z wartością progową (typowe
dla atrybutów ciągłych).
yi > α i
tak
nie
B. Uwzględnione wszystkie możliwe wartości danego
atrybutu (typowe dla atrybutów nominalnych).
yi
yi1
yi2
yik
Podział węzła
Najczęściej reguły decyzyjne budowane są na podstawie
pojedynczych cech źródłowych. Prowadzi to do dzielenia
przestrzeni cech hiperłaszczyznami prostopadłymi do osi cech.
Wybierając cechę można się kierować jedną ze znanych miar, np.
przyrostem informacji, wskaźnikiem przyrostu informacji,
wskaźnikiem zróżnicowania danych itd.
44
Podział węzła w przypadku atrybutów
nominalnych
A. Dla każdego atrybutu yi oblicz wartość wybranej miary.
B. Wybierz atrybut optymalny w sensie powyższej miary.
3. Od danego węzła utwórz tyle gałęzi, ile różnych wartości przyjmuje
atrybut yi.
t
yi1
yi
yi2
t1
t2
yik
tk
Kryteria wyboru atrybutu
• mierzące różnicę między zbiorem przykładów w węźle t a zbiorami
przykładów w węzłach potomnych ze względu na rozkład częstości
klas;
• mierzące różnice między poszczególnymi zbiorami przykładów w
węzłach potomnych ze względu na rozkład częstości klas;
• mierzące statystyczną niezależność między rozkładem klas a
podziałem zbioru przykładów na podzbiory.
45
Kryteria wyboru atrybutu –
przyrost informacji
Przyrost informacji IM (information measure):
IM = H − ∑
j
mj
m
Hj
m ci
m ci
H = ∑−
log 2
m
m
i
y
y1
H1, m1
H, m przykładów
yj
yk
Hj, mj
Hk, mk
Dla każdego atrybutu obliczamy wartość IM i wybieramy
atrybut, dla którego wartość ta jest największa (H nie zależy
od atrybutu, wystarczy porównywać drugi składnik).
Miara IM preferuje atrybuty o dużej liczbie różnych wartości.
Kryteria wyboru atrybutu –
współczynnik przyrostu informacji
Współczynik przyrostu informacji GR (gain ratio):
GR =
IM
m
m
∑j − mj log 2 mj
Dla każdego atrybutu obliczamy wartość GR i wybieramy
atrybut, dla którego wartość ta jest największa.
Miara GR preferuje atrybuty o małej liczbie różnych wartości.
46
Kryteria wyboru atrybutu miara zróżnicowania danych (Gini index)
Stopień zróżnicowania danych:
i=∑
∑ pk p j = 1 − ∑
j k≠ j
j
p 2j
Spadek zróżnicowania:
Δi = i − ∑
j
⎛ mc j
= 1− ∑⎜
j ⎜
⎝ m
mj
m
⎞
⎟
⎟
⎠
2
ij
Dla każdego atrybutu obliczamy Δi i wybieramy
atrybut, dla którego wartość ta jest największa.
Kryteria wyboru atrybutu –
statystyka χB
Statystyka χ2 służy do porównywania rzeczywistych
rozkładów z oczekiwanymi.
χ = ∑∑
2
i
c
(mi j − Eij ) 2
j
mm
Eij = i
m
Eij
cj
Dla każdego atrybutu obliczamy χ2 i wybieramy
atrybut, dla którego wartość ta jest największa.
47
Kryteria wyboru atrybutu
Eksperymenty pokazują że:
• przedstawione kryteria wyboru atrybutu nie wpływają na błąd
klasyfikacji; można otrzymać równie dobre drzewa wybierając
atrybuty w węzłach losowo, ale
• przedstawione miary wpływają na rozmiary skonstruowanego drzewa
(przed przycięciem); drzewa, dla których losowano atrybuty zawierają
około dwa razy więcej węzłów;
• przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa
a za pomocą χ2 największe;
• na błąd klasyfikacji ma wpływ przycinanie drzewa.
Kryterium stopu
Możliwe dwa podejścia:
1.
Przerwanie rozbudowy drzewa, gdy spełniony jest jeden z poniższych
warunków:
–
–
–
2.
liczba błędnie klasyfikowanych obrazów jest mniejsza niż ustalony
próg;
liczba obrazów w węźle jest mniejsza niż ustalony próg;
drzewo osiągnęło maksymalny dopuszczalny rozmiar (maksymalna
liczba węzłów lub maksymalna wysokość).
Zbudowanie drzewa klasyfikującego poprawnie wszystkie lub prawie
wszystkie przykłady, a następnie przycięcie drzewa.
48
Przycinanie drzew
y
B
A
A A
B
A
A
B B
A
B
A
B B
B
B
B
A
x
zlikwidować nadmierne dopasowanie
klasyfikatora do niepoprawnych danych.
Przycinanie drzew
1
poprawność
Cel:
0,8
0,6
zbiór uczący
zbiór testowy
0,4
0,2
0
5
20
40
60
80
liczba węzłów
49
Przycinanie drzew
• Na podstawie oddzielnego zbioru przycinania
• Na podstawie zbioru uczącego
• Wykorzystujące zasadę minimalnej długości kodu
Przycinanie drzew
Większość algorytmów przycinania (reduced error pruning, pessimistic error
pruning, minimum error pruning) opiera się na następującym schemacie:
repeat
przeglądaj węzły wewnętrzne drzewa T
if błąd dla poddrzewa Tt > błąd dla liścia t then
zastąp poddrzewo Tt liściem
przypisz do liścia t etykietę odpowiedniej klasy
end if
until przycinanie zmniejsza błąd
Poszczególne metody różnią się sposobem szacowania błędu oraz kolejnością
przeglądania węzłów drzewa.
50
Przycinanie drzew –
reduced error pruning
•
Błąd szacowany na podstawie odrębnego zbioru przycinania.
•
Węzły przeglądane od dołu.
•
Poddrzewo Tt zastępowane liściem t gdy
error(t) ≤ error(Tt).
•
Procedura powtarzana dopóki dalsze przycinanie nie zwiększa błędu.
•
Zalety: prostota, niski koszt obliczeniowy.
•
Wady: konieczność poświęcenia części danych na przycinanie; czasem drzewo
zostaje przycięte zbyt mocno (zwłaszcza gdy zbiór przycinania jest znacznie
mniejszy niż zbiór uczący).
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
typ
A
B
tak
+
kolor
kolor
+6 -0
wiek
typ
y
+
-
+6 -1
+0 -4
A
4
5
1
czarny
11
B
tak
+
2
biały
23
B
tak
-
3
czarny
22
A
nie
-
4
czarny
18
B
nie
+
5
czarny
15
B
tak
-
6
biały
27
B
nie
+
typ
czarny
Klasa
nie
czarny
biały
biały
Zbiór przycinania
kolor
y
A
typ
A
B
-
+
-
+0 -6
+5 -1
3
+0 -9
6
B
+
-
+7 -2
+A -5
B
51
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
typ
y
A
+
+6 -0
B
tak
kolor
kolor
czarny
+
-
+6 -1
+0 -4
A
4
5
A
4
+6 -5
5
+
typ
czarny
biały
biały
nie
A
typ
-
+
-
+0 -6
+5 -1
3
+0 -9
6
B
A
+
-
+7 -2
+1-5
B
B
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
A
+
4 +AB -5
5
typ
y
A
+
+6 -0
B
nie
tak
A
4
+6 -5
5
+
kolor
typ
czarny
biały
A
typ
A
B
-
+
-
+0 -6
+5 -1
3
+0 -9
6
B
+
-
+7 -B
+1 -5
B
52
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
A
+
4 +12 -5
5
y
nie
tak
kolor
typ
czarny
biały
A
typ
+
+8 -7
B
A
B
-
+
-
+0 -6
+5 -1
3
+0 -9
6
B
+
-
+7 -2
+1 -5
B
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
A
+
4 +12 -5
5
y
nie
tak
kolor
czarny
biały
A
typ
A
-
typ
B
-
+
-
+0 -6
+5 -1
3
+0 -9
6
B
+
-
+7 -2
+1 -5
B
+5 -10
3
6
53
Przycinanie drzew –
reduced error pruning, przykład
wiek
≥ 20
< 20
+
y
+12 -5
tak
nie
-
kolor
biały
czarny
-
typ
A
+5 -10
+0 -6
B
+
-
+7 -2
+1 -5
Przycinanie drzew –
pessimistic error pruning
•
Błąd szacowany na podstawie zbioru uczącego.
•
Węzły przeglądane od korzenia.
•
Poddrzewo Tt o korzeniu w węźle t zastępowane liściem gdy
error’(t) ≤ error’(Tt) + SE(error’(Tt))
error’(t) = error(t) + ½
error’(Tt) = error(Tt) + ½|TtL|
SE(error’(Tt)) = [error’(Tt)(m(t) - error’(Tt)) / m(t)]½.
54
Przycinanie drzew –
minimum error pruning
•
Błąd szacowany na podstawie zbioru uczącego.
•
Węzły przeglądane od dołu.
•
Poddrzewo Tt zastępowane liściem gdy
error(t) < error(Tt)
error (t ) = min{[ m(t ) − m ci (t ) + (1 − Pi )k ] /[m(t ) + k ]}
ci
error (Tt ) = ∑
ts
m(ts )
error (ts )
m(t )
Pi – prawdopodobieństwo a priori klasy ci
ts – następniki węzła t
•
Wada: konieczność doboru parametru k określającego wpływ
prawdopodobieństwa a priori klas.
Przycinanie drzew –
critical value pruning
•
Węzły przeglądane od dołu.
•
Poddrzewo Tt jest zastępowane liściem gdy
CV(t) < CVmin oraz CV(ts) < CVmin (ts – następniki węzła t)
CV(t) – wartość, jaką przyjmuje kryterium wyboru atrybutu zastosowane przy
konstrukcji drzewa (np. przyrost informacji)
CVmin – progowa wartość kryterium
•
Niekiedy tworzy się wiele drzew odpowiadających różnym wartościom CVmin a
następnie wybiera jedno z nich.
55
Przycinanie drzew –
cost-complexity pruning
•
Generowana jest rodzina poddrzew T0, T1 ...Tk pierwotnego drzewa: drzewo
Ti+1 powstaje z Ti po przycięciu gałęzi, dla których następująca wartość jest
najmniejsza:
α = (errror(t) – error(Tt)) / (|TtL| - 1).
•
Spośród wygenerowanych drzew wybrane zostaje to, dla którego błąd jest
najmniejszy (błąd oszacowany na podstawie odrębnego zbioru danych lub w
procesie walidacji krzyżowej).
Brakujące wartości atrybutów
• Przyczyny: parametr nie został zmierzony, nie podano
odpowiedzi w kwestionariuszu itp.
• Trudności podczas uczenia (nieznany atrybut przykładu ze zbioru
uczącego)
– przy obliczaniu wartości kryterium wyboru atrybutu,
– przy kierowaniu przykładu do odpowiedniej gałęzi.
• Trudności podczas klasyfikacji (nieznany atrybut nowego
przykładu).
56
Brakujące wartości atrybutów
Przykład:
•
•
•
•
•
A00 przykładów w zbiorze uczącym
3 atrybuty: kolor∈{czarny, biały}, wiek∈<0,A00>, typ∈{A, B}
dla dwóch przykładów nieznana wartość atrybutu kolor:
przykład PA <?, 24, A> ∈ c1
przykład PB <?, 11, B> ∈ c2
dla 40 przykładów kolor = biały
(B0 należących do klasy c1, 20 do c2)
dla 58 przykładów kolor = czarny
(43 należących do klasy c1, 25 do c2)
Brakujące wartości podczas wybieranie
atrybutu
A. Pomijanie
przykłady o nieznanych wartościach danego atrybutu są
usuwane ze zbioru uczącego; niezbyt dobre efekty
(zwłaszcza gdy dużo przykładów zostaje usuniętych)
57
Brakujące wartości podczas wybieranie
atrybutu
B. Redukcja
funkcja oceny atrybutu obliczona na podstawie przykładów o
znanych wartościach i pomnożona przez stosunek liczby
przykładów o znanym atrybucie do liczby wszystkich
przykładów
Rozwiązanie:
1.
2.
Liczymy IM(kolor) uwzględniając tylko 98
przykładów
IM(kolor) ← 0,98 * IM(kolor)
Brakujące wartości podczas wybieranie
atrybutu
3. Wypełnienie
brakujące wartości są uzupełniane
a) najczęściej występującą wartością danego atrybutu w całym zbiorze przykładów
Rozwiązanie a):
kolor(PA) = czarny (58>40)
kolor(PB) = czarny (58>40)
b) najczęściej występującą wartością wśród przykładów tej samej klasy
Rozwiązanie b):
kolor(PA) = czarny
kolor(PB) = biały
c) wartością ustaloną na podstawie wartości pozostałych atrybutów (np.
wykorzystując naiwny klasyfikator bayesowski)
Rozwiązanie c):
stosujemy np. naiwny klasyfikator bayesowski wyznaczający prawdopodobieństwa:
P(kolor=biały|wiek=24,typ=A) = 0,B5
kolor(PA) = czarny
P(kolor=czarny|wiek=24,typ=A) = 0,75
P(kolor=biały|wiek=11,typ=B) = 0,4
P(kolor=czarny|wiek=11,typ=B) = 0,6
kolor(PB) = czarny
58
Brakujące wartości podczas wybieranie
atrybutu
4. Podział
zastąpienie przykładu z nieznanym atrybutem przykładami ułamkowymi (dla
każdej możliwej wartości atrybutu jest to stosunek liczby przykładów z taką
wartością do liczby wszystkich przykładów w zbiorze uczącym); ułamki te
uwzględnia się podczas obliczania wartości kryterium wyboru atrybutu
Rozwiązanie:
PA = <?, 24, A>
⇒
PAA = <biały, 24, A>
PAB = <czarny, 24, A>
40/A00
58/A00
PB = <?, 11, B>
⇒
PBA = <biały, 11, B>
PBB = <czarny, 22, B>
40/A00
58/A00
przy sumowaniu przykładów podczas obliczania np. IM dla przykładu PAA i
PBA dodajemy 4/A0, dla PAB i PBB dodajemy 58/A00 (dla przykładów o
znanych wartościach cech dodajemy A)
Brakujące atrybuty podczas kierowania
przykładu do jednej z gałęzi
1.
Pomijanie
2.
Wypełnianie
3.
Podział
4.
Losowanie – przykład skierowany do
gałęzi wybranej losowo z
prawdopodobieństwem proporcjonalnym
do liczby znanych przykładów
skierowanych do tej gałęzi
5.
Oddzielna gałąź – od węzła, w którym
testowany jest nieznany atrybut
tworzona jest dodatkowa gałąź
kolor
biały
40/98
czarny
58/98
kolor
?
biały
czarny
59
Brakujące atrybuty podczas klasyfikacji
A. Odzielna gałąź
<kolor=?, wiek=24, typ=A, y=tak>
jeśli dla brakującej wartości
utworzono oddzielną gałąź, to
przykład przechodzi do tej gałęzi
wiek
≥ 20
< 20
typ
y
A
B
tak
+
kolor
kolor
biały
biały
czarny
+
nie
typ
?
A
czarny
-
-
typ
A
B
+
+
-
B
+
-
Brakujące atrybuty podczas klasyfikacji
B. Zatrzymanie
<kolor=?, wiek=24, typ=A, y=tak>
wiek
proces klasyfikacji zatrzymany;
podana zostaje klasa
większościowa przykładów
związanych z węzłem, w
A
którym zatrzymano proces
≥ 20
< 20
typ
y
+8 –A3
⇓
klasa -
B
+
kolor
+6 -0
kolor
biały
biały
typ
czarny
czarny
+
-
+6 -1
+0 -4
nie
tak
A
typ
A
B
-
+
-
+0 -6
+5 -1
+0 -9
B
+
-
+7 -2
+1 -5
60
Brakujące atrybuty podczas klasyfikacji
3. Wypełnienie
brakujący atrybut wypełniony wartością zgodnie z jedną z
metod wypełniania i klasyfikowany w zwykły sposób
Brakujące atrybuty podczas klasyfikacji
4. Klasyfikacja probabilistyczna
<kolor=?, wiek=24, typ=A, y=tak>
Uwzględniane wszystkie gałęzie (wszystkie
możliwe wartości atrybutu) prowadzące do
różnych liści; klasa ustalana na podstawie
< 20
prawdopodobieństw osiągnięcia
poszczególnych liści oszacowanych na
typ
podstawie zbioru uczącego
wiek
≥ 20
y
A
B
tak
+
kolor
kolor
+6 -0
typ
czarny
biały
biały
czarny
+
-
+6 -1
+0 -4
nie
A
typ
A
9/BA > 6/BA
⇓
+
klasa +
+7 -2
B
-
+
-
+0 -6
+5 -1
+0 -9
B
+1 -5
61
Dyskretyzacja atrybutów ciągłych
Cel: zastąpienie ciągłych wartości oryginalnego atrybutu
atrybutem o wartościach dyskretnych, odpowiadających
pewnym przedziałom.
•Korzyści:
zwiększenie efektywności obliczeniowej
• zwiększenie prostoty i czytelności hipotez
• poprawa dokładności hipotez (unikanie nadmiernego
dopasowania)
Rodzaje dyskretyzacji
• metody prymitywne i zaawansowane (zstępujące lub
wstępujące)
• metody lokalne i globalne
• metody z nauczycielem i bez nauczyciela
62
Prymitywne metody dyskretyzacji
A. według równej szerokości
yi
B. według równej częstości
yi
Są to metody globalne, bez nauczyciela.
Prymitywne metody dyskretyzacji
Wady:
• nie jest uwzględniany rozkład wartości atrybutów i klas w
zbiorze uczącym
• konieczność określania liczby przedziałów dyskretyzacji
Zalety:
• łatwość implementacji
• niski koszt obliczeniowy
63
Metody zaawansowane –
dyskretyzacja zstępująca
function Dyskretyzacja_zstępująca(P-przykłady, a-atrybut)
if kryterium_stopu then
return Ø
próg = wybór_progu(P,a)
progi_A = Dyskretyzacja_zstępująca(Pa≤próg,a)
progi_B = Dyskretyzacja_zstępująca(Pa>próg,a)
return {próg} ∪ progi_A ∪ progi_B
end function
Funkcja zwraca zbiór wartości progowych dzielących przedział
zmienności danego atrybutu.
Dyskretyzacja zstępująca – wybór progu
Dobra dyskretyzacja powinna
1. mieć dobre własności dyskryminacyjne – powinna
dobrze rozróżnić przykłady różnych klas;
2. generować możliwie mało przedziałów.
64
Dyskretyzacja zstępująca – wybór progu
Ważona entropia zbioru przykładów ze względu na podział zakresu wartości
atrybutu a za pomocą wartości progowej próg:
ma ≤ próg
H a , próg =
m
H a ≤ próg = ∑ −
ci
H a ≤ próg +
maci≤ próg
ma ≤ próg
ma > próg
m
H a > próg
maci≤ próg
log 2
ma ≤ próg
Im wyraźniejsza dominacja pewnych klas, tym mniejsza wartość Ha,próg.
Obliczamy H dla progów wybranych między każdymi dwiema kolejnymi wartościami
atrybutu a i wybieramy próg, dla którego wartość Ha,próg jest najmniejsza.
Dyskretyzacja zstępująca – wybór progu
Ha,pB
pB
Ha,p4
p4
Ha,p6
p6
Ha,p8
p8
Ha,pA0
p10
Ha,p12
p12
Ha,p14
p14
a
pA
Ha,pA
p3
Ha,p3
p5
Ha,p5
p7
Ha,p7
p9
Ha,p9
p11
Ha,p11
p13
Ha,p13
Wybieramy pi, dla którego wartość Ha,pi jest najmniejsza.
Ha,p10
p10
a
Dla dwóch powstałych przedziałów powtarzamy procedurę szukania progu.
65
Dyskretyzacja zstępująca – kryterium stopu
Przyrost informacji wynikający z podziału wartości atrybutu a za pomocą
progu próg:
ΔH (a, próg ) = H − H a , próg
H = ∑−
ci
m ci
m
log 2
m ci
m
entropia przed podziałem
Dalsze dzielenie przedziału należy przerwać gdy ΔH ≤ 0.
Dodatkowe kryteria stopu:
• Liczba przedziałów osiągnęła maksymalną wartość;
• Liczba przykładów w przedziale osiągnęła minimalną wartość.
Dyskretyzacja zstępująca – kryterium stopu
a
a
a
a
a1 a2 a3
a4
a5
a6
a7
66
Metody zaawansowane –
dyskretyzacja wstępująca
function Dyskretyzacja_wstępująca(P-przykłady, a-atrybut)
Z = zbiór przedziałów zawierających po jednej
wartości atrybutu a
repeat
zA,zB = wybór_sąsiednich_przedziałów(P,a,Z)
Z = Z – {zA,zB} ∪ {zA ∪ zB}
until kryterium_stopu(Z)
end function
Funkcja zwraca zbiór przedziałów dyskretyzacji atrybutu a.
Dyskretyzacja wstępująca – łączenie
przedziałów
Statystyka χB określająca różnicę między kandydującymi do połączenia przedziałami
zA i zB ze względu na rozkład klas:
χ
2
z1, z 2
(mzc1i − ezc1i )2
(mzci2 − ezci2 ) 2
=∑
+∑
ezc1i
ezci2
ci
ci
ezc1i = mz1
mzc1i ∪ z 2
mz1∪ z 2
ezci2 = mz 2
mzc1i ∪ z 2
mz1∪ z 2
Im bardziej podobny rozkład częstości klas w przedziałach, tym mniejsza wartość χB.
Obliczamy χ2 dla każdej pary sąsiednich przedziałów i łączymy przedziały, dla
których wartość χ2 jest najmniejsza.
67
Dyskretyzacja wstępująca – łączenie
przedziałów
χ2z2,z3
zA
zB
χ2z4,z5
z3
z4
z5
a
χ2z2,z2
χ2z3,z4
Łączymy przedziały zi oraz zj, dla których wartość χ2zi,zj jest najmniejsza.
a
Dyskretyzacja wstępująca – kryterium stopu
Dalszego łączenia przedziałów należy zaniechać, gdy:
1. wartość statystyki χ2 przekracza pewien ustalony próg
(przedziały zbyt się różnią ze względu na rozkład klas);
2. liczba pozostałych przedziałów osiągnęła minimalną
ustaloną wartość (w praktyce między 5 a 15).
68
Mniej typowe rozwiązania stosowane podczas
• Stosowanie
wielu atrybutów
w węzłach
drzewa
konstrukcji
drzew
decyzyjnych
• Inkrementacyjna konstrukcja drzew
• Stosowanie globalnych kryteriów optymalizacji
• Zastosowanie drzew do aproksymacji
Mniej typowe rozwiązania –
wiele cech w węzłach
(przykładowe rozwiązanie dla cech ciągłych)
x – wektor cech
dTx < α
tak
nie
d – wektor dyskryminacyjny wyznaczony na podstawie kryterium Fishera
α - wartość progowa
Reguła decyzyjna zbudowana jest na podstawie
kombinacji liniowej cech źródłowych.
69
Mniej typowe rozwiązania –
wiele cech w węzłach
0123456789
Drzewo oddzielające w każdym węźle jedną klasę
012345679
8
01234579
6
0123457
9
7
012345
4
01235
5
0123
012
12
1
3
0
2
Mniej typowe rozwiązania –
wiele cech w węzłach
0123456789
Drzewo dzielące w każdym węźle klasy na grupy
78
7
469
8
69
6
01234569
035
4
03
9
0
01235
5
12
1
2
3
70
Przykłady zastosowań drzew decyzyjnych klasyfikacja
Metoda
• Rozpoznawanie rodzaju gleby na zdjęciach
satelitarnych
• 6 klas (red soil, cotton crop, grey soil, damp grey
soil, veg. Stubble, very damp grey soil)
• 4435 przykładów w zbiorze uczącym i 2000 w
zbiorze testowym
• 36 cech (po 4 zdjęcia o wym. 3×3 dla każdego
fragmentu terenu)
Poprawność
[%]
CART
86,2
NewID
85,0
C4.5
85,0
Cal5
84,9
Sekw. kl.
Fishera
84,4
ACB
84,3
Przykłady zastosowań drzew decyzyjnych –
inżynieria oprogramowania
• Klasyfikacja modułów oprogramowania; wykrywanie modułów
zawierających znaczną liczbę błędów; przewidywanie przed
implementacją czy moduł będzie zawierał znaczną liczbę błędów.
• A6 systemów od 3000 do 112000 linii kodu (Fortran); 4700 modułów;
32% kodu z poprzednich wersji.
• 74 atrybuty opisujące nakład pracy na napisanie danego fragmentu,
zmiany, styl projektowania, styl programowania, rozmiary, złożoność
itd.
• Kryterium wybory atrybutu: przyrost informacji.
• Kryterium stopu: najwyżej N% przykładów w liściu jest
klasyfikowanych błędnie.
71
Przykłady zastosowań drzew decyzyjnych –
rozpoznawanie obrazów
• Rozpoznawanie chińskich znaków: 3155 klas, 31550 przykładów w
zbiorze uczącym, 9345 w zbiorze testowym.
• Cechy wygenerowano na podstawie histogramów oraz transformacji
Walsh’a; liczba cech wynosiła 64.
• Do wyboru cech użyto miary uwzględniającej wariancje
poszczególnych klas oraz całego zbioru danych (wzdłuż wektorów
określających poszczególne cechy).
• Kryterium stopu: próg błędu.
• Najdłuższa ścieżka od korzenia do liścia wynosiła 20, średnia długość
ścieżki wynosiła 10.
• Osiągnięto poprawność ok. 99%.
Liniowa Analiza Dyskryminacyjna
Rozważmy zbiór obiektów z których każdy jest opisywany przez wektor cech x
przy czym dla każdego obiektu znana jest jego przynależność do klasy y. Taki
zbiór obserwacji nazywany jest zbiorem uczącym. Problem klasyfikacji polega na
znalezieniu dobrego predyktora klasy y dla każdej obserwacji (nie koniecznie
pochodzącej ze zbioru uczącego). Predyktor ma się opierać tylko i wyłącznie o
obserwacje x.
Podejście LDA bazuje na założeniu, że funkcje gęstości prawdopodobieństwa
p⎛⎜ x y = 1⎞⎟
⎝
⎠
p⎛⎜ x y = 0 ⎞⎟
⎝
⎠
mają rozkłady normalne i jednakową kowariancję Σy = 0 = Σy = 1 = Σ
Można pokazać, że wymagane prawdopodobieństwo
jest zależne tylko od iloczynu skalarnego
gdzie:
w=
∑
−1
(μ − μ )
1
( )
p yx
w⋅ x
0
Oznacza to, że prawdopodobieństwo, że wejściowe x będzie należało do klasy y jest
funkcją liniowej kombinacji jego znanych cech
72
Metody ilościowe
• Analiza dyskryminacyjna
Funkcję dyskryminacyjną można określić wzorem:
Z = W1 X 1 + W2 X 2 + ... + Wn X n
gdzie:
Z – wartość funkcji dyskryminacyjnej
Wi – wagi i-tej zmiennej (np. wskaźników finansowych)
Xi – zmienne objaśniające modelu
Analiza dyskryminacyjna
Y
X
73
Download