wielowymiarowa analiza porównawcza (wap) - XP

advertisement
WIELOWYMIAROWA ANALIZA PORÓWNAWCZA
(WAP)
WAP - zbiór metod służących do wykrywania prawidłowości w
zbiorowościach obiektów, które opisywane są przez
stosunkowo liczne zestawy ich własności.
WAP:
- metody taksomomiczne (A. R. Fisher)
- analiza czynnikowa (L. L. Thurston)
METODY TAKSONOMICZNE
Metody taksomomiczne: metody klasyfikacji obiektów opisywanych
przez wiele ich właściwości. Klasyfikacja obejmuje zarówno
porządkowanie zbioru obiektów jak i ich grupowanie w podzbiory
jednostek podobnych do siebie ze względu na charakteryzujące je
właściwości oraz wybór reprezentantów otrzymanych grup obiektów.
Przedmiot klasyfikacji – obiekty, które mogą być jednostkami
przestrzeni, zmiennymi lub jednostkami
czasu.
Przestrzeń klasyfikacji – właściwości obiektów, czyli wartości 2
pozostałych elementów, które mogą być
przedmiotem klasyfikacji.
Przesłanki klasyfikacji zbiorów:
1. Zredukowanie dużej ilości nagromadzonych informacji do kilku
podstawowych kategorii, które mogą być traktowane jako
przedmiot dalszej analizy.
2. Otrzymanie jednorodnych grup obiektów, ze względu na
charakteryzujące je właściwości, co ułatwia ustalenie ich
zasadniczych właściwości.
3. Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie
rozważań do najbardziej typowych zjawisk, procesów i kategorii.
Odległość (podobieństwo) obiektów: odległość (podobieństwo)
między punktami reprezentującymi obiekty w wielowymiarowej
przestrzeni, której wymiar jest określony przez liczbę właściwości
tych obiektów.
PODZIAŁ METOD TAKSONOMICZNYCH
ZE WZGLĘDU NA CEL PROWADZONEGO BADANIA
1. Metody porządkujące badane obiekty:
a) uporządkowanie
liniowe
wielowymiarowej na prostą,
b) uporządkowanie nieliniowe wielowymiarowej na płaszczyznę.
rzutowanie
rzutowanie
przestrzeni
przestrzeni
2. Metody grupowania badanych obiektów:
a) metody grupowania bezpośredniego - uzyskanie wynikowego
grupowania obiektów bez przesuwania tych obiektów między
grupami na kolejnych etapach grupowania,
b) metody grupowania iteracyjnego - wstępny podział na grupy
obiektów, wybór funkcji kryterium "dobroci" grupowania,
wybór zasady przesuwania obiektów pomiędzy grupami aby
uzyskiwać coraz większą "dobroć" grupowania, ustalenie
reguły kończącej iterację.
3. Metody wyboru reprezentantów obiektów oraz zmiennych
diagnostycznych:
a) opierające się na macierzy odległości,
b) opierające się na macierzy korelacji.
4. Metody konstrukcji agregatowych zmiennych diagnostycznych:
a) opierające się na dystansie względem punktu wzorcowego,
b) nie wymagające definiowania punktu wzorcowego.
ETAPY BADANIA
WYKORZYSTUJĄCEGO METODY TAKSONOMICZNE
1. Sformułowanie celu analizy (wstępnych hipotez badawczych).
2. Określenie zakresu merytorycznego, terytorialnego i czasowego
badań, a w szczególności wyspecyfikowanie elementów zbioru
obiektów oraz zbioru cech wyjściowych.
3. Zebranie kompletnych i adekwatnych danych statystycznych:
- ustalenie źródeł danych i zebranie danych źródłowych,
- doprowadzenie danych do wzajemnej porównywalności,
- eliminacja obserwacji o anormalnych poziomach,
- interpolacja brakujących informacji,
- wyznaczenie zmiennych przetworzonych (udziałów
procentowych, współczynników dynamiki, wskaźników
ekonomicznych itp.).
4. Analiza statystyczna danych wejściowych:
- wyznaczenie i analiza parametrów opisowych rozkładu (miary
przeciętne, miary dyspersji, miary asymetrii, miary koncentracji),
- ocena stopnia i kierunku współzależności między zmiennymi
wyjściowymi.
5. Dobór optymalnego podzbioru zmiennych diagnostycznych:
- wyeliminowanie zmiennych quasi - stałych,
- analiza struktury macierzy korelacji,
- ustalenie końcowej listy zmiennych.
6. Porządkowanie i grupowanie obiektów w ramach analizowanych
układów zmiennych:
- wybór metody klasyfikacji,
- ustalenie miar odległości (podobieństwa),
- określenie sposobu normalizacji i agregacji zmiennych,
- klasyfikacja obiektów za pomocą wybranej metody.
7. Analiza i interpretacja wyników, sformułowanie wniosków
końcowych.
PRZEDMIOT I PRZESTRZEŃ KLASYFIKACJI
ORAZ CELE BADAŃ TAKSONOMICZNYCH
Przedmiot klasyfikacji definiuje się jako przeliczalny zbiór elementów
(obiektów)  dowolnej natury.
Przestrzeń klasyfikacji określa się jako zbiór własności , które
charakteryzują elementy zbioru .
Cel badań taksonomicznych może być realizowany w jednym z trzech
zadań taksonomicznych:
1.
zadanie podziału zbioru 
2.
zadanie porządkowania zbioru 
3.
zadanie wyboru elementu (lub elementów zbioru )
ELEMENTY MODELI TAKSONOMICZNYCH
1. zbiór obiektów   {1 ,...,  m } - stanowią one przedmiot
klasyfikacji
2. zbiór charakterystyk   1 ,...,  n  - stanowią one przestrzeń
klasyfikacji
3. zbiór grup S{S1 ,..., S p } - niepusty podzbiór zbioru Si   
spełniający warunki
rozłączności:
a)
Si S j  
b)
i 
j; i, j  1,..., p 
zupełności:
p
 Si  
i 1
4. zbiór kryteriów (reguł)
K  {k1,..., kq }
-
kryteria klasyfikacji ki opierają się na funkcji odległości
przyporządkowującej każdej parze elementów i ,  j  miarę
ich wzajemnej odległości (lub podobieństwa),
-
ki jest funkcjonałem określonym na zbiorze wszystkich możliwych
podzbiorów zbioru  i mierzącym stopień jednorodności
wewnętrznej poszczególnych podzbiorów oraz stopień
niejednorodności pomiędzy wyróżnionymi podzbiorami.
5. zbiór mierników efektywności E  E1 ,..., Er  - służą do pomiaru
strat związanych z podejmowaniem błędnych decyzji
klasyfikacyjnych
ZADANIA TAKSONOMICZNE
1. Porządkowanie obiektów (, , K0 , E0 ) - porządkowanie
obiektów zbioru  ze względu na zbiór charakterystyk  za
pomocą ustalonego algorytmu K0 o efektywności E0.
2. Grupowanie obiektów [, , K0 , E0 / S ] - podział obiektów zbioru
 ze względu na zbiór charakterystyk  , za pomocą ustalonego
algorytmu K0 o efektywności E0, na klasy ze zbioru S.
3. Grupowanie zmiennych [, , K0 , E0 / S ] - podział zmiennych
(charakterystyk) tworzących zbiór  w przestrzeni obiektów , za
pomocą algorytmu K0 o efektywności E0, na klasy ze zbioru S.
4. Wybór reprezentantów grup obiektów , , K0 , E0 / S
5. Wybór reprezentantów grup zmiennych , , K 0 , E0 / S
6. Wybór algorytmu klasyfikacyjnego obiektów , , K0 , E0 / K
7. Wybór algorytmu klasyfikacyjnego zmiennych , , K 0 , E0 / S
8. Wybór miernika poprawności
obiektów , , K0 , E0 / S
algorytmu
klasyfikacyjnego
9. Wybór miernika poprawności
zmiennych , , K 0 , E0 / E
algorytmu
klasyfikacyjnego
MODELE ZAGADNIEŃ TAKSONOMICZNYCH
Elementy składowe struktur gospodarczych:
Y  y1 , y2 ,..., ym
 - zbiór obiektów jako elementów struktury
przestrzennej
Z  z1 , z 2 ,..., z n
 - zbiór cech jako elementów struktury
merytorycznej
T  t1, t2 ,..., tk  - zbiór jednostek czasu jako elementów struktury
czasowej
PRZYKŁAD STRUKTURY GOSPODARCZEJ
Badaniem objęto 5 przedsiębiorstw pewnej branży w latach 19901999. Uzyskano informacje dotyczące wielkości produkcji,
zatrudnienia oraz wartości środków trwałych.
Y  y1 , y2 ,..., y5  - obiekty (przedsiębiorstwa)
Z  z1 , z 2 , z3
 - cechy (w. p., z., w. ś. t.)
T  t1, t2 ,..., t10  - jednostki czasu (lata)
Zagadnienie taksonomiczne: relacje określające sposób tworzenia
zbioru operacyjnych jednostek taksonomicznych  oraz przestrzeni
klasyfikacji  z elementów zbiorów obiektów (Y), cech (Z) oraz
jednostek czasu (T).
PODZIAŁ ZAGADNIEŃ TAKSONOMICZNYCH
- TYPY MODELI
A
Zagadnienia proste - przedmiot klasyfikacji: poszczególne
zbiory Y, Z lub T
A 1 Grupowanie obiektów

grupowanie obiektów jednocechowych w jednej jednostce czasu:
Y , zt 

grupowanie obiektów jednocechowych dotyczące odcinka czasu
Y , Zt 

np. Y , z1t2 

np. Y , z1 , z2 , z3 t1

grupowanie obiektów jednocechowych dotyczące odcinka czasu
Y , zT 




np. Y , z2  z1 , z2 , z3  t1 , t2 ..., t10 
A 2 Periodyzacja

periodyzacja rozwoju obiektu jednocechowego:
T , zy

periodyzacja rozwoju obiektu wielocechowego:
T , Zy


np. T , z1 , z2 , z3  y2

periodyzacja rozwoju obiektów jednocechowych:
T , zY 

np. T , z1 y3 


np. T , z1 y1 , y2 ,..., y5 
periodyzacja rozwoju obiektów wielocechowych:
T , ZY 

np. T , z1z3 


 y1, y2 , y3 

A 3 Wybór cech diagnostycznych


klasyfikacja cech dla jednego obiektu w jednej jednostce czasu:
np.  Z , y2t4 
 Z , yt 
klasyfikacja cech dla jednego obiektu w odcinku czasowym:


 Z , yT 

np. Z , y3t3t4t5 
klasyfikacja cech dla zbioru obiektów w jednej jednostce czasu:
 Z ,Yt 

np. Z , y1 y2 y3 t2

klasyfikacja cech dla zbioru obiektów w okresie czasu:
Z ,YT 


np. Z , y1 y2 y3  t1t2t3 


Zagadnienia złożone - przedmiot klasyfikacji: iloczyny
kartezjańskie zbiorów Y, Z, T
B
np.
ZY  Z  Y   z1 y1, z2 y1 ,..., zn y1 , z1 y2 ,..., zn y2 ,..., z1 ym ,..., zn ym
Yt1  Y  t1   y1t1, y2t1,..., ymt1
B 1 Klasyfikacja w przestrzeni cech

periodyzacja i grupowanie obiektów jednocechowych
YT , z
np. YT , z1 
periodyzacja i grupowanie obiektów wielocechowych
YT , Z 


np. YT , z1z2 z3 
a) priorytet przestrzeni

b) priorytet czasu
grupowanie obiektów dla każdej jednostki czasu  k-elementowy
ciąg zagadnień Y , Zt , t T :
 y : t  Y , t T
rozwiązujemy zagadnienie:
T ,  
y
B 2 Klasyfikacja w przestrzeni obiektów
periodyzacja i klasyfikacja (grupowanie) cech dla pojedynczych
obiektów:
ZT , y
np.  ZT , y2 
periodyzacja i klasyfikacja (grupowanie) cech dla zbiorów obiektów:

ZT ,Y 

np. ZT , y1 , y2 , y3 
a) priorytet czasu
b) priorytet cech

B3
Klasyfikacja w przestrzeni czasu
klasyfikacja (wybór) cech i wybór obiektów w danej jednostce
czasu:
YZ , t 
np. YZ , t2 
klasyfikacja (wybór) cech i wybór obiektów w okresie czasu:
YZ , T 


np. YZ ,t1 , t2 , t3 , t4 , t5 
a) priorytet cech
b) priorytet obiektów
C
Zagadnienia kompleksowe - przedmiot klasyfikacji: iloczyn
kortezjański zbiorów Y, Z, T

łączne porządkowanie obiektów, cech oraz jednostek czasu:
YZT 




np.  y1 , y2 , y3   z1 , z2 , z3  t1 , t2 , t3 , t4 , t5 
1. OKREŚLENIE CHARAKTERU ZMIENNYCH
a) stymulanty  X S  - zmienne, których wysokie wartości są
pożądane z punktu widzenia ogólnej charakterystyki badanego
zjawiska
b) destymulanty  X D  - zmienne, których wysokie wartości są
niepożądane z punktu widzenia ogólnej charakterystyki badanego
zjawiska
c) nominanty  X N  - zmienne, których odchylenia od poziomu
normalnego są niepożądane z punktu widzenia ogólnej
charakterystyki badanego zjawiska
2. NORMALIZACJA ZMIENNYCH
Cele normalizacji:
a) doprowadzenie
różnoimiennych
cech
porównywalności (postulat addytywności),
do
wzajemnej
b) ujednolicenie charakteru zmiennych, przez przekształcenie
destymulant w stymulanty lub odwrotnie (postulat jednolitej
preferencji),
c) wyeliminowanie
dodatniości),
z
obliczeń
wartości
ujemnych
(postulat
d) zastąpienie zróżnicowania zakresów zmienności poszczególnych
cech zakresem stałym (postulat stałości rozstępu lub stałości
wartości ekstremalnych).
Ad a) Ogólna formuła realizująca postulat addytywności
zi


xi  A p

i  1,..., n
B
standaryzacja
x x
zi  i
S x 
A  x , B  S  x ,
p 1
xi
S x 
x
zi  i
x
zi 

przekształcenie ilorazowe
x
zi  n
 xi
i 1
A  0, B   xi ,
zi 
xij
min xij
p 1
; min xij  0
i
i
zi 
xij
max xij
; max xij  0
i
i

unitaryzacja
xi
zi 
xmax  xmin
A  0, B  xmax  xmin ,
xi  x
zi 
xmax  xmin
x  xmin
zi  i
xmax  xmin
Ad. b)
p 1
 xi' dla x  X S 
x  '
 i  1,..., n

x
dla
x

X
 D
 i
"
Ad c)
 
 
 xi" , gdy min xij"  0

i, j
xi'''   "
"
x


,
gdy
min
x
0
i
ij

i, j
 i  1,..., n; j  1,2,..., m
gdzie:
 
1
5
 
   min xij"  S x"
ij
3. BUDOWA MACIERZY OBSERWACJI
 x11 x12 ,..., x1 j ,..., x1m 


..........
..........
..........


X   xi1 xi 2 ,..., xij ,..., xim 


.......... .......... ........ 


x
x
,...,
x
,...,
x
n
1
m
2
nj
nm


gdzie: xij - wartość j-tej zmiennej w i-tym obiekcie
4. STANDARYZACJA
OBSERWACJI
ZMIENNYCH
 z11 z12 ,..., z1 j ,..., z1m 


..........
..........
.........


Z   zi1 zi 2 ,..., zij ,..., zim 


.......... .......... ........ 


z
z
,...,
z
,...,
z
nj
mn 
 n1 n 2
5. BUDOWA MACIERZY ODLEGŁOŚCI
W
MACIERZY
0d12 ... d1k ... d1m 
d 0... d ... d 
2k
2m 
 21
.........................


d
d
...
d
...
d
D   i1 i 2 ik im 
.........................


d
d
...
0
...
d
km 
 k1 k 2
.........................


d
d
...
d
...
0
 m1 m2 mk

gdzie:
dik - odległość i-tego obiektu od k-tego obiektu
własności:
dii  0
dik  d k i
dik  d ip  d pk
FORMUŁY MIERNIKÓW ODLEGŁOŚCI
MIĘDZY OBIEKTAMI
a) odległość Euklidesa
1
2
m
d ik    zij  zkj 2 
 j 1

 i, k  1,..., n
b) odległość miejska (Hamminga)
m
 i, k  1,..., n
dik   zij  zkj
j 1
c) maksymalna różnica
 i, k  1,..., n
dik  max zij  zkj
j
z2
z2
b
b
b
a
a
c
d
a
c
z1
d
z1
z1
c
d) odległość Mahalanobisa:
d
1
2
m m
d ik    xij  xkj  xil  xkl s jl 
 j 1 l 1

i, k  1,..., n 
gdzie sjl jest jl-tym elementem macierzy odwrotnej do macierzy
kowariancji.
e) odległość kątowa:
m
 xij xk j
d ik 
j 1
1
2
i, k  1,..., n 
m 2 m 2
  xij  xk j 
 j 1 j 1 
FORMUŁY
ZMIENNYMI
MIERNIKÓW
ODLEGŁOŚCI
MIĘDZY
1.
Obliczanie współczynników korelacji
a) cechy mierzalne:

współczynnik korelacji liniowej
n
rjl 


 xij  x j  xil  xl 
i 1
 
nS x j  S  xl 
 j, l  1,..., m
b) cechy niemierzalne:

współczynnik Spearmana
6 di2
R jl  1  3
n n
gdzie:
di - odległość  j , l  1,..., m między rangami zmiennych "j" i "l" w itym obiekcie.

współczynnik zbiorowości Czuprowa
Tjl 

2


m m 1 m 1
'
''
 j, l  1,..., m
gdzie:
  
2
l' j'



n

n
 j 'l '
j 'l ' 



n j 'l '
2



n

n
 j 'l '
j 'l ' 


gdzie: n j 'l ' - liczba obiektów (empiryczna) posiadających j'-tą
odmianę zmiennej "j" oraz l'-tą odmianę zmiennej "l"
2. Mierniki odległości oparte na podobieństwie zmiennych
a) miara Z. Hellwiga
d jl  1  rjl
 j, l  1,..., m
b) miara T. Grabińskiego, S. Wydymusa, A. Zeliasia (szkoła
krakowska)
d jl  1  rjl2
Czy można jako miarę odległości zmiennych (taksonomicznego
podobieństwa zmiennych) przyjąć odległość Euklidesa?

miara Euklidesa
n
2
d jl   zij  zil  
 i1


zależność
między
1
2
 j, l  1,..., m
miarą
odległości
 
współczynnikiem korelacji rjl

d jl  2 1  rjl
dla

1
2
rjl  1 (doskonała korelacja ujemna)
d jl  2 (maksymalna odległość)
Euklidesa
d jl 
oraz
Download