WIELOWYMIAROWA ANALIZA PORÓWNAWCZA (WAP) WAP - zbiór metod służących do wykrywania prawidłowości w zbiorowościach obiektów, które opisywane są przez stosunkowo liczne zestawy ich własności. WAP: - metody taksomomiczne (A. R. Fisher) - analiza czynnikowa (L. L. Thurston) METODY TAKSONOMICZNE Metody taksomomiczne: metody klasyfikacji obiektów opisywanych przez wiele ich właściwości. Klasyfikacja obejmuje zarówno porządkowanie zbioru obiektów jak i ich grupowanie w podzbiory jednostek podobnych do siebie ze względu na charakteryzujące je właściwości oraz wybór reprezentantów otrzymanych grup obiektów. Przedmiot klasyfikacji – obiekty, które mogą być jednostkami przestrzeni, zmiennymi lub jednostkami czasu. Przestrzeń klasyfikacji – właściwości obiektów, czyli wartości 2 pozostałych elementów, które mogą być przedmiotem klasyfikacji. Przesłanki klasyfikacji zbiorów: 1. Zredukowanie dużej ilości nagromadzonych informacji do kilku podstawowych kategorii, które mogą być traktowane jako przedmiot dalszej analizy. 2. Otrzymanie jednorodnych grup obiektów, ze względu na charakteryzujące je właściwości, co ułatwia ustalenie ich zasadniczych właściwości. 3. Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie rozważań do najbardziej typowych zjawisk, procesów i kategorii. Odległość (podobieństwo) obiektów: odległość (podobieństwo) między punktami reprezentującymi obiekty w wielowymiarowej przestrzeni, której wymiar jest określony przez liczbę właściwości tych obiektów. PODZIAŁ METOD TAKSONOMICZNYCH ZE WZGLĘDU NA CEL PROWADZONEGO BADANIA 1. Metody porządkujące badane obiekty: a) uporządkowanie liniowe wielowymiarowej na prostą, b) uporządkowanie nieliniowe wielowymiarowej na płaszczyznę. rzutowanie rzutowanie przestrzeni przestrzeni 2. Metody grupowania badanych obiektów: a) metody grupowania bezpośredniego - uzyskanie wynikowego grupowania obiektów bez przesuwania tych obiektów między grupami na kolejnych etapach grupowania, b) metody grupowania iteracyjnego - wstępny podział na grupy obiektów, wybór funkcji kryterium "dobroci" grupowania, wybór zasady przesuwania obiektów pomiędzy grupami aby uzyskiwać coraz większą "dobroć" grupowania, ustalenie reguły kończącej iterację. 3. Metody wyboru reprezentantów obiektów oraz zmiennych diagnostycznych: a) opierające się na macierzy odległości, b) opierające się na macierzy korelacji. 4. Metody konstrukcji agregatowych zmiennych diagnostycznych: a) opierające się na dystansie względem punktu wzorcowego, b) nie wymagające definiowania punktu wzorcowego. ETAPY BADANIA WYKORZYSTUJĄCEGO METODY TAKSONOMICZNE 1. Sformułowanie celu analizy (wstępnych hipotez badawczych). 2. Określenie zakresu merytorycznego, terytorialnego i czasowego badań, a w szczególności wyspecyfikowanie elementów zbioru obiektów oraz zbioru cech wyjściowych. 3. Zebranie kompletnych i adekwatnych danych statystycznych: - ustalenie źródeł danych i zebranie danych źródłowych, - doprowadzenie danych do wzajemnej porównywalności, - eliminacja obserwacji o anormalnych poziomach, - interpolacja brakujących informacji, - wyznaczenie zmiennych przetworzonych (udziałów procentowych, współczynników dynamiki, wskaźników ekonomicznych itp.). 4. Analiza statystyczna danych wejściowych: - wyznaczenie i analiza parametrów opisowych rozkładu (miary przeciętne, miary dyspersji, miary asymetrii, miary koncentracji), - ocena stopnia i kierunku współzależności między zmiennymi wyjściowymi. 5. Dobór optymalnego podzbioru zmiennych diagnostycznych: - wyeliminowanie zmiennych quasi - stałych, - analiza struktury macierzy korelacji, - ustalenie końcowej listy zmiennych. 6. Porządkowanie i grupowanie obiektów w ramach analizowanych układów zmiennych: - wybór metody klasyfikacji, - ustalenie miar odległości (podobieństwa), - określenie sposobu normalizacji i agregacji zmiennych, - klasyfikacja obiektów za pomocą wybranej metody. 7. Analiza i interpretacja wyników, sformułowanie wniosków końcowych. PRZEDMIOT I PRZESTRZEŃ KLASYFIKACJI ORAZ CELE BADAŃ TAKSONOMICZNYCH Przedmiot klasyfikacji definiuje się jako przeliczalny zbiór elementów (obiektów) dowolnej natury. Przestrzeń klasyfikacji określa się jako zbiór własności , które charakteryzują elementy zbioru . Cel badań taksonomicznych może być realizowany w jednym z trzech zadań taksonomicznych: 1. zadanie podziału zbioru 2. zadanie porządkowania zbioru 3. zadanie wyboru elementu (lub elementów zbioru ) ELEMENTY MODELI TAKSONOMICZNYCH 1. zbiór obiektów {1 ,..., m } - stanowią one przedmiot klasyfikacji 2. zbiór charakterystyk 1 ,..., n - stanowią one przestrzeń klasyfikacji 3. zbiór grup S{S1 ,..., S p } - niepusty podzbiór zbioru Si spełniający warunki rozłączności: a) Si S j b) i j; i, j 1,..., p zupełności: p Si i 1 4. zbiór kryteriów (reguł) K {k1,..., kq } - kryteria klasyfikacji ki opierają się na funkcji odległości przyporządkowującej każdej parze elementów i , j miarę ich wzajemnej odległości (lub podobieństwa), - ki jest funkcjonałem określonym na zbiorze wszystkich możliwych podzbiorów zbioru i mierzącym stopień jednorodności wewnętrznej poszczególnych podzbiorów oraz stopień niejednorodności pomiędzy wyróżnionymi podzbiorami. 5. zbiór mierników efektywności E E1 ,..., Er - służą do pomiaru strat związanych z podejmowaniem błędnych decyzji klasyfikacyjnych ZADANIA TAKSONOMICZNE 1. Porządkowanie obiektów (, , K0 , E0 ) - porządkowanie obiektów zbioru ze względu na zbiór charakterystyk za pomocą ustalonego algorytmu K0 o efektywności E0. 2. Grupowanie obiektów [, , K0 , E0 / S ] - podział obiektów zbioru ze względu na zbiór charakterystyk , za pomocą ustalonego algorytmu K0 o efektywności E0, na klasy ze zbioru S. 3. Grupowanie zmiennych [, , K0 , E0 / S ] - podział zmiennych (charakterystyk) tworzących zbiór w przestrzeni obiektów , za pomocą algorytmu K0 o efektywności E0, na klasy ze zbioru S. 4. Wybór reprezentantów grup obiektów , , K0 , E0 / S 5. Wybór reprezentantów grup zmiennych , , K 0 , E0 / S 6. Wybór algorytmu klasyfikacyjnego obiektów , , K0 , E0 / K 7. Wybór algorytmu klasyfikacyjnego zmiennych , , K 0 , E0 / S 8. Wybór miernika poprawności obiektów , , K0 , E0 / S algorytmu klasyfikacyjnego 9. Wybór miernika poprawności zmiennych , , K 0 , E0 / E algorytmu klasyfikacyjnego MODELE ZAGADNIEŃ TAKSONOMICZNYCH Elementy składowe struktur gospodarczych: Y y1 , y2 ,..., ym - zbiór obiektów jako elementów struktury przestrzennej Z z1 , z 2 ,..., z n - zbiór cech jako elementów struktury merytorycznej T t1, t2 ,..., tk - zbiór jednostek czasu jako elementów struktury czasowej PRZYKŁAD STRUKTURY GOSPODARCZEJ Badaniem objęto 5 przedsiębiorstw pewnej branży w latach 19901999. Uzyskano informacje dotyczące wielkości produkcji, zatrudnienia oraz wartości środków trwałych. Y y1 , y2 ,..., y5 - obiekty (przedsiębiorstwa) Z z1 , z 2 , z3 - cechy (w. p., z., w. ś. t.) T t1, t2 ,..., t10 - jednostki czasu (lata) Zagadnienie taksonomiczne: relacje określające sposób tworzenia zbioru operacyjnych jednostek taksonomicznych oraz przestrzeni klasyfikacji z elementów zbiorów obiektów (Y), cech (Z) oraz jednostek czasu (T). PODZIAŁ ZAGADNIEŃ TAKSONOMICZNYCH - TYPY MODELI A Zagadnienia proste - przedmiot klasyfikacji: poszczególne zbiory Y, Z lub T A 1 Grupowanie obiektów grupowanie obiektów jednocechowych w jednej jednostce czasu: Y , zt grupowanie obiektów jednocechowych dotyczące odcinka czasu Y , Zt np. Y , z1t2 np. Y , z1 , z2 , z3 t1 grupowanie obiektów jednocechowych dotyczące odcinka czasu Y , zT np. Y , z2 z1 , z2 , z3 t1 , t2 ..., t10 A 2 Periodyzacja periodyzacja rozwoju obiektu jednocechowego: T , zy periodyzacja rozwoju obiektu wielocechowego: T , Zy np. T , z1 , z2 , z3 y2 periodyzacja rozwoju obiektów jednocechowych: T , zY np. T , z1 y3 np. T , z1 y1 , y2 ,..., y5 periodyzacja rozwoju obiektów wielocechowych: T , ZY np. T , z1z3 y1, y2 , y3 A 3 Wybór cech diagnostycznych klasyfikacja cech dla jednego obiektu w jednej jednostce czasu: np. Z , y2t4 Z , yt klasyfikacja cech dla jednego obiektu w odcinku czasowym: Z , yT np. Z , y3t3t4t5 klasyfikacja cech dla zbioru obiektów w jednej jednostce czasu: Z ,Yt np. Z , y1 y2 y3 t2 klasyfikacja cech dla zbioru obiektów w okresie czasu: Z ,YT np. Z , y1 y2 y3 t1t2t3 Zagadnienia złożone - przedmiot klasyfikacji: iloczyny kartezjańskie zbiorów Y, Z, T B np. ZY Z Y z1 y1, z2 y1 ,..., zn y1 , z1 y2 ,..., zn y2 ,..., z1 ym ,..., zn ym Yt1 Y t1 y1t1, y2t1,..., ymt1 B 1 Klasyfikacja w przestrzeni cech periodyzacja i grupowanie obiektów jednocechowych YT , z np. YT , z1 periodyzacja i grupowanie obiektów wielocechowych YT , Z np. YT , z1z2 z3 a) priorytet przestrzeni b) priorytet czasu grupowanie obiektów dla każdej jednostki czasu k-elementowy ciąg zagadnień Y , Zt , t T : y : t Y , t T rozwiązujemy zagadnienie: T , y B 2 Klasyfikacja w przestrzeni obiektów periodyzacja i klasyfikacja (grupowanie) cech dla pojedynczych obiektów: ZT , y np. ZT , y2 periodyzacja i klasyfikacja (grupowanie) cech dla zbiorów obiektów: ZT ,Y np. ZT , y1 , y2 , y3 a) priorytet czasu b) priorytet cech B3 Klasyfikacja w przestrzeni czasu klasyfikacja (wybór) cech i wybór obiektów w danej jednostce czasu: YZ , t np. YZ , t2 klasyfikacja (wybór) cech i wybór obiektów w okresie czasu: YZ , T np. YZ ,t1 , t2 , t3 , t4 , t5 a) priorytet cech b) priorytet obiektów C Zagadnienia kompleksowe - przedmiot klasyfikacji: iloczyn kortezjański zbiorów Y, Z, T łączne porządkowanie obiektów, cech oraz jednostek czasu: YZT np. y1 , y2 , y3 z1 , z2 , z3 t1 , t2 , t3 , t4 , t5 1. OKREŚLENIE CHARAKTERU ZMIENNYCH a) stymulanty X S - zmienne, których wysokie wartości są pożądane z punktu widzenia ogólnej charakterystyki badanego zjawiska b) destymulanty X D - zmienne, których wysokie wartości są niepożądane z punktu widzenia ogólnej charakterystyki badanego zjawiska c) nominanty X N - zmienne, których odchylenia od poziomu normalnego są niepożądane z punktu widzenia ogólnej charakterystyki badanego zjawiska 2. NORMALIZACJA ZMIENNYCH Cele normalizacji: a) doprowadzenie różnoimiennych cech porównywalności (postulat addytywności), do wzajemnej b) ujednolicenie charakteru zmiennych, przez przekształcenie destymulant w stymulanty lub odwrotnie (postulat jednolitej preferencji), c) wyeliminowanie dodatniości), z obliczeń wartości ujemnych (postulat d) zastąpienie zróżnicowania zakresów zmienności poszczególnych cech zakresem stałym (postulat stałości rozstępu lub stałości wartości ekstremalnych). Ad a) Ogólna formuła realizująca postulat addytywności zi xi A p i 1,..., n B standaryzacja x x zi i S x A x , B S x , p 1 xi S x x zi i x zi przekształcenie ilorazowe x zi n xi i 1 A 0, B xi , zi xij min xij p 1 ; min xij 0 i i zi xij max xij ; max xij 0 i i unitaryzacja xi zi xmax xmin A 0, B xmax xmin , xi x zi xmax xmin x xmin zi i xmax xmin Ad. b) p 1 xi' dla x X S x ' i 1,..., n x dla x X D i " Ad c) xi" , gdy min xij" 0 i, j xi''' " " x , gdy min x 0 i ij i, j i 1,..., n; j 1,2,..., m gdzie: 1 5 min xij" S x" ij 3. BUDOWA MACIERZY OBSERWACJI x11 x12 ,..., x1 j ,..., x1m .......... .......... .......... X xi1 xi 2 ,..., xij ,..., xim .......... .......... ........ x x ,..., x ,..., x n 1 m 2 nj nm gdzie: xij - wartość j-tej zmiennej w i-tym obiekcie 4. STANDARYZACJA OBSERWACJI ZMIENNYCH z11 z12 ,..., z1 j ,..., z1m .......... .......... ......... Z zi1 zi 2 ,..., zij ,..., zim .......... .......... ........ z z ,..., z ,..., z nj mn n1 n 2 5. BUDOWA MACIERZY ODLEGŁOŚCI W MACIERZY 0d12 ... d1k ... d1m d 0... d ... d 2k 2m 21 ......................... d d ... d ... d D i1 i 2 ik im ......................... d d ... 0 ... d km k1 k 2 ......................... d d ... d ... 0 m1 m2 mk gdzie: dik - odległość i-tego obiektu od k-tego obiektu własności: dii 0 dik d k i dik d ip d pk FORMUŁY MIERNIKÓW ODLEGŁOŚCI MIĘDZY OBIEKTAMI a) odległość Euklidesa 1 2 m d ik zij zkj 2 j 1 i, k 1,..., n b) odległość miejska (Hamminga) m i, k 1,..., n dik zij zkj j 1 c) maksymalna różnica i, k 1,..., n dik max zij zkj j z2 z2 b b b a a c d a c z1 d z1 z1 c d) odległość Mahalanobisa: d 1 2 m m d ik xij xkj xil xkl s jl j 1 l 1 i, k 1,..., n gdzie sjl jest jl-tym elementem macierzy odwrotnej do macierzy kowariancji. e) odległość kątowa: m xij xk j d ik j 1 1 2 i, k 1,..., n m 2 m 2 xij xk j j 1 j 1 FORMUŁY ZMIENNYMI MIERNIKÓW ODLEGŁOŚCI MIĘDZY 1. Obliczanie współczynników korelacji a) cechy mierzalne: współczynnik korelacji liniowej n rjl xij x j xil xl i 1 nS x j S xl j, l 1,..., m b) cechy niemierzalne: współczynnik Spearmana 6 di2 R jl 1 3 n n gdzie: di - odległość j , l 1,..., m między rangami zmiennych "j" i "l" w itym obiekcie. współczynnik zbiorowości Czuprowa Tjl 2 m m 1 m 1 ' '' j, l 1,..., m gdzie: 2 l' j' n n j 'l ' j 'l ' n j 'l ' 2 n n j 'l ' j 'l ' gdzie: n j 'l ' - liczba obiektów (empiryczna) posiadających j'-tą odmianę zmiennej "j" oraz l'-tą odmianę zmiennej "l" 2. Mierniki odległości oparte na podobieństwie zmiennych a) miara Z. Hellwiga d jl 1 rjl j, l 1,..., m b) miara T. Grabińskiego, S. Wydymusa, A. Zeliasia (szkoła krakowska) d jl 1 rjl2 Czy można jako miarę odległości zmiennych (taksonomicznego podobieństwa zmiennych) przyjąć odległość Euklidesa? miara Euklidesa n 2 d jl zij zil i1 zależność między 1 2 j, l 1,..., m miarą odległości współczynnikiem korelacji rjl d jl 2 1 rjl dla 1 2 rjl 1 (doskonała korelacja ujemna) d jl 2 (maksymalna odległość) Euklidesa d jl oraz