GEOSTATYSTYKA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Paleogeografii i Geoekologii Wydział Nauk Geograficznych i Geologicznych UAM Notacja i terminologia 1 • Cecha – fizyczna właściwość (parametr) oznaczana kursywą małą literą np. z lub s. Cechy ciągłe takie jak np. stężenia, są oznaczane na skali ilościowej , cechy kategoryzowane mogą przybierać określoną, limitowaną ilość wartości, zazwyczaj nie mających charakteru porządkowego np. typ skał czy kategoria użytkowania terenu • Zmienna – jest oznaczana kursywą i duża literą np. Z lub S i oznacza zbiór wartości lub stanów cechy z lub s, które mogą występować na analizowanym obszarze lub w punkcie o wektorze współrzędnych u. W tym wypadku oznaczane zmienna jest oznaczana Z(u) lub S(u). Notacja i terminologia 1 • Obiekt – Cecha jest określana (mierzona) na fizycznej próbce, jak na przykład okruch skały, czy rdzeń glebowy itp. W przypadku analizy eksploracyjnej nieprzestrzennej (bez uwzględniania lokalizacji) o próbce mówimy obiekt. We wszystkich innych sytuacjach każda próbka jest związana ze ścisłą lokalizacją miejsca jej poboru, które określamy u • Populacja – jest zdefiniowana jako zbiór wszystkich pomiarów interesującej nas cechy, które mogą być dokonane w obrębie obszaru badań. Skończona ilość pomiarów, która dysponujemy to próbka lub podzbiór. Notacja i terminologia 1 • Parametr – to stała wartość (nie losowa) charakteryzująca model, na przykład wariancja nuggetowa semiwariogramu, lub średnia rozkładu funkcji prawdopodobieństwa na podstawie której modelujemy teoretyczny histogram • Statystyka – jest to wielkość charakteryzująca rozkład, która może dotyczyć jednej lub większej ilości cech, i/lub jednej lub większej ilości lokalizacji w przestrzeni. Jednozmienna, dwuzmienna lub wielozmienna statystyka jest związana z charakterystyką jednej, dwóch lub wielu cech. Terminy statystyka jednopunktowa, dwupunktowa lub wielopunktowa są stosowane są stosowane kiedy odnosi się ona do tej samej cechy w jednej, dwóch lub wielu lokalizacjach. Na przykład współczynnik korelacji jest statystyka dwuzmienną, podczas gdy semiwariogram – dwupunktową. Krossemiwariogram jest statystyką dwuzmienną i dwupunktową, ponieważ uwzględnia dwie różne cechy zarejestrowane w dwóch odmiennych lokalizacjach. Przestrzenna eksploracyjna analiza danych • Wykresy rozrzutu jednej zmiennej z przesunięciem (hscattergram) • Miary ciągłości i zmienności przestrzennej zmiennych ilościowych – – – – Funkcja kowariancji Korelogram Semiwariogram Anizotropia miar ciągłości i zmienności przestrzennej • Miary ciągłości i zmienności przestrzennej zastosowane do zmiennych kategoryzowanych • Struktura przestrzenna analizowanych danych satelitarnych – Anizotropia przestrzenna – Wpływ wartości ekstremalnych – Interpretacja struktury zmienności przestrzennej Statystyczne miary zmienności jednej zmiennej: wariancja i odchylenie standardowe n 1 z m n 1 2 2 Statystyczne miary zmienności dwóch zmiennych: kowariancja i współczynnik korelacji 1 n ij zi mi z j m j n 1 ij ij i j 1,1 Wykres rozrzutu XY i miary relacji dwóch zmiennych w tych samych lokalizacjach A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 100 m Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 200 m A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Idea porównania wartości cechy tej samej cechy w różnych lokalizacjach dla nieregularnego układu punktów pomiarowych – przedział odległości u+h „ogon” tail u „głowa” head Wykresy rozrzutu jednej zmiennej z przesunięciem (h-scattergram) Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 4522,5m Średnia odległość 17,645m 400 380 Ilość par punktów: 74 Kowariancja: 81,715 Korelacja: 0,66685 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 326,12 Wariancja dla z(): 122.54 Średnia dla z(+45): 326,12 Wariancja dla z(+45): 122.54 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 45-90m Średnia odległość 51,381m 400 380 Ilość par punktów: 640 Kowariancja: 63,037 Korelacja: 0,4354 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 326,26 Wariancja dla z(): 144.78 Średnia dla z(+45): 326,26 Wariancja dla z(+45): 144.78 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 90-135m Średnia odległość 92,41m 400 380 Ilość par punktów: 1048 Kowariancja: 51,472 Korelacja: 0,31496 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,75 Wariancja dla z(): 163.43 Średnia dla z(+45): 327,75 Wariancja dla z(+45): 163.43 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 135-180m Średnia odległość 136,27m 400 380 Ilość par punktów: 1472 Kowariancja: 33,667 Korelacja: 0,20181 b1_03b (x+h) 360 340 320 300 280 280 300 320 360 340 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,91 Wariancja dla z(): 166.83 Średnia dla z(+45): 327,91 Wariancja dla z(+45): 166.83 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 225-270m Średnia odległość 226,47m 400 380 Ilość par punktów: 2304 Kowariancja: 12,211 Korelacja: 0,078558 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,71 Wariancja dla z(): 155.44 Średnia dla z(+45): 327,71 Wariancja dla z(+45): 155.44 Dane cechy b1_03b ze zbioru Horbye3.dat 400 380 b1_03b (x+h) 360 400 400 380 380 340 320 360 b1_03b (x+h) b1_03b (x+h) 360 340 320 280 280 300 320 340 360 b1_03b (x) 380 280 280 400 400 400 380 380 360 360 340 320 300 300 300 320 340 360 b1_03b (x) 380 400 300 320 340 360 b1_03b (x) 380 400 300 320 340 360 b1_03b (x) 380 400 340 320 280 280 300 320 340 360 b1_03b (x) 380 400 300 b1_03b (x+h) b1_03b (x+h) 340 320 300 280 280 300 280 280 17,6m 51,4m 92,4m 136,3m 181,3m 226,5m 270,4m 0,667 0,435 0,315 0,202 0,170 0,079 0,075 Funkcja kowariancji Autokowariancja przestrzenna 1 C (h) z u z u h m-h m+h N h 1 N h Średnia wartości podzbioru ogona (tail values) 1 m-h N (h) N (h ) z (u ) 1 Średnia wartości podzbioru głowy (head values) 1 m+h N (h) Eksperymentalna funkcja autokowariancji = eksperymentalna funkcja kowariancji N (h ) z (u h) 1 Funkcja kowariancji Autokowariancja – C(h) 80 60 40 20 0 -20 0 100 200 300 400 500 Odstęp – h (m) 600 700 Korelogram Autokorelacja przestrzenna (h) 1 N (h) N (h ) 1 N (h) N (h ) 2 -h 2 +h C (h) 2 -h z u m 1 [1, 1] 2 +h -h 2 Wariancja wartości podzbioru „ogona” z u h m 1 +h 2 Wariancja wartości podzbioru „głowy” Eksperymentalna funkcja autokorelacji = korelogram Korelogram Autokorelacja – (h) 0.6 0.4 0.2 0 -0.2 0 100 200 300 400 500 Odstęp – h (m) 600 700 Semiwariogram Semiwariancja empiryczna: połowa średniej kwadratu różnic wartości cechy w lokalizacjach odległych o wektor h. Miara średniego niepodobieństwa (różnicy) Interpretacja geometryczna: moment bezwładności wokół pierwszego bisektora wykresu rozrzutu z przesunięciem (h-scaterplot) 1 (h) 2 N (h) 2 Wariancja wartości N (h ) z (u ) z(u h) podzbioru „ogona” 1 2 2 1 N (h ) 2 1 N (h ) d z ( u ) z u h cos 45 N (h) N (h) 1 1 2 1 N (h ) z (u ) z u h (h) 2 N (h) 1 Eksperymentalna funkcja semiwariancji = semiwariogram Semiwariogram kt or para próbek nr 1 bi s te z(u+h) z(u +h) d d z(u ) z(u h) cos 45 z(u ) z(u) Semiwariogram Semiwariancja – (h) 160 120 80 40 0 0 100 200 300 400 500 Odstęp – h (m) 600 700 Właściwości semiwariogramu – chmura semiwariogramu (variogram cloud) (|h|) 44644 pairs on plot 4500 4000 3500 3000 2500 2000 1500 1000 500 0 10 90 170 250 330 410 |h| 490 570 650 730 Właściwości semiwariogramu 2 1 N (h ) (h) z (u ) z (u h) 2 N (h) 1 wariancja próby semiwariancja progowa = sill Semiwariancja – (h) 160 120 zasięg autokorelacji = range 80 semiwariancja nuggetowa = nugget 40 0 0 100 200 300 400 500 Odstęp – h (m) 600 700 Właściwości semiwariogramu Gringarten, Deutsch 2001 Właściwości semiwariogramu Tak jak inne statystyki typu wariancji, wartości kowariancji i semiwariogramu są bardzo czułe na występowanie danych ekstremalnych – potencjalnie błędnych. Stosuje się trzy sposoby aby ten problem rozwiązać: • Transformację matematyczną danych (logarytmowanie, pierwiastkowanie itp.) , aby zredukować skośność ich histogramu, • Usuwanie par danych, które zaburzają wartość semiwariancji dla określonych odstępów h. Procedura ta zwana jest czyszczeniem wykresu rozrzutu z przesunięciem („hscattergram cleansing”). • Używanie innych statystyk h-scattergramu, które są mniej czułe na występowanie danych ekstremalnych. Mapa lokalizacyjna 1000 Y-m 800 600 400 200 0 0 200 400 600 X-m 800 1000 1200 910 Czyszczenie wykresu rozrzutu z przesunięciem 840 770 b1_03b (x+h) 700 (|h|) (|h|) 9000 180 2700 8000 160 2400 7000 140 2100 6000 120 1800 5000 100 1500 4000 80 1200 3000 60 900 2000 40 600 1000 20 300 0 00 0 630 560 490 420 350 280 280 350 420 490 560 630 700 770 840 910 b1_03b (x) 0 80 80 80 160 240 320 400 480 560 640 720 160 240 320 400 480 560 640 720 720 640 560 480 400 320 240 160 |h| |h| |h| Semiwariogram zmodyfikowany Semiwariogram do potęgi : 1 (h) 2N dla N (h ) 1 z (u ) z (u h) 0, 2 = 2 – tradycyjny semiwariogram = 1 – madogram = ½ – rodogram Semiwariogram zmodyfikowany madogram M(|h|) M(|h|) 18 10 16 14 8 12 6 10 8 4 6 24 2 00 00 80 80 160 160 240 240 320 400 320 400 |h| |h| 480 480 560 560 640 640 720 720 Anizotropia struktury przestrzennej Wysokość W rzeczywistych układach przestrzennych różnica wartości cechy zależy nie tylko od odległości, ale także od kierunku Teoria + pomiar = precyzyjna prognoza Odległość Anizotropia struktury przestrzennej Dwa sposoby obliczania kierunkowych miar ciągłości/zmienności przestrzennej Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Anizotropia geometryczna i Anizotropia strefowa Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Anizotropia struktury przestrzennej – powierzchnia wariogramu zmienna b1_03b Dwuwymiarowy obraz powierzchni wariogramu próbki i populacji Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b Trójwymiarowy obraz powierzchni wariogramu populacji i próbki Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b Wariogramy kierunkowe zmiennej b1_03b Wykres czerwony – kierunek maksymalnej ciągłości: kąt 320° Wykres czarny – kierunek minimalnej ciągłości: kąt 60°