GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział Nauk Geograficznych i Geologicznych UAM Notacja i terminologia 1 • Cecha – fizyczna właściwość (parametr) oznaczana kursywą małą literą np. z lub s. Cechy ciągłe takie jak np. stężenia, są oznaczane na skali ilościowej , cechy kategoryzowane mogą przybierać określoną, limitowaną ilość wartości, zazwyczaj nie mających charakteru porządkowego np. typ skał czy kategoria użytkowania terenu • Zmienna – jest oznaczana kursywą i duża literą np. Z lub S i oznacza zbiór wartości lub stanów cechy z lub s, które mogą występować na analizowanym obszarze lub w punkcie o wektorze współrzędnych u. W tym wypadku oznaczane zmienna jest oznaczana Z(u) lub S(u). Notacja i terminologia 1 • Obiekt – Cecha jest określana (mierzona) na fizycznej próbce, jak na przykład okruch skały, czy rdzeń glebowy itp. W przypadku analizy eksploracyjnej nieprzestrzennej (bez uwzględniania lokalizacji) o próbce mówimy obiekt. We wszystkich innych sytuacjach każda próbka jest związana ze ścisłą lokalizacją miejsca jej poboru, które określamy u • Populacja – jest zdefiniowana jako zbiór wszystkich pomiarów interesującej nas cechy, które mogą być dokonane w obrębie obszaru badań. Skończona ilość pomiarów, która dysponujemy to próbka lub podzbiór. Notacja i terminologia 1 • Parametr – to stała wartość (nie losowa) charakteryzująca model, na przykład wariancja nuggetowa semiwariogramu, lub średnia rozkładu funkcji prawdopodobieństwa na podstawie której modelujemy teoretyczny histogram • Statystyka – jest to wielkość charakteryzująca rozkład, która może dotyczyć jednej lub większej ilości cech, i/lub jednej lub większej ilości lokalizacji w przestrzeni. Jednozmienna, dwuzmienna lub wielozmienna statystyka jest związana z charakterystyką jednej, dwóch lub wielu cech. Terminy statystyka jednopunktowa, dwupunktowa lub wielopunktowa są stosowane są stosowane kiedy odnosi się ona do tej samej cechy w jednej, dwóch lub wielu lokalizacjach. Na przykład współczynnik korelacji jest statystyka dwuzmienną, podczas gdy semiwariogram – dwupunktową. Krossemiwariogram jest statystyką dwuzmienną i dwupunktową, ponieważ uwzględnia dwie różne cechy zarejestrowane w dwóch odmiennych lokalizacjach. Przestrzenna eksploracyjna analiza danych • Wykresy rozrzutu jednej zmiennej z przesunięciem (hscattergram) • Miary ciągłości i zmienności przestrzennej zmiennych ilościowych – – – – Funkcja kowariancji Korelogram Semiwariogram Anizotropia miar ciągłości i zmienności przestrzennej • Miary ciągłości i zmienności przestrzennej zastosowane do zmiennych kategoryzowanych • Struktura przestrzenna analizowanych danych satelitarnych – Anizotropia przestrzenna – Wpływ wartości ekstremalnych – Interpretacja struktury zmienności przestrzennej Statystyczne miary zmienności jednej zmiennej: wariancja i odchylenie standardowe n 1 z m n 1 2 2 Statystyczne miary zmienności dwóch zmiennych: kowariancja i współczynnik korelacji 1 n ij zi mi z j m j n 1 ij ij i j 1,1 Wykres rozrzutu XY i miary relacji dwóch zmiennych w tych samych lokalizacjach A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 100 m Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 200 m A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Idea porównania wartości cechy tej samej cechy w różnych lokalizacjach dla nieregularnego układu punktów pomiarowych – przedział odległości u+h „ogon” tail u „głowa” head Wykresy rozrzutu jednej zmiennej z przesunięciem (h-scattergram) Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 4522,5m Średnia odległość 17,645m 400 380 Ilość par punktów: 74 Kowariancja: 81,715 Korelacja: 0,66685 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 326,12 Wariancja dla z(): 122.54 Średnia dla z(+45): 326,12 Wariancja dla z(+45): 122.54 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 45-90m Średnia odległość 51,381m 400 380 Ilość par punktów: 640 Kowariancja: 63,037 Korelacja: 0,4354 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 326,26 Wariancja dla z(): 144.78 Średnia dla z(+45): 326,26 Wariancja dla z(+45): 144.78 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 90-135m Średnia odległość 92,41m 400 380 Ilość par punktów: 1048 Kowariancja: 51,472 Korelacja: 0,31496 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,75 Wariancja dla z(): 163.43 Średnia dla z(+45): 327,75 Wariancja dla z(+45): 163.43 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 135-180m Średnia odległość 136,27m 400 380 Ilość par punktów: 1472 Kowariancja: 33,667 Korelacja: 0,20181 b1_03b (x+h) 360 340 320 300 280 280 300 320 360 340 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,91 Wariancja dla z(): 166.83 Średnia dla z(+45): 327,91 Wariancja dla z(+45): 166.83 Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o 225-270m Średnia odległość 226,47m 400 380 Ilość par punktów: 2304 Kowariancja: 12,211 Korelacja: 0,078558 b1_03b (x+h) 360 340 320 300 280 280 300 320 340 360 b1_03b (x) 380 400 Statystyki podzbiorów: Średnia dla z(): 327,71 Wariancja dla z(): 155.44 Średnia dla z(+45): 327,71 Wariancja dla z(+45): 155.44 Dane cechy b1_03b ze zbioru Horbye3.dat 400 380 b1_03b (x+h) 360 400 400 380 380 340 320 360 b1_03b (x+h) b1_03b (x+h) 360 340 320 280 280 300 320 340 360 b1_03b (x) 380 280 280 400 400 400 380 380 360 360 340 320 300 300 300 320 340 360 b1_03b (x) 380 400 300 320 340 360 b1_03b (x) 380 400 300 320 340 360 b1_03b (x) 380 400 340 320 280 280 300 320 340 360 b1_03b (x) 380 400 300 b1_03b (x+h) b1_03b (x+h) 340 320 300 280 280 300 280 280 17,6m 51,4m 92,4m 136,3m 181,3m 226,5m 270,4m 0,667 0,435 0,315 0,202 0,170 0,079 0,075 Funkcja kowariancji Autokowariancja przestrzenna 1 C (h) z u z u h m-h m+h N h 1 N h Średnia wartości podzbioru ogona (tail values) 1 m-h N (h) N (h ) z (u ) 1 Średnia wartości podzbioru głowy (head values) 1 m+h N (h) Eksperymentalna funkcja autokowariancji = eksperymentalna funkcja kowariancji N (h ) z (u h) 1 Funkcja kowariancji Autokowariancja – C(h) 80 60 40 20 0 -20 0 100 200 300 400 500 Odstęp – h (m) 600 700 Korelogram Autokorelacja przestrzenna (h) 1 N (h) N (h ) 1 N (h) N (h ) 2 -h 2 +h C (h) 2 -h z u m 1 [1, 1] 2 +h -h 2 Wariancja wartości podzbioru „ogona” z u h m 1 +h 2 Wariancja wartości podzbioru „głowy” Eksperymentalna funkcja autokorelacji = korelogram Korelogram Autokorelacja – (h) 0.6 0.4 0.2 0 -0.2 0 100 200 300 400 500 Odstęp – h (m) 600 700 Semiwariogram Semiwariancja empiryczna: połowa średniej kwadratu różnic wartości cechy w lokalizacjach odległych o wektor h. Miara średniego niepodobieństwa (różnicy) Interpretacja geometryczna: moment bezwładności wokół pierwszego bisektora wykresu rozrzutu z przesunięciem (h-scaterplot) 1 (h) 2 N (h) 2 Wariancja wartości N (h ) z (u ) z(u h) podzbioru „ogona” 1 2 2 1 N (h ) 2 1 N (h ) d z ( u ) z u h cos 45 N (h) N (h) 1 1 2 1 N (h ) z (u ) z u h (h) 2 N (h) 1 Eksperymentalna funkcja semiwariancji = semiwariogram Semiwariogram kt or para próbek nr 1 bi s te z(u+h) z(u +h) d d z(u ) z(u h) cos 45 z(u ) z(u) Semiwariogram Semiwariancja – (h) 160 120 80 40 0 0 100 200 300 400 500 Odstęp – h (m) 600 700 Właściwości semiwariogramu – chmura semiwariogramu (variogram cloud) (|h|) 44644 pairs on plot 4500 4000 3500 3000 2500 2000 1500 1000 500 0 10 90 170 250 330 410 |h| 490 570 650 730 Właściwości semiwariogramu 2 1 N (h ) (h) z (u ) z (u h) 2 N (h) 1 wariancja próby semiwariancja progowa = sill Semiwariancja – (h) 160 120 zasięg autokorelacji = range 80 semiwariancja nuggetowa = nugget 40 0 0 100 200 300 400 500 Odstęp – h (m) 600 700 Właściwości semiwariogramu Gringarten, Deutsch 2001 Właściwości semiwariogramu Tak jak inne statystyki typu wariancji, wartości kowariancji i semiwariogramu są bardzo czułe na występowanie danych ekstremalnych – potencjalnie błędnych. Stosuje się trzy sposoby aby ten problem rozwiązać: • Transformację matematyczną danych (logarytmowanie, pierwiastkowanie itp.) , aby zredukować skośność ich histogramu, • Usuwanie par danych, które zaburzają wartość semiwariancji dla określonych odstępów h. Procedura ta zwana jest czyszczeniem wykresu rozrzutu z przesunięciem („hscattergram cleansing”). • Używanie innych statystyk h-scattergramu, które są mniej czułe na występowanie danych ekstremalnych. Mapa lokalizacyjna 1000 Y-m 800 600 400 200 0 0 200 400 600 X-m 800 1000 1200 910 Czyszczenie wykresu rozrzutu z przesunięciem 840 770 b1_03b (x+h) 700 (|h|) (|h|) 9000 180 2700 8000 160 2400 7000 140 2100 6000 120 1800 5000 100 1500 4000 80 1200 3000 60 900 2000 40 600 1000 20 300 0 00 0 630 560 490 420 350 280 280 350 420 490 560 630 700 770 840 910 b1_03b (x) 0 80 80 80 160 240 320 400 480 560 640 720 160 240 320 400 480 560 640 720 720 640 560 480 400 320 240 160 |h| |h| |h| Semiwariogram zmodyfikowany Semiwariogram do potęgi : 1 (h) 2N dla N (h ) 1 z (u ) z (u h) 0, 2 = 2 – tradycyjny semiwariogram = 1 – madogram = ½ – rodogram Semiwariogram zmodyfikowany madogram M(|h|) M(|h|) 18 10 16 14 8 12 6 10 8 4 6 24 2 00 00 80 80 160 160 240 240 320 400 320 400 |h| |h| 480 480 560 560 640 640 720 720 Anizotropia struktury przestrzennej Wysokość W rzeczywistych układach przestrzennych różnica wartości cechy zależy nie tylko od odległości, ale także od kierunku Teoria + pomiar = precyzyjna prognoza Odległość Anizotropia struktury przestrzennej Dwa sposoby obliczania kierunkowych miar ciągłości/zmienności przestrzennej Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Anizotropia geometryczna i Anizotropia strefowa Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Wariogramy kierunkowe zmiennej b1_03b Wykres czerwony – kierunek maksymalnej ciągłości: kąt 320° Wykres czarny – kierunek minimalnej ciągłości: kąt 60° Anizotropia struktury przestrzennej – powierzchnia wariogramu zmienna b1_03b Dwuwymiarowy obraz powierzchni wariogramu próbki i populacji Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b Trójwymiarowy obraz powierzchni wariogramu populacji i próbki Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b Anizotropia pola maksymalnych opadów dobowych na terenie Polski Anizotropia pola maksymalnych opadów dobowych na terenie Polski