Wykład III - Wydział Nauk Geograficznych i Geologicznych

advertisement
GEOSTATYSTYKA
Wykład dla III roku Geografii
specjalność - geoinformacja
Alfred Stach
Instytut Paleogeografii i Geoekologii
Wydział Nauk Geograficznych i Geologicznych UAM
Notacja i terminologia 1
• Cecha – fizyczna właściwość (parametr) oznaczana
kursywą małą literą np. z lub s. Cechy ciągłe takie jak
np. stężenia, są oznaczane na skali ilościowej , cechy
kategoryzowane mogą przybierać określoną,
limitowaną ilość wartości, zazwyczaj nie mających
charakteru porządkowego np. typ skał czy kategoria
użytkowania terenu
• Zmienna – jest oznaczana kursywą i duża literą np.
Z lub S i oznacza zbiór wartości lub stanów cechy z
lub s, które mogą występować na analizowanym
obszarze lub w punkcie o wektorze współrzędnych u.
W tym wypadku oznaczane zmienna jest oznaczana
Z(u) lub S(u).
Notacja i terminologia 1
• Obiekt – Cecha jest określana (mierzona) na
fizycznej próbce, jak na przykład okruch skały, czy
rdzeń glebowy itp. W przypadku analizy
eksploracyjnej nieprzestrzennej (bez uwzględniania
lokalizacji) o próbce mówimy obiekt. We wszystkich
innych sytuacjach każda próbka jest związana ze
ścisłą lokalizacją miejsca jej poboru, które określamy
u
• Populacja – jest zdefiniowana jako zbiór wszystkich
pomiarów interesującej nas cechy, które mogą być
dokonane w obrębie obszaru badań. Skończona ilość
pomiarów, która dysponujemy to próbka lub
podzbiór.
Notacja i terminologia 1
• Parametr – to stała wartość (nie losowa)
charakteryzująca model, na przykład wariancja nuggetowa
semiwariogramu, lub średnia rozkładu funkcji
prawdopodobieństwa na podstawie której modelujemy
teoretyczny histogram
• Statystyka – jest to wielkość charakteryzująca rozkład,
która może dotyczyć jednej lub większej ilości cech, i/lub
jednej lub większej ilości lokalizacji w przestrzeni.
Jednozmienna, dwuzmienna lub wielozmienna statystyka
jest związana z charakterystyką jednej, dwóch lub wielu
cech. Terminy statystyka jednopunktowa, dwupunktowa
lub wielopunktowa są stosowane są stosowane kiedy
odnosi się ona do tej samej cechy w jednej, dwóch lub
wielu lokalizacjach. Na przykład współczynnik korelacji jest statystyka
dwuzmienną, podczas gdy semiwariogram – dwupunktową. Krossemiwariogram jest
statystyką dwuzmienną i dwupunktową, ponieważ uwzględnia dwie różne cechy
zarejestrowane w dwóch odmiennych lokalizacjach.
Przestrzenna eksploracyjna analiza
danych
• Wykresy rozrzutu jednej zmiennej z przesunięciem (hscattergram)
• Miary ciągłości i zmienności przestrzennej zmiennych
ilościowych
–
–
–
–
Funkcja kowariancji
Korelogram
Semiwariogram
Anizotropia miar ciągłości i zmienności przestrzennej
• Miary ciągłości i zmienności przestrzennej zastosowane do
zmiennych kategoryzowanych
• Struktura przestrzenna analizowanych danych satelitarnych
– Anizotropia przestrzenna
– Wpływ wartości ekstremalnych
– Interpretacja struktury zmienności przestrzennej
Statystyczne miary zmienności jednej
zmiennej: wariancja i odchylenie
standardowe
n
1
    z    m 
n  1
2
2
Statystyczne miary zmienności dwóch
zmiennych: kowariancja i
współczynnik korelacji
1 n
 ij    zi    mi    z j    m j 
n  1
 ij
ij 
 i  j
  1,1
Wykres rozrzutu XY i miary relacji dwóch
zmiennych w tych samych lokalizacjach
A co uzyskamy jeśli zbadamy relację
między wartościami tej samej cechy w
różnych lokalizacjach?
Regularny układ punktów
Porównywanie wartości
cechy punktów odległych
np. od 100 m
Regularny układ punktów
Porównywanie wartości
cechy punktów odległych
np. od 200 m
A co uzyskamy jeśli zbadamy relację
między wartościami tej samej cechy w
różnych lokalizacjach?
Idea porównania wartości
cechy tej samej cechy w
różnych lokalizacjach dla
nieregularnego układu
punktów pomiarowych –
przedział odległości
u+h
„ogon”
tail
u
„głowa”
head
Wykresy rozrzutu jednej zmiennej z
przesunięciem (h-scattergram)
Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od
siebie o 4522,5m
Średnia odległość 17,645m
400
380
Ilość par punktów: 74
Kowariancja: 81,715
Korelacja: 0,66685
b1_03b (x+h)
360
340
320
300
280
280
300
320
340
360
b1_03b (x)
380
400
Statystyki podzbiorów:
Średnia dla z(): 326,12
Wariancja dla z(): 122.54
Średnia dla z(+45): 326,12
Wariancja dla z(+45): 122.54
Dane cechy b1_03b ze zbioru
Horbye3.dat
Dane z punktów odległych od
siebie o 45-90m
Średnia odległość 51,381m
400
380
Ilość par punktów: 640
Kowariancja: 63,037
Korelacja: 0,4354
b1_03b (x+h)
360
340
320
300
280
280
300
320
340
360
b1_03b (x)
380
400
Statystyki podzbiorów:
Średnia dla z(): 326,26
Wariancja dla z(): 144.78
Średnia dla z(+45): 326,26
Wariancja dla z(+45): 144.78
Dane cechy b1_03b ze zbioru
Horbye3.dat
Dane z punktów odległych od
siebie o 90-135m
Średnia odległość 92,41m
400
380
Ilość par punktów: 1048
Kowariancja: 51,472
Korelacja: 0,31496
b1_03b (x+h)
360
340
320
300
280
280
300
320
340
360
b1_03b (x)
380
400
Statystyki podzbiorów:
Średnia dla z(): 327,75
Wariancja dla z(): 163.43
Średnia dla z(+45): 327,75
Wariancja dla z(+45): 163.43
Dane cechy b1_03b ze zbioru
Horbye3.dat
Dane z punktów odległych od
siebie o 135-180m
Średnia odległość 136,27m
400
380
Ilość par punktów: 1472
Kowariancja: 33,667
Korelacja: 0,20181
b1_03b (x+h)
360
340
320
300
280
280
300
320
360
340
b1_03b (x)
380
400
Statystyki podzbiorów:
Średnia dla z(): 327,91
Wariancja dla z(): 166.83
Średnia dla z(+45): 327,91
Wariancja dla z(+45): 166.83
Dane cechy b1_03b ze zbioru
Horbye3.dat
Dane z punktów odległych od
siebie o 225-270m
Średnia odległość 226,47m
400
380
Ilość par punktów: 2304
Kowariancja: 12,211
Korelacja: 0,078558
b1_03b (x+h)
360
340
320
300
280
280
300
320
340
360
b1_03b (x)
380
400
Statystyki podzbiorów:
Średnia dla z(): 327,71
Wariancja dla z(): 155.44
Średnia dla z(+45): 327,71
Wariancja dla z(+45): 155.44
Dane cechy b1_03b ze zbioru
Horbye3.dat
400
380
b1_03b (x+h)
360
400
400
380
380
340
320
360
b1_03b (x+h)
b1_03b (x+h)
360
340
320
280
280
300
320
340
360
b1_03b (x)
380
280
280
400
400
400
380
380
360
360
340
320
300
300
300
320
340
360
b1_03b (x)
380
400
300
320
340
360
b1_03b (x)
380
400
300
320
340
360
b1_03b (x)
380
400
340
320
280
280
300
320
340
360
b1_03b (x)
380
400
300
b1_03b (x+h)
b1_03b (x+h)
340
320
300
280
280
300
280
280
17,6m
51,4m
92,4m
136,3m
181,3m
226,5m
270,4m
0,667
0,435
0,315
0,202
0,170
0,079
0,075
Funkcja kowariancji
Autokowariancja przestrzenna
 
1
C (h) 
z  u   z  u  h   m-h  m+h

N  h   1
N h
Średnia wartości podzbioru
ogona (tail values)
1
m-h 
N (h)
N (h )
z (u )


1
Średnia wartości podzbioru
głowy (head values)
1
m+h 
N (h)
Eksperymentalna funkcja autokowariancji =
eksperymentalna funkcja kowariancji
N (h )
z (u  h)


1
Funkcja kowariancji
Autokowariancja – C(h)
80
60
40
20
0
-20
0
100
200
300
400
500
Odstęp – h (m)
600
700
Korelogram
Autokorelacja przestrzenna
 (h) 
1
 
N (h)
N (h )
1

N (h)
N (h )
2
-h

2
+h
C (h)
 
2
-h
 z  u   m


1
 [1, 1]
2
+h
-h
2
Wariancja wartości
podzbioru „ogona”

 z  u  h   m


1
+h
2

Wariancja wartości
podzbioru „głowy”
Eksperymentalna funkcja autokorelacji = korelogram
Korelogram
Autokorelacja – (h)
0.6
0.4
0.2
0
-0.2
0
100
200
300
400
500
Odstęp – h (m)
600
700
Semiwariogram
Semiwariancja empiryczna: połowa średniej kwadratu
różnic wartości cechy w lokalizacjach odległych o wektor h.
Miara średniego niepodobieństwa (różnicy)
Interpretacja geometryczna: moment bezwładności wokół pierwszego
bisektora wykresu rozrzutu z przesunięciem (h-scaterplot)
1
 (h) 
2 N (h)
2 Wariancja wartości
N (h )
  z (u )  z(u  h)
podzbioru „ogona”
 1
2
2
1 N (h ) 2
1 N (h )


d

z
(
u
)

z
u

h

cos
45




  N (h) 

 
 
 
N (h)  1
 1
2
1 N (h )
 z (u )  z  u  h     (h)

2 N (h)  1
Eksperymentalna funkcja semiwariancji = semiwariogram
Semiwariogram
kt
or
para próbek nr 
1
bi
s te
z(u+h)
z(u +h)
d
d  z(u )  z(u  h)  cos 45
z(u )
z(u)
Semiwariogram
Semiwariancja – (h)
160
120
80
40
0
0
100
200
300
400
500
Odstęp – h (m)
600
700
Właściwości semiwariogramu –
chmura semiwariogramu (variogram cloud)
 (|h|)
44644 pairs on plot
4500
4000
3500
3000
2500
2000
1500
1000
500
0
10
90
170
250
330
410
|h|
490
570
650
730
Właściwości semiwariogramu
2
1 N (h )
 (h) 
 z (u )  z (u  h)

2 N (h)  1
wariancja próby
semiwariancja progowa = sill
Semiwariancja – (h)
160
120
zasięg autokorelacji
= range
80
semiwariancja nuggetowa
= nugget
40
0
0
100
200
300
400
500
Odstęp – h (m)
600
700
Właściwości
semiwariogramu
Gringarten, Deutsch 2001
Właściwości semiwariogramu
Tak jak inne statystyki typu wariancji, wartości kowariancji i
semiwariogramu są bardzo czułe na występowanie danych
ekstremalnych – potencjalnie błędnych. Stosuje się trzy
sposoby aby ten problem rozwiązać:
• Transformację matematyczną danych (logarytmowanie,
pierwiastkowanie itp.) , aby zredukować skośność ich
histogramu,
• Usuwanie par danych, które zaburzają wartość semiwariancji
dla określonych odstępów h. Procedura ta zwana jest
czyszczeniem wykresu rozrzutu z przesunięciem („hscattergram cleansing”).
• Używanie innych statystyk h-scattergramu, które są mniej
czułe na występowanie danych ekstremalnych.
Mapa lokalizacyjna
1000
Y-m
800
600
400
200
0
0
200
400
600
X-m
800
1000
1200
910
Czyszczenie wykresu rozrzutu
z przesunięciem
840
770
b1_03b (x+h)
700
 (|h|)
 (|h|)
9000
180
2700
8000
160
2400
7000
140
2100
6000
120
1800
5000
100
1500
4000
80
1200
3000
60
900
2000
40
600
1000
20
300
0
00
0
630
560
490
420
350
280
280 350 420 490 560 630 700 770 840 910
b1_03b (x)
0
80
80
80
160
240
320
400
480
560
640
720
160
240
320
400
480
560
640
720
720
640
560
480
400
320
240
160
|h|
|h|
|h|
Semiwariogram zmodyfikowany
Semiwariogram do potęgi :
1
  (h) 
2N
dla
N (h )


1

z (u )  z (u  h)
   0, 2
 = 2 – tradycyjny semiwariogram
 = 1 – madogram
 = ½ – rodogram
Semiwariogram zmodyfikowany madogram
M(|h|)
M(|h|)
18
10
16
14
8
12
6
10
8
4
6
24
2
00
00
80
80
160
160
240
240
320
400
320
400
|h|
|h|
480
480
560
560
640
640
720
720
Anizotropia struktury przestrzennej
Wysokość
W rzeczywistych układach przestrzennych różnica
wartości cechy zależy nie tylko od odległości, ale także
od kierunku
Teoria + pomiar = precyzyjna prognoza
Odległość
Anizotropia struktury przestrzennej
Dwa sposoby obliczania kierunkowych miar
ciągłości/zmienności przestrzennej
Geometryczna interpretacja
powierzchni wariogramu (mapy wariogramu)
Anizotropia geometryczna
i
Anizotropia strefowa
Geometryczna interpretacja powierzchni
wariogramu (mapy wariogramu)
Geometryczna interpretacja powierzchni
wariogramu (mapy wariogramu)
Geometryczna interpretacja powierzchni
wariogramu (mapy wariogramu)
Anizotropia struktury przestrzennej –
powierzchnia wariogramu
zmienna b1_03b
Dwuwymiarowy
obraz
powierzchni
wariogramu
próbki i
populacji
Anizotropia struktury przestrzennej – powierzchnia
wariogramu - zmienna b1_03b
Trójwymiarowy obraz
powierzchni
wariogramu populacji i
próbki
Anizotropia struktury przestrzennej – powierzchnia
wariogramu - zmienna b1_03b
Wariogramy kierunkowe
zmiennej b1_03b
Wykres
czerwony –
kierunek
maksymalnej
ciągłości: kąt
320°
Wykres
czarny –
kierunek
minimalnej
ciągłości: kąt 60°
Download