W*a*ciwo*ci danych przestrzennych

advertisement
Właściwości danych geograficznych
dr hab. Ryszard Walkowiak prof. nadzw.
1
Spis treści
 Wprowadzenie
 Typy danych geograficznych
 Autokorelacja przestrzenna i skala
 Ustalanie zależności przestrzennych
 Eksploratywna analiza danych
 Bazy danych
 Język SQL
2
Wprowadzenie
Jednym z głównych zadań systemów informacji
geograficznej jest dobra reprezentacja środowiska,
rozumianego przede wszystkim, choć nie tylko, jako
środowisko geograficzne.
W poprzednim wykładzie stwierdziliśmy, że: „Dobra
reprezentacja środowiska pozwala poznać i zrozumieć
zjawiska zachodzące w przyrodzie, miejscach i czasie,
które znajdują się poza zasięgiem naszego
bezpośredniego doświadczenia.”
3
Wprowadzenie
Podczas tworzenia reprezentacji środowiska należy mieć
na uwadze następujące zasady:
1. reprezentacja,
którą
tworzymy,
dotyczy
pojedynczych punktów przestrzeni,
2. reprezentacja jest siłą rzeczy wybiórcza, więc
niepełna,
3. w tworzeniu reprezentacji wykorzystujemy model
środowiska przyrodniczego w postaci pól ciągłych
lub przestrzeni wypełnionej przez fizycznie
istniejące i dobrze zdefiniowane obiekty.
4
Wprowadzenie
Ponadto:
4. właściwości sąsiedztwa są podstawą zrozumienia
zmienności przestrzennej oraz metod uzupełniania
brakujących danych przestrzennych,
5. zagadnienia skali i stopnia szczegółowości są
kluczowe w tworzeniu właściwej reprezentacji
świata,
6. w
prognozowaniu
zjawisk
wykazujących
współzależność zastosowanie ma kowariancja,
7. wszystkie reprezentacje otaczającego nas świata, z
racji swojej niepełności, niosą ze sobą niepewność.
5
Typy danych geograficznych
Dane geograficzne dzielimy ogólnie na dane przestrzenne
oraz dane opisowe.
Dane przestrzenne opisują położenie, wielkość, kształt oraz
związki topologiczne, tzn. związane z położeniem w
przestrzeni, zachodzące pomiędzy obiektami, zjawiskami lub
procesami zachodzącymi w pewnej przestrzeni.
Dane opisowe, to dane charakteryzujące obiekty, zjawiska i
procesy, niedotyczące położenia, wielkości, kształtu oraz
związków topologicznych między nimi.
Wszystkie dane geograficzne przechowywane są w bazach
danych.
6
Autokorelacja
Bardzo istotną podczas tworzenia reprezentacji środowiska
cechę obiektów charakteryzuje zasada zwana regułą Toblera:
„Wszystkie obiekty są ze sobą powiązane, a siła tych
powiązań maleje wraz ze wzrostem odległości między
obiektami”.
Związek między rożnymi cechami (atrybutami) tego samego
obiektu, np. pomiędzy wartością domu a jego odległością od
centrum miasta, nazywa się korelacją tych cech.
Związek między wartościami tej samej cechy (atrybutu) w
różnym czasie lub w różnych punktach przestrzeni nazywa
się autokorelacją.
7
Autokorelacja
Autokorelacja może być:
 czasowa, jeżeli wartość jakiejś cechy w chwili obecnej
zależy od jej wartości w przeszłości, np. miejsce
przebywania pewnego człowieka zależy od miejsca
jego przebywania chwilę wcześniej.
 przestrzenna, jeżeli wartość jakiejś cechy zmienia się
w przestrzeni w sposób ciągły.
W celu stworzenia dobrej reprezentacji danej cechy
należy zbadać siłę i zasięg (skalę) korelacji lub
autokorelacji.
8
Autokorelacja przestrzenna
Przykład: zawartość frakcji pyłu w glebie pewnego pola.
9
Autokorelacja przestrzenna
A
B
C
D
Rozkład zmiennej przestrzennej, która może przyjmować wartości w postaci
jednego z dwóch kolorów: biały i niebieski.
Każdy z powyższych rysunków zawiera 64 komórki, z których 32 są białe i
32 niebieskie i ilustruje autokorelację przestrzenną ograniczoną do
sąsiadujących komórek.
A – korelacja skrajnie ujemna,
B – korelacja skrajnie dodatnia,
C – brak korelacji, układ całkowicie losowy,
10D – korelacja dodatnia.
Ustalanie zależności przestrzennych
W świetle powyższych rozważań, opracowanie dobrej reprezentacji
środowiska musi być poprzedzone badaniem rodzaju, siły i zasięgu
współzależności między różnymi cechami badanych obiektów, a
więc rodzajem i zasięgiem korelacji i autokorelacji.
Z matematycznego (statystyka matematyczna) punktu widzenia,
związek pomiędzy zmiennymi (cechami obiektów) opisuje funkcja
zwana regresją.
Można np. postawić hipotezę, że wartość poszczególnych domów
w pewnym mieście zależy od wartości zmiennych takich jak:
 powierzchnia domu,
 odległość od parku lub szkoły,
 stan techniczny domu,
 nasilenie hałasu.
11
Ustalanie zależności przestrzennych
Tę hipotezę można zapisać w postaci funkcji
Y = f(X1, X2, X3, …, Xn),
gdzie Y jest wartością domu a X1 do Xn wartościami
cech wpływających na Y.
Istotny jest tu fakt jednokierunkowości opisywanej
relacji: powierzchnia domu, odległość od parku itd.
wpływają na wartość domu, a nie odwrotnie.
Z tego względu Y nazywa się zmienną zależną lub
objaśnianą, a X1 do Xn zmiennymi niezależnymi lub
objaśniającymi.
12
Ustalanie zależności przestrzennych
Rzecz jasna, ze względu na stopień skomplikowania rzeczywistości, na
zmienną objaśnianą, oprócz zmiennych objaśniających wpływ mają inne,
niemożliwe do obserwowania czynniki, jak choćby nieracjonalne
zachowanie osoby kupującej dom. Czynniki takie nazywamy losowymi i
uwzględniamy je w równaniu regresji jako błąd losowy :
Y = f(X1, X2, X3, …, Xn) + .
Postać funkcji regresji musimy ustalić na podstawie danych zebranych z
obserwacji wykonanych w wybranych punktach obrazowanego obszaru.
Poznanie postaci równania regresji umożliwia przybliżenie (estymację)
wartości zmiennej Y w tych punktach obrazowanego obszaru, w których z
różnych względów nie możemy dokonać obserwacji.
Jedną z metod wstępnego oszacowania zależności pomiędzy cechami
(atrybutami) badanych obiektów jest eksploratywna analiza danych.
Analizę eksploratywną można porównać do „oglądania” danych z różnych
punktów widzenia.
13
Eksploratywna analiza danych
Typowe zadania eksploratywnej analizy danych:
 Ustalenie zależności przestrzennych między obiektami
(przestrzenny rozkład badanej cechy lub zjawiska),
 Identyfikacja informacji istotnych dla wyjaśnienia
istniejącej struktury przestrzennej zjawiska,
 Identyfikacja relacji pomiędzy różnymi zjawiskami
przestrzennymi.
14
Eksploratywna analiza danych
Jednym z pierwszych uczonych, który
dostrzegł wagę eksploratywnej analizy
danych jest amerykański matematyk
John W. Tukey, który stwierdził, że
graficzna reprezentacja danych często
zmusza nas do zobaczenia czegoś, czego
nie spodziewaliśmy się zobaczyć.
John Wilder Tukey
1915 - 2000
John W. Tukey jest twórcą
tzw. wykresu pudełkowego
15
Eksploratywna analiza danych
John Snow:
Badanie epidemii cholery
Londyn, wrzesień 1854
skupienie
w przestrzeni
zakażona studnia?
Zgony na cholerę
16
Niektóre narzędzia eksploratywnej
analizy danych przestrzennych
Mapy zmienności
przestrzennej
wykonane za
pomocą metod
geostatystycznych.
Przykład: mapa
zawartości glinu i
odczynu pH gleby
pewnego pola
doświadczalnego.
17
Niektóre narzędzia eksploratywnej
analizy danych przestrzennych
Mapy tematyczne to
mapy eksponujące jeden
lub kilka wybranych
elementów treści mapy.
Przykład:
 gęstość zaludnienia w
Wielkiej Brytanii,
 procent bezrobocia w
tym kraju
18
Niektóre narzędzia eksploratywnej
analizy danych przestrzennych
Kartogramy bryłowe.
Przykład:
Porównanie województw
Polski pod względem
liczby ludności.
19
Niektóre narzędzia eksploratywnej
analizy danych przestrzennych
Kartodiagram
słupkowy lub kołowy
20
Bazy danych
Baza danych jest zorganizowanym zbiorem tabel, w których
przechowywane są wszystkie dane dotyczące interesujących
nas obiektów.
Wiersze tabel, nazywane rekordami, związane są z
obiektami, natomiast kolumny, zwane polami, zawierają
opisy atrybutów obiektu.
Wyróżniamy następujące typy baz danych:
 bazy hierachiczne,
 bazy sieciowe,
 relacyjne bazy danych,
 obiektowe bazy danych,
 obiektowo-relacyjne bazy danych.
21
Bazy danych
W bazach danych mogą być przechowywane następujące
typy danych:
 znakowy – używany do prezentacji tekstu,
 liczbowy - używany do prezentacji wartości liczbowych,
 logiczny – przybierający dwie wartości: fałsz lub prawda,
 daty – do prezentacji dat i czasu,
 walutowy – do przechowywania liczb wraz z symbolem
waluty,
 binarny – do przechowywania plików graficznych i
dźwiękowych,
 geometryczny – do przechowywania współrzędnych
obiektów geometrycznych – punktów, linii, wieloboków.
22
Relacyjna baza danych
Rekord – wiersz zawierający
informacje o obiekcie
Klucz główny – kolumna, która jednoznacznie identyfikuje
wiersze tabeli
23
Atrybut
Relacyjna baza danych
Przechowywanie wszystkich danych w jednej tabeli, relacji, na ogół
prowadzi do redundancji, czyli powtarzania wpisów.
Aby tego uniknąć dane przechowuje się w wielu mniejszych tabelach, a
tabelę wynikową, relację, uzyskuje się przez połączenie fragmentów tych
mniejszych tabel, relacji.
24
Klucz obcy
Klucz
główny
Związki między relacjami
Związek między relacjami „kontynent” i „państwo”. Kontynent zawiera wiele państw,
państwo leży na jednym kontynencie (na ogół). Związek 1 - .
25
Związki między relacjami
26
Structured Query Language SQL
 SQL jest językiem komunikacji użytkownika z
oprogramowaniem zarządzającym relacyjną bazą
danych.
 W roku 1986 język ten został oficjalnym standardem
wspieranym przez Międzynarodową Organizację
Standardów (ISO).
27
Structured Query Language SQL
Jego polecenia umożliwiają między innymi:
 Select – pobieranie danych z bazy danych,
 Insert – umieszczanie danych w tabelach,
 Update – zmianę danych,
 Delete – usuwanie danych,
 Create – tworzenie struktury bazy danych,
 Drop – usuwanie obiektów bazy danych,
 Alter – zmianę struktury bazy danych
28
Literatura
 Leszek Litwin, Grzegorz Myrda: Systemy Informacji
Geograficznej. Zarządzanie danymi przestrzennymi w
GIS, SIP, SIT, LIS. Helion 2005.
 Paul A. Longley, Michael F. Goodchild, David J.
Maguire, David W. Rhind: GIS Teoria i praktyka.
PWN Warszawa 2008.
 Bazy_Danych .pdf – referat wygłoszony w ramach
„GIS Day”, Poznan, 11.07.2007, autor nieznany.
 eksploracja.ppt – internet 17.05.2005, autor nieznany.
29
Download