Właściwości danych geograficznych dr hab. Ryszard Walkowiak prof. nadzw. 1 Spis treści Wprowadzenie Typy danych geograficznych Autokorelacja przestrzenna i skala Ustalanie zależności przestrzennych Eksploratywna analiza danych Bazy danych Język SQL 2 Wprowadzenie Jednym z głównych zadań systemów informacji geograficznej jest dobra reprezentacja środowiska, rozumianego przede wszystkim, choć nie tylko, jako środowisko geograficzne. W poprzednim wykładzie stwierdziliśmy, że: „Dobra reprezentacja środowiska pozwala poznać i zrozumieć zjawiska zachodzące w przyrodzie, miejscach i czasie, które znajdują się poza zasięgiem naszego bezpośredniego doświadczenia.” 3 Wprowadzenie Podczas tworzenia reprezentacji środowiska należy mieć na uwadze następujące zasady: 1. reprezentacja, którą tworzymy, dotyczy pojedynczych punktów przestrzeni, 2. reprezentacja jest siłą rzeczy wybiórcza, więc niepełna, 3. w tworzeniu reprezentacji wykorzystujemy model środowiska przyrodniczego w postaci pól ciągłych lub przestrzeni wypełnionej przez fizycznie istniejące i dobrze zdefiniowane obiekty. 4 Wprowadzenie Ponadto: 4. właściwości sąsiedztwa są podstawą zrozumienia zmienności przestrzennej oraz metod uzupełniania brakujących danych przestrzennych, 5. zagadnienia skali i stopnia szczegółowości są kluczowe w tworzeniu właściwej reprezentacji świata, 6. w prognozowaniu zjawisk wykazujących współzależność zastosowanie ma kowariancja, 7. wszystkie reprezentacje otaczającego nas świata, z racji swojej niepełności, niosą ze sobą niepewność. 5 Typy danych geograficznych Dane geograficzne dzielimy ogólnie na dane przestrzenne oraz dane opisowe. Dane przestrzenne opisują położenie, wielkość, kształt oraz związki topologiczne, tzn. związane z położeniem w przestrzeni, zachodzące pomiędzy obiektami, zjawiskami lub procesami zachodzącymi w pewnej przestrzeni. Dane opisowe, to dane charakteryzujące obiekty, zjawiska i procesy, niedotyczące położenia, wielkości, kształtu oraz związków topologicznych między nimi. Wszystkie dane geograficzne przechowywane są w bazach danych. 6 Autokorelacja Bardzo istotną podczas tworzenia reprezentacji środowiska cechę obiektów charakteryzuje zasada zwana regułą Toblera: „Wszystkie obiekty są ze sobą powiązane, a siła tych powiązań maleje wraz ze wzrostem odległości między obiektami”. Związek między rożnymi cechami (atrybutami) tego samego obiektu, np. pomiędzy wartością domu a jego odległością od centrum miasta, nazywa się korelacją tych cech. Związek między wartościami tej samej cechy (atrybutu) w różnym czasie lub w różnych punktach przestrzeni nazywa się autokorelacją. 7 Autokorelacja Autokorelacja może być: czasowa, jeżeli wartość jakiejś cechy w chwili obecnej zależy od jej wartości w przeszłości, np. miejsce przebywania pewnego człowieka zależy od miejsca jego przebywania chwilę wcześniej. przestrzenna, jeżeli wartość jakiejś cechy zmienia się w przestrzeni w sposób ciągły. W celu stworzenia dobrej reprezentacji danej cechy należy zbadać siłę i zasięg (skalę) korelacji lub autokorelacji. 8 Autokorelacja przestrzenna Przykład: zawartość frakcji pyłu w glebie pewnego pola. 9 Autokorelacja przestrzenna A B C D Rozkład zmiennej przestrzennej, która może przyjmować wartości w postaci jednego z dwóch kolorów: biały i niebieski. Każdy z powyższych rysunków zawiera 64 komórki, z których 32 są białe i 32 niebieskie i ilustruje autokorelację przestrzenną ograniczoną do sąsiadujących komórek. A – korelacja skrajnie ujemna, B – korelacja skrajnie dodatnia, C – brak korelacji, układ całkowicie losowy, 10D – korelacja dodatnia. Ustalanie zależności przestrzennych W świetle powyższych rozważań, opracowanie dobrej reprezentacji środowiska musi być poprzedzone badaniem rodzaju, siły i zasięgu współzależności między różnymi cechami badanych obiektów, a więc rodzajem i zasięgiem korelacji i autokorelacji. Z matematycznego (statystyka matematyczna) punktu widzenia, związek pomiędzy zmiennymi (cechami obiektów) opisuje funkcja zwana regresją. Można np. postawić hipotezę, że wartość poszczególnych domów w pewnym mieście zależy od wartości zmiennych takich jak: powierzchnia domu, odległość od parku lub szkoły, stan techniczny domu, nasilenie hałasu. 11 Ustalanie zależności przestrzennych Tę hipotezę można zapisać w postaci funkcji Y = f(X1, X2, X3, …, Xn), gdzie Y jest wartością domu a X1 do Xn wartościami cech wpływających na Y. Istotny jest tu fakt jednokierunkowości opisywanej relacji: powierzchnia domu, odległość od parku itd. wpływają na wartość domu, a nie odwrotnie. Z tego względu Y nazywa się zmienną zależną lub objaśnianą, a X1 do Xn zmiennymi niezależnymi lub objaśniającymi. 12 Ustalanie zależności przestrzennych Rzecz jasna, ze względu na stopień skomplikowania rzeczywistości, na zmienną objaśnianą, oprócz zmiennych objaśniających wpływ mają inne, niemożliwe do obserwowania czynniki, jak choćby nieracjonalne zachowanie osoby kupującej dom. Czynniki takie nazywamy losowymi i uwzględniamy je w równaniu regresji jako błąd losowy : Y = f(X1, X2, X3, …, Xn) + . Postać funkcji regresji musimy ustalić na podstawie danych zebranych z obserwacji wykonanych w wybranych punktach obrazowanego obszaru. Poznanie postaci równania regresji umożliwia przybliżenie (estymację) wartości zmiennej Y w tych punktach obrazowanego obszaru, w których z różnych względów nie możemy dokonać obserwacji. Jedną z metod wstępnego oszacowania zależności pomiędzy cechami (atrybutami) badanych obiektów jest eksploratywna analiza danych. Analizę eksploratywną można porównać do „oglądania” danych z różnych punktów widzenia. 13 Eksploratywna analiza danych Typowe zadania eksploratywnej analizy danych: Ustalenie zależności przestrzennych między obiektami (przestrzenny rozkład badanej cechy lub zjawiska), Identyfikacja informacji istotnych dla wyjaśnienia istniejącej struktury przestrzennej zjawiska, Identyfikacja relacji pomiędzy różnymi zjawiskami przestrzennymi. 14 Eksploratywna analiza danych Jednym z pierwszych uczonych, który dostrzegł wagę eksploratywnej analizy danych jest amerykański matematyk John W. Tukey, który stwierdził, że graficzna reprezentacja danych często zmusza nas do zobaczenia czegoś, czego nie spodziewaliśmy się zobaczyć. John Wilder Tukey 1915 - 2000 John W. Tukey jest twórcą tzw. wykresu pudełkowego 15 Eksploratywna analiza danych John Snow: Badanie epidemii cholery Londyn, wrzesień 1854 skupienie w przestrzeni zakażona studnia? Zgony na cholerę 16 Niektóre narzędzia eksploratywnej analizy danych przestrzennych Mapy zmienności przestrzennej wykonane za pomocą metod geostatystycznych. Przykład: mapa zawartości glinu i odczynu pH gleby pewnego pola doświadczalnego. 17 Niektóre narzędzia eksploratywnej analizy danych przestrzennych Mapy tematyczne to mapy eksponujące jeden lub kilka wybranych elementów treści mapy. Przykład: gęstość zaludnienia w Wielkiej Brytanii, procent bezrobocia w tym kraju 18 Niektóre narzędzia eksploratywnej analizy danych przestrzennych Kartogramy bryłowe. Przykład: Porównanie województw Polski pod względem liczby ludności. 19 Niektóre narzędzia eksploratywnej analizy danych przestrzennych Kartodiagram słupkowy lub kołowy 20 Bazy danych Baza danych jest zorganizowanym zbiorem tabel, w których przechowywane są wszystkie dane dotyczące interesujących nas obiektów. Wiersze tabel, nazywane rekordami, związane są z obiektami, natomiast kolumny, zwane polami, zawierają opisy atrybutów obiektu. Wyróżniamy następujące typy baz danych: bazy hierachiczne, bazy sieciowe, relacyjne bazy danych, obiektowe bazy danych, obiektowo-relacyjne bazy danych. 21 Bazy danych W bazach danych mogą być przechowywane następujące typy danych: znakowy – używany do prezentacji tekstu, liczbowy - używany do prezentacji wartości liczbowych, logiczny – przybierający dwie wartości: fałsz lub prawda, daty – do prezentacji dat i czasu, walutowy – do przechowywania liczb wraz z symbolem waluty, binarny – do przechowywania plików graficznych i dźwiękowych, geometryczny – do przechowywania współrzędnych obiektów geometrycznych – punktów, linii, wieloboków. 22 Relacyjna baza danych Rekord – wiersz zawierający informacje o obiekcie Klucz główny – kolumna, która jednoznacznie identyfikuje wiersze tabeli 23 Atrybut Relacyjna baza danych Przechowywanie wszystkich danych w jednej tabeli, relacji, na ogół prowadzi do redundancji, czyli powtarzania wpisów. Aby tego uniknąć dane przechowuje się w wielu mniejszych tabelach, a tabelę wynikową, relację, uzyskuje się przez połączenie fragmentów tych mniejszych tabel, relacji. 24 Klucz obcy Klucz główny Związki między relacjami Związek między relacjami „kontynent” i „państwo”. Kontynent zawiera wiele państw, państwo leży na jednym kontynencie (na ogół). Związek 1 - . 25 Związki między relacjami 26 Structured Query Language SQL SQL jest językiem komunikacji użytkownika z oprogramowaniem zarządzającym relacyjną bazą danych. W roku 1986 język ten został oficjalnym standardem wspieranym przez Międzynarodową Organizację Standardów (ISO). 27 Structured Query Language SQL Jego polecenia umożliwiają między innymi: Select – pobieranie danych z bazy danych, Insert – umieszczanie danych w tabelach, Update – zmianę danych, Delete – usuwanie danych, Create – tworzenie struktury bazy danych, Drop – usuwanie obiektów bazy danych, Alter – zmianę struktury bazy danych 28 Literatura Leszek Litwin, Grzegorz Myrda: Systemy Informacji Geograficznej. Zarządzanie danymi przestrzennymi w GIS, SIP, SIT, LIS. Helion 2005. Paul A. Longley, Michael F. Goodchild, David J. Maguire, David W. Rhind: GIS Teoria i praktyka. PWN Warszawa 2008. Bazy_Danych .pdf – referat wygłoszony w ramach „GIS Day”, Poznan, 11.07.2007, autor nieznany. eksploracja.ppt – internet 17.05.2005, autor nieznany. 29