UNIWERSYTET WARSZAWSKI Wydział Geografii i Studiów Regionalnych Edwin Raczko Zastosowanie danych hiperspektralnych i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Karkonoskiego Parku Narodowego Rozprawa doktorska w zakresie nauk o Ziemi dyscyplina geografia Rozprawa doktorska przygotowana pod kierunkiem dr. hab. Bogdana Zagajewskiego Warszawa, marzec 2017 2 Oświadczenie autora rozprawy: Świadomy odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przez mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami. Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem doktoratu. ........................... ........................................ data i podpis autora rozprawy Oświadczenie promotora rozprawy: Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem i stwierdzam, że spełnia ona warunki do przedstawienia jej w postępowaniu doktorskim. Tekst rozprawy został sprawdzony w systemie plagiat.pl. ........................... ........................................ data i podpis promotora rozprawy 3 4 Słowa kluczowe klasyfikacja, sztuczne sieci neuronowe, dane hiperspektralne, klasyfikacja gatunków drzew Keywords classification, artificial neural networks, hyperspectral data, tree species classification Abstract Knowledge of tree species composition in forest is an important topic in forest management. Accurate tree species maps allow acquiring more details of forest biophysical variables. This research focused on developing methods of tree species identification using aerial hyperspectral data. Research area was the Karkonoski National Park located in southwestern Poland. High resolution (3,35m) APEX hyperspectral data (288 spectral bands in range from 413 to 2440 nm) were used as a basis for tree species classification. Beech (Fagus sylvatica L.), birch (Betula pendula Roth), alder (Alnus Mill.), larch (Larix decidua Mill), pine (Pinus sylvestris L.) and spruce (Picea abies L. Karst) were classified. Noisy bands (including water vapor absorption range) were taken out of whole dataset before band selection procedure. Remaining bands went thought PCA (Principal Component Analysis) analysis to find out bands with highest information load. Each band had its information load assessed and was ranked based on amount of information it held. Finally 40 most informative bands were selected for final classifications. Feed forward multi-layered-perceptron with single hidden layer was applied. To simulate such network we used R statistical program and package nnet. Methods of the best artificial neural network architecture determination (number of neurons in hidden layer) and network training parameters were used. The output maps were verified using field collected data. Final tree species maps cover whole area of KPN; achieved median overall accuracy of 87%, with median producer accuracies for all classes exceeding 68%. Best classified classes were spruce, beech and birch with median producer accuracies of 93%, 88% and 83% respectively. Class pine achieved lowest median producer and user accuracies of 68% and 75%. Results show great potential in hyperspectral data as tool for identifying tree species location in diverse mountainous forest. 5 Na początku było Słowo… 6 Wstęp .......................................................................................................................................... 9 1. Teledetekcja hiperspektralna ............................................................................................ 15 1.1. Procedury korekcji obrazów hiperspektralnych ........................................................ 22 1.2. Procedury przetwarzania danych hiperspektralnych ................................................. 23 1.3. Klasyfikacja obrazów teledetekcyjnych .................................................................... 24 1.4. Ocena dokładności klasyfikacji ................................................................................. 25 1.5. Procedury wyboru danych wykorzystanych w klasyfikacji....................................... 27 1.6. Lotnicze obrazy hiperspektralne APEX ..................................................................... 29 1.7. Klasyfikacja drzewostanów na podstawie obrazów hiperspektralnych ..................... 30 2. Sztuczne sieci neuronowe ................................................................................................. 34 2.1. Perceptron wielowarstwowy ...................................................................................... 36 2.2. Algorytm wstecznej propagacji błędu ....................................................................... 40 2.3. Charakterystyka symulatora sztucznych sieci neuronowych „nnet” ......................... 41 2.4. Zastosowanie sztucznych sieci neuronowych do klasyfikacji drzewostanu .............. 42 3. Obszar i obiekt badawczy ................................................................................................. 44 3.1. Warunki przyrodnicze Karkonoszy............................................................................ 46 3.2. Roślinność Karkonoszy ............................................................................................. 47 4. Metodyka .......................................................................................................................... 51 4.1. Pozyskanie danych ..................................................................................................... 52 4.2. Pozyskanie terenowych danych wzorcowych do klasyfikacji i weryfikacji .............. 55 4.3. Przygotowanie zestawu danych do uczenia i weryfikacji.......................................... 57 4.4. Procedura wyboru kanałów spektralnych .................................................................. 58 4.5. Przygotowanie Numerycznego Modelu Terenu, Numerycznego Modelu Pokrycia Terenu i Znormalizowanego Numerycznego Modelu Pokrycia Terenu .................... 60 4.6. Przygotowanie maski drzewostanu ............................................................................ 61 4.7. Optymalizacja struktury sieci neuronowej................................................................. 63 4.8. Iteracyjna ocena dokładności klasyfikacji ................................................................. 64 4.9. Klasyfikacja zobrazowań APEX sztucznymi sieciami neuronowymi ....................... 65 5. Wyniki .............................................................................................................................. 66 5.1. Dokładność korekcji atmosferycznej zobrazowań APEX ......................................... 66 5.2. Analiza informacyjności zobrazowania APEX .......................................................... 67 5.3. Optymalizacja struktury sztucznej sieci neuronowej ................................................. 68 5.4. Rozmieszczenie analizowanych gatunków drzewiastych .......................................... 69 5.5. Wysokość analizowanych gatunków drzewiastych ................................................... 74 6. Przydatność obrazów APEX i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych ..................................................................................................................... 75 6.1. Różnice udziału gatunków drzew w KPN uzyskanego na podstawie klasyfikacji i z danych oficjalnych ..................................................................................................... 81 6.2. Porównanie wyników klasyfikacji APEX z dostępnymi danymi KPN ..................... 83 6.3. Dyskusja na temat czasu wykonania badań terenowych. .......................................... 88 7. Podsumowanie i wnioski .................................................................................................. 89 Literatura .................................................................................................................................. 97 Spis rycin ................................................................................................................................ 113 Spis tabel ................................................................................................................................ 114 7 8 Wstęp Zarządzanie zasobami środowiska leśnego wymaga dokładnej inwentaryzacji oraz informacji o dynamice zmian zachodzących w ekosystemie leśnym, dotyczy to zarówno komponentów biotycznych, jak i abiotycznych. Główny nacisk powinien być położony na monitoring składu gatunkowego poszczególnych zbiorowisk, ich rozmieszczenia przestrzennego i ocenę kondycji (Shen i inni, 2010). Z uwagi na rozległość obszarów leśnych, tradycyjne kartowanie lasu jest trudne i kosztochłonne (Peerbhay i inni, 2013). Z drugiej strony wzrost wiedzy ekologicznej i leśnej oraz wzrost zasobności materialnej krajów wysoko rozwiniętych, zachęca do przebudowy drzewostanów zgodnie z warunkami siedliskowymi. Pozwala to zachować bioróżnorodność, gdyż coraz częściej las postrzegany jest nie tylko jako obszar gospodarczej uprawy drzew, ale też jako dom dla zwierząt i siedlisko cennych roślin (Martinez del Castillo i inni, 2015). Tradycyjne podejście do leśnictwa nakazuje wykonywanie taksacji zasobów leśnych z wykorzystaniem obserwacji terenowych, powtarzanych co pewien czas, wspartych fotointerpretacją zdjęć obszarów leśnych (Martin i inni, 1998; Bergsen i inni, 2015). Takie podejście do problemu taksacji zasobów leśnych jest często drogie, wymaga dużych nakładów pracy i czasu oraz jest poważnym wyzwaniem organizacyjnym (Peerbhay i inni, 2013). Klasyczne metody określania składu gatunkowego są szybko rozbudowywane o teledetekcję, bazującą na interakcji między falą elektromagnetyczną a strukturami anatomicznymi, morfologicznymi oraz procesami fizjologicznymi zachodzącymi w badanych roślinach, dostarczając unikatowych informacji o obiektach. Szczególne miejsce w teledetekcji zajmuje teledetekcja hiperspektralna. Jest to technologia rejestrująca i przetwarzająca dane pozyskane w sposób zdalny w wąskich zakresach widma elektromagnetycznego, w co najmniej 40 ciągłych spektralnych kanałach (Goetz i inni, 1985). W 1988 roku Międzynarodowe Towarzystwo Fotogrametrii i Teledetekcji (International Society for Photogrammetry and Remote Sensing – ISPRS) zdefiniowało teledetekcję i fotogrametrię jako „dział nauk technicznych zajmujący się pozyskiwaniem wiarygodnych informacji o obiektach fizycznych i ich otoczeniu drogą rejestracji, pomiaru i interpretacji obrazów lub ich reprezentacji cyfrowych, uzyskiwanych dzięki sensorom niebędącym w bezpośrednim kontakcie z tymi obiektami” (Statut II ISPRS, Lazaridou i Patmios, 2012). Są to zaawansowane metody, wymagające skomplikowanych algorytmów oraz odpowiednio przygotowanej kadry analitycznej. 9 Jednym z najtrudniejszych obiektów badań są obszary górskie. Wynika to z ograniczonej dostępności terenu i mnogości zachodzących procesów środowiskowych (np. w gradiencie wysokości). Zastosowanie teledetekcji umożliwia pozyskanie danych z rozległych terenów w krótkim czasie według identycznej, powtarzalnej i obiektywnej metody. Prowadzenie badań nad środowiskiem metodami bliższymi naukom przyrodniczym, jak biologia czy leśnictwo, na tak rozległym obszarze dostarcza wielu ciekawych i cennych wyników, ale nie jest w stanie dostarczyć całościowej wiedzy na temat całego obszaru zainteresowania. Połączenie różnych metod badawczych pozwoli uzyskać wiarygodny obraz stanu i zmian zachodzących na analizowanym obszarze (Brovkina i inni, 2017). Motywacją do podjęcia niniejszej pracy była zwiększająca się dostępność nowoczesnych narzędzi oraz danych (często bezpłatnych), które pozwalają opracować metody analizy stanu środowiska poprzez dokumentowanie zasobów środowiska i jego dynamicznych zmian. Jako obszar badawczy został wybrany teren Karkonoskiego Parku Narodowego, który po katastrofalnych wydarzeniach lat osiemdziesiątych XX w. odradza się zaskakująco szybko, a znaczna część drzewostanu Karkonoszy poważnie wówczas naruszona, jest obecnie bankiem genów do odtwarzania jodły, buka, czy odradzającego się świerka, który dotknięty był masowym wymieraniem (Mazurski, 1986; Jadczyk, 2009). Obszary dotknięte klęską przeszły przez etap odbudowy, w tym sterowanej przez człowieka (Danielewicz i inni, 2012). Wiązało się to z wprowadzaniem nowych gatunków, ale także odtworzeniem genotypów właściwych dla Karkonoszy. Postępy w odtworzeniu lasów Karkonoszy wynikają z aktywnych działań realizowanych przez Karkonoski Park Narodowy1. W końcu XX w. pojawił się w Europie dostęp do lotniczych danych hiperspektralnych, które rejestrują widmo w dziesiątkach, a nawet setkach wąskich zakresów spektralnych. Umożliwiły one prowadzenie na niespotykaną wcześniej skalę szczegółowych analiz środowiska i kartowanie go w dużych skalach z dużą powtarzalnością (Mueller i inni, 1998; Feret, Asner, 2013; Brovkina i inni, 2017). Wynikało to z międzynarodowych projektów badawczych na terenie Europy, np. HySens, HyEurope '99, '03, '04, '05, '07, czy bieżącej działalności European Facility for Airborne Research (EUFAR). Nie bez znaczenia jest także działalność EARSeL Special Interest Group (SIG) on Imaging Spectroscopy2, czy EARSeL 1 Projekt: „Ochrona najcenniejszych gatunków flory Karkonoskiego Parku Narodowego – Żywy Bank Genów Jagniątków” - http://www.bankgenow.kpnmab.pl/ 2 http://www.earsel.org/SIG/IS/workshops/10-IS-Workshop/index.php 10 SIG on Forestry3. Organizacje te przodują w badaniach nad rozwojem technik hiperspektralnych oraz zastosowaniem teledetekcji w leśnictwie. W Polsce, po pierwszych eksperymentalnych pracach w latach 2001-2002, zaczynają być realizowane projekty koncentrujące się na wykorzystaniu lotniczych danych hiperspektralnych i ze skaningu lidarowego ALS w leśnictwie (np. BIOCOMES, LIFE+ ForBioSensing PL, HABITars). Oznacza to, że także polskie jednostki intensywnie pracują nad opracowaniem nowych metod i narzędzi do badania lasów. Użycie ich jest coraz tańsze, a skala analiz środowiska coraz większa przy zachowaniu optymalnej rozdzielczości przestrzennej (wielkość piksela poniżej 5 metrów) zapisanej w setkach kanałów spektralnych, np. 288 skanera APEX, czy 450 kanałów HySpex. Pozwala to na: opracowanie szczegółowych map kondycji analizowanej roślinności (Ze’ev i inni, 2006; Jarocińska 2016), kartowanie gatunków inwazyjnych (Rocchini i inni, 2015), klasyfikację roślinności (Oldeland i inni, 2010; Marcinkowska i inni, 2014), badania struktury lasów (Sandmeier, Deering 1999), analizy zmian pokrycia terenu (Martinez del Castillo i inni, 2015), zawartości głównych barwników i pierwiastków chemicznych w roślinach (Kozhoridze i inni, 2016) czy wielkości biomasy (Ali i inni, 2015). Wielu z tych zastosowań nie dało by się uzyskać tradycyjnymi metodami dla całych parków narodowych lub dużych kompleksów leśnych. Narzędzia te zaczynają być powszechnie wykorzystywane w bieżących pracach Białowieskiego PN, Karkonoskiego PN, czy Tatrzańskiego PN, a także innych zwartych lasów (np. Puszcza Niepołomicka; Wężyk i inni, 2003), czy kompleksów leśnych Lasów Państwowych (lasy wokół Milicza, 2015) również w miastach (np. Las Bielański w Warszawie, 2015). Przyczynia się to do zrozumienia naturalnych procesów w skalach lokalnych, ale także pozwala interpolować uzyskane wyniki na poziom satelitarny, umożliwiając opracowanie metod i interpretację wyników na skalę całej planety (Lausch i inni, 2016). Dzięki aktualnym i pełnym informacjom można podejmować decyzje korzystnie dla zarządzania i ochrony środowiska (na dużą, a nawet globalną skalę) (Abrams i inni, 2011). Jak już wspomniano, ostatnie lata przyniosły znaczny rozwój sensorów hiperspektralnych, co pociągnęło za sobą coraz szersze wykorzystanie tego typu danych podczas analiz, także w Polsce. Dane hiperspektralne powoli przestają być drogim eksperymentem, a zaczynają być jedną ze skuteczniejszych metod badania środowiska (Lawley i inni, 2016). Generuje to istotny wzrost ilości zbieranych danych. Zwiększają one 3 http://www.earsel.org/SIG/Forestry/index.php 11 nasze rozumienie wielu często wzajemnie powiązanych procesów przyrodniczych, ale ich gromadzenie, przetwarzanie i archiwizowanie staje się realnym problemem (Herold i inni, 2016). Jako przykład może służyć zobrazowanie APEX4 Karkonoszy, które w spakowanej postaci zajmuje ponad 1TB pojemności dysku twardego. Taka ilość danych nie mieściła się na standardowych komputerach w czasie, gdy były wykonywane zobrazowania. Oznacza to, że konieczne jest opracowanie metod wyboru danych, kompresji i optymalizacji procedur przetwarzania danych (Adam, Mutanga, 2009; Thenkabail i inni, 2012). Oczywiście taki stan rzeczy poza nowymi możliwościami rozwoju stwarza też szereg problemów związanych ze zbieraniem, przetwarzaniem i archiwizowaniem nierzadko bardzo dużych zbiorów danych (obecnie czymś normalnym są zestawy operacyjnych danych o wielkości ponad 2TB). Tak duże pliki danych absorbują znaczne zasoby obliczeniowe i magazynowe, które są dosyć drogie i nierzadko stanowią znaczną część kosztów w projektach badawczych. W związku z możliwościami jakie daje teledetekcja, ważne jest opracowanie metod selekcji i optymalizacji przetwarzania danych teledetekcyjnych. Często używanymi algorytmami wykorzystywanymi do klasyfikacji drzewostanu są maszyny wektorów nośnych (SVM) 5, analiza dyskryminacyjna6 (DA), Random Forest (RF)7 oraz algorytm maksymalnego prawdopodobieństwa8 (Maximum Likelihood – ML, Fassnacht i inni, 2016). Wymienione algorytmy mają szereg dobrze udokumentowanych zalet i wad, natomiast słabo zbadana jest skuteczność wykorzystania sztucznych sieci neuronowych SSN (Artificial Neural Net – ANN) do klasyfikacji gatunków drzew. Są to nieparametryczne klasyfikatory, wyróżniające się spośród innych metod klasyfikacji głównie pod względem możliwości analitycznych oraz aplikacyjnych, gdyż odpowiednio wytrenowane sztuczne sieci neuronowe umożliwiają klasyfikacje innych, nieznanych obszarów niż te, na których uczona 4 APEX – Airborne Prism Experiment (http://www.apex-esa.org/) SVM – Support Vector Machines – nadzorowany algorytm klasyfikacyjny opracowany przez Vapnik (1995). Celem klasyfikatora SVM jest wyznaczanie hiperpłaszczyzny optymalnie separującej klasy. SVM często otrzymują wysokie dokładności klasyfikacji oraz radzą sobie z zestawami danych o wielu wymiarach. 6 DA – discriminatory analysis – nadzorowana metoda klasyfikacji, w której próbuje się znaleźć jedną bądź kilka funkcji liniowych lub wyróżników zmiennych zależnych w celu wydzielenia klasy w przestrzeni klasyfikacji (Acquah i inni, 2016). 7 RF – Random Forest – klasyfikator bazujący na zestawie drzew decyzyjnych, które losowo dobierają predyktory użyte podczas konstrukcji każdego drzewa decyzyjnego. Następnie poszczególne drzewa „oddają głos” decydujący, do jakiej klasy ma być przypisany dany piksel. Algorytm random forest podejmuje decyzję o przypisaniu danego piksela do danej klasy, bazując na klasie, która dostała najwięcej głosów (Breiman, 2001). 8 ML - Maximum Likelihood – metoda klasyfikacji polegająca na obliczeniu prawdopodobieństwa wystąpienia danej klasy w danym pikselu. Klasa o największym prawdopodobieństwie wystąpienia zostaje przypisana do piksela (Richards, 1999). 5 12 była sieć (nawet jeżeli obszary testowe znajdują się w innych miejscach świata). Po drugie, ze względu na nieparametryczne podejście do rozwiązania problemu, analiza zbioru nie jest oparta na charakterystykach statystycznych zestawu danych, co umożliwia poprawną klasyfikację nawet wtedy gdy klasyfikowane obiekty są trudne do rozróżnienia na podstawie miar statystycznych. Należy wspomnieć też, że SSN nie są bez wad – najpoważniejsze to długi czas treningu sieci oraz trudności z doborem optymalnych parametrów uczenia sieci. Na potrzeby niniejszej pracy skoncentrowano się na algorytmach sztucznych sieci neuronowych (SSN), a szczególna uwaga przypadła pakietowi o nazwie „nnet” symulującemu działanie sztucznej sieci neuronowej (Venables, Ripley, 2002). Bazuje ona na powszechnie dostępnym programie R (R Core Team, 2015). Wybrany symulator symuluje perceptron wielowarstwowy z jedną warstwą ukrytą9. Zaletami pakietu „nnet” jest łatwość przeprowadzenia analiz oraz procedury treningu i klasyfikacji danych. Obecność programu w pakiecie R znacznie ułatwia tworzenie własnych, kompletnych rozwiązań bazujących na jednym środowisku wykonawczym. Wynika to z powszechnej dostępności kodów źródłowych opartych o zasady Open Source. Dzięki realizacji projektu EUFAR HyMountEcos10 w roku 2012 pozyskano bardzo dobrej jakości obrazy hiperspektralne APEX. Dane z lotniczego skanera APEX są pierwszym i jedynym do tej pory zobrazowaniem hiperspektralnym, które objęło cały teren Karkonoszy (KPN, KRNAP wraz z otulinami). Sensor APEX należy do najnowocześniejszych na świecie, dostarczając obrazy w ponad 300 kanałach spektralnych w zakresie od 400 do 2500 nm. Rozdzielczość przestrzenna zależna jest od wysokości lotu samolotu, standardowo oscyluje wokół 3-5 m. Na uwagę zasługuje duża rozdzielczość radiometryczna11, wynosząca 14 bitów w zakresie światła widzialnego i bliskiej podczerwieni i 13 bitów w zakresie dalszej podczerwieni (SWIR, Vreys i inni, 2016). Tak duża rozdzielczość spektralna (wąskie kanały spektralne o szerokości 5 nm) pozwalają na dokonanie szeregu analiz zawartości nutrientów, substancji budulcowych, wody, chlorofilu i barwników ochronnych, niedających się wykonać 9 Jeden z typów sieci neuronowej zbudowany z trzech warstw: warstwy wejściowej – wprowadzającej dane do sieci, ukrytej – pozwalającej na trening sieci oraz wyjściowej – zbierającej wynik przetwarzania. 10 HyMountEcos - projekt zrealizowany latem 2012 roku, mający na celu monitoring roślinności Karkonoszy przy wykorzystaniu danych hiperspektralnych (http://www.eufar.net/planning/xml_print.php?idp=ta_hymounte cos _1230). 11 rozdzielczość radiometryczna określa liczbę poziomów, na które podzielony jest sygnał odbierany przez sensor. Zwykle podawana w bitach. Przykładowo rozdzielczość radiometryczna wynosząca 8 bitów pozwala na wydzielenie 256 (28) poziomów sygnału na obrazie. Przy rozdzielczości radiometrycznej 14 bitów możliwe jest wyróżnienie 16384 (214) poziomów sygnału. 13 na danych wielospektralnych czy ortofotomapie. Lotnicze obrazy APEX stanowią cenny materiał do identyfikacji drzewostanów, a z drugiej strony jest to istotny materiał referencyjny do kolejnych zobrazowań i oceny zmian kondycji lasów w następnych latach. Reasumując należy stwierdzić, że lotnicza teledetekcja środowiska oferuje cenne dane oraz algorytmy umożliwiające szczegółowe rozpoznanie gatunków roślinnych, a także ocenę ich kondycji. Powszechne wykorzystanie technologii hiperspektralnej wymaga jednak optymalizacji procedur przetwarzania obrazów (korekcja obrazów, wybór najbardziej cennych zakresów spektralnych, klasyfikacja oraz ocena dokładności pozyskanych materiałów wynikowych), ale w efekcie uzyskane dane są wysokiej rozdzielczości i mogą być z powodzeniem weryfikowane według tych samych, obiektywnych metod. Stanowi to istotę monitoringu obszarów chronionych, na których prowadzi się stałą kontrolę zmian środowiska. Celowe staje się opracowanie metod pozyskania, przetwarzania, selekcji, analizy i archiwizacji danych hiperspektralnych. Procedury te dynamicznie się zmieniają, w miarę rozwoju nowych algorytmów i metod badawczych, umożliwiając wieloczasowe analizy danych oraz prowadzenie monitoringu środowiska. Idąc ku metodom nieparametrycznym oraz lotniczym zobrazowaniom hiperspektralnym, które zapewniają optymalne jakościowo obrazy do analiz stanu środowiska, niniejsza praca ma trzy główne cele: opracowanie i przetestowanie metod przetwarzania danych hiperspektralnych skupiając się na metodach selekcji najbardziej informacyjnych kanałów zobrazowania oraz procedurach optymalizacji procesu klasyfikacji, opracowanie metody klasyfikacji wybranych sześciu gatunków drzew w Karkonoskim Parku Narodowym, wśród których są: świerk (Picea abies L. Karst), brzoza (Betula pendula Roth), buk (Fagus sylvatica L.), modrzew (Larix decidua Mill), sosna (Pinus sylvestris L.) i olcha (Alnus Mill), aplikacyjnym celem pracy jest opracowanie mapy występowania wybranych gatunków drzew Karkonoskiego Parku Narodowego na podstawie uzyskanej klasyfikacji oraz porównanie jej z obecnym stanem wiedzy na temat składu gatunkowego KPN. 14 1. Teledetekcja hiperspektralna Istotą teledetekcji jest zdolność opisania cech fizycznych i chemicznych obiektu badań bez kontaktu fizycznego. Nośnikiem informacji jest fala elektromagnetyczna lub dźwiękowa (sonary). W teledetekcji wykorzystuje się oddziaływanie promieniowania elektromagnetycznego w różnych długościach fal z badanymi obiektami; zaczynając od zakresu światła widzialnego (VIS) przez bliską (NIR), średnią (SWIR) i termalną podczerwień (TIR), a kończąc na zakresie radarowym. Wyznaczanie właściwości spektralnych obiektu, czyli zależności między właściwościami obiektu a ilością odbitego promieniowania w poszczególnych zakresach widma elektromagnetycznego, pozwala na identyfikację oraz ocenę obiektu (Hunt, 1979; Merzlyak i inni, 2003). Koncepcja teledetekcji hiperspektralnej opiera się interakcjach promieniowania elektromagnetycznego z obiektami. Interakcje te zależą od konkretnej długości fali elektromagnetycznej, dlatego szerokości połówkowe filtrów stosowanych w teledetekcji hiperspektralnej są bardzo wąskie (kilka nanometrów). Wykorzystując immanentną właściwość każdego obiektu na powierzchni Ziemi, jaką jest współczynnik odbicia spektralnego12, możliwe jest opisanie takiego obiektu krzywą spektralną (Ryc. 1). Padające na powierzchnię Ziemi promieniowanie elektromagnetyczne pochodzące od Słońca oddziałuje z powierzchnią, na którą pada. W zależności od cech fizycznych danej powierzchni promieniowanie elektromagnetyczne o różnej długości fali będzie przez nią bardziej lub mniej odbijane lub absorbowane. Przeprowadzając szczegółową analizę charakterystyki spektralnej można zidentyfikować wiele cech danego obiektu bez bezpośredniego kontaktu. Stosunkowo szybko udało się poczynić znaczne postępy w identyfikacji gleb i minerałów za pomocą danych hiperspektralnych (Goetz, 2009). Większość minerałów występujących na powierzchni Ziemi ma cechy łatwe do identyfikacji w podczerwieni termalnej (8-12 um; Vaughan i inni, 2003). Postęp badań nad baldachimem roślinnym napotkał większy opór, związany głównie z kompleksowością takich powierzchni (rośliny, prześwitująca gleba, skały) oraz dużą zmiennością flory. Oddziaływanie promieniowania elektromagnetycznego z powierzchniami zajmowanymi przez roślinność generuje mnogość niejednorodnych spektralnie pikseli (miksele). Wynika to z procesów zachodzących w roślinie (absorpcja, odbicie, transmisja 12 Stosunek promieniowania elektromagnetycznego odbitego od powierzchnii do padającego. 15 promieniowania elektromagnetycznego). Ludzkie oko jest w stanie rejestrować promieniowanie elektromagnetyczne w zakresie mniej więcej od 400 do 670 nm (Dowling, 1987); wykorzystując techniki hiperspektralne z łatwością można uzyskać informację na temat interakcji obiektów ze światłem z dalszych zakresów widma (podczerwień). Ryc. 1. Porównanie charakterystyk spektralnych pozyskanych z detektora wielospektralnego oraz symulacji charakterystyk spektralnych 218-kanałowego zobrazowania EnMAP13 Typowa roślinność ma kilka cech, które odróżniają ją od reszty obiektów na powierzchni Ziemi. Analizując krzywą spektralną dla roślinności (Ryc. 2) w zakresie pasma widzialnego promieniowania elektromagnetycznego można wyróżnić następujące cechy: znacząca absorpcja promieniowania w zakresie widzialnym, w tym zwiększone odbicie w paśmie światła zielonego oraz niskie odbicie spektralne w zakresie promieniowania niebieskiego i czerwonego (związane z absorbcją światła przez chlorofil). W zakresie promieniowania podczerwonego można spostrzec następujące cechy typowe dla zdrowej roślinności: krzywa czerwieni (red edge) w okolicach 700 nm mająca pośredni związek 13 www.enmap.org 16 z wigorem roślin, tzw. płaskowyż zieleni (green plateau), na podstawie którego można wywnioskować informacje na temat struktury komórkowej danej rośliny oraz jej stanu. Niskie wartości współczynnika odbicia w zakresie 1400–1500, 1900-2000 oraz 2400-2500 nm związane są z dużą zawartością wody w roślinach a 2 piki w zakresie 1600-1800 i 2100-2300 nm odpowiadają za zawartość nutrientów oraz cukrów, np. celuloza i ligniny. Dane hiperspektralne pozwalają wyznaczyć zakresy promieniowania elektromagnetycznego, które są powiązane z zawartością różnych substancji w roślinie. Ryc. 2. Wpływ czynników na przebieg krzywej odbicia spektralnego. Źródło: Zagajewski i inni, 2009 Na przykład fale o długości 710 nm można wykorzystać od analizy zawartości chlorofilu (Gitelson, Merzlyak, 1997), a 1720 nm z powodzeniem wykorzystuje się do analizy zwartości ligniny i celulozy (Dawson i inni, 1998). Tak krótka analiza cech roślinności przybliża ogrom możliwości badań wykorzystujących techniki hiperspektralne w badaniach roślinności (Tabela 1). W wielu przypadkach są to bardzo wąskie zakresy widma, które nie mogą być identyfikowane innymi metodami niż teledetekcja hiperspektralna. 17 Tabela 1. Wybrane zakresy absorpcji promieniowania elektromagnetycznego przez rośliny (Zagajewski, 2010) Długość fali (nm) 439 443 445 446 463 470 530-630 531 540 550 555 570 650 663,2 646,8 670 680 695 697-713 680 690 696-733 700 703, 704 710 719 750, 754 760/695 842-950 850 870 900 970 1240 1380 1450 Źródło informacji Zastosowanie analiza absorpcji neoksantyny (ksantofil) analiza absorpcji wiolaksantyny (ksantofil) analiza absorpcji luteiny (ksantofil) analiza absorpcji a-karotenu analiza absorpcji b-karotenu analiza absorpcji karotenoidów ogółem analiza zawartości chlorofilu analiza cyklu ksantofili i procesy absorpcji energii przez tylakoidy; najczęściej stosowane miary to PRI (Photochemical Reflectance Index) i LUE (photosynthetic Light Use Efficiency) analiza zawartości chlorofilu analiza zawartości chlorofilu, zakres do analiz chlorozy normalizacja efektu wpływu atmosfery oraz analiza AVI (Angular Vegetation Index) analiza cyklu ksantofili (podobnie jak zakres 531 nm); wrażliwy na zawartość chlorofilu analiza chloroz analiza absorpcji chlorofilu a analiza absorpcji chlorofilu b normalizacja efektu glebowego i analizy AVI, kanał do analiz niewielkich ilości chlorofilu analiza absorpcji chlorofilu analiza stresu roślinnego Plant Stress Index (760/695 nm) analiza konarów drzew liściastych analiza zawartości chlorofilu analiza zawartości chlorofilu analiza drzew liściastych analiza zawartości chlorofilu analiza stresu roślin (red edge inflection) analiza zawartości chlorofilu analiza stresu roślin (red edge inflection) analiza stresu roślin (red edge inflection) analiza stresu roślin Plant Stress Index analiza drzew liściastych analiza zawartości chlorofilu normalizacja efektu glebowego, AVI analiza analiza turgoru roślin (zawartość wody) analiza absorpcji wody w liściach analiza turgoru roślin iglastych analiza turgoru roślin (zawartość wody) analiza absorpcji wody w liściach 18 Ruban i inni, 1993 Ruban i inni, 1993 Ruban i inni, 1993 Ruban i inni, 1993 Ruban i inni, 1993 Ruban i inni, 1993 Gitelson, Merzlyak, 1997 Barton, North, 2001 Gitelson, Merzlyak, 1997 Gitelson, Merzlyak, 1997, Adams i inni, 1999 Plummer i inni, 1994; North, 2002 Barton, North, 2001; Gitelson, Merzlyak, 1997 Adams i inni, 1999 Lichtenthaler, Wellburn, 1983 Lichtenthaler, Wellburn, 1983 Plummer i inni, 1994; North, 2002; Gitelson, Merzlyak, 1997 Datt, 2000 Carter, 1994 Cochrane, 2002 Datt, 1999 Gitelson, Merzlyak, 1997 Cochrane, 2000 Gitelson, Merzlyak, 1997 Shaw i inni, 1998; Datt, 1999 Gitelson, Merzlyak, 1997 Shaw i inni, 1998 Datt, 1999 Carter, 1994 Cochrane, 2001 Datt, 1999 Plummer i inni, 1994; North, 2002 Fourty, Baret, 1998 Aldakheel, Danson, 1997 Dawson i inni, 1998 Fourty, Baret, 1998 Aldakheel, Danson, 1997 Długość fali (nm) 1510 1630 1650-1850 1720 1730 1870 1910 2160 2180 2310 Źródło informacji Zastosowanie analiza absorpcji białek i związków azotu w drzewach iglastych normalizacja frakcji absorbowanej energii z zakresu fotosyntezy (fAPAR) analiza zawartości wody w zbożach (pszenicy) analiza zawartości ligniny i celulozy analiza suchych liści, absorpcja węglowodorów analiza zawartości suchej masy analiza turgoru roślin (zawartość wody) analiza zawartości suchej masy analiza absorpcji białek i związków azotu analiza suchych liści, absorpcja węglowodorów Dawson i inni, 1998 Plummer i inni, 1994; North, 2002 Tian i inni, 2001 Dawson i inni, 1998 Datt, 2000; Hoerig i inni, 2001 Fourty, Baret, 1998 Fourty, Baret, 1998 Fourty, Baret, 1998 Dawson i inni, 1998 Hoerig i inni, 2001; Fourty, Baret, 1998 Pierwsze lotnicze zastosowania teledetekcji hiperspektralnej wiążą się ze skanerem profilującym GERS, skonstruowanym na początku lat 1980., który dokonywał pomiaru współczynnika odbicia w zakresie od 400 do 2500 nm w 64 kanałach spektralnych. Dopiero w 1987 roku udało się zbudować obrazujący skaner lotniczy (Airborne Imaging Spectrometer – AIS 1) mierzący w tym samym zakresie widma i obrazujący w 128 kanałach spektralnych (Goetz, 2009). Pierwsze eksperymenty z obrazami hiperspektralnymi w Europie miały miejsce w DLR14 Oberpfaffenhofen (Niemcy) pod koniec lat 1990. i wiązały się one głównie z sensorem DAIS 791515 (Mueller i inni, 1998). Gwałtowny rozwój technik komputerowych oraz procesu miniaturyzacji elementów optoelektronicznych spowodował pojawienie się większej liczby sensorów teledetekcyjnych operujących na trzech poziomach: satelitarnym, lotniczym i terenowym. Obecnie działa znaczna liczba sensorów satelitarnych, z których część oferuje swoje dane nieodpłatnie. Dane pochodzące z sensorów lotniczych stają się ogólnie dostępne, głównie ze względu na rosnącą liczbę sensorów lotniczych oraz stosowanie samolotów typu UAS16, na których instaluje się skanery hiperspektralne, np. norweski HySpex (w najbliższych miesiącach ma być dostępna wersja skanera z zakresu SWIR przeznaczona dla UAS). Wykorzystanie teledetekcji hiperspektralnej w badaniach stanu oraz ocenie roślinności prowadzone są od początku powstania tej dziedziny, czyli od lat 1980. (Vane, Goetz, 1988; 14 DLR – Deutsches Luft- und Raumfahrt – Niemiecka Agencja Kosmiczna. DAIS 7915 – sensor hiperspektralny obrazujących w 79 kanałach spektralnych w zakresie od 400 do 12600 nm, rozdzielczość spektralna 15 bitów. 16 UAS – Unmanned Aerial System – ogólna nazwa zdalnie sterowanych samolotów i helikopterów wykorzystanych w teledetekcji. 15 19 Hope i inni, 1993; Kokaly i inni, 2003). Badania hiperspektralne prowadzi się także w lasach, wykorzystując dane pozyskane w terenie np. z przenośnych kamer hiperspektralnych oraz spektrometrów terenowych, a następnie przenosi się uzyskane wyniki na poziom lotniczy czy satelitarny (np. Hyperion). Przykładem takich badań jest ocena spektralnej zmienności krzywych spektralnych dla sześciu gatunków drzew (Pinus taeda, Pinus virginiana, Pinus echinata, Quercus coccinea, Quercus alba, Liriodendron tulipifera; Aardt, Wynne, 2001). Badania potwierdziły możliwość klasyfikacji gatunków drzewiastych na poziomie dokładności 62-99% względem badań terenowych. Próba klasyfikacji na symulowanych danych Landsat dała niską dokładność, potwierdzając potrzebę wykorzystania danych o wyższej rozdzielczości spektralnej, gdyż największe różnice spektralne między gatunkami drzew występują w zakresie 350-1850 nm (Aardt, Wynne, 2001). Dane z hiperspektralnych sensorów AVIRIS17 oraz Hyperion18 wykazały przydatność obrazów hiperspektralnych do oceny zawartości azotu w koronach drzew, błąd pomiarowy wyniósł od 7 do 15% dla danych AVIRIS oraz 7 do 47% dla danych satelitarnych o pikselu 30 m (Hyperion) w porównaniu z pomiarem laboratoryjnym średniej zawartości azotu w roślinach (Martin i inni, 2008). Teledetekcja hiperspektralna została też z powodzeniem użyta do pomiaru nie tylko zawartości barwników fotosyntetycznie czynnych, ale również wybranych substancji budulcowych roślin (węgiel, azot, potas, fosfor, wapń, magnez, cynk, mangan, bor, żelazo; Asner i inni, 2011). Wykorzystując naziemne pomiary hiperspektralne ponad 6000 koron drzew tropikalnych uzyskano wysokie korelacje zawartości pigmentów i chlorofilu w roślinach (R2 > 0,68) uzyskanych na podstawie pomiarów spektrometrycznych z laboratoryjnymi pomiarami biometrycznymi. Korelacje zawartości pierwiastków chemicznych z pomiarami spektrometrycznymi dla potasu, węgla, wapnia, azotu i fosforu wyniosły ponad R2 > 0,50. Stwierdzono dużą użyteczność zakresu do 400 do 2500 nm w badaniu chemizmu roślin (Asner i inni, 2011). Poza dostarczaniem informacji na temat zawartości pigmentów w roślinach, teledetekcja potwierdziła też swoją przydatność w kartowaniu gatunków inwazyjnych. Wykorzystując dane z lotniczego skanera hiperspektralnego Carnegie Airborne Observatory (CAO) z sukcesem zidentyfikowano obszary występowania Psidium cattleianum na obszarze 17 AVIRIS – lotniczy skaner hiperspektralny obrazujący w zakresie od 400 do 2500 nm w 224 kanałach spektralnych z rozdzielczością radiometryczną 10 nm (Martin i inni, 2008). 18 Hyperion – skaner hiperspektralny zamontowany na satelicie EO-1, obrazujący w zakresie od 400 do 2500 nm w 220 kanałach spektralnych z rozdzielczością przestrzenną 30 m (Pearlman i inni, 2003). 20 Wao Kele O Puna Forest Reserve na Hawajach (Barbosa i inni, 2016). Wykorzystano zmodyfikowany algorytm SVM, a jednym z problemów napotkanych w pracy było poprawne zidentyfikowanie szukanego gatunku w bogatym gatunkowo lesie. Uzyskane wyniki porównano z pomiarami terenowymi uzyskując wysokie korelacje (R2 > 0,83). Do niedawna, w Polsce dostępność danych hiperspektralnych była limitowana niewielką ilością sprzętu, jaką posiadały jednostki naukowe. Początek prac badawczych wykorzystujących zobrazowania hiperspektralne w Polsce, wiąże się ze zobrazowaniem AISA19, na podstawie którego zbadano zawartości pigmentów w aparacie asymilacyjnym sosen Puszczy Niepołomickiej (Wężyk i inni, 2003). Wykonane zobrazowanie miało 34 kanały spektralne o rozdzielczości przestrzennej wynoszącej 1 metr. Na podstawie przeprowadzonych badań terenowych stwierdzono wysoki stopień korelacji zawartości chlorofilu a wskaźnikami PSRI20 i PRI21. Poza możliwością oceny ogólnej kondycji czy dostarczenia informacji na temat zmiennych biofizycznych roślinności, teledetekcja hiperspektralna była też często wykorzystywana do identyfikacji i kartowania zbiorowisk roślinnych (Zagajewski, 2010). Lotnicze dane z sensora DAIS 791522 pozwoliły odróżnić 42 klasy pokrycia terenu, identyfikując między innymi rzadkie i cenne zbiorowiska nieleśne na obszarze Tatr Wysokich . Do tego celu wykorzystane zostały klasyfikatory SAM23 i sztuczne sieci neuronowe (SNNS24). Uzyskane wyniki wykazały przydatność zestawów składających się z 20 kanałów skompresowanych (MNF) i 40 wybranych kanałów spektralnych. Dokładności producenta klasyfikacji oscylowały odpowiednio wokół 74 i 84%, natomiast dokładności użytkownika wynosiły powyżej 63 i 67%. Analizowano także wpływ wykorzystania różnych zestawów danych, liczby pikseli treningowych oraz algorytmów na końcowy wynik (Zagajewski, 2010). 19 AISA – Airborne Imaging Spectrometer for Applications, programowalny lotniczy skaner hiperspektralny rejestrujący promieniowanie elektromagnetyczne w zakresie 450 - 900 nm, w maksymalnie 286 kanałach spektralnych (Makisara i inni, 1993). 20 PSRI – Plant Senescence Reflectance Index, wskaźnik teledetekcyjny wykorzystywany do obserwacji starzenia się roślinności. Silnie powiązany z zawartością karotenoidów w roślinach (Merzlyak i inni, 1999). 21 PRI – Photochemical Reflectance Index, wskaźnik teledetekcyjny używany do estymacji zawartości pigmentów w roślinie poprzez obserwację wskaźnika odbicia spektralnego w zakresie 532 nm. Używany do oceny stanu kondycyjnego roślinności (Gamon i inni, 1992). 22 DAIS – Digital Airborne Imaging Spectrometer – sensor hiperspektralny opracowany przez DLR, ma 79 kanałów spektralnych, w zakresach 400 - 1000, 1500-1800, 2000-2500, 3000-5000 oraz 8000-12000 nm (Holzwarth i inni, 2003). 23 SAM – Spectral Angle Mapper – nadzorowany algorytm klasyfikujący porównując kąt spektralny jaki tworzą krzywa spektralna pozyskana z obrazu oraz krzywa wzorcowa dla danej klasy (Kruse i inni, 1993) 24 SNNS – Stuttgart Neural Network Simulator. 21 1.1. Procedury korekcji obrazów hiperspektralnych Dane pozyskane w trakcie nalotu, zwane też danymi surowymi, wymagają przeprowadzenia kilku procedur przed ich wykorzystaniem w pracach badawczych. Pierwszą czynnością jest korekcja geometryczna, czyli przetransformowanie danych pozyskanych w układzie współrzędnych sensora na układ współrzędnych geograficznych. Dzięki jednoczesnemu zbieraniu danych spektralnych i informacji dotyczącej położenia sensora w przestrzeni (za pomocą różnicowego odbiornika DGPS zintegrowanego z sensorem) oraz wychyleń samolotu płaszczyznach ω, φ, κ rejestrowanych przez inercyjny system nawigacji (Inertial Navigation System – INS) możliwe jest przypisanie każdemu pikselowi zobrazowania współrzędnych geograficznych (Schläpfer, Richter, 2002; Schläpfer i inni, 2012). Zebrane dane muszą zostać poddane procesowi ortorektyfikacji, aby zniwelować wpływ różnych kątów widzenia sensora oraz ruchów platformy zbierającej dane na obraz wynikowy (Zhang i inni, 2016). Dodatkowo w tym procesie wszelkie zniekształcenia obrazu (sygnału) wynikające z niestabilności platformy zbierającej dane (samolot) oraz efekty wywołane rzeźbą terenu zostają zminimalizowane (Schläpfer i inni, 1998). Kolejnym krokiem jest przeprowadzanie kalibracji radiometrycznej zobrazowania, która polega na przeliczeniu wartości pozyskanych podczas nalotu (Digital Number – DN) na radiancję (ilość energii docierającej do sensora; Schaepman i inni, 2015). Dodatkowo korekcja radiometryczna pozwala na usunięcie z obrazów efektów wynikających z właściwości sensora (spectral-smile, dark-current) bazując na kalibracji sensora w laboratorium (Sterckx i inni, 2015). Ostatnim krokiem podczas przetwarzania danych hiperspektralnych jest wykonanie korekcji atmosferycznej. Zebrane przez sensor dane zawierają nie tylko sygnał odbity od powierzchni ziemi, ale także pochodzący z rozpraszania światła w atmosferze czy odbitego od chmur i innych obiektów. Obecnie stosuje się dwa podejścia do korekcji atmosferycznej: (a) podejście empiryczne bazujące na danej scenie, (b) podejście oparte na modelach transferu promieniowania w atmosferze (Radiative Transfer Models – RTMs). Z reguły stosowanie podejścia opartego na modelu transferu promieniowania w atmosferze jest trudniejsze, ale daje lepsze efekty (Gao i inni, 2009). Zadaniem korekcji atmosferycznej jest przeliczenie danych o radiancji uzyskanych podczas nalotu na współczynnik odbicia. Korekcja atmosferyczna polega na usunięciu wpływu warstwy atmosfery (głównie efektów rozpraszania wynikających z obecności w atmosferze cząsteczek tlenu, pary wodnej, dwutlenku węgla oraz miejscowo 22 występujących koncentracji aerozoli i pyłów) znajdującej się między sensorem a powierzchnią terenu na wartości współczynnika odbicia dla poszczególnych pikseli zobrazowania (Streckx i inni, 2015). Dzięki tej czynności można zmierzyć współczynnik odbicia spektralnego danej powierzchni bez potrzeby kompensowania uzyskanych pomiarów o stan atmosfery nad daną powierzchnią. Prawidłowo wykonana korekcja pozwala na pozyskiwanie z poziomu lotniczego charakterystyk spektralnych obarczonych niewielkim błędem i porównywalnych z pomiarem naziemnym (Richter, Schläpfer, 2002). 1.2. Procedury przetwarzania danych hiperspektralnych Jedną z pierwszych czynności przeprowadzoną po wykonaniu korekcji zebranych danych teledetekcyjnych jest wyznaczenie zbioru danych, na których zostaną wykonane analizy. Dane hiperspektralne cechują się setkami kanałów spektralnych, a co za tym idzie także dużym rozmiarem (rozumianym jako zajęte miejsce na twardym dysku komputera) oraz długim czasem przetwarzania. Ponadto ze względu na dużą rozdzielczość spektralną (liczba kanałów), sąsiadujące ze sobą kanały spektralne są ze sobą skorelowane (Thenkenbail i inni, 2004). Cześć algorytmów klasyfikujących może zostać dotknięta tzw. „klątwą wielowymiarowości” (Hughes, 1968). Objawia się ona spadkiem dokładności klasyfikacji wraz ze wzrostem liczby klasyfikowanych kanałów zobrazowania, dlatego częstym rozwiązaniem jest zmniejszenie tej liczby dbając o to by nie zaniżać wyników. Dzieje się to na drodze wyboru najbardziej informacyjnych kanałów lub też kompresji danych. Są dwie metody selekcji danych: (a) manualna – wizualne przeglądanie poszczególnych kanałów, (b) automatyczna, która redukuje przestrzeń spektralną bazując na cechach statystycznych obrazu (Feilhauer i inni, 2015). Obliczenie nowego zestawu danych wejściowych odbywa się na podstawie algorytmów redukujących liczbę kanałów obrazu, np. Minimum Noise Fraction (MNF25), Principal Component Analysis26 (PCA). Szczególnie popularne są metody PCA i MNF ze względu na jakość uzyskiwanych wyników oraz znaczną redukcję ilości użytych danych (Zabalza i inni, 2014; Fassnacht i inni, 2016). Przykładowo, wybór od 20 do 40 kanałów po transformacji MNF pozwala uzyskać wyniki tylko o kilka procent gorsze niż 25 Minimum Noise Fraction (MNF) – metoda transformacji danych, polegająca na liniowej transformacji wyników analizy PCA w celu usunięcia szumów z sygnału (Green i inni, 1988). 26 Principal Component Analysis – analiza składowych głównych (PCA) pozwala wykonać rzut wielowymiarowych danych na przestrzeń o dużo mniejszym wymiarze, jednocześnie zachowując maksymalnie dużo informacji (Sztemberg-Lewandowska, 2015), 23 pełny zestaw danych spektralnych (Zagajewski, 2010), czyli redukcja oryginalnego zestawu danych o 60-80% daje wyniki podobne jak pełny zestaw (Ghosh i inni, 2014). 1.3. Klasyfikacja obrazów teledetekcyjnych Klasyfikacja jest definiowana przez Słownik Języka Polskiego (1978) jako „systematyczny podział różnych przedmiotów lub zjawisk na klasy, działy, poddziały itp. według określonej zasady; zaklasyfikowanie danego przedmiotu lub zjawiska do odpowiedniego działu, grupy”. W teledetekcji klasyfikacja oznacza przypisanie „klas” do poszczególnych pikseli zobrazowania. Klasy mogą zawierać bardzo ogólne formy pokrycia terenu (np.: las, zabudowania) lub dotyczyć wąsko zdefiniowanych obiektów (gatunek drzewa, siedlisko). Proces klasyfikacji obrazu wymaga przeprowadzenia następujących kroków (Mather, Koch, 2011): wyznaczenie klas, które mają być sklasyfikowane na obrazie (identyfikacja), przypisanie każdemu pikselowi obrazu wartości danej klasy, bazując na właściwościach pikseli i używając do tego klasyfikatora lub algorytmu decyzyjnego. Klasyfikacja może być wykonana na dwa sposoby. Pierwszym jest automatyczne podzielenie pikseli obrazu na grupy, przy użyciu tylko cech obrazu, bez przedstawiania algorytmowi klasyfikującemu wzorców klas, które chcemy wyróżnić. Jest to klasyfikacja nienadzorowana (Mohri i inni, 2012). Drugim sposobem jest wykorzystanie algorytmu klasyfikującego, któremu przedstawione zostaną wzorce klas, które mają zostać wyróżnione na obrazie. Klasyfikator następnie przypisuje piksele obrazu do odpowiednej klasy biorąc pod uwagę właściwości wzorców – metodę tę nazywa się klasyfikacją nadzorowaną (Mohri i inni, 2012). Proces klasyfikacji wymaga dostarczenia zasad/reguł, według których poszczególne piksele są przypisywane do wyróżnianych klas. W przypadku przetwarzania danych metodami cyfrowymi, zwykle zestaw zasad klasyfikacyjnych zostaje zapisany w postaci algorytmu klasyfikacyjnego (klasyfikatora). Algorytmy klasyfikujące dzielone są na parametryczne i nieparametryczne. Algorytmy parametryczne oparte są na statystycznych charakterystykach danych użytych do treningu klasyfikatora. Takie algorytmy bazują na statystycznym prawdopodobieństwie rozkładu wzorców dla danej klasy (Yugal, Sahoo, 2012) na przykład algorytmy oparte na drzewach decyzyjnych27 (Decision Tree – DT). Algorytmy 27 DT – decision tree – metoda podziału zestawu danych bazująca na automatycznym wyborze odpowiednich atrybutów danego zestawu danych, które iteracyjnie dzielą dane na mniejsze grupy w zależności od 24 nieparametryczne nie opierają się na charakterystykach statystycznych danych treningowych, wykorzystując inne metody do wydzielenia klas (np. regresja, sztuczne sieci neuronowe; Yugal, Sahoo, 2012). 1.4. Ocena dokładności klasyfikacji Ocena dokładności klasyfikacji ma za zadanie zweryfikowanie uzyskanych wyników. Jest to jeden z ważniejszych etapów pracy, pozwalający na ocenę prawidłowości wyników. Podstawowym elementem oceny klasyfikacji poszczególnych obiektów jest macierz błędów, w postaci tabeli krzyżowej wyników klasyfikacji oraz danych weryfikacyjnych. Klasy przypisane do pikseli sklasyfikowanego obrazu porównuje się z zestawem danych weryfikacyjnych na podstawie których sprawdzona zostaje zgodność wyników klasyfikacji ze stanem faktycznym (Campbell, 1996; Foody, 2002). Ocena dokładności polega na obliczeniu ogólnej dokładności klasyfikacji (overall accuracy), dokładności producenta (producer accuracy) i użytkownika (user accuracy) dla każdej klasy oraz powszechnie wykorzystywanego współczynnika kappa (Cohen, 1960): dokładność całkowita (ogólna) – stosunek liczby poprawnie sklasyfikowanych pikseli względem wszystkich pikseli wzorcowych wydzielonych dla każdej z klas, dokładność producenta – stosunek poprawnie sklasyfikowanych pikseli danej klasy do wszystkich pikseli w zestawie testowym dla tej klasy, dokładność użytkownika – stosunek pikseli właściwie sklasyfikowanych w danej klasie do wszystkich pikseli zaklasyfikowanych do tej kategorii, współczynnik kappa – pokazuje stopień podobieństwa wykonanej klasyfikacji w porównaniu z klasyfikacją realizowaną przypadkowo. Wartość 0 oznacza pełne natomiast 1 brak podobieństwa (Cohen, 1960). Wartości kappa większe od 0,75 są uznawane za dowód wykonania dobrej klasyfikacji (Montserud, Leamans, 1992). Dokładność producenta bywa też nazywana błędem niedoszacowania, a dokładność użytkownika – błędem przeszacowania (Mather, Koch, 2011). Proces oceny dokładności jest mocno związany z wyborem wzorców do uczenia klasyfikatora i weryfikacji wyniku. W trakcie tego procesu badacz dzieli zebrane wzorce na dwie grupy: do uczenia i weryfikacji. Oba zestawy muszą być niezależne. Zestaw do uczenia wyznaczonych atrybutów. Celem działania algorytmu jest wykształcenie zestawu zasad, na podstawie których budowane jest drzewo decyzyjne (Quinlan, 1986). 25 klasyfikatora służy wytrenowaniu klasyfikatora, który wykonuje klasyfikację zobrazowania. Poprawność otrzymanego wyniku oceniana jest według zestawu weryfikacyjnego. Takiego typu podejście do weryfikacji wyniku jest standardem w teledetekcji oraz innych naukach wykorzystujących zaawansowane algorytmy klasyfikacji (uczenie maszynowe, informatyka, biologia, itp.). Opisane powyżej podejście, mimo że szeroko używane, obarczone jest pewnymi wadami (Foody, 2002), takimi jak problemy wynikające z użycia macierzy błędów (brak odniesienia do przestrzennej zgodności wyniku z rzeczywistym stanem), błędy przy rejestracji obrazu oraz przy wykonywaniu pomiarów terenowych, czy nieodpowiednia strategia doboru poligonów pomiarowych. Kolejna wada to fakt, że badacz dobiera wzorce do uczenia i weryfikacji kierując się własną opinią. Może to wprowadzić pewnego rodzaju stronniczość do wyniku oraz zaniżyć lub zawyżyć otrzymane miary dokładności. Ważne jest też, że klasyfikacje nadzorowane są wrażliwe na zestaw danych użyty do ich uczenia (Ghosh i inni, 2014). Dokładności klasyfikacji będą się zmieniały w zależności od danych, które zostaną przedstawione klasyfikatorowi oraz użyte do weryfikacji wyniku. Kolejną wadą jest jednorazowy proces klasyfikacji i weryfikacji wyniku, który nie potrafi odpowiedzieć na pytanie jak zmieniałby się miary dokładności, gdyby zestaw do uczenia i weryfikacji został dobrany inaczej (np. przez innego badacza). Jednym ze sposobów rozwiązania powyższych problemów jest wykorzystanie technik opartych na metodzie Monte Carlo (Braga-Neto, Dougherty, 2004; Khatami i inni, 2017) lub k-krotny sprawdzian krzyżowy (k-fold cross valdiation, Baldeck i inni, 2015). Z reguły takie techniki polegają na wielokrotnym powtórzeniu klasyfikacji, przy zmienianym za każdym razem zestawie do testów i weryfikacji oraz obserwacji zmian w wynikach. Dzięki zastosowaniu takiego podejścia oraz włączaniu do niego losowego dobierania wzorców do zestawu do uczenia i weryfikacji, można zredukować wpływ badacza na wyniki oraz zaobserwować efekty, których klasycznie przeprowadzona ocena dokładności nie wykryje. Otwartą kwestią zostaje również stosunek liczby wzorców użytych do uczenia i weryfikacji. W przypadku k-krotnego sprawdzianu krzyżowego nie istnieje uniwersalnie optymalne k, przy którym wynik nie byłby zawyżony lub zaniżony (Bengio, Grandvalet, 2004). W literaturze można spotkać podejścia, w których (a) użyto 2/3 danych do treningu i 1/3 do testu (Graves i inni, 2016), (b) autorzy sami wybrali liczebności wzorców w zestawie treningowym oraz z góry określoną liczbę wszystkich pikseli testowych (Tagliabue i inni, 26 2014), (c) czy też rozwiązania bazujące na wybraniu 1/5 wszystkich wzorców jako zestaw testowy (Baldeck i inni, 2015). Większości nowszych prac stosuje się metodę wielokrotnego powtórzenia treningu i weryfikacji podczas oceny dokładności wyniku, tak aby lepiej ocenić jakość wyniku (Kim, 2009; Cho i inni, 2012; Alonzo i inni, 2013, Fassnacht i inni, 2014). Koncepcja ta będzie wykorzystana w niniejszej pracy, by uniknąć tendencyjnej oceny dokładności. Wynika to bezpośrednio z przyjętego stosunku wzorców w zestawie do uczenia i weryfikacji (Foody, 2002). Prace, w których zestaw do uczenia jest wielokrotnie większy niż zestaw do weryfikacji są narażone na zawyżanie otrzymanych wyników. Jest to spowodowane niewystarczającym rozmiarem zestawu do weryfikacji oraz faktem, że zestaw do weryfikacji może nie być w stanie odpowiednio przetestować klasyfikatora. Dodatkowo taki zestaw weryfikacyjny naraża nasz model na dużą wariancję wyników w przypadku wykorzystania metod Monte Carlo (Hastie i inni, 2009). Z drugiej strony, jeżeli zestaw do weryfikacji jest znacznie większy niż zestaw do uczenia istnieje ryzyko nieświadomego zaniżania wyników. Klasyfikatory zwykle działają z założeniem, że zestaw treningowy jest reprezentatywny dla badanej populacji. Klasyfikator wytrenowany na stosunkowo małej liczbie wzorców może nie być w stanie objąć wariancji, jaka występuje w klasach, które chcemy klasyfikować. Wymienione powyżej zjawiska bardzo wyraźnie dotykają analizy oparte na niewielkiej liczbie wzorców i stają się mniej widoczne przy większych zestawach wzorców. Wykorzystanie procedury oceny dokładności opartej na metodach Monte Carlo (iteracyjna ocena dokładności) pozwala na spostrzeżenie, czy takie zjawisko występuje w naszym zestawie danych oraz pozwala ocenić jak duży wpływ ma ono na końcowy wynik. Mimo wykorzystania metod opartych o wielokrotny podział wzorców, wyniki mają tendencję do bycia zaniżonymi (Efron, 1979). Pewnym usprawnieniem redukującym ten efekt jest metoda 0,632 Estimate (Efron, 1983). Zakłada ona, że w każdej iteracji 63,2% losowo wybranych unikatowych wzorców zostaje użyte jako zestaw do treningu klasyfikatora, natomiast pozostałe 36,8% wzorców do zweryfikowania wyniku (Efron, 1983; Fassnacht i inni, 2014). Metoda ta została wykorzystana w niżej prezentowanych badaniach. 1.5. Procedury wyboru danych wykorzystanych w klasyfikacji Ze względu na dużą rozdzielczość spektralną rejestrowanych danych hierspektralnych (200-500 kanałów), do dalszych analiz należy wybrać tylko najbardziej wartościowe informacje (Thenkabail i inni, 2004). Niektórzy autorzy rekomendują redukcję liczby 27 używanych danych (Hughes, 1968; Fassnacht i inni, 2014; Ghosh i inni, 2014). Wiąże się to z potrzebą wyboru najlepszych kanałów zobrazowania. Procedura wyboru kanałów ma za zadanie uzyskanie wysokiej dokładności klasyfikacji przy jednocześnie maksymalnej redukcji liczby kanałów spektralnych. W literaturze można spotkać się z dwoma podejściami do rozwiązania powyższego problemu: (a) wyznaczenie mniejszego zastawu kanałów spektralnych lepiej oddającego charakterystykę klasyfikowanych klas lub (b) obliczenie nowego zestawu danych wejściowych, przy użyciu algorytmów redukujących liczbę kanałów obrazu (MNF, PCA, itd.). Pierwsza metoda jest przez niektórych oceniana, jako dostarczająca wyniki o mniejszej dokładności niż przekształcenia wykonane na kanałach MNF (Fassnacht i inni, 2016). Wadą tej metody jest wrażliwość algorytmów PCA i MNF na prezentowane dane, która sprawia że wnioski oraz wartości wniesione przez nie do przetwarzania danych są zależne od zestawu danych. Ponadto algorytmy typu MNF czy PCA transformują obraz do innej przestrzeni (ze spektralnej do nowej przestrzeni obserwacji), co powoduje że trudno jest interpretować znaczenie poszczególnych kanałów po transformacji oraz przełożyć uzyskane wnioski na inne badania. Drugie podejście polegające na wyborze najlepszych kanałów spektralnych pozbawione jest tych wad, ale wymaga zastosowania algorytmu wyboru kanałów. Do tych metod można zaliczyć manualną selekcję kanałów, wykorzystanie algorytmu Random Forest, metody analizy regresji (stepwise regresion), algorytm genetyczny i inne (Feilhauer i inni, 2015; Fassnacht i inni, 2016). Lee i inni (2016) wykazali przydatność metody PCA, wskazując jednocześnie, że potrzeba przynajmniej 12 kanałów PCA, aby osiągnąć satysfakcjonujące rezultaty. Liczba wykorzystanych kanałów po transformacji jest zależna od zastosowania (Lee i inni, 2016). Pewną kontrowersją jest liczba użytych w klasyfikacji kanałów spektralnych lub kanałów po transformacji MNF. Fassnacht i inni (2014)28 stwierdzili, że klasyfikacja dla zestawu danych po transformacji MNF, przy porównaniu do identycznej liczby oryginalnych kanałów spektralnych, daje wyższą dokładność. Ghosh i inni (2014) sugerują wykorzystanie 25 kanałów po transformacji MNF jako optymalnego zestawu klasyfikacyjnego do identyfikacji drzewostanów. Natomiast Mas i Flores (2008) zalecają użycie przynajmniej 40 oryginalnych kanałów, co zdaje się mieć 28 Przetestowano zestawy o 5, 10, 15, 20, 25 i 30 kanałach. We wszystkich przypadkach testowych dane po transformacji MNF dawały lepsze wyniki niż zestawy kanałów spektralnych o takiej samej liczbie kanałów. Testy wykazały najlepsze wyniki dla zestawów od 10 do 20 kanałów MNF. Zestaw o 5 kanałach okazał się dawać najgorsze wyniki, natomiast zestawy o większej liczbie kanałów, niż 20 nie przynosiły znacznie lepszych wyników niż zestaw 20 kanałów 28 więcej sensu dla danych spektralnych, niż dla danych po transformacji PCA czy MNF. Kwestia optymalnego wyznaczenia liczby kanałów i metody ich wyboru bądź transformacji pozostaje istotna, ponieważ liczba użytych kanałów podczas przetwarzania danych ma znaczący wpływ na czas przetwarzania oraz zapotrzebowania na zasoby obliczeniowe. Zastosowana w niniejszej pracy metoda wyboru danych jest pewnego rodzaju hybrydą powyższych metod – zamiast używać kanały po transformacji PCA, autor wykorzystał inną właściwość PCA do oceny przydatności danego kanału spektralnego. Bazując na dotychczasowych pracach (Thenkabail i inni, 2012; Sommer i inni, 2015) oceniono informacyjność danego kanału spektralnego w każdej składowej głównej PCA poprzez analizę magnitudy wartości czynników, którą można interpretować jako korelację pomiędzy poszczególnymi kanałami spektralnymi a danym czynnikiem głównym. W ten sposób przypisano każdemu kanałowi spektralnemu wartość, która pozwala na ocenę istotności danego kanału - współczynnik użyteczności kanału (band loading, eigenvalue). Wyższe wartości oznaczają bardziej istotne kanały spektralne, niosące więcej przydatnej informacji. Użycie powyższej procedury pozwala na posortowanie kanałów spektralnych zobrazowania w kolejności udziału poszczególnych kanałów spektralnych w kanałach PCA. Metoda PCA sprawdziła się jako narzędzie do wybrania najlepszych kanałów zobrazowania, co wymiernie zwiększyło dokładność klasyfikacji wykonanej sztucznymi sieciami neuronowymi (Pu, 2009). 1.6. Lotnicze obrazy hiperspektralne APEX Na Uniwersytecie w Zurichu rozpoczęto prace planistyczne nad przygotowaniem nowego sensora hiperspektralnego w roku 1993. Zaowocowało to przyznaniem grantu na konstrukcję i wdrożenie skanera w 1995 roku. Sensor został zbudowany przez konsorcjum szwajcarsko-belgijskie w ramach programu ESA-PRODEX29. Prace konstrukcyjne i badawcze trwały do 2008 roku, kiedy to gotowy sensor wszedł w fazę kalibracyjną (Itten i inni, 2008). Sensor APEX jest aktywnie używany od 2009 roku; rejestruje w zakresie od 380 do 2500nm w maksymalnie 534 kanałach spektralnych (Tabela 2). APEX jest urządzeniem zbudowanym z dwóch detektorów, przystosowanych do zbierania charakterystyk spektralnych w zakresie widzialnym i bliskiej podczerwieni (VNIR) oraz średniej podczerwieni (SWIR). 29 Projekt zapoczątkowany przez ESA (Europejska Agencja Kosmiczna) w 1986 roku, mający na celu stymulowanie rozwoju produkcji instrumentów naukowych o wysokiej precyzji, głównie do zastosowań naukowych. 29 Tabela 2. Charakterystyki skanera APEX (za Popp i inni, 2012) VNIR SWIR 380,0-971,7 nm 941,2-2501,5 nm Liczba kanałów spektralnych do 334 198 Szerokość połówkowa filtra 0,6-6,3 nm 6,2-11 nm Zakres spektralny 28° Pole widzenia (FOV) Instantaneous Field of View (IFOV) 0,028° ( ≈ 0,5 mrad) Rozdzielczość przestrzenna 2,5 m @ 5000 AGL Celem budowy skanera APEX jest testowanie różnych rozwiązań technicznych i opracowanie algorytmów dla planowanych sensorów satelitarnych, takich jak Sentinel 2 i 3 oraz EnMAP (D'Odorico i inni, 2010). 1.7. Klasyfikacja drzewostanów na podstawie obrazów hiperspektralnych Jednym z pierwszych zespołów badawczych zajmujących się problematyką klasyfikacji drzewostanu za pomocą danych hiperpsektralnych był zespół z USGS30 pod kierownictwem R.F. Kokaly (2003). Badacze wykorzystali dane pochodzące z sensora AVIRIS31 do klasyfikacji ośmiu typów roślinności w lesie, wśród których znalazły się gatunki drzewiaste: świerk (Picea engelmannii), dwa gatunki sosny (Pinus contorta, Pinus albicaulis), jodła (Abies lasiocarpa), daglezja (Pseudotsuga menziesii) i topola (Populus grandidentata). Do klasyfikacji wykorzystano system TERTACORDER działający na zasadzie systemu eksperckiego, któremu przedstawia się bibliotekę spektralną zawierającą krzywe spektralne dla klasyfikowanych klas. Wynikowe obrazy klasyfikacyjne miały dokładność ogólną na poziomie 74,1% oraz współczynnik kappa równy 0,62. Warto zauważyć, że autorzy jako dane weryfikacyjne wykorzystali wyniki fotointerpretacji z 1990 roku, mającej na celu klasyfikację różnych typów pokrycia terenu w parku Yellowstone. Autorzy zwrócili uwagę na dużą zmienność spektralną w zakresie od 700 do 1300 nm dla sosny (Pinus contorta) wiązaną 30 USGS – United States Geological Survey. AVIRIS - Airborne Visible InfraRed Imaging Spectrometer. Dane techniczne: rozdzielczość spektralna 10 nm, rozdzielczość terenowa 2-20 m, pole widzenia 34°, liczba pikseli w linii 677, częstotliwość skanowania 12 Hz, liczba kanałów 224, zakres spektralny 0,38-2,5 μm, sposób skanowania: whisk broom. 31 30 głównie z różnicami wieku między drzewami wzorcowymi. Badanie wykonane przez G. Shen wskazało na zalety wykorzystania klasyfikatora SAM32 do klasyfikacji roślinności (Shen i inni, 2010). Badacze podkreślili umiejętność klasyfikatora SAM do poprawnego rozpoznawania klas poprzez występowanie charakterystycznych miejsc na krzywej spektralnej badanego obiektu. Część badaczy ograniczyła się w swoich badaniach tylko do zakresu widzialnego promieniowania elektromagnetycznego oraz bliskiej podczerwieni, ze względu na występowanie w tych zakresach szczególnych cech spektralnych dla roślinności (red edge, zakres absorbcji przez chlorofil a i b, występowanie pigmentów). Pewna grupa badań dowiodła jednak znacznej przydatności zakresu podczerwieni krótkofalowej (1000-2500 nm) do klasyfikacji roślinności (Peerbhay i inni, 2013; Tagliabue i inni, 2016; Fassnacht i inni, 2016). Podstawę do twierdzenia o ekonomicznej użyteczności klasyfikacji wykonanej na danych hiperspektralnych spróbowano potwierdzić w pracy K. Peerbhay (2013). Badacze sklasyfikowali sześć gatunków egzotycznych drzew uprawianych na drewno, rosnących w RPA. Do klasyfikacji użyli danych z sensora AISA Eagle (230 kanałów spektralnych) operującego w zakresie 393-994 nm. W wyniku uzyskali dokładność ogólną klasyfikacji 88% oraz współczynnik kappa 0,87 (Peerbhay i inni, 2013). Ze względu na przemysłowy charakter upraw, drzewa jednego gatunku występowały w dużych grupach, co znacznie ułatwiło zebranie danych wzorcowych oraz zredukowało liczbę tzw. „mikseli” wynikających z wzajemnego przesłaniania się koron drzew różnych gatunków. Dodatkowo autorzy podkreślili potrzebę wyboru najlepszych kanałów zobrazowania, co nie tylko zmniejsza czas przetwarzania danych, ale może również podnieść dokładność klasyfikacji (Lucas i inni, 2008). Klasyfikatory SVM i RF33 oraz dane z sensora HySpex pozwoliły sklasyfikować następujące gatunki drzewiaste: sosnę (Scots Pine), buk (Fagus Sylvatica), dwa gatunki dębu (Quercus robur i Quercus petraea) i daglezję (Pseudotsuuga menziesii). Przy klasyfikacji kanałów spektralnych uzyskano dokładność ogólną wynoszącą 81% dla algorytmu SVM oraz 77% dla RF. Dokładność ogólna klasyfikacji przeprowadzonej na 25 kanałach MNF wyniosła 95% niezależnie od zastosowanego algorytmu. Dodatkowo podjęto próbę porównania wyników klasyfikacji wykorzystując dane o różnej rozdzielczości przestrzennej. Stwierdzono brak znacznych różnic dla danych o rozdzielczości 4, 8 i 30 metrów dla klasyfikacji 32 SAM – Spectral Angle Mapper – algorytm klasyfikacyjny, którego zadaniem jest znalezienie na obrazie pikseli najbardziej podobnych spektralnie do wzorca. Często wykorzystywany przy klasyfikacji skał. 33 Support Vector Machine, Random Forest 31 wykorzystującej tylko dane spektralne, natomiast dane o rozdzielczości 30 metrów dały gorsze wyniki w przypadku, kiedy klasyfikowano kanały po transformacji MNF. Wnioskiem z tych prac jest wykazanie poprawy dokładności klasyfikacji dzięki zastosowaniu transformacji MNF na danych spektralnych, a następnie klasyfikacji kanałów MNF (Ghosh i inni, 2014). Metody teledetekcyjne pozwalają również na detekcję wybranych gatunków drzew w zróżnicowanym ekosystemie leśnym. Wykorzystując dane z sensora Carnegie Airborne Observatory udowodniono możliwość identyfikacji trzech gatunków drzew tropikalnych (Dipteryx panamensis, Handroanthus guayacan, Jacarando copaia) występujących na wyspie Barro Colorado w Panamie. W tym celu wykorzystano klasyfikator SVM, który zmodyfikowano tak, aby dostarczał informacje na temat istnienia danego gatunku w danym pikselu. Wykonane klasyfikacje osiągnęły dokładność ogólną 98% oraz dokładność producenta powyżej 94% (Baldeck i inni, 2015). Poza samą identyfikacją możliwe jest też wykonanie klasyfikacji gatunków drzew na bogatych gatunkowo obszarach lasów tropikalnych. Wykorzystując dane z Carnegie Airborne Observatory zespół badaczy sklasyfikował 20 tropikalnych gatunków drzew występujących w południowej Panamie. Badacze zastosowali algorytm SVM oraz zestaw danych hiperspektralnych o rozdzielczości przestrzennej 2 metry i 250 kanałach spektralnych. Praca wykorzystała metody sprawdzianu krzyżowego (iteracyjne, crossvalidation) podczas oceny dokładności klasyfikacji. Dokładność ogólna uzyskanej klasyfikacji wyniosła 62%. Najwyższe dokładności producenta oraz najmniejszą zmienność wyników zaobserwowano dla trzech klas reprezentujących najczęściej występujące gatunki drzew (ponad 75%). Praca wskazała na potrzebę dokładnego analizowania błędów przeszacowania i niedoszacowania klasyfikacji oraz rozwiązania przyczyn ich występowania (Graves i inni, 2016). Poza podejściami wykorzystującymi tylko dane hiperspektralne można spotkać się także z pracami wzbogacającymi dane spektralne danymi lidarowymi. Lee i inni (2016) wykorzystali dane lidarowe do wyznaczenia koron poszczególnych drzew, a następnie dokonali ich klasyfikacji używając charakterystyk spektralnych. W pracy sklasyfikowano 6 gatunków drzew: jesion Fraxinus excelsior, platan Acer pseudoplatanus, modrzewmLarix decidua, dąb Quercus robur, buk Fagus sylvatica, brzoza Betula spp,. wykorzystując algorytm SVM. W celu redukcji ilości przetworzonych danych wykorzystano transformację PCA. Wykonaną klasyfikację charakteryzowała dokładność ogólna 91% w przypadku klasyfikacji poszczególnych pikseli. Pięć z sześciu klas osiągnęło dokładność producenta powyżej 94%, 32 natomiast klasa Quercus robur (dąb) sklasyfikowała się najgorzej, osiągając dokładność producenta wynoszącą 67%. W przypadku gdy klasyfikowano gatunki drzew na poziomie indywidualnych koron drzew, uzyskano dokładność ogólną 61%. W przytoczonym przypadku klasy Larix decidua i Quercus robur osiągnęły dokładności producenta poniżej 37%. Autorzy ocenili, że na dużo niższe dokładności w przypadku klasyfikacji koron drzew miała wpływ niedostateczna dokładność geograficznej lokalizacji obszarów wzorcowych. W pracy pokazano skuteczność transformacji PCA w redukcji wykorzystanych danych. Badacze zauważyli znaczny spadek dokładności klasyfikacji przy wykorzystaniu mniej niż 12 kanałów PCA (5 kanałów – 70%, 10 kanałów – 81%, 15 kanałów – 86%), jednocześnie odnotowując wzrost dokładności w przypadku użycia większej liczby kanałów PCA. Przy użyciu 40 kanałów PCA dokładność ogólna klasyfikacji wyniosła 91% (Lee i inni, 2016). Można potwierdzić, że tematyka klasyfikacji drzewostanu jest intensywnie rozwijana. Wynika to z różnorodności i strefowości roślinności, a także liczebności grona badaczy zainteresowanych cechami spektralnymi roślin. Pokrywa roślinna ściśle zależy od położenia geograficznego, profilu pionowego, ale także od antropopresji. Teledetekcyjny monitoring dostarcza szczegółowych informacji o procesach zachodzących w środowisku, także w skali globalnej. Kluczowe są metody monitoringu roślinności wysokogórskiej, która dynamicznie reaguje na zachodzące zmiany. Wartości odbicia spektralnego dla różnych gatunków roślinności są wysoce ze sobą skorelowane, co wynika głównie z ich podobnej budowy anatomicznej i fizjologicznej, a także substancji biochemicznych (Price, 1994). Dodatkowo na ogólny przebieg krzywej spektralnej wpływa niewielka liczba cech związanych z samą rośliną (zawartość chlorofilu a i b, karotenoidów, struktura komórkowa liścia, Masaitis i Mozgeris, 2013). Warto też pamiętać o zmienności w odbiciu spektralnym wynikającym z wieku roślin oraz fenologii danego gatunku (Cochrane, 2000). Masaitis i Mozgeris (2013) wykazali, że u powszechnie występujących gatunków drzewiastych (topola Populus Tremula, olcha czarna Alnus glutinosa, świerk Picea abies, sosna Pinus sylvestris i brzoza Betula pendula), największe różnice spektralne występują na początku okresu wegetacyjnego w podczerwieni i zakresie niebieskim promieniowania elektromagnetycznego, natomiast w lecie najlepszą separację umożliwiają kanały spektralne zlokalizowane w dalszej podczerni oraz czerwony zakres promieniowania elektromagnetycznego. Drzewa szczególnie różnicują się spektralnie we wrześniu (iglaste) oraz lipcu (liściaste; Masaitis, Mozgeris, 2013). 33 Duża dostępność oraz różnorodność sensorów sprzyja powstawaniu nowych metod i algorytmów przetwarzania danych (Fassnacht i inni, 2016). Niemniej, dane hiperspektralne z racji na dużą liczbę oraz niewielką szerokość kanałów, stawiają przed badaczami nowe wyzwania. Poszczególne kanały spektralne są często silnie skorelowane z kanałami sąsiednimi, co powoduje, że część informacji jest dublowana (Thenkabail i inni, 2004). Jednocześnie ze względu na ogrom danych, których dostarczają sensory hiperspektralne oraz ograniczone zasoby obliczeniowe, badacze zmuszeni są do szukania rozwiązań pozwalających na wyznaczanie optymalnych kanałów zobrazowania. Badania literaturowe wskazały też na dużą liczbę algorytmów wykorzystanych do klasyfikacji drzewostanu. Najbardziej wyróżniają się metody oparte na klasyfikatorze SVM, głównie ze względu na łatwość wykorzystania tej metody oraz wcześniejsze prace, które regularnie donoszą o wysokiej dokładności wyników uzyskanych przy wykorzystaniu SVM. Teledetekcja hiperspektralna ma potencjał, który można wykorzystać do klasyfikacji gatunków drzew, co zostało już nieraz udowodnione. Techniki hiperspektralne dysponują rozwiniętymi metodami przetwarzania danych oraz prawidłowej ich korekcji, tak aby powtarzalnie dostarczać jednolite zestawy danych o wysokiej jakości. W literaturze można spotkać szeroką gamę algorytmów klasyfikujących o różnych zaletach i wadach. Dobór klasyfikatora jest zwykle podyktowany jego umiejętnością dostarczania miarodajnych wyników oraz łatwością zastosowania. Zagadnieniem godnym uwagi jest odpowiedni dobór danych wykorzystanych w analizach, tak aby możliwie efektywnie wykorzystać posiadane dane oraz zasoby obliczeniowe. 2. Sztuczne sieci neuronowe Jednym z fundamentalnych dokonań XIX wieku było odkrycie, że mózg człowieka składa się z ogromnej wzajemnie połączonych komórek zwanych neuronami (Finger, 2001). Od tego momentu wielu badaczy zadawało sobie pytanie, jak działa ludzki mózg. Mimo wielu lat, jakie upłynęły od tego odkrycia, nie udało się jeszcze w pełni zrozumieć całości procesu myślenia. Najpotężniejsze komputery nadal mają ogromne problemy z zadaniami trywialnymi dla dzieci (min. zrozumienie mowy, zdolność uczenia się nowych idei, rozpoznawanie twarzy i obiektów; Dehaene-Lambertz, Spelke, 2015). W latach 1940. wykorzystano wiedzę o budowie neuronu i systemie połączeń, jakie tworzy on z innymi, sąsiadującymi neuronami. Pierwszą trudnością było opracowanie modelu neuronu. Rozwiązanie tego problemu 34 zaproponowali W. McCulloch i W. Pitts, którzy w 1943 roku przedstawili matematyczny model sztucznego neuronu, który miał naśladować pracę neuronów obecnych w ludzkim mózgu (McCulloch, Pitts, 1943). Pierwszy model sztucznego neuronu miał wiele wad (brak możliwości przechowywania informacji, ograniczona zdolność transformacji sygnału), ale był elementem stymulującym dalsze badania w tej dziedzinie. W 1949 roku D. Hebb zaproponował metodę przechowywania informacji w sieci złożonej ze sztucznych neuronów oraz metodę uczenia (trenowania) sieci. Metoda ta polegała na zmianie wag przypisanych do każdego z połączeń między neuronami. Przepływ sygnału między neuronami zmieniał wagę połączenia w taki sposób, że wagi połączenia między bardziej aktywnymi neuronami miały większe wartości niż wagi połączeń rzadziej używanych neuronów (Hebb, 1949). Od tego momentu prace nad sztucznym neuronem koncentrowały się na zbudowaniu modelu, który pozwoliłby wykorzystać go do przetwarzania informacji (sygnału). Dopiero w 1958 roku F. Rosenblatt zaproponował pierwszy algorytm przetwarzania informacji oparty na sieci połączonych ze sobą sztucznych neuronów (perceptron, Rosenblatt, 1958). Zaproponowany algorytm naśladował działanie neuronów w ludzkim mózgu. Rozwiązanie zaproponowane przez Rosenblatta spotkało się z krytyką ówczesnych badaczy. Głównymi zarzutami była jednowarstwowa struktura sieci, ogromne jak na owe czasy zapotrzebowania algorytmu na moc obliczeniową oraz ograniczenie zastosowania algorytmu tylko do problemów, które można było rozwiązać za pomocą równań liniowych (Minsky i Papert, 1969). Wyżej wymienione problemy zostały rozwiązane przez P. Werbosa w 1974 roku (Werbos, 1994). Rozwiązaniem był algorytm nazwany wsteczną propagacją błędu, który pozwalał przeprowadzić uczenie wielowarstwowej sieci neuronowej. Kolejnym ważnym dokonaniem była sieć Self-Organising Map (SOM) zaproponowana przez Kohonena (1990). Początek lat 1990. przyniósł gwałtowny rozwój technologii produkcji podzespołów komputerowych, co pozwoliło na produkcję tanich komputerów. Szeroki dostęp do komputerów spowodował rozwój sztucznych sieci neuronowych w wielu dziedzinach. W zależności od zastosowań wykorzystywano różne typy sieci neuronowych, m.in.: perceptron wielowarstwowy, sieci Kohonena, sieci typu ART i ARTMAP, a także sieci Hopfielda. Ostatnie lata przyniosły nowe odkrycia w dziedzinie uczenia sztucznych sieci neuronowych. Coraz szybsze komputery pozwalają na stosowanie tzw. „sieci głębokiego uczenia” (LeCun i inni, 2015) – coraz częściej stosowane m.in. w dziedzinie rozpoznania obrazów, rozpoznawania mowy, automatycznego 35 tłumaczenia teksów czy modelowania protein i łańcuchów DNA (Krizhevsky i inni, 2012, Xiong i inni, 2016, Angermueller i inni, 2016). 2.1. Perceptron wielowarstwowy Stosunkowo prosty mechanizm działania neuronu zaproponowany przez W. Pittsa i W. McCullocha (McCulloch, Pitts, 1943) dał impuls do rozwoju wykorzystania sztucznych sieci neuronowych. Ponad 60-letni rozwój zaowocował dużą liczbą typów sztucznych sieci neuronowych, z którą mamy do czynienia dzisiaj. Wśród typów sztucznych sieci neuronowych wyróżnia się sieci jednowarstwowe, wielowarstwowe, rekurencyjne, samouczące się, specjalizowane (Osowski, 1996) oraz stosunkowo nowe sieci głębokiego uczenia (deep learning, LeCun i inni, 2015). W niniejszej pracy wykorzystano perceptron wielowarstwowy. Jest to jeden z najczęściej stosowanych typów sztucznej sieci neuronowy, zbudowany z co najmniej trzech warstw (Beluco i inni, 2015; Tkáč, Verner, 2016). Perceptron wielowarstwowy jest klasyfikatorem nieparametrycznym o nadzorowanej procedurze uczenia. Ze względu na nadzorowany charakter uczenia, użytkownik sieci musi przygotować zestaw wzorców, na podstawie którego możliwy będzie trening sieci. Perceptron wielowarstwowy składa się z warstw, a każda z nich – z pewnej liczby neuronów (Ryc. 3). Ryc. 3. Schemat perceptronu wielowarstwowego składającego się z trzech warstw (Opracowano na podstawie Mas, Flores, 2008) 36 Neurony w warstwach są związane z innymi neuronami połączeniami (synapsami), którymi przepływają sygnały. SSN34 można opisać jak o wysoce współbieżny system obliczeniowy zbudowany z bardzo prostych elementów podstawowych (neurony) oraz połączeń między neuronami (Jain i inni. 2000). Zasada działania perceptronu wielowarstwowego opiera się na zdolności połączonych w sieć neuronów do przesyłania i odbierania sygnałów. W celu ustrukturyzowania przepływu sygnałów przez sieć, neurony grupuje się w warstwy. Warstwa wejściowa i wyjściowa pozwala na przesyłanie sygnału do i z sieci, co ujmując prościej pozwala na przesłanie informacji o wzorcu do sieci oraz odebranie sygnału, który został przepuszczony przez sieć. Neurony warstwy wejściowej i wyjściowej są połączone z neuronami warstwy ukrytej. Idea uczenia sieci neuronowej polega na zdolności neuronu do modyfikacji wag połączeń, które od niego wychodzą oraz modyfikacji wagi neuronu. Wagi przypisane do neuronów oraz połączeń między nimi pozwalają na „uczenie sieci”, które polega na przepuszczeniu sygnałów wzorcowych, które zmuszą poszczególne neurony do modyfikacji wag swoich i połączeń, tak by dopasować się do wzorca (Osowski, 1996). Po ukończeniu procedury, wyuczona sieć ma zdolność do klasyfikowania nowych danych. Dużą rolę w skuteczności uczenia sieci ma dobór algorytmu uczącego, którego zadaniem jest dopasowanie wag do danych wzorcowych (Ryc. 4). Ryc. 4. Dokładność klasyfikacji danych hiperspektralnych pokrycia terenu algorytmem sztucznych sieci neuronowych (źródło: Pal, Mather, 2006; Zagajewski, 2010 zmodyfikowane) 34 SSN – Sztuczne Sieci Neuronowe. 37 Wykorzystanie SSN jako klasyfikatora wymaga kilku kroków przygotowawczych. Pierwszym jest utworzenie struktury sieci składającej się z warstwy wejściowej, wyjściowej oraz pewnej liczby warstw ukrytych. Obecność warstw ukrytych w sieci pozwala jej na „uczenie się” oraz zapamiętywanie wzorców. Każda warstwa w sieci składa się z pewnej liczby neuronów. W warstwie wejściowej jest ich tyle, ile jest źródeł danych wykorzystanych do uczenia sieci (np.: w przypadku, w którym chcielibyśmy użyć wszystkich kanałów sensora APEX, liczba neuronów w warstwie wejściowej wynosiłaby 288). Warstwa wyjściowa może składać się z jednego neuronu, gdy chcemy otrzymać wynik klasyfikacji w postaci obrazu z klasami przypisanymi do każdego piksela lub z tylu neuronów, ile jest klas wynikowych. Wtedy każdy neuron będzie mógł ocenić pseudo-prawdopodobieństwo wystąpienia danej klasy w danym pikselu. W warstwie ukrytej można umieścić dowolną liczbę neuronów, chociaż istnieją pewne ogólnie przyjęte sposoby określenia tej wartości. Z reguły większa liczba neuronów w sieci daje lepiej wytrenowaną sieć (Neal, 1996). Do wyznaczania liczby neuronów w warstwie ukrytej przyjęto m.in. następujące zasady: liczba neuronów w warstwie ukrytej powinna zawierać się między liczbą neuronów w warstwie wejściowej a liczbą neuronów w warstwie wyjściowej (Blum, 1992), warstwa ukryta powinna zawierać dwa razy więcej neuronów niż jest ich w warstwie wejściowej (Swingler, 1996), neuronów w warstwie ukrytej nie powinno być więcej niż dwukrotność ich liczby w warstwie wejściowej (Berry i Linoff, 1997). Powyższe porady pozwalają uniknąć testowania wpływu liczby neuronów w warstwie ukrytej na wynik, co jest kosztowne obliczeniowo, ale nie zawsze są to optymalne wartości. Po utworzeniu sieci neuronowej o odpowiadającej problemowi strukturze optymalizuje się parametry uczenia. Jest to o tyle ważne, że sieć o większej liczbie neuronów niż jest to potrzebne może utracić część lub całość zdolności do generalizacji. Jest to spowodowane faktem, że połączenia między neuronami mogą nauczyć się wektorów wejściowych oraz szumów, które istnieją w danych treningowych. Jednocześnie sieci o zbyt małej, liczbie neuronów nie będą się w stanie nauczyć prezentowanych im wzorców zawartych w danych treningowych (Miguez i inni, 2014). W zależności od zastosowanego algorytmu uczącego, może być do kilkudziesięciu parametrów wymagających optymalizacji. Optymalizacja większej liczby parametrów uczenia jest procesem długotrwałym. Istotnym krokiem jest przeprowadzenie procedury uczenia sieci, w trakcie której sieci przedstawiane są wzorce. Proces uczenia kończy się, kiedy błąd wyuczenia sieci osiągnie 38 pewien z góry założony poziom lub w momencie, w którym algorytm uczący uzna, że nie da się już bardziej zmniejszyć błędu wyuczenia. Moment ten nazywany jest konwergencją. Jest to zdolność sztucznej sieci neuronowej do nauczenia się wszystkich wzorców, jakie zostają jej przedstawione w danych treningowych (Miguez i inni, 2014). Wytrenowana sieć jest gotowa do klasyfikacji nowego zestawu danych, pod warunkiem że są to dane kompatybilne z tymi użytymi do uczenia sieci. Perceptron wielowarstwowy może poprawnie klasyfikować dane, które trudno jest opisać równaniami liniowymi (Beluco i inni, 2015). Dodatkowo SNN ze względu na swój nieparametryczny charakter nie są ograniczone do statystycznych właściwości danych. Wadami perceptronu wielowarstwowego są długie procesy treningu sieci, które są wprost zależne od liczby neuronów w sieci, wymóg optymalizacji struktury sieci neuronowej (liczba neuronów w poszczególnych warstwach) oraz wymóg optymalizacji parametrów uczenia w celu osiągnięcia dokładnych wyników. Kolejną wadą jest zjawisko tzw. przetrenowania sieci, które może nastąpić, jeżeli proces uczenia zostanie zakończony za późno. W efekcie powstaje sieć, która mimo że teoretycznie powinna być lepiej wytrenowana, produkuje niskiej jakości klasyfikacje. Jedną z dosyć istotnych wad jest nieliniowa zależność miedzy czasem treningu a liczbą neuronów w sieci oraz ogólnym skomplikowaniem sieci (liczb warstwa, sposób połączenia neuronów). Zmusza ona potencjalnego użytkownika do poszukiwania rozwiązań, które opierają się na sieciach o jak najmniejszej ogólnej liczbie neuronów. Dodatkowo ze względu na chęć skracania czasu treningu do akceptowalnego oraz wrażliwość sztucznych sieci neuronowych na jakość danych (rozumiana jako niska zawartość szumu, brak artefaktów we wzorcu oraz odpowiednio wyselekcjonowane dane wejściowe), użytkownik musi również szukać metod na ograniczenie liczby danych wejściowych do niezbędnego minimum. Do zalet sztucznych sieci neuronowych można zaliczyć odporność na uszkodzenia struktury sieci, brak wymogu programowania sieci (przez sieć wystarczy tylko przepuścić sygnały wzorcowe), szybka klasyfikacja danych wytrenowaną siecią oraz zdolność sieci do generalizacji. Generalizacja to zdolność sztucznej sieci neuronowej do poprawnej klasyfikacji danych innych niż użyte we wzorcu (Miguez i inni, 2014). Jest to cenna umiejętność szczególnie w teledetekcji, gdzie często występują problemy ze stabilnością sygnału spektralnego w ramach kilku scen (źródłem tej niestabilności może być wada sensora, lub nieskorygowany efekt BRDF35). 35 Bidirectional distribution function – BRDF – funkcja opisująca odziaływanie światła z matowymi 39 Reasumując: sztuczne sieci neuronowe są rozwijane przez liczne zespoły badaczy, szybko tworzone są liczne, równoległe rozwiązania. Stawia to unikatowe wyzwania przed badaczami, szczególnie umiejącymi programować i dostosowywać poszczególne narzędzia do konkretnych rozwiązań. Dużym wyzwaniem jest optymalizacja algorytmów uczących, ale również parametrów uczenia i selekcji danych wykorzystanych do treningu. Wynika to po części z pojawiania się nowych danych o wysokich rozdzielczościach spektralnych, radiometrycznych, przestrzennych oraz czasowych. 2.2. Algorytm wstecznej propagacji błędu Algorytm wstecznej propagacji błędu zaproponowany przez P. Werbosa w 1974 roku jest jednym z najpopularniejszych algorytmów uczenia sztucznych sieci neuronowych (Werbos, 1994). Można go opisać jako funkcję celu E(w), mającą za zadanie minimalizację różnic pomiędzy aktualnymi wartościami sygnałów (x) przepływających przez połączenia neuronów (synapsy) a zadanymi we wzorcu klasyfikacyjnym (za: Zagajewski, 2010). Uczenie sztucznej sieci neuronowej z użyciem algorytmu wstecznej propagacji błędu składa się z dwóch części. Początkowo zostają obliczone wartości sygnału (zmienione przez funkcję aktywacyjną) dla każdego neuronu indywidualnie. Wartości wag połączeń między neuronami nie zostają zmienione. Następnie należy obliczyć błąd między tym, czego nauczyła się sieć a dostarczonym wzorcem. Etap pierwszy nosi nazwę forward pass. Drugi etap (backward pass) polega na sumowaniu błędów wyuczenia od warstwy wyjściowej do wejściowej, co pozwala na obliczenie lokalnego gradientu funkcji kosztu dla każdego neuronu. Następnie obliczone wartości służą do obliczenia nowych wartości wag połączeń między neuronami (Miguez i inni, 2014). Iteracyjny charakter działania algorytmu wstecznej propagacji błędu powoduje znaczne wydłużenie procesu uczenia, co dodatkowo potęgują niedoskonałości funkcji aktywacyjnej użytej podczas treningu. Zespół pod kierownictwem A. Shafiego udowodnił, że nasycenie funkcji aktywacyjnej w warstwach ukrytych i wyjściowej ma znaczny wpływ na wydłużenie procesu uczenia sieci (Shafie i inni, 2012). Obecnie istnieje wiele różnych wersji algorytmu wstecznej propagacji błędu (steepest descendent backpropagation, momentum backpropagation, variable learning rate backpropagation, powierzchniami względem pewnego puntu obserwacyjnego (Nicodemus, 1965). W teledetekcji efekt BRDF powoduje wystąpienie gradientu jasności w poprzek obrazu wynikowego, w efekcie zmieniającej się geometrii układu sensor–obrazowana powierzchnia oraz właściwości obrazowanego obszaru (Schlaepfer i inni, 2014). 40 resilient backpropagation, conjugated gradient backpropagation i Levenberg-Marquardt algorithm; Yang i inni, 2013), mających za zadanie optymalizację procesu uczenia. 2.3. Charakterystyka symulatora sztucznych sieci neuronowych „nnet” Z uwagi na wykorzystanie pakietu „nnet”, przeznaczonego dla programu R (R Core Team, 2015) w niniejszych badaniach, poniżej zaprezentowano najważniejsze składowe tego środowiska. Program R oferuje programowalne, otwarte środowisko przetwarzania danych. Oznacza to dowolność postępowania i rozbudowy o własne programy oraz wykorzystania programów napisanych przez innych użytkowników. Programy dla R, które zostają udostępnione innych użytkownikom nazywa się paczkami (package). Do zalet programu R można zaliczyć szeroką bibliotekę paczek do przetwarzania danych (m.in. algorytmy klasyfikujące, procedury do analiz statystycznych, programy ułatwiające operowanie danymi rastrowymi i wektorowymi, szeroka gama programów do wizualizacji wyników) i możliwość programowania w środowisku R. Pozwala to na łączenie zaimplementowanych procedur oraz własnych pomysłów ułatwiając pracę w dynamicznym interpretatorze. W środowisku R dostępne jest kilka paczek pozwalających na symulację różnego typu sztucznych sieci neuronowych, m.in. „Neuralnet”, „RSNNS”, „H2O”, „nnet”. Na potrzeby niniejszych badań do symulacji sztucznych sieci neuronowych zdecydowano się wybrać paczkę „nnet” (Venables, Ripley, 2002). Wybrany pakiet potrafi symulować tylko jeden typ sztucznych sieci neuronowych, jednak w porównaniu z innymi dostępnymi pakietami jest znacznie prostszy w użyciu oraz wymaga niewielkiego nakładu pracy, aby rozpocząć prace. Paczka „nnet” symuluje sieci neuronowe typu perceptronu wielowarstwowego z jedną warstwą ukrytą. Działanie tego typu sztucznej sieci neuronowej opisano w rozdziale 2.1 i 2.2. Zaletami paczki ”nnet” jest łatwość przeprowadzenia analiz i procedury treningu oraz klasyfikacji danych. Obecność programu w pakiecie R znacznie ułatwia tworzenie łańcuchów przetwarzania danych, eliminując potrzebę użycia wielu środowisk wykonawczych podczas pracy. Jest to bardzo cenna cecha, pozwalająca badaczowi na skupieniu się na rozwiązywaniu problemu, a nie „walce” z programem i sposobem przekazywania danych z jednego programu do drugiego. Sam program R jest dobrym narzędziem przygotowywania danych (filtracja, selekcja, przetworzenia, transformacje, itp.) oraz raportowania wyników w postaci wykresów i rycin. Nieoceniona jest także możliwość konsultacji z krótką, ale zwięzłą dokumentacją paczki. Pewnym ograniczeniem jest zdolność paczki „nnet” do symulowania sieci 41 składających się tylko z jednej warstwy ukrytej, co wyklucza użycie metody głębokiego uczenia za jej pomocą, co jednak nie powinno mieć dużego wpływu na wyniki, ponieważ dla większości zastosowań sieci o jednej warstwie ukrytej są wystarczające (Pu, 2009). Kolejną wadą jest ograniczona liczba wbudowanych w program algorytmów dopasowujących. Z pewnością pakiet „nnet” nie jest uniwersalnym programem do symulacji różnych typów sztucznych sieci neuronowych, ale użycie go jako symulatora perceptrona wielowarstwowego jest bardzo proste. Jako algorytm uczący pakiet „nnet” wykorzystuje algorytm wstecznej propagacji błędu zaproponowany przez autorów programu. Jest to jeden z podstawowych algorytmów uczenia sieci, chociaż należy zwrócić uwagę, że niemożliwe jest użycie innych algorytmów uczenia poza tym dostarczonym w paczce. 2.4. Zastosowanie sztucznych sieci neuronowych do klasyfikacji drzewostanu Mimo stosunkowo szerokiego wykorzystania sztucznych sieci neuronowych w teledetekcji, zakres wykorzystania tego klasyfikatora do klasyfikacji drzewostanu jest stosunkowo mały (Mas, Flores, 2008). Obecnie obserwuje się gwałtowny wzrost zainteresowania tematyką klasyfikacji drzewostanu przy użyciu danych hiperspektralnych, ale SSN jako klasyfikator nadal tracą w stosunku do łatwiejszych w użyciu i szybszych metod, takich jak Support Vector Machine i Random Forest (Fassnacht i inni, 2016). Jedną z pierwszych prac wykorzystujących sztuczne sieci neuronowe do klasyfikacji gatunków drzew za pomocą danych hiperspektralnych wykonał R. Pu (2009). Wykorzystał dane ze spektrometru ASD FieldSpec 3 do zebrania krzywych spektralnych dla 11 gatunków drzew liściastych (Ulmus americana, Quercus incana, Lagerstroemia indica, Quercus laurifolia, Quercus virginiana, Magnolia grandiflora, Diospyros virginiana, Acer rubrum, Q. geminata, Platanus occidentalis, Quercus laevis). Istotą badań była klasyfikacja spektr gatunków drzew liściastych pozyskanych podczas badań terenowych przeprowadzonych na Florydzie. Wykorzystano sztuczne sieci neuronowe z jedną warstwą ukrytą jako klasyfikator oraz algorytm wstecznej propagacji błędu. Przeanalizowano zakres spektralny od 350 do 2500 nm. Uzyskana dokładność wyniosła 86% przy współczynniku kappa 0,83. Najlepiej sklasyfikowane zostały następujące gatunki: Lagerstroemia indica, Platanus occidentali oraz Quercus laevis (100% dokładności producenta), najgorzej zaś Quercus laurifolia i Quercus incana (dokładność producenta <75%). Autor podkreślił, że terenowe dane hiperpsektralne różnią się od danych pozyskanych ze skanera lotniczego. Główną przyczyną różnic jest wpływ 42 cieni, konarów i innych obiektów na rejestrowany obraz, co w przypadku danych pozyskanych w terenie jest znacznie ograniczone, gdyż światłowód pozwala wykonać precyzyjny pomiar konkretnej części drzewa. Utrudnia to klasyfikację drzew, lepszym rozwiązaniem jest pozyskanie wzorców z obrazu, który jest przedmiotem klasyfikacji (Pu, 2009). Za pomocą perceptronu wielowarstwowego nie udało się sklasyfikować 17 gatunków drzew tropikalnych na obrazach z sensora Carnegie Airborne Observatory-Alpha w zakresie 390-1044 nm. Sztuczna sieć neuronowa miała 25 neuronów w jednej warstwie ukrytej. Autorzy uzyskali niskie dokładności dla sztucznych sieci neuronowych (oscylujące wokół 40%). Jednym z powodów, dla których otrzymano niskie dokładności dla sztucznych sieci neuronowych było nieoptymalne wyznaczenie parametrów uczenia oraz szybki spadek dokładności ogólnej dla klasyfikacji za pomocą sztucznych sieci neuronowych wraz ze wzrostem liczby klasyfikowanych klas (Feret, Asner, 2013). Powyższy przykład pokazuje, że nie można oczekiwać dobrych wyników klasyfikacji wykonanych sztucznymi sieciami neuronowymi bez optymalizacji parametrów uczenia. Użycie algorytm LDA36 i SSN pozwoliło na sklasyfikowanie pięciu gatunków drzew: Pinus sylvestri., Picea abies, Betula pendula, Alnus glutinosa i Populus tremula na lotniczych obrazach AISA Eagle (64 kanały w zakresie 400970 nm). Do tego celu losowo wybierano zestawy pikseli do uczenia i testowania sieci, a samą procedurę klasyfikacji powtórzono cztery razy. Końcowe wyniki klasyfikacji przekroczyły 80% (dokładności producenta) dla Pinus sylvestris, Picea abies, Betula pendula oraz 40% dla Alnus glutinosa i Populus tremula. Dokładność całkowita klasyfikacji wyniosła 65%. Algorytm LDA lepiej klasyfikował większość gatunków, w tym znacząco lepiej Alnus glutinosa i Populus tremula (Priedītis i inni, 2015). Algorytmy SVM i SSN z powodzeniem są wykorzystywane też do klasyfikacji obrazów satelitarnych. Jako przykład służą prace zespołu G. Omera (2015). Autorzy wykorzystali obrazy WorldView-2 (8 kanałów spektralnych o rozdzielczości 2 metry) do identyfikacji sześciu zagrożonych wymarciem gatunków drzew. Napotkali duże problemy przy kartowaniu gatunków drzew w skomplikowanym strukturalnie i gatunkowo lesie tropikalnym. W wyniku klasyfikacji uzyskano mapy o dokładności ogólnej 77% dla SSN i 75% dla SVM. Stwierdzono dużą przydatność wysokorozdzielczych danych satelitarnych 36 LDA – Linear Discriminant Analysis (liniowa analiza dyskryminacyjna) – nadzorowana metoda klasyfikacji, w której próbuje się znaleźć jedną bądź kilka funkcji liniowych lub wyróżników zmiennych zależnych w celu wydzielenia klasy w przestrzeni klasyfikacji (Acquah i inni, 2016). 43 oraz podkreślono pozytywny wpływ kanałów w bliskiej podczerwieni na uzyskane dokładności klasyfikacji (Omer i inni, 2015). Podsumowując można powiedzieć, że badania nad klasyfikacją gatunków drzew za pomocą danych hiperspektralnych i sztucznych sieci neuronowych nie są rozpowszechnione. W literaturze nie znaleziono potwierdzenia znaczącej ilości badań bazujących na sztucznych sieciach neuronowych. W tym zakresie powszechniej wykorzystuje się SVM, czy Random Forest. Należy jednak przypomnieć, że metody te wymagają wskazania wzorców uczących na klasyfikowanym obszarze. W przypadku wąskich i długich linii zobrazowań hiperspektralnych może to być trudne, dlatego rozwój prac nad sieciami neuronowymi, które nie wymagają wzorców klasyfikowanych obiektów jest cennym rozwiązaniem metodycznym przy monitoringu lasu. Jednym ze wzorców może być uszkodzony las i w kolejnych latach można analizować zmiany zasięgu uszkodzeń. 3. Obszar i obiekt badawczy Karkonoski Park Narodowy (KPN) został założony 16 stycznia 1959 roku. Park znajduje się w południowo-zachodniej Polsce (Ryc. 5). Obejmuje swoim obszarem północne stoki Karkonoszy od Przełęczy Okraj do Mulawskiego Wierchu. Powierzchnia Parku wynosi 5584 ha, z tego 70,9% zajęte jest przez lasy (Ryc. 6). Obszar KPN jest w 37% objęty ochroną ścisłą (piętro subalpejskie i alpejskie). Ryc. 5. Lokalizacja Karkonoskiego Parku Narodowego w Polsce. 44 Pozostały obszar parku objęty jest ochroną czynną, mającą na celu odtworzenie zniszczonych lub uszkodzonych komponentów środowiska przyrodniczego oraz utrzymanie ekosystemów w równowadze ekologicznej (Raj, Knapik, 2014). Środowisko Karkonoskiego Parku Narodowego zostało poważnie uszkodzone w latach 1980. Przyczyną klęski ekologicznej, która wystąpiła w KPN było synergiczne oddziaływanie kwaśnych deszczów i zanieczyszczenia środowiska, które znacznie osłabiły drzewostan. Osłabione drzewa zostały zaatakowane przez korniki, które z łatwością niszczyły nadwyrężone już drzewa. Efektem było masowe wymieranie świerków. Innym czynnikiem niszczącym, który miał największych wpływ na drzewostan KPN były silne wiatry (Raj, 2014). Ryc. 6. Rozmieszczenie zbiorowisk leśnych i nieleśnych na obszarze Karkonoskiego Parku Narodowego (KPN). Wykonano na podstawie oficjalnych danych KPN. Głównym celem prac prowadzonych na obszarach leśnych w KPN jest wspomaganie procesów regeneracji zniszczonych i uszkodzonych drzewostanów oraz ich renaturalizacja przez wzbogacenie składu gatunkowego i struktury pionowej drzewostanów (Danielewicz i inni, 2012). W 1996 roku wokół parku utworzono otulinę o powierzchni 11 260 ha, administrowaną przez okoliczne nadleśnictwa. Karkonoski Park Narodowy należy do programu UNESCO Man and Biosphere (M&B), jest objęty ochroną w ramach obszarów Natura 2000 i aktywnie współpracuje na polu ochrony przyrody ze swoim czeskim sąsiadem (Krkonošský národní park, KRNAP). Oba 45 Parki uzyskały w 2004 roku certyfikat parku transgranicznego, przyznawany podmiotom szeroko współpracującym na poziomie międzynarodowym oraz należą do stowarzyszenia EUROPARC wspierającego rozwój obszarów ochrony przyrody. 3.1. Warunki przyrodnicze Karkonoszy Trzon budowy geologicznej Karkonoszy stanowi karbońska intruzja granitowa. Wśród skał metamorficznych pojawiają się m.in. łupki łyszczykowe, gnejsy, amfibolity, wapienie krystaliczne i hornfelsy. W Karkonoszach można spotkać skały magmowe, reprezentowane głównie przez trzeciorzędowe bazaltoidy, szczególnie na obszarze Małego Śnieżnego Kotła. Oprócz skał magmowych występują skały osadowe, głównie karbońskie zlepieńce oraz holoceńskie torfy. Karkonoskie granity występują w dwóch odmianach: równoziarnistej i porfirowatej. Granity karkonoskie i skały ich osłony zawierają wiele minerałów, związanych głównie z krystalizacją magmy (Raj, Knapik, 2014). Klimat Karkonoszy jest determinowany przez ukształtowanie terenu – to lokalny klimat górski kształtowany przede wszystkim przez masy powietrza oceanicznego. W Karkonoszach występuje układ stref klimatycznych składający się z czterech pięter: umiarkowane ciepłe (poniżej 600 m n.p.m.) – średnia temperatura roczna powyżej 6 oC, osłabiona aktywność dynamiczna powietrza i silne zróżnicowanie przestrzenne opadów i temperatury, umiarkowane chłodne (600–960 m n.p.m.) - średnia temperatura roczna między 6 a 4 oC, znaczna częstość wiatrów fenowych oraz wysokie opady atmosferyczne, chłodne (960–1320 m n.p.m.) – średnia temperatura roczna pomiędzy 4 a 2 oC, surowe warunki termiczne, duża suma opadów rocznych, bardzo korzystne warunki akumulacji pokrywy śnieżnej, bardzo chłodne (powyżej 1320 m n.p.m.) – temperatura roczna poniżej 2 oC, znaczne przychody wody z opadów i osadów atmosferycznych. Wielkość opadów w Karkonoszach jest bezpośrednio powiązana z wysokością bezwzględną (950 mm u podnóży Karkonoszy i ponad 1400 mm w najwyższych partiach gór). Najwięcej opadów przypada na lipiec i sierpień, najmniej – na okres wiosenny (Raj, Knapik, 2014). 46 3.2. Roślinność Karkonoszy Roślinność drzewiasta – to roślinność wieloletnia o silnie zdrewniałych, trwałych łodygach nadziemnych, często także korzeniach (Tomanek, Witkowska-Żuk, 1994). Do roślin drzewiastych należą: drzewa – mają wyraźnie wykształcony pień i bogato rozgałęzioną koronę oraz zdolność do przyrastania pnia na grubość; ze względu na różnice w budowie, drzewa dzieli się na liściaste i iglaste, krzewy – bez głównego pnia, wysokość do kilku metrów, pokrój kształtuje kilka równorzędnych pędów głównych, które rozwijają się z pąków odziomkowych lub bocznych, krzewinki – niewielkie rośliny o częściowo drewniejących pędach; forma przejściowa pomiędzy roślinami drzewiastymi a zielnymi, półkrzewy – dolna część pędu jest zdrewniała, natomiast górna część pędu nie drewnieje, pnącza – charakteryzuje je szybki przyrost na długość oraz wydłużone, cienkie i elastyczne pędy; potrzebują podpory do wzrostu wzwyż. Ze względu na stosunkowo niewielką wysokość masywu Karkonoszy, piętra roślinne w Karkonoszach są obniżone względem tych spotykanych w Tatrach. Górna granica lasu przebiega tu przeciętnie na wysokości 1250 m n.p.m. (Raj, Knapik, 2014), dzięki północnooceanicznemu klimatowi. Na obszarze Karkonoskiego Parku Narodowego oraz jego otuliny można wyróżnić następujące piętra roślinne: piętro pogórza (do 500 m n.p.m.) – w przeszłości intensywnie wykorzystywane gospodarczo. Najważniejszym zespołem leśnym tego piętra jest grąd środkowoeuropejski, w którego skład wchodzą głównie dąb szypułkowy, grab, lipa drobno i szerokolistna, buk zwyczajny, klon jawor i klon zwyczajny. Na obszarze KPN większość potencjalnych obszarów tego siedliska zajmują monokultury świerkowe. Siedliska grądowe zajmują 14,26 ha, w tym na 3,68 ha występują płaty o charakterze naturalnym. W piętrze podgórza KPN znajdują się też siedliska podgórskiej dąbrowy acidofilnej. Drzewostan budują tu głównie dęby bezszypułkowe z domieszką brzozy brodawkowatej, świerka pospolitego, sosny zwyczajnej, dębu szypułkowego i buka. Na terenie KPN siedliska tego typu są znacznie zdegenerowane, chociaż wykazują 47 tendencję do spontanicznej renaturalizacji. Obszary występowania skupiają się wyłącznie w obrębie eksklawy Góra Chojnik. Poza dwoma wymienionymi dominującymi siedliskami w piętrze podgórza występują również siedliska subatlantyckiego boru sosnowego, składające się głównie z sosny z domieszką świerka, buka, jarzębiny i brzozy brodawkowatej oraz siedliska nadrzecznej olszyny górskiej zbudowane głównie z olszy szarej, piętro regla dolnego (od 500 do 1000 m n.p.m.) – w obszarze regla dolnego dominują monokultury świerkowe, które znacznie limitują obszar występowania naturalnych zbiorowisk leśnych. Wśród zachowanych siedlisk w piętrze regla dolnego można wyróżnić siedlisko kwaśnej buczyny sudeckiej. Drzewostan tego siedliska składa się głównie z buka z jednostkową domieszką świerka i jodły. Potencjalny obszar występowania tego siedliska w KPN – to 1224,6 ha, z tego tylko 80,6 ha ma charakter naturalny. Znaczna część obszaru siedliskowego tego zespołu została zajęta przez monokultury świerkowe i modrzewiowe. Kolejnym siedliskiem regla dolnego jest żyzny sudecki las bukowy, który na obszarze KPN należy do siedlisk rzadkich, piętro regla górnego (od 1000 do 1250 m n.p.m.) – jedynym zespołem leśnym w reglu górnym jest górnoreglowa świerczyna sudecka. Drzewostan tego zespołu jest zbudowany prawie wyłącznie ze świerka z niewielką domieszką górskiej odmiany jarzębiny. Zwarcie drzewostanu maleje wraz z wysokością od 80% do 30%. Jednocześnie zgodnie z tą samą zasadą, wraz ze wzrostem wysokości zmniejsza się wysokość drzew oraz zmianom ulega ich pokrój. Powierzchnia górnoreglowej świerczyny górskiej na terenie KLPN wynosi 2381,47 ha, z których 934,63 ha zachowały właściwą dla tego zespołu strukturę pomimo silnego negatywnego odziaływania antropogenicznego, piętro subalpejskie (od 1250 do 1450 m n.p.m.) – jednym z charakterystycznych zbiorowisk tego piętra są sudeckie zarośla kosodrzewiny. Pomiędzy płatami kosodrzewiny tworzy się bogate runo zbudowane głównie z borówki oraz paproci. Gatunkami towarzyszącymi temu zbiorowisku są górska odmiana jarzębiny i wierzba śląska. Poza zbiorowiskiem kosodrzewiny w piętrze subalpejskim występują również murawy bliźniaczkowate, zarośla krzewów liściastych, zbiorowiska ziołorośli, wierzby lapońskiej, traworośla oraz borówczyska bażynowe, 48 piętro alpejskie (od 1450 do 1603 m n.p.m.) – ze względu na trudne warunki środowiskowe, obszary piętra alpejskiego zasiedlają tylko odporne gatunki roślin. W tym piętrze występują murawy halne z udziałem sita skuciny oraz kosodrzewina niska. Murawy halne charakteryzuje bogata flora porostów, wśród których występują m.in. plechy płucnic i chrobotek gwiazdkowy. Płaty muraw otoczone są przez zbiorowiska skorupiastych porostów naskalnych, porastających powierzchnię kamieni tworzących pokrywę blokową. Powierzchnie leśne Karkonoszy były od wieków wykorzystywane przez człowieka. Podlegały dynamicznym przekształceniom, co można wykazać analizując zmiany obszaru zajętego przez las. Według obecnej wiedzy, powierzchnie lasów porastających obszar dzisiejszego KPN w roku 1747 ocenia się na 2511 ha. Do roku 1824 nastąpił gwałtowny wzrost powierzchni leśnych do 3857 ha, wywołany przemianami gospodarczymi w XVIII wieku, co objawiało się głównie zalesianiem obszarów rolnych oraz pastwisk (Nyrek, 1992). Do 1977 roku powierzchnia lasów w KPN pozostała stabilna, a zmiany w jej rozmieszczeniu były niewielkie (Szymura i inni, 2010). Inwentaryzacja z roku 1990 wykazała widoczne uszkodzenia drzew wywołane klęską ekologiczną przełomu lat 1970. i 1980. na obszarze 2549 ha (Raj, 2014). Obecnie lasy zajmują 4022 ha w KPN (Danielewicz i inni, 2012). Duży wkład w badanie zbiorowisk roślinnych Karkonoszy wnieśli W. i A. Matuszkiewiczowie, którzy w latach 1967 i 1975 przeprowadzili szczegółowe badania pokrywy roślinnej (Matuszkiewicz, Matuszkiewicz, 1967; 1975). Od roku 2004 na obszarze KPN ustanowiona została stała sieć powierzchni kołowych w siatce 200 na 300 metrów, służąca do monitoringu ekosystemów leśnych. Cyklicznie wykonywane są pomiary parametrów drzewostanu, roślinności, gleb oraz porostów (Knapik, Raj, 2014). Obecnie powierzchnie leśne KPN buduje głównie drzewostan świerkowy Picea abies L. Karst, który stanowi 85,55% powierzchni porośniętej lasem (Ryc. 7). Na pozostałą część składają się brzoza Betula pendula Roth (4,79%), modrzew Larix decidua Mill (4,58%), buk zwyczajny Fagus Sylvatica L. (4,14%), sosna zwyczajna Pinus sylvestris L. (0,53%), klon jawor Acer pseudoplatanus L. (0,14%), olsza Alnus Mill (0,12%) oraz jodła Abies alba Mill (0,11%) (Danielewicz i inni, 2012). Zdecydowano się na sklasyfikowanie pięciu gatunków drzew o największym udziale procentowym. Takie rozwiązanie zapewnia możliwość znalezienia relatywnie dużych 49 obszarów porośniętych danymi gatunkami drzew, co pozwala na wyznaczanie dostatecznie licznych wzorców dla klas. Dodatkowo zdecydowano się na wybranie jednego z trzech najrzadziej występujących gatunków drzew. Z jodły zrezygnowano, ponieważ jodły na obszarze KPN nie jest wystarczająco dużo i nie są jeszcze odpowiednio wysokie, by można było je poprawnie sklasyfikować. Nie zdecydowano się również na klasyfikowanie klona, ze względu na brak wystarczającej liczby wzorców w trakcie badań terenowych oraz trudności ze znalezieniem dużych obszarów porośniętych przez klony (powyżej 30 m2). W efekcie włączono do klasyfikacji klasę olsza (olcha), dla której udało się uzyskać wystarczającą liczbę wzorców terenowych. Ryc. 7. Mapa potencjalnego występowania badanych gatunków drzew na obszarze Karkonoskiego Parku Narodowego. Materiał udostępniony przez KPN. Niniejsza praca dotyczy wyłącznie kartowania drzew. Termin roślinność drzewiasta jest tu rozumiany jako drzewa, zgodnie z przytoczoną definicją (Tomanek, Witkowska-Żuk, 1994). Ze względów praktycznych (wielkość piksela wynosząca ponad 9 m2 oraz zwartość pozostałych gatunków drzewiastych37) i ograniczenia dostępności danych, klasyfikacja innych typów roślinności drzewiastej nie została przeprowadzona. Zdecydował o tym brak dużych 37 W klasyfikacji wymaga się, by wielkość obiektu była 3-5 razy większa niż wielkość piksela. Zapewni to homogeniczność kilku sąsiadujących pikseli. W przypadku mniejszych lub ażurowych obiektów, transmitujących promieniowanie odbite od innych obiektów, powstają miksele, zmieniając cechy spektralne analizowanego obiektu. 50 obszarów porośniętych krzewami, krzewinkami, półkrzewami lub pnączami, które nie byłyby przysłonięte przez korony drzew na obszarze porośniętym przez roślinność leśną na terenie KPN. Ze względu na niewielkie rozmiary indywidualnych roślin półkrzewów i krzewinek, ich klasyfikacja na scenach APEX (rozdzielczość przestrzenna ponad 3 metry) nie jest możliwa. Biorąc pod uwagę powyższe uwarunkowania zdecydowano się na sklasyfikowanie sześciu gatunków drzew rosnących w KPN: świerk (Picea abies L. Karst), brzoza (Betula pendula Roth), buk (Fagus Sylvatica L.), modrzew (Larix decidua Mill), sosna (Pinus sylvestris L.) i olcha (Alnus Mill). 4. Metodyka Zaplanowane działania miały na celu opracowanie i przetestowanie metody przetwarzania danych hiperspektralnych i klasyfikacji wybranych gatunków drzew przy wykorzystaniu sztucznych sieci neuronowych. Metodyka pracy podzielona jest na trzy części: dane wejściowe, przetwarzanie danych i klasyfikacja oraz wyniki (Ryc. 8). Najważniejsze etapy pracy to: wykonanie lotniczego zobrazowania APEX według planu nalotu przygotowanego przez VITO (Ryc. 9), pozyskanie charakterystyk spektralnych spektrometrem ASD FieldSpec 3 dominujących obiektów jasnych i ciemnych spektralnie (asfalt, beton, piasek, woda, gęsta i homogeniczna roślinność, np. trawniki, łąki), pomiary stanu atmosfery spektrometrami słonecznymi – wyniki posłużyły do wykonania korekcji atmosferycznej obrazów i jej weryfikacji, opracowanie numerycznego modelu terenu oraz numerycznego modelu pokrycia terenu z danych lotniczego skaningu laserowego (ALS), korekcja pozyskanych obrazów APEX (geometryczna, radiometryczna i atmosferyczna), terenowe pozyskanie wzorców występowania wybranych gatunków drzewiastych – marszruta z odbiornikiem GPS Leica ZENO 10, pozyskanie wzorców dla klasyfikowanych klas na podstawie zobrazowania APEX i pomiarów terenowych, wybór optymalnego zestawu kanałów spektralnych wykorzystanych w klasyfikacji, 51 wyznaczenie maski obszarów objętych klasyfikacją, przy użyciu danych lidarowych, wskaźnika mreNDVI oraz ortofotomapy, optymalizacja struktury i parametrów uczenia sztucznej sieci neuronowej, trening sieci neuronowej oraz ocena dokładności treningu i wykonanej klasyfikacji, klasyfikacja zobrazowań APEX za pomocą wyuczonej sztucznej sieci neuronowej, połączenie poklasyfikowanych scen oraz generalizacja uzyskanego wyniku w celu opracowania mapy rozmieszczenia wybranych gatunków drzew Karkonoskiego Parku Narodowego. Ryc. 8. Schemat najważniejszych procedur klasyfikacji roślinności drzewiastej 4.1. Pozyskanie danych Obrazy APEX pochodzą z zobrazowania przeprowadzonego 10 września 2012 roku. Nalot został wykonany przez DLR Braunschweig oraz VITO w ramach projektu EUFAR HyMountEcos. Przed zobrazowaniem skaner APEX został skalibrowany w bazie kalibracyjnej Callibration Home Base DLR Oberpfaffenhofen w Niemczech (Schaepman, 2015), następnie umieszczony w samolocie DLR Dornier Do 228. Skaner został skonfigurowany tak, by 52 uzyskać 288 kanałów spektralnych w zakresie 413-2440 nm o rozdzielczości przestrzennej około 3,3 metra. Wykonane zobrazowanie pokryło obszar Karkonoskiego Parku Narodowego (Polska) oraz Krkonošský národní park (Czechy, Ryc.9). Surowe dane APEX pozyskane w trakcie nalotu zostały następnie przetworzone przez VITO (operator skanera APEX). Równocześnie z nalotem wykonane zostały pomiary spektrometryczne do pomiaru cech spektralnych wzorców kalibracyjnych do korekcji atmosfery (Ryc. 10). Ryc. 9. Plan nalotu wykonanego podczas projektu HyMountEcos (źródło: VITO) Obrazy zostały poddane korekcji geometrycznej, radiometrycznej oraz atmosferycznej, a następnie przesłane do Uniwersytetu Warszawskiego. Dane APEX zostały dostarczone pod postacią osobnych zobrazowań, które pokrywały obszar KPN. Ze względu na deniwelacje zobrazowanego obszaru, rozdzielczość przestrzenna poszczególnych scen wahała się od 3,12 od 3,40 metra. Przed klasyfikacją rozdzielczość przestrzenna wszystkich dostarczonych scen została ujednolicona. Przyjęto wspólną rozdzielczość przestrzenną 3,35 metra – większość scen wykorzystanych w klasyfikacji ma rozdzielczość przestrzenną bliską tej wartości. 53 Ryc. 10. Wykonanie pomiarów spektrometrycznych ASD FieldSpec 3 wykorzystanych do korekcji obrazów APEX Proces ujednolicania rozdzielczości przestrzennej przeprowadzono w programie ENVI używając opcji przepróbowania (resampling) obrazów. Wybrano opcję nearest neighborhood (najbliższego sąsiada), aby zminimalizować wpływ procesu przepróbowania na końcowy wynik. Sceny pokrywające obszar KPN o ujednoliconej rozdzielczości przestrzennej wykorzystano w procesie klasyfikacyjnym. Ryc. 11. Wizualizacja fragmentu zobrazowania hiperpsektralnego APEX w postaci tzw. data-cube 54 Gotowe dane zostały zwizualizowane w postaci tzw. data-cube (Ryc. 11), umożliwiając ocenę danych hiperspektralnych i informacyjność zobrazowania oraz ewentualne błędy poszczególnych kanałów (zaburzenia kolorystyki górnej i prawej krawędzi). Proces ten polegał na wyborze kompozycji RGB na przednią ścianę prostopadłościanu, natomiast na krawędziach automatycznie wyświetlona została zmienność spektralna pikseli. 4.2. Pozyskanie terenowych danych wzorcowych do klasyfikacji i weryfikacji W celu pozyskania wzorców uczących i weryfikacyjnych przeprowadzone zostały badania kameralne, które polegały na wyznaczeniu potencjalnie interesujących obszarów, na których mają być przeprowadzone badania terenowe. Do tego celu wykorzystano ortfotomapę pozyskaną z Karkonoskiego Parku Narodowego (pozyskaną we wrześniu 2012 roku, rozdzielczość przestrzenna 15 cm) oraz w kolejnych etapach opracowania danych, wstępne wyniki uzyskanych klasyfikacji. W wyniku prac kameralnych przygotowano trasy marszruty przez teren KPN oraz wyznaczono obszary badań terenowych: północny stok góry Szrenica – obszar „Szklarska Poręba”, eksklawa KPN Góra Chojnik – obszar „Góra Chojnik”, tereny należące do KPN w okolicach wsi Jagniątków – obszar ”Jagniątków” oraz teren na południe od Karpacza – obszar „Karpacz”. Ryc. 12. Zdjęcie wykonane podczas zbierania danych terenowych. Po prawej odbiornik GPS ZENO 10 razem z anteną odbiorczą. Fot. Edwin Raczko. 55 Badania terenowe polegały na wykonaniu marszruty przez teren KPN w poszukiwaniu obszarów, które mogą stanowić dobry wzorzec do klasyfikacji. W trakcie badań terenowych zebrano dane dotyczące położenia geograficznego klasyfikowanych gatunków drzew oraz wykonano serię zdjęć dokumentacyjnych każdego pomierzonego poligonu. Aby uzyskać odpowiednio dobre wzorce do klasyfikacji mierzono tylko poligony, które dobrze reprezentowały badane gatunki drzew. Za takie uznano poligony, w których w odległości co najmniej 5 metrów od odbiornika GPS rosły przynajmniej trzy drzewa tego samego gatunku, występował niewielki podszyt w postaci krzewów lub traw, a w tym całym obszarze nie było drzew innego gatunku poza tym, który miał reprezentować wzorzec. Odbiornik GPS starano się umiejscowić bezpośrednio pod koronami drzew. Za dopuszczalny błąd pomiarowy odbiornika GPS uznano 2,5 metra. Posłużono się odbiornikiem Lecia ZENO 10 z zewnętrzną anteną (Ryc. 12). Badania terenowe przeprowadzono w czterech turach. Ryc. 13. Mapa rozmieszczenia poligonów pomiarowych zebranych w trakcie badań. Punkty położone w regularnej siatce zostały pozyskane z administracji Parku Przed rozpoczęciem badań terenowych obszar KPN został podzielony na cztery obszary badawcze: „Szklarska Poręba” obejmujący tereny KPN na południe od Szklarskiej Poręby, od zachodniej granicy parku do Łabskiego Szczytu; „Góra Chojnik” obejmujący eksklawę KPN Góra Chojnik oraz eksklawę Wodospad Szklarki; „Jagniątków” obejmujący obszary na 56 południe od Jagniątkowa, od Łabskiego Szczytu do formacji skalnej potocznie zwanej Słonecznik; „Karpacz” obejmujący obszary na południe od Karpacza od Słonecznika do wschodniej granicy KPN okolicy wsi Mala Upa. W sierpniu 2013 roku przeprowadzono pierwszą serię pomiarów terenowych, na obszarach badawczych „Szklarska Poręba”, „Góra Chojnik”, „Jagniątków” oraz „Karpacz”. W drugiej serii we wrześniu 2014 wykonano dodatkowe pomiary na obszarze „Szklarska Poręba”. Ostatnie dwie serie badań terenowych odbyły się w lipcu i wrześniu 2016 roku – przeprowadzono wówczas dodatkowe pomiary na obszarze „Karpacz”. Wykorzystano również część danych dotyczących lokalizacji oraz składu gatunkowego poligonów uzyskanych w projekcie WICLAP. Tabela 3. Liczba zebranych poligonów pomiarowych uzyskanych podczas badań terenowych, włączając zestaw danych pozyskany z KPN oraz liczba pikseli wyznaczonych na podstawie badań terenowych Klasa Liczba zebranych poligonów pomiarowych Liczba wyznaczonych pikseli wzorcowych Brzoza Buk Modrzew Olcha Sosna Świerk 115 124 193 11 27 806 615 972 685 90 125 2677 Dane dotyczące lokalizacji drzew udostępniła też administracja KPN; włączono je do zestawu wzorców wykorzystanych w klasyfikacji (Tabela 3). W sumie wykonano pomiary na 712 poligonach oraz pozyskano dane o 564 poligonach z bazy danych KPN, co razem dało 1276 poligonów pomiarowych (Ryc. 13). 4.3. Przygotowanie zestawu danych do uczenia i weryfikacji Zebrane poligony pomiarowe posłużyły do opracowania zestawu wzorców uczących 38 SSN . Poza zestawem uczącym, przygotowany został drugi, niezależny zestaw danych weryfikujących dokładność klasyfikacji. Oba zestawy danych zawierają wzorce dla klasyfikowanych klas. Podział na zestaw danych do uczenia i do weryfikacji wyniku następuje dopiero po zebraniu danych w terenie, kiedy zdecydowano, które z pozyskanych wzorców mają posłużyć za dane do uczenia bądź weryfikacji. Podczas prac kameralnych wykorzystano zebrane zdjęcia fotograficzne oraz notatki wykonane w terenie do ponownej oceny jakości zebranych danych. Polegała ona na eliminacji punków pomiarowych, których nie można było jednoznacznie zlokalizować na scenach APEX. Za pomocą oprogramowania ArcGIS 10.3 oraz 38 Wartości spektralnych współczynników odbicia dla poszczególnych długości fal opisujących badany obiekt, tj. gatunek drzewiasty w danym zakresie spektrum. 57 ENVI 5.3, lokalizacje poligonów pomiarowych przeniesiono na sceny APEX (Ryc.14). Na ich podstawie wyznaczono zestaw pikseli, który charakteryzował daną klasę. Ryc. 14. Lokalizacja wzorców wyznaczonych na scenach APEX (kolorowe piksele) Pomijano piksele mogące być w głębokim cieniu oraz tzw. miksele, mogące zawierać niskiej jakości charakterystyki spektralne obiektu. Następnie wyeksportowano je do formatu ASCII do dalszych przetworzeń. Wyeksportowano następujące dane: ID (numer poligonu), klasę którą reprezentuje wzorzec, wartości współczynnika odbicia dla wszystkich 288 kanałów zobrazowania oraz geograficzne położenie poligonu. Wyeksportowane dane posłużyły dalej do wykonania klasyfikacji oraz jej weryfikacji. 4.4. Procedura wyboru kanałów spektralnych Ze względu na wielkość zestawu danych wykorzystanych w tej pracy oraz chęć skrócenia czasu klasyfikacji, zdecydowano się na przeprowadzenie procedury wyboru kanałów spektralnych zobrazowania APEX, które zostaną użyte do klasyfikacji. Pierwszą czynnością była manualna inspekcja danych, podczas której szukano kanałów o niskiej jakości (Ryc. 15). Za zbędne uznano kanały położone w zakresach, w których para wodna zawarta w powietrzu zakłóca sygnał pochodzący z powierzchni ziemi (1300-1500 nm; 1770-2000 nm). Zdecydowano się również na usunięcie pewnej liczby kanałów z początku i końca spektrum (niska jakość sygnału). Ostatecznie odrzucono 66 kanałów spektralnych. 58 Ryc. 15. Przykład kanałów o słabej (obrazek a – 413 nm) i dobrej jakości (obrazek b – 630 nm). Kanał o słabej jakości ma widoczne linie łączenia poszczególnych linii skanowania (czarne smugi na obrazie) i jest mocno zaszumiony. Do dalszych analiz wykorzystano sceny posiadające 222 kanały spektralne. Jest to liczba kanałów, która została po usunięciu z oryginalnego zestawu danych kanałów o niskiej jakości wymienianych powyżej. Biorąc pod uwagę dotychczasowe wyniki badań (Pal, Mather, 2006) zdecydowano, że optymalną liczbą kanałów wykorzystanych w klasyfikacji będzie 40. Ryc. 16. Krzywe współczynnika użyteczności kanałów dla pierwszego, drugiego i trzeciego kanału PCA (pierwsze trzy kanały PCA wyjaśniały razem 88% wariancji zobrazowania APEX) 59 W celu wyznaczenia 40 najlepszych kanałów spektralnych przeprowadzono analizę PCA zestawu składającego się z 222 kanałów spektralnych. Następnie obliczono współczynnik użyteczności kanałów dla kanałów pierwszego, drugiego i trzeciego PCA, dla każdego kanału spektralnego (band loading, Ryc.16). Otrzymany wynik przeanalizowano z użyciem algorytmu, który znajduje lokalne maksima i minima krzywej użyteczności kanałów. Wybrane w ten sposób najlepsze kanały spektralne wykorzystano w dalszych analizach. Analiza zmienności współczynnika użyteczności kanału pozwoliła na wyodrębnienie kanałów spektralnych o największym udziale w poszczególnych kanałach PCA . Wartości różne od zera (bez względu na znak) sygnalizują kanały mające znaczący udział w poszczególnych składowych głównych. Udział poszczególnego kanału jest oznaczony magnitudą (odległością od zera) współczynnika. 4.5. Przygotowanie Numerycznego Modelu Terenu, Numerycznego Modelu Pokrycia Terenu i Znormalizowanego Numerycznego Modelu Pokrycia Terenu Dane lidarowe użyte w pracy pozyskano z KPN, przesłane w formie chmury punktów powstałej w wyniku przeprowadzania lotniczego skaningu laserowego obszaru KPN. Przetwarzanie danych lidarowych miało na celu wykonanie Numerycznego Modelu Terenu39 (DTM) i Numerycznego Modelu Pokrycia Terenu40 (DSM) Karkonoskiego Parku Narodowego. Dane zostały przetworzone w programie LASTOOLS, gdzie nastąpiła ich filtracja oraz utworzenie DTM i DSM. W celu uzyskania bardziej gładkiego DSM użyto opcji subcircle = 0,3 podczas tworzenia modelu. Opcja ta pozwala na płynniejsze przejścia między poszczególnymi pikselami, co zapobiega powstawaniu artefaktów w wynikowych danych. Modele DTM i DSM wykorzystano do obliczenia Znormalizowanego Modelu Pokrycia Terenu (nDSM41, Ryc. 17), który posłużył do utworzenia maski drzewostanów oraz wykonania mapy lokalizacji klasyfikowanych gatunków drzew na obszarze KPN w podziale na klasy wysokości. Przy wykonywaniu DTM wszystkie obiekty powyżej poziomu terenu 39 DMT – Numeryczny Model Terenu (Digital Terrain Model) – cyfrowa reprezentacja wysokości topograficznej terenu danego obszaru. Wszystkie obiekty pokrywające teren (np. drzewa, domy) są usuwane z modelu. 40 DSM – Numeryczny Modelu Pokrycia Terenu (Digital Surface Model) – cyfrowa reprezentacja wysokości topograficznej obiektów pokrywających dany obszar terenu. Wynikowy model dostarcza informacji o bezwzględnej wysokości obiektów nad poziomem morza. 41 nDSM – Normalized Digital Surface Model – znormalizowany model pokrycia terenu służący do obliczenia względnej wysokości obiektów na danym terenie (np. wysokości drzew i krzewów). Zwykle uzyskiwany jako wynik operacji odejmowania Numerycznego Modelu Pokrycia Terenu (DSM) i Numerycznego Modelu Terenu (DTM). 60 (domy, drzewa, mosty) są usuwane z modelu. DTM dostarcza informacji o rzeźbie terenu, co ułatwia dostrzeżenie charakterystycznych form (doliny, wzgórza, wąwozy, itp.). Ryc. 17. Przykłady Numerycznego Modelu Terenu (DTM) (a), Numerycznego Modelu Pokrycia Terenu (DSM) (b) i znormalizowanego Numerycznego Modelu Pokrycia Terenu (nDSM) (c) DSM przedstawia bezwzględną wysokość danego obszaru, z uwzględnieniem obiektów pokrywających teren – łatwo rozpoznać lasy, zabudowania i infrastrukturę drogową. Na DSM widoczne są korony drzew, jednak ich wysokości są podane w wartościach bezwzględnych, bez odniesienia względem poziomu terenu na którym rosną. W celu obliczenia wysokości obiektów na danym terenie wykonuje się nDSM. Na nDSM nie jest widoczna topografia terenu, jedynie obiekty pokrywające dany teren. 4.6. Przygotowanie maski drzewostanu W celu eliminacji z obrazu wynikowego pikseli, które nie reprezentują zadrzewień, utworzona została maska drzewostanu KPN. Maska została zbudowana z czterech części (Ryc. 18). Pierwszą część stanowił znormalizowany cyfrowy model pokrycia terenu, drugą zasięg przestrzenny parku pozyskany z bazy danych KPN, trzecią wskaźnik mreNDVI42, a ostatnią obszary zajmowane przez roślinność nieleśną, wyznaczone na podstawie ortofotomapy. Uzyskany model nDSM posłużył do utworzenia maski drzewostanu o wysokości powyżej 2,5 metra. Wartość tę dobrano empirycznie, jako tę, która spowoduje usunięcie ze scen obszarów pokrytych niską roślinnością. Ograniczono klasyfikację do roślinności wyższej niż 2,5 metra ze względu na trudności z dokładnym klasyfikowaniem obszarów porośniętych młodym lasem. 42 mreNDVI – Modified Red Edge Normalized Difference Vegetation Index – wskaźnik teledetekcyjny służący do oceny ogólnego kondycyjnego roślinności. Jest to modyfikacja wskaźnika NDVI (Normalized Difference Vegetation Index) uwzględniająca zwartość i luki w pokrywie roślinnej oraz zawartość barwników wskazujących na zamieranie roślinności (Datt, 1999). 61 Młody las jest bardzo zróżnicowany i niejednorodny, występują w nim przestrzenie porośnięte krzakami lub trawą – które ze względu na dosyć duży piksel zobrazowania APEX mogłyby zaburzyć wyniki klasyfikacji. Ryc. 18. Schemat wykonania maski drzewostanów W celu usunięcia z klasyfikacji obszarów niebędących roślinnością, które mogły zostać pominięte przez maskę uzyskaną z nDSM (skały, obumarłe pnie świerków w górnych partiach parku), zdecydowano się na użycie wskaźnika mreNDVI. Jako wartość graniczną przyjęto 0,4. Obszary o wartości wskaźnika mreNDVI poniżej wartości granicznej zostały usunięte z obrazu wynikowego. Ryc. 19. Zasięg obszarów wymaskowanych z klasyfikacji na tle zasięgu zbiorowisk leśnych KPN 62 Aby usunąć obszary porośnięte przez pojedyncze drzewa oraz usunąć niedoskonałości maski, wykonano manualnie dodatkową maskę obszarów nieleśnych, używając ortofotomapy. Maskę roślinności wyższej niż 2,5 metra przycięto do obszaru KPN (Ryc. 19) i za jej pomocą wymaskowano obraz wynikowy. Zasięg przestrzenny wykonanej maski drzewostanów zaznaczono na czerwono. Zobrazowania APEX pokrywający zaznaczony kolorem zielonym obszar zostały poddane klasyfikacji. Zaznaczony na zielono obszar ma powierzchnię 2027 ha. 4.7. Optymalizacja struktury sieci neuronowej Do wyznaczenia optymalnej liczby neuronów w warstwie ukrytej wykorzystano cały zestaw wzorców zebranych podczas badań terenowych. Pierwszym krokiem było podzielenie tego zestawu na zestaw do uczenia i weryfikacji w taki sposób, aby był on identyczny z zestawem użytym podczas klasyfikacji i oceny dokładności. Aby ograniczyć czas przetwarzania wybrano tylko jeden zestaw do uczenia i weryfikacji. Cały zestaw wzorców został podzielony według procedury 0,632 Estimate, według której 63,2% zebranych wzorców wykorzystano do treningu sieci, a pozostałe do weryfikacji wyniku (Efron, 1983). Następnie przeprowadzono procedurę uczenia sieci neuronowej przy pewnej liczbie neuronów w warstwie ukrytej oraz ocenę dokładności. Uzyskano dwie wartości: dokładność uczenia oraz dokładność klasyfikacji. Dokładność uczenia – to wartość pokazująca, jak dobrze dana sieć nauczyła się zestawu danych do uczenia. Oblicza się ją poprzez sklasyfikowanie zestawu do uczenia wyuczoną siecią, a następnie porównanie uzyskanego wyniku z zestawem do uczenia. Dokładność klasyfikacji pokazuje, w jakim stopniu wyuczona sieć radzi sobie z klasyfikacją zestawu danych, który nie został użyty do jej uczenia. Do jej obliczania klasyfikuje się zestaw do weryfikacji wyuczoną siecią, a następnie porównuje się wynik z wzorcem zawartym w zestawie do weryfikacji. W pracy sprawdzono architektury sztucznych sieci neuronowych mających od 5 do 120 neuronów w warstwie ukrytej. Symulacja każdej architektury sieci została powtórzona po 50 razy (razem 5750 symulacji), aby zminimalizować wpływ losowego doboru startowych wag między neuronami. Po przeprowadzeniu analizy porównano dokładności uczenia i klasyfikacji każdej architektury. Procedura optymalizacyjna polegała na wybraniu optymalnej liczby neuronów w warstwie ukrytej sztucznej sieci neuronowej – najmniejszej, a jednocześnie dającej najwyższy wynik klasyfikacji. Parametr rozkładu (decay) ustawiono na 0,005. Wartości początkowe wag na połączeniach pomiędzy neuronami ustawiono na losową wartość w zakresie od -0,5 do 0,5. 63 4.8. Iteracyjna ocena dokładności klasyfikacji W pracy wykorzystano iteracyjną metodę oceny dokładności klasyfikacji, stosując losowy podział zestawu danych wzorcowych na zestaw do uczenia i weryfikacji (0.632 Estimate). Cały proces oceny dokładności składał się ze stu powtórzeń (iteracji). Procedura wykonania każdego powtórzenia wyglądała następująco: 63,2% wzorców zostało losowo przydzielone do zestawu do uczenia, a pozostała część do zestawu do weryfikacji. W celu zwiększenia reprezentatywności każdego zestawu, losowanie wzorców bazowało na metodzie losowania warstwowego. Wielkość zestawów (w liczbie wzorców) została przedstawiona w tabeli 4. Liczba wzorców w każdym powtórzeniu w zestawach do uczenia i weryfikacji pozostała taka sama; zmienne były tylko wzorce, które zostały do nich przypisane, zestaw do uczenia został wykorzystany do treningu sztucznej sieci neuronowej, wykorzystując parametry uczenia które wyznaczono w rozdziale 4.7. Parametr rozkładu (decay) ustawiono na 0,005. Wartości początkowe wag na połączeniach pomiędzy neuronami ustawiono na losową wartość w zakresie od -0,5 do 0,5, wyuczona sztuczna sieć neuronowa została następnie wykorzystana do klasyfikacji zestawu do weryfikacji, a wynik porównywany z zestawem do weryfikacji. Następnie obliczone zostały miary oceny dokładności (dokładność ogólna, dokładności producenta i użytkownika dla klas, współczynnik kappa), obliczone miary dokładności razem z numerem powtórzenia (iteracji) zostały zapisane i przyporządkowane do danej iteracji, w której je uzyskano, usunięcie wykorzystanego zestawu oraz wyuczonej sztucznej sieci neuronowej, kolejne powtórzenie całej procedury opisanej powyżej (aż do 100 razy). Po wykonaniu wszystkich powtórzeń obliczona została mediana oraz rozkład dokładności producenta i użytkownika dla poszczególnych klas oraz mediana, rozkład współczynnika kappa i dokładności ogólnej klasyfikacji. 64 Tabela 4. Liczba wzorców (pikseli) wykorzystanych do uczenia i weryfikacji dla poszczególnych klas Klasa Brzoza Buk Modrzew Olcha Sosna Świerk Zestaw do uczenia 389 615 433 57 79 1692 Zestaw do weryfikacji 226 357 252 33 46 985 Z racji na duże powierzchnie pokryte przez świerk, klasa świerk była najliczniej reprezentowana we wzorcach do uczenia i weryfikacji (1692 i 985 pikseli), natomiast klasą o najmniejszej liczbie wzorców była olcha i sosna (poniżej 150 pikseli). Klasy brzoza i modrzew miały około 650 pikseli wzorcowych. 4.9. Klasyfikacja zobrazowań APEX sztucznymi sieciami neuronowymi Procedura optymalizacji struktury sieci neuronowej pozwoliła na wyznaczanie optymalnych parametrów uczenia sieci, natomiast procedura iteracyjnej oceny dokładności – na ocenę dokładności klasyfikacji. Sztuczna sieć neuronowa o optymalnie dobranych parametrach uczenia została wytrenowana przy użyciu wszystkich zebranych wzorców terenowych. Ponieważ ocena dokładności została, zdecydowano się na użycie wszystkich wzorców do uczenia sieci podczas ostatniego uczenia, tak by nie zmniejszać dokładności finalnej klasyfikacji. Dodatkowo taki zabieg zapewnił poprawne sklasyfikowanie obszarów, na których zlokalizowane zostały poligony pomiarowe. Ostatnim krokiem pracy było sklasyfikowanie wszystkich scen APEX, które pokrywały obszar KPN. Z każdej sceny wybrano zestaw kanałów spektralnych wyznaczonych podczas procedury wyboru kanałów. Następnie sceny zostały sklasyfikowane wytrenowaną sztuczną siecią neuronową. Polegało to na sklasyfikowaniu wyeksportowanych do formatu ascii scen APEX za pomocą funkcji predict. Sklasyfikowane sceny zostały zamienione na obraz przy użyciu skryptu napisanego w języku programowania Python. Zasada jego działania polegała na wykorzystaniu modułu gdal43 (przeznaczonego do pracy z danymi teledetekcyjnymi), do zamiany danych tekstowych w obraz złożony z pikseli. Sklasyfikowane sceny zostały połączone w jeden obraz obejmujący swoim zasięgiem obszar KPN. W celu usunięciu efektu „soli i pieprzu” oraz generalizacji obrazu, obraz poklasyfikacyjny przeszedł przez analizę większości o oknie 3x3 piksele. 43 http://www.gdal.org/ 65 5. Wyniki Przedstawiona w pracy metoda przetwarzania danych hiperspektralnych oraz optymalizacji parametrów uczenia sztucznych sieci neuronowych pozwoliła na uzyskanie następujących wyników: ocena korekcji obrazów APEX, ocena informacyjności poszczególnych kanałów zobrazowania APEX uzyskanych jako rezultat procedury wyboru kanałów spektralnych, optymalizacja parametrów uczenia sztucznej sieci neuronowej oraz wizualizacja wyników optymalizacji, wyniki klasyfikacji wszystkich scen APEX wytrenowaną siecią oraz odniesienie wyniku do oficjalnych danych dotyczących składu gatunkowego lasów KPN, analiza poprawności otrzymanej klasyfikacji za pomocą macierzy błędów oraz iteracyjnej oceny dokładności. 5.1. Dokładność korekcji atmosferycznej zobrazowań APEX Procedura korekcji atmosferycznej pozwoliła z sukcesem zredukować wpływ atmosfery na charakterystyki spektralne obiektów na zobrazowaniu APEX. Błąd RMSE44 korekcji atmosferycznej wyniósł 1,3%. Wynik przeprowadzonej korekcji należy uznać za satysfakcjonujący. Wykres po lewej stronie (Ryc. 20) prezentuje krzywą spektralną dla łąki przed wykonaniem korekcji atmosferycznej. Krzywa spektralna po korekcji atmosferycznej 100 100 80 80 60 60 % Wat/m2/sr/µm Krzywa spektralna przed korekcją atmosferyczną 40 40 20 20 0 413 635 754 0 952 1 277 1 609 1 907 2 169 2 404 413 635 754 952 1 277 1 609 1 907 2 169 2 404 Długość fali (nm) Długość fali (nm) Ryc. 20. Efekt korekcji atmosferycznej krzywej spektralnej charakteryzującej łąki 44 RMSE – Root Mean Squared Error – średnia kwadratowa błędów 66 Widoczne są obszary zakłócenia pomierzonego sygnału wywołanego przez parę wodną znajdującą się w powietrzu (930-960 nm; 1110-1130 nm). Głębokie minimum w przedziale 740-770 nm wynika z obecności tlenu (O2) w powietrzu. Dodatkowo zakres spektralny od 1400 nm do 2500 nm był zniekształcony, a pomierzony sygnał słaby. Po wykonaniu korekcji atmosferycznej (wykres po prawej stronie) cechy spektralne tej samej łąki są prawidłowe. Wszystkie zakłócenia wywołane obecnością tlenu i pary wodnej w powietrzu zostały wyeliminowane, a sama krzywa ma elementy charakterystyczne dla krzywej spektralnej opisującej roślinność (zwiększone odbicie w zakresie światła zielonego, red-edge, płaskowyż zieleni). Zakresy charakteryzujące zawartość wody w roślinach nie zostały skorygowane (wartości w tych zakresach mają przypisaną specjalną wartość wskazującą na brak korekcji). Dodatkowo słaby sygnał w zakresie dalszej podczerwieni został wzmocniony. 5.2. Analiza informacyjności zobrazowania APEX Przeprowadzona analiza jakości kanałów zobrazowania APEX metodą PCA wyznaczyła 40 najlepszych kanałów spektralnych zobrazowania. Najbardziej informacyjne kanały wyznaczono poprzez zbadanie wartości współczynnika użyteczności kanałów (band loading) pierwszych trzech składowych PCA. Rozmieszczenie wybranych kanałów spektralnych znajduje się w całym zakresie od 350 do 2450 nm (Ryc. 21). Ryc. 21. Najbardziej informacyjne kanały spektralne zobrazowania APEX. Wybrane kanały zaznaczono czerwoną kreską. Dla porównania dodano krzywe spektralne dla dwóch gatunków drzew 67 Wybrano następujące kanały (długości fali w nm): 530, 550, 590, 600, 610, 620, 630, 650, 680, 690,780, 800, 820, 830, 850, 860, 880, 900, 930, 940, 960, 980, 1000, 1040, 1120, 1200, 1240, 1260, 1280, 1500, 1530, 1560, 1660, 1720, 1760, 2000, 2030, 2060, 2090 i 2110. Zdecydowana większość wybranych kanałów spektralnych znajdowała się w zakresie światła widzialnego i bliskiej podczerwieni (450-1000 nm). W tym zakresie widoczne są dwa obszary o zwiększonej gęstości wybranych kanałów: obszar absorbcji światła czerwonego przez chlorofil (600-690 nm) oraz obszar silnego odziaływania promieniowania podczerwonego ze strukturą komórkową liści roślin (850-1000 nm). Wykorzystany algorytm nie wybrał żadnego kanału spektralnego znajdującego się bezpośrednio na krzywej czerwieni (red edge), jednak za ważne uznał te, które znajdują się na końcu i początku tego obszaru (690 i 780 nm). Również kanały w zakresie światła niebieskiego (400-500 nm) nie zostały uznane za niosące informację przydatną w klasyfikacji. Kanały znajdujące się w dalszej bliskiej podczerwieni (1000-2500 nm) nie są liczne, jednak znajdują się w charakterystycznych punktach krzywej spektralnej (w punktach przegięcia i obszarach wrażliwych na zawartość różnych substancji w roślinach). 5.3. Optymalizacja struktury sztucznej sieci neuronowej Ustalono, że optymalną liczbą neuronów w warstwie ukrytej jest 34. Dla takiej liczby neuronów w warstwie ukrytej dokładność dla zestawu treningowego wyniosła 98%, dokładność dla zestawu weryfikacyjnego 83%, a RMSE wyniosło 1200 (Ryc. 22 i 23). Średnia dokładnoci prducenta (%) 100 95 90 85 80 75 Zestaw treningowy Zestaw testowy 70 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Liczba neuronów w warstwie ukrytej Ryc. 22. Zależność między liczbą neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej a średnią dokładności producenta dla zestawu użytego do uczenia sieci i zestawu weryfikacyjnego. Zieloną linią zaznaczono wyniki uzyskane dla 34 neuronów 68 8000 7000 6000 RMSE 5000 4000 3000 2000 1000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Liczba neuronów w warstwie ukrytej Ryc. 23. Wartość błędu RMSE w zależności od liczby neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej. Zieloną linią zaznaczono wyniki uzyskane dla 34 neuronów Mimo że sieci o mniejszej liczbie neuronów w warstwie ukrytej otrzymały wyższe dokładności dla zestawu testowego, zostały uznane za nieoptymalne ponieważ charakteryzowała je mniejsza dokładność dla zestawu treningowego oraz znacznie większe wartości RMSE. Powyższe zjawisko może wskazywać na niską zdolność generalizacji sieci, a zatem może dostarczać gorsze wyniki. Sieci o większej liczbie neuronów niż 34 cechowały się większymi dokładnościami dla zestawu treningowego, niższym RMSE oraz mniejszymi dokładnościami dla zestawu do testu. Użycie sieci o większej liczbie neuronów w warstwie ukrytej mogłoby przynieść lepszy wynik, ale ponieważ mają one więcej neuronów, trening sieci mógłby trwać o wiele dłużej. 5.4. Rozmieszczenie analizowanych gatunków drzewiastych Mapa prezentująca końcowy wynik klasyfikacji została zgeneralizowana za pomocą analizy większości o oknie 3x3 (Ryc. 24). Zabieg ten pozwolił wyeliminować pojedyncze piksele, tworzące tzw. efekt „pieprzu i soli”, zacierając ogólny obraz rozmieszczenia klasyfikowanych drzew. Terenowe analizy weryfikacyjne potwierdziły dużą zbieżność obrazów poklasyfikacyjnych (Tabele 5 i 6). 69 Ryc. 24. Mapa występowania gatunków drzew na podstawie wykonanej klasyfikacji obrazów APEX 70 Tabela 5. Macierz błędów klasyfikacji dla iteracji o najwyższej dokładności ogólnej Brzoza Buk Modrzew Olcha Sosna Brzoza 2,52 2,38 0,00 0,00 84,96 Buk 4,42 3,57 3,03 2,17 89,92 Modrzew 3,98 2,24 3,03 4,35 76,19 Olcha 0,44 0,56 0,79 93,94 0,00 Sosna 0,88 0,56 1,19 0,00 78,26 Świerk 5,31 4,20 15,87 0,00 15,22 Świerk 1,32 1,22 3,55 0,30 0,30 93,30 Analizując macierz błędów (Tabela 5) można stwierdzić, że najlepiej sklasyfikowały się klasy olcha oraz świerk (powyżej 93% dokładności producenta). Nieznacznie gorsze wyniki uzyskano dla klas buk i brzoza (dokładność producenta powyżej 85%). Modrzew i sosna osiągnęły 76% i 78% dokładności producenta. Brzoza była mylona ze świerkiem w 5% analizowanych przypadków, z bukiem (w 4%) i modrzewiem (w 4%). Tabela 6. Dokładność producenta i użytkownika dla poszczególnych klas (iteracja o najwyższej dokładności ogólnej) Brzoza Dokładność użytkownika Dokładność producenta Buk Modrzew Olcha Sosna Świerk 87 91 78 79 78 92 85 90 76 94 78 93 Buk natomiast był mylony w 2% z brzozą i modrzewiem oraz w 4% ze świerkiem. Dwa stosunkowo słabo sklasyfikowane gatunki: modrzew i sosna, były przeważnie mylone ze świerkiem (15%). Niemniej wszystkie analizowane gatunki uzyskały satysfakcjonujące wyniki miar statystycznych, czyli dokładności użytkownika i producenta (Ryc. 25) oraz dokładność ogólna i współczynnik kappa (Ryc. 26). Analizując dokładności producenta i użytkownika dla najlepszej iteracji można stwierdzić, że klasy modrzew i sosna uzyskały najniższe dokładności użytkownika i producenta. Klasa olcha uzyskała jedną z najwyższych dokładności producenta oraz jedną z niższych użytkownika. Klasy świerk, sosna, buk i brzoza charakteryzowały niewielkie różnice pomiędzy dokładnościami producenta i użytkownika (Ryc. 25). Szczegółowa analiza wyników z iteracyjnej oceny dokładności (Ryc. 27, 28) potwierdza, że najwyższe dokładności producenta osiągnęły klasy buk i świerk (mediana 88% i 92%), najniższe osiągnęły klasy brzoza (83%) i olcha (82%). 71 100 95 Dokładność użytkownika Dokładność producenta 90 85 % 80 75 70 65 60 55 50 Brzoza Buk Modrzew Olcha Sosna Świerk Ryc. 25. Porównanie dokładności producenta i użytkownika dla sklasyfikowanych klas (wyniki dla najlepszej iteracji) Najgorzej wypadły klasy modrzew (mediana 73%) oraz sosna (69%). Szerokość rozkładu dokładności oraz jej skośność mogą wskazywać na cechy zestawu użytego do uczenia oraz weryfikacji (czystość spektralna próbek), pokazać interesujące właściwości klasyfikowanej klasy (np.: dużą spektralną heterogeniczność klasy, co objawiałoby się szerokim rozkładem wyników) lub opisać, w jakim stopniu dany algorytm klasyfikujący radzi sobie z danymi. Ryc. 26. Dokładność ogólna i współczynnik kappa klasyfikacji (na podstawie 100 powtórzeń klasyfikacji) 72 Ryc. 27. Dokładności producenta dla poszczególnych klas (na podstawie 100 powtórzeń klasyfikacji) Najmniejsza szerokość rozkładu dokładności dotyczy klas świerk, buk oraz brzoza (odpowiednio 4, 9, 13 p.p.). Klasy olcha i sosna miały największe szerokości rozkładu dokładności producenta (33 i 30 p.p.). Wszystkie analizowane klasy miały rozkłady lekko skośne, zwykle w kierunku wyższych dokładności producenta. Najwyższą medianę i dokładności producenta osiągnęły klasy świerk (91%) oraz buk (89%). Klasy brzoza i olcha uzyskały medianę dokładności użytkownika na poziomie odpowiednio 85% i 84%. Ryc. 28. Dokładności użytkownika dla poszczególnych klas (na podstawie 100 powtórzeń klasyfikacji) Najniższą medianę dokładności użytkownika (Ryc. 28) osiągnęły klasy sosna i modrzew (74%). Klasy o najmniejszej szerokości rozkładu dokładności użytkownika to świerk (3 p.p.) i buk (6 p.p.), natomiast klasy olcha i sosna miały najszersze rozkłady dokładności użytkownika (24 i 35 p.p.). 73 5.5. Wysokość analizowanych gatunków drzewiastych Wykonany nDSM oraz wynik klasyfikacji posłużył do wykonania mapy rozmieszczenia wybranych gatunków drzew na obszarze KPN w podziale na 3 klasy wysokościowe (Załączniki 1 i 2). Tego rodzaju mapa pozwala na analizę rozmieszczenia drzew nie tylko przez pryzmat gatunku do jakiego należą drzewa, ale pozwala również na uwzględnienie wysokości drzew podczas analizy wyników (Tabela 7, Ryc. 29). Warto podkreślić, że taki produkt (nDSM) nie dostarcza informacji o wysokości drzewa pomierzonej wzdłuż pnia, lecz danych na temat wysokości korony drzewa. 80 < 10 metrów 10 - 20 metrów > 20 metrów 70 60 50 % 40 30 20 10 0 Brzoza Buk Modrzew Olcha Gatunek drzewa Świerk Sosna Ryc. 29. Procentowy udział klas wysokościowych dla klasyfikowanych gatunków drzew Ciekawie wygląda sytuacja wysokości drzew, gdyż buk tworzy najwyższe zbiorowisko (60% drzew jest wyższa niż 20 metrów, 27% ma wysokość między 10 a 20 metrów, natomiast tylko 13% jest niższa niż 10 metrów, Ryc. 29). Modrzewie i olchy mają wyrównany stosunek klas wysokościowych (żadna z trzech klas wysokości nie dominuje nad inną). Efekty katastrofy ekologicznej bardzo dobrze widać w świerku, gdyż 47% drzew charakteryzuje się wysokością od 10 do 20 metrów natomiast, 41% jest niższa niż 10 metrów. 74 Tabela 7. Powierzchnia (ha) zajmowana przez klasyfikowane gatunki drzew w podziale na trzy klasy wysokości Gatunek Wysokość drzew Brzoza Buk Modrzew Olcha Świerk Sosna < 10 metrów 51,37 25,37 41,51 0,66 641,47 2,69 10 - 20 metrów 35,76 56,70 46,95 0,72 750,07 7,86 > 20 metrów 10,40 125,78 39,22 0,82 186,17 4,08 Tylko 12% drzew należących do tego gatunku jest wyższa niż 20 metrów. Klasą w której wyraźnie dominują drzewa mające od 10 do 20 metrów wysokości jest klasa sosna (53%). Ponad 50% brzóz występujących na terenie KPN ma wysokość poniżej 10 metrów, 36% ma od 10 do 20 metrów wysokości, a pozostałe 11% jest wyższe niż 20 metrów. 6. Przydatność obrazów APEX i sztucznych sieci neuronowych do klasyfikacji gatunków drzewiastych Wykonane analizy zostały porównane z oficjalnymi danymi KPN (Tabela 8). Największa zgodność występuje w przypadku powierzchni zajmowanych przez brzozy, olchy oraz sosny. Największe różnice między danymi oficjalnymi a tymi z klasyfikacji wystąpiły dla klasy buk (6 punktów procentowych) i świerk (8 p.p.). Klasyfikacja wskazuje ponad dwukrotnie wyższy udział procentowy buka w KPN oraz obniża udział świerków o 8 punktów procentowych w stosunku do danych oficjalnych. Tabela 8. Porównanie procentowego udziału poszczególnych gatunków drzew na obszarze KPN, według danych KPN (Danielewicz i inni, 2012) oraz wyników uzyskanych z klasyfikacji Brzoza Buk Modrzew Olcha Sosna Świerk Klasyfikacja 4,81 10,25 6,30 0,11 0,72 77,81 Dane KPN 4,79 4,14 4,58 0,12 0,53 85,55 Porównując uzyskane wyniki klasyfikacji z danymi uzyskanymi przez innych badaczy, stosującymi dane teledetekcyjne, trzeba mieć na uwadze, jakie dane i algorytm klasyfikujący zostały użyte oraz liczbę klas wyznaczanych przez poszczególnych autorów. W głównej mierze dotyczy to wielkości przestrzennej i spektralnej piksela, gdyż duże piksele rejestrują nie tylko dane drzewo, ale także i otaczający cień, czy inne obiekty występujące wokół 75 drzewa, czy nawet pod nim. Takie miksele utrudniają prawidłową interpretację wyników. Zbyt mały piksel nie jest też optymalnym rozwiązaniem, gdyż rejestruje obszar znajdujący się między poszczególnymi gałęziami wprowadzając artefakty. Częstym elementem, który można znaleźć w literaturze jest klasyfikacja wszystkim obiektów występujących na obrazie, np. wody, skały, czy roślinność zielna. Takie klasyfikacje mogą zawyżać dokładność całkowitą, czy wskaźnik kappa, gdyż są to często homogeniczne spektralnie obiekty, które bez problemu mogą być wyodrębnione na obrazie. Prace dotyczące klasyfikacji drzewostanu często mają charakter aplikacyjny i ich celem jest sporządzenie mapy rozmieszczenia gatunków drzew (Kokaly i inni, 2003; Peerbhay i inni, 2013), chociaż są też takie, które traktują tematykę klasyfikacji gatunków drzew jako nietrywialny problem, na którym testują różne metody przetwarzania danych oraz klasyfikatory (Dalponte i inni, 2013). Niekiedy autorzy opracowują klasyfikację dwóch gatunków iglastych (świerk i sosna) oraz jednej klasy, w której zawarte są wszystkie gatunki liściaste (Dalponte i inni, 2013; Dalponte i inni, 2014, Tabela 9). W niniejszej pracy uzyskano dokładności producenta 93% dla klasy świerk (Picea abies L.) oraz 78% dla klasy sosna (Pinus sylvestris L.). W pracy Dalponte i inni (2014) było to odpowiednio: 97% i 95% dla klas świerk (Picea abies L. Karst) i sosna (Pinus sylvestris L.) oraz 71% dla pozostałych gatunków drzew liściastych (brzoza Betula spp. L. oraz topola Populus tremula L.), przy użyciu algorytmu SVM. Porównując wyniki przytoczonej pracy z wynikami z najlepszej iteracji można stwierdzić, że otrzymano podobnie wysoką dokładność dla klasy świerk, jednak nie udało się sklasyfikować klasy sosna z wysoką dokładnością. W tym przypadku duże znaczenie ma niewielki zasięg przestrzenny występowania sosny w KPN co znacznie utrudnia dobranie odpowiednio dużego zestawu wzorców. Autor niniejszej pracy osiągnął średnią dokładność producenta dla wszystkich gatunków drzew liściastych 88%, zatem większą niż Dalponte i inni (2014) – 71%. Dokładność ogólna powyżej 80% nie jest rzadkością w pracach dotyczących klasyfikacji drzewostanu, co uzasadnia użycie technik teledetekcyjnych, szczególnie teledetekcji hiperspektralnej jako narzędzia wspierającego kartowanie gatunków drzew. Zdecydowana większość prac skupia się na klasyfikacji kilku gatunków drzew, chociaż są i takie, w których klasyfikuje się większą liczbę gatunków drzew (Feret, Asner, 2013; Graves i inni, 2016; Sommer i inni, 2015). 76 Tabela 9. Porównanie wyników pracy z dostępną literaturą Rodzaj użytych danych Algorytm klasyfikujący Liczba skalsyfikowanych gatunków drzew Dokładność ogólna % Kokaly i inni, 2003 hiperspektralne System ekspercki 4 74 0,62 Peerbhay i inni, 2013 hiperspektralne PLS-DA45 6 88 0,87 Dalponte i inni, 2013 hiperspektralne SVM, RF, Gaussian Maximum Likelihood 4 90 < 0,8 Feret i Asner, 2013 hiperspektralne SVM (radialkernel) 17 83 b.d. Dalponte i inni, 2014 hiperspektralne i lidarowe SVM 3 93 0,88 Ghosh i inni, 2014 hiperspektralne i lidarowe SVM, Random Forest 5 94 0,95 Fassnacht i inni, 2014 hiperspektralne SVM, Random Forest 5 92 0,83 Priedītis i inni, 2015 hiperspektralne LDA i SSN 5 Sommer i inni, 2015 hiperspektralne Random Forest 13 94 0.93 Baldeck i inni, 2015 hiperspektralne SVM 3 98 b.d. Ballanti i inni, 2016 hiperpsektralne i lidarowe SVM 8 95 b. d. Graves i inni, 2016 hiperspektrale SVM 20 62 b.d. Lee i inni, 2016 hiperspektralne i lidarowe SVM 6 91 0,89 Raczko hiperspektralne SSN 6 87 0,82 Autor 45 PLS-DA: partial least squares discriminant analysis. 77 86 LDA; 71 SSN Współczynnik kappa b.d. Podobne procedury optymalizacji parametrów uczenia sztucznej sieci neuronowej przeprowadził zespół Feret i Asner (2013). Niemniej wyniki klasyfikacji 17 gatunków drzew tropikalnych rosnących na Hawajach są zdecydowanie niższe, bo oscylujące w pobliżu 40%, mimo zastosowania sztucznych sieci neuronowych zaimplementowanych w oprogramowaniu MATLAB. Niższe wyniki mogą świadczyć o większym zróżnicowaniu przestrzennym gatunków tropikalnych. Porównywalna wielkość piksela i znacznie niższa dokładność (niż uzyskana w niniejszej pracy - 87%, ale przy większej liczbie klasyfikowanych gatunków drzew 17), dowodzi potrzebę stosowania przemyślanej strategii doboru parametrów uczenia w przypadku SSN. Dane z sensora APEX wykorzystano już nieraz do klasyfikacji gatunków drzew używając danych hiperspektralnych. Zespół pod kierownictwem G. Tagliabue (2016) przeprowadził klasyfikację pięciu gatunków drzew (grab Carpinus betulus, dwa gatunki dębu Quercus petraea i Quercus robur – jako jedna klasa, lipa Tilia oraz świerk Pinus) występujących w Lotaryngii, używając danych APEX o 3-metrowej rozdzielczości przestrzennej. Dane APEX pozyskano na początku września. W pracy wykorzystano algorytm największego prawdopodobieństwa jako klasyfikator oraz wszystkie pozyskane kanały spektralne. Uzyskano klasyfikację o dokładności ogólnej 74% i współczynniku kappa 0,63. Najniższe dokładności producenta osiągnęły klasy lipa (71%) oraz grab (70%), najwyższe zaś sosna (80%) i dąb (85%). Dokładności użytkownika wyniosły od 61% (klasa dąb) do 86% (klasa grab). Autorzy zasugerowali wykorzystanie danych o wyższej rozdzielczości przestrzennej lub zobrazowań pochodzących z innej pory roku (Tagliabue i inni, 2016). Niniejsza praca dowodzi, że nie jest to konieczne – pod warunkiem odpowiedniego doboru wykorzystanych danych oraz algorytmu klasyfikacyjnego. Biorąc pod uwagę tematykę klasyfikacji drzewostanu warto porównać wyniki z otrzymanymi na obszarze, w którym występują podobne gatunki drzew. Lee i inni (2016) uzyskali bardzo dobre wyniki klasyfikując gatunki drzew algorytmem SVM w lesie zlokalizowanym w Oxfordshire w Anglii. Dokładność powyżej 90% dla klas buk (Fagus sylvatica) i modrzew (Larix decidua) pokazuje, że możliwe jest lepsze niż pokazane w tej pracy sklasyfikowanie klasy modrzew (76% w najlepszej iteracji). Niską dokładność dla klasy modrzew można wyjaśnić charakterystyką występowania drzew tego gatunku w KPN (pojedynczo lub małych grupach, zwykle nasadzone w jednej linii) i cechy korony modrzewi (niezbyt zwarta). Utrudnia to pozyskanie dobrych wzorców oraz poprawną klasyfikację drzew tego gatunku na obrazie, 78 ponieważ trudno jest znaleźć piksel, który nie jest mikselem koron modrzewia i innego gatunku drzew. Na obszarze badawczym omawianym przez Lee i innych (2016) modrzewie rosną tylko na jednym obszarze i nie są pomieszane z drzewami innych gatunków (Ryc. 30). Warto nadmienić, że Lee i inni (2016) korzystali z kanałów po transformacji PCA oraz danych lidarowych, co znacznie podniosło wyniki (z 85% do 91% dokładności ogólnej). Ze względu na otrzymany zestaw danych (niedoskonałości korekcji atmosferycznej powodują różnice charakterystyk spektralnych tego samego obiektu, pochodzących z dwóch różnych scen) w niniejszej pracy nie wykorzystano obrazów po transformacji PCA, co mogło spowodować gorszą niż zakładano klasyfikację niektórych klas. Dodatkowym atutem była też łatwość dostępu do obszaru badań oraz istniejące aktualne mapy rozmieszczenia gatunków drzew. Ryc. 30. Obraz poklasyfikacjyny lasu w Oxfordshire. Kolory symbolizują gatunki drzew (niebieski – modrzew Larix decidua, zielony – klon jawor Acer pseudoplatanus, czerwony – jesion Fraxinus excelsior, żółty – buk Fagus sylwatica, fioletowy – dąb Quercus robur, brązowy – brzoza Betula spp.) (Lee i inni, 2016) Mimo tych udogodnień klasa brzoza (Betula spp.) w pracy Lee i inni (2016) uzyskała dokładność producenta 74%, czyli niższą niż prezentowaną w tej pracy (85%). Porównując uzyskane wyniki z literaturą można uznać je za nieodstające od rezultatów otrzymywanych 79 przez innych naukowców (Tabela 9), szczególnie, jeżeli weźmie się pod uwagę fakt, że niewiele prac dotyczyło klasyfikacji gatunków drzew na tak dużym obszarze jak KPN. Ogólną dokładność uzyskanej klasyfikacji (mediana 87%) gatunków drzew można uznać na bardzo wysoką. Po części jest to wynik uzyskania wysokich dokładności producenta przez klasy reprezentowane przez większość pikseli wzorcowych użytych w klasyfikacji (klasy buk i świerk). Bardziej zrównoważony wgląd w uzyskane dokładności oferuje praca Fassnach i inni (2014) oraz Ghosh i inni (2014). W obu przytoczonych pracach autorzy zdecydowali się na wylosowanie dla każdego z klasyfikowanych gatunków drzew równej liczby pikseli wzorcowych, które zostały, po podziale ich na zestaw treningowy i testowy, użyte do treningu klasyfikatora oraz jako zestaw walidacyjny. W takim podejściu można uniknąć inflacji wskaźnika dokładności ogólnej klasyfikacji, który w przypadku użycia powyższej metody, jest zwykłą średnią arytmetyczną dokładności producenta klas. W obu pracach zdecydowano się wybrać po 60 pikseli na klasę. Mimo wymienianych powyżej zalet użycia zestawu danych wzorcowych o równych liczebnościach dla klasy, istnieją prace o bardzo niezbalansowanych liczebnościach wzorców dla klas (Priedītis i inni, 2015). Na przykład Lee i inni (2016) używali 636 pikseli wzorcowych dla klasy jesion (Fraxinus excelsior), 255 pikseli wzorcowych dla kasy modrzew (Larix decidua) i 186 dla klasy brzoza (Betula spp.), osiągając w wyniku dokładność ogólną 91%. Podobny stan rzeczy jest w niniejszej pracy, gdzie są dosyć duże różnice w liczebności wzorców dla poszczególnych klas (klasa świerk – 2677, modrzew – 685, olcha – 90 pikseli wzorcowych). Mimo dobrych wyników uzyskiwanych na podstawie danych hiperspektralnych, część badaczy wzbogaca dane spektralne o dane lidarowe. Dane lidarowe pozwalają m.in. na wyznaczanie poszczególnych koron drzew, co zmniejsza problem mikseli w klasyfikacji oraz pozwala na zastosowanie obiektowego podejścia do klasyfikacji (Dalponte i inni, 2014; Ballanti i inni, 2016, 2016; Lee i inni, 2016). Dobrym przykładem synergicznego wykorzystania danych lidarowych i hiperspektralnych jest praca Ballanti i inni (2016). Badacze wykonali klasyfikację 8 gatunków drzew (sekwoja Sequoia sempervirens, daglezja Pseudotsuga menziesii, wawrzyn Umbellularia californica, dąb Quercus agrifolia, olcha Alnus rubra, wierzba Salix lasiolepis, eukaliptus Eucalyptus globulus i kasztanowiec Aesculus californica), rosnących w Muir Woods (Kalifornia, USA) używając skanera AISA Eagle. Poza charakterystykami spektralnymi włączyli do klasyfikacji model koron drzew. Obraz 80 poklasyfikacyjny uzyskał 95% dokładności ogólnej, wszystkie klasy poza wierzbą (58%) uzyskały powyżej 90% dokładności producenta, a tylko dwie klasy uzyskały dokładności użytkownika poniżej 92% (dąb – 67%, wierzba 84%). Jest to przekonujący dowód sensowności włączenia danych lidarowych do klasyfikacji drzewostanu – pod warunkiem, że jest się w stanie wyekstrahować pożądane dane (Ballanti i inni, 2016). W niniejszej pracy nie zdecydowano się na włączenie danych lidarowych ze względu na brak aktualnej chmury punktów dla obszaru badań. Preferowane jest zebranie danych lidarowych w tym samym momencie, co charakterystyk spektralnych. Użycie nieaktualnych danych lidarowych mogłoby znacząco zniekształcić wynik. Zastosowanie sztucznych sieci neuronowych w teledetekcji nie jest szeroko rozpowszechnione (Fassnacht i inni, 2016). Spowodowane jest to głównie trudnościami w ich użyciu oraz faktem, że inne klasyfikatory, jak SVM czy RF dostarczają porównywalne wyniki przy znacznie mniejszym nakładzie pracy. Sam proces optymalizacji uczenia sztucznej sieci neuronowej ma duży wpływ na końcowy wynik (Feret, Asner, 2013), a jest on tylko jedną z wielu czynności, które trzeba wykonać chcąc otrzymać dobry wynik (innymi są: dobór architektury, wybór algorytmu uczącego, balansowanie między sensownym czasem uczenia a wynikiem). Wykorzystanie w pracy programu „nnet” dostępnego dla programu R dowiodło, że można z powodzeniem używać sztucznych sieci neuronowych do klasyfikacji. Bogactwo dodatkowych podprogramów dostępnych dla R pozwala przenieść cały łańcuch przetwarzania w jedno miejsce. Biorąc pod uwagę powyższe fakty, nic nie stoi na przeszkodzie, aby rozszerzyć zakres zastosowania SSN w teledetekcji. Warto również przeprowadzić analizę użycia tzw. sieci głębokiego uczenia (deep-learning) w teledetekcji hiperspektralnej. 6.1. Różnice udziału gatunków drzew w KPN uzyskanego na podstawie klasyfikacji i z danych oficjalnych Uzyskane wyniki pokazują dosyć duże rozbieżności wskaźników udziału poszczególnych gatunków drzew w KPN. Według oficjalnych danych 85% powierzchni lasów w Parku jest zajęte przez świerki, natomiast 4% przez buki. Według wykonanej klasyfikacji 10% drzew w lasach KPN to buki, a 78% to świerki. Tutaj warto zwrócić uwagę na fakt, że tylko te dwie klasy (o bardzo wysokich dokładnościach) wykazują tak duże różnice między oficjalnymi danymi, a wynikiem klasyfikacji. Z pozostałych klas brzoza, olcha i sosna wykazują różnice poniżej 0,2%, a modrzew 1,8%. Ta rozbieżność może mieć dwie przyczyny. 81 Pierwszą jest fakt, że klasyfikacja przedstawia rzeczywisty obraz każdego fragmentu lasu, a tradycyjne badania terenowe niekoniecznie muszą objąć 100% terenu KPN. Trzeba też pamiętać, że sklasyfikowano tylko sześć gatunków drzew z 10 występujących w parku. Według Danielewicz i innych (2012) w KPN obok sklasyfikowanych gatunków drzew występują też osika, klon, jawor, dąb i jodła. Możliwe, że drzewa należące do tych gatunków zostały przypisane do innych, najbliższych spektralnie klas. Jednakże wymienione cztery niesklasyfikowane gatunki drzew zajmują około 0,5% powierzchni lasów KPN (Danielewicz i inni, 2012). Czyni to powyższą teorię mało prawdopodobną. Drugim powodem są rozbieżności w kwestii zakwalifikowania danego obszaru jako lasu. W pracy zdecydowano się na wyłączenie z klasyfikacji obszarów zajętych przez młody las, głównie świerkowy (drzewa o wysokości poniżej 2,5 metra) oraz obszarów porośniętych pojedynczymi drzewami znajdującymi się poza lasem (sytuacja typowa dla obszarów bliżej wierzchowiny Karkonoszy). Z tego powodu, mimo że klasyfikacja może w pełni oddawać obecny skład gatunkowy lasów KPN, występują różnice w procentowym składzie gatunkowym. Biorąc pod uwagę materiały kartograficzne KPN, pokazujące zasięg przestrzenny drzewostanów KPN jest to bardzo możliwa przyczyna różnic. Obszar sklasyfikowany w pracy to 2027 ha, natomiast według oficjalnych źródeł powierzchnia KPN zajęta przez las to 4022 ha (Danielewicz i inni, 2012). Taki stan rzeczy tłumaczyłby też, dlaczego klasy sosna, modrzew, olcha i brzoza wykazują tak niewielkie różnice, bowiem znajdują się one głównie w niższym piętrze lasu. Nie jest to jednak wystarczające uzasadnienie różnic dla klasy buk – tę można próbować uzasadnić różnicą w odniesieniu powierzchni zajmowanej przez dany gatunek w opracowaniu Danielewicz i inni (2012) oraz wynikiem klasyfikacji do całkowitej powierzchni zajętej przez las (nie są one identyczne). Różnice w procentowym udziale gatunków drzew w drzewostanie są dość często spotykane w pracach dotyczących klasyfikacji na dużym obszarze. W pracy Sommer i inni (2015), zawierającej klasyfikację gatunków drzew w Bawarskim Parku Narodowym, mimo wysokich dokładności klasyfikacji również notuje się rozbieżności między danymi oficjalnymi a tymi z klasyfikacji. Według uzyskanej klasyfikacji, drzewa należące do klasy świerk zajmowały 67% powierzchni lasów BPN, podczas gdy według danych z inwentaryzacji lasu drzewa klasy świerk zajmowały 28% powierzchni parku. Mniej drastyczne różnice wykazały również klasy jodła (18% w stosunku do 3%), buk (28% do 25%), klon (9% do 1%), modrzew (7% do 0,1%) i brzoza (5% do 0,7%). Powody zapewne 82 były podobne jak prezentowane wyżej. Nie uwzględnienie w klasyfikacji części obszaru Bawarskiego Parku Narodowego (ze względu na zachmurzenie podczas przeprowadzania nalotu) także mogło wpłynąć na wynik. 6.2. Porównanie wyników klasyfikacji APEX z dostępnymi danymi KPN Wyniki klasyfikacji zostały porównane z dostępnymi danymi dotyczącymi przestrzennego rozmieszczenia gatunków drzew na terenie KPN. Jedynym dostępnym relatywnie aktualnym źródłem danych na ten temat jest mapa rozmieszczenia poszczególnych gatunków w drzewostanach (Danielewicz i inni, 2012; Ryc. 8). Ryc. 31. Lokalizacja obszarów wykorzystanych w porównaniu. Ryc. 32. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Szklarska Poręba). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). 83 Oceniano zgodność klasyfikacji oraz treści mapy na siedmiu wybranych obszarach. (Ryc. 31). Porównując mapę drzewostanów do wyników klasyfikacji na obszarze Szklarska Poręba można dostrzec kilka istotnych różnic (Ryc. 32). Pierwszą jest obecność tylko jednego gatunku na mapie drzewostanów (świerk), gdy klasyfikacja wykazuje istnienie dwóch skupisk modrzewi (zaznaczone białymi kołami) oraz teren występowania drzew liściastych (brzóz, zaznaczonych czarnym kołem) na obszarach zajętych przez świerk. Wynik klasyfikacji potwierdza interpretacja zobrazowania w kompozycji CIR, która pokazuje znaczne różnice wymienionych dwóch powierzchni w stosunku do otaczającego ją lasu, złożonego w głównej mierze ze świerków (na kompozycji CIR są to bardzo ciemnoczerwone plamy). Można stwierdzić pewne braki mapy drzewostanów, jednak trzeba wziąć pod uwagę skalę opracowania oraz to, że dotyczy ona w przede wszystkim potencjalnego występowania gatunków drzew. Ryc. 33. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Wodospad Szklarki). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Jeżeli chodzi o obszar Wodospad Szklarki trudno jest wykazać istotne różnice miedzy mapą drzewostanów, a wynikiem klasyfikacji (Ryc. 33). Ze względu na większą dokładność klasyfikacji jest ona w stanie wykazać istnienie nawet pojedynczych drzew danego gatunku na badanym obszarze, co naturalnie nie jest pożądane ani możliwe na mapie. Poza istnieniem pasa porośniętego bukiem (zaznaczony czarnym kołem) oraz niewielką obecnością modrzewi (zaznaczone białym kołem) oba źródła danych pokazują podobne rozmieszczenie gatunków drzew na tym obszarze. Interesujące jest porównanie obszarów bardziej zróżnicowanych gatunkowo, takich jak teren Jagniątków 1 (Ryc. 34). 84 Ryc. 34. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 1). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Ogólnie rzecz biorąc, mapa oraz wynik klasyfikacji są do siebie bardzo podobne (uwzględniając różnice wynikające ze skali opracowania i charakteru mapy). Dobrze widoczny jest efekt generalizacji obecny na mapie w stosunku do wyniku klasyfikacji, która z racji mniejszego pola podstawowego (9 m2) jest w stanie ukazać bardziej szczegółowo rozmieszczenie gatunków drzew oraz lepiej pokazać zróżnicowanie rozmieszczenia drzew poszczególnych gatunków. Mapa drzewostanów nie pokazuje obecności liniowych zadrzewień modrzewiowych (tzw. pasy modrzewiowe), których obecność na terenie KPN jest dobrze znana. Ich lokalizację bardzo ułatwia wynik klasyfikacji, gdzie są one dobrze widoczne (czarne koło). Klasyfikacja nie ujawniła obecności olchy w tak dużym stopniu, jak jest to zaznaczone na mapie drzewostanów (białe koła) oraz wykazała obecność buka, którego nie ma na mapie (szare koło). Ryc. 35. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 2). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Podobne wnioski można wyciągnąć w odniesieniu do obszaru Jagniątków 2 (Ryc. 35). W tym przypadku mapa i wynik klasyfikacji są do siebie podobne, szczególnie biorąc pod uwagę 85 obszary występowania sosny na tym terenie (białe koło). Potwierdziła się obecność gatunków drzew na obszarach wskazanych przez mapę, jednak wynik klasyfikacji pozwala zauważyć zróżnicowanie wewnątrz wydzieleń, np.: drzewa innych gatunków na obszarach wydzieleń. Znaczne różnice między mapą a wynikiem klasyfikacji są widoczne na obszarze Jagniątków 3 (Ryc. 36). Główne różnice to brak modrzewi na części obszarów zakwalifikowanych do tego wydzielenia na mapie drzewostanów (czarne koła). Wynik klasyfikacji nie wykazał też obecności olchy, wydzielonej na mapie (białe koło). W tym przypadku możliwe powierzchnie porośnięte olchą zostały usunięte przez maskę drzewostanów z wyniku klasyfikacji. Ryc. 36. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 3). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Podobnie jak w przypadku obszaru Jagniątków 1, także i tutaj mapa drzewostanów pozwala na identyfikację położenia liniowych zadrzewień modrzewiowych, które można ławo dostrzec na obrazie poklasyfikacyjnym (szare koło). Różnice między mapą a wynikiem klasyfikacji stwierdzono również na obszarze Karpacz 1 (Ryc. 37). Ryc. 37. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 1). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). 86 Podobnie jak w przypadku obszarów Jagniątków 1 i 3, mapa drzewostanów nie zaznacza obecności liniowych zadrzewień modrzewiowych widocznych po prawej stronie wyniku klasyfikacji (białe koło), jednak zawiera duże wydzielenie modrzewi po lewej. Dodatkowo część powierzchni zakwalifikowanych do wydzielenia brzoza na mapie drzewostanów, została sklasyfikowana jako buk (czarne koło). W tym przypadku mapa jest błędna, co udowodniono przeprowadzając marszrutę terenową przez ten teren, i stwierdzając występowanie buków. Obraz prezentowany przez mapę zaniża powierzchnię występowania buka względem wyniku klasyfikacji, chociaż w niektórych przypadkach mapa i klasyfikacja wskazują podobny rejon występowania (szare koło). Ryc. 38. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 2). Kompozycja CIR (c) (czerwony – 860 nm, zielony – 660 nm, niebieski – 560 nm) została dodana w celu identyfikacji drzew iglastych (ciemnoczerwony) i liściastych (jasnoczerwony). Duża jest zgodność wyniku klasyfikacji z mapą drzewostanów na obszarze Karpacz 2. Na mapie brak tylko obszaru występowania modrzewi, wykazanego na mapie drzewostanów (czarne koło), zapewne dlatego, że maska drzewostanów usunęła drzewa niższe niż 2,5 metra (Ryc. 38). Jeżeli zawierzyć mapie drzewostanów co do obecności modrzewi na wskazanym na niej terenie, to muszą one być mniejsze niż 2,5 metra. Podsumowując można stwierdzić rozbieżności między wynikiem klasyfikacji a obecną mapą drzewostanów KPN. Główne różnice to brak większości liniowych zadrzewień modrzewiowych na mapie (Ryc. 37, 36 i 34) i błędne przypisanie do niektórych powierzchni występowania modrzewia (Ryc. 34 i 36) oraz buka (Ryc. 37). Trzeba podkreślić, że nie jest to wadą tego typu mapy, ze względu na jej duże zgeneralizowanie. Powyższe porównanie dobrze opisuje niedoskonałości obecnie dostępnych źródeł danych na temat przestrzennego rozmieszczenia gatunków drzew w KPN oraz pokazuje przydatność opracowań wykonanych przy wsparciu danych hiperspektralnych. Wykonanie mapy rozmieszczenia obiektów przy 87 użyciu danych teledetekcyjnych ma następujące zalety: odniesienie do charakterystyk spektralnych obiektów oraz ich ułożenia w przestrzeni, zapewniające obiektywną identyfikację obiektu, dostarcza powtarzalnej metody identyfikacji obiektów na podstawie obiektywnych kryteriów, pozwala na zbadanie obszaru z wielką szczegółowością (praktycznie 1 piksela), której klasyczne metody kartowania nie są w stanie zapewnić ze względów praktycznych i ekonomicznych, zobrazowania hiperspektralne z reguły wykonywane w ciągu jednego dnia, co znacznie zmniejsza szansę na wystąpienie zmian na terenie badań w czasie przeprowadzania kartowania. 6.3. Dyskusja na temat czasu wykonania badań terenowych. Zbieranie danych terenowych jest zadaniem generującym znaczne koszty oraz wymagającym dobrego przygotowania logistycznego (Fassnacht i inni, 2016). W przypadku klasyfikacji oraz innych badań z użyciem danych teledetekcyjnych, etap zbierania danych w terenie jest bez wątpienia bardzo ważny. Dostęp do map, ortofotomap, danych z różnych instytucji rządowych i firm prywatnych nie wyklucza przeprowadzania przynajmniej inspekcji terenu badań. W idealnych warunkach badania terenowe powinny zostać przeprowadzone w momencie wykonywania zobrazowania. W zależności od zasobów niektórzy autorzy przeprowadzają badania trenowe w tym samym miesiącu co wykonanie zobrazowania, wspierając prace terenowe danymi uzyskanymi z instytucji rządowych oraz mapami (Peerbhay i inni, 2013). Inni naukowcy korzystają z danych instytucji rządowych i map bez przeprowadzania badań trenowych (Fassnacht i inni, 2014). Naturalnie to czy konieczne jest przeprowadzanie badań terenowych, zależy od obszaru badań. Tereny dobrze skartowane (np: lasy gospodarcze) posiadające aktualne dane, nie wymagają szeroko zakrojonych badań terenowych, w przeciwieństwie do obszarów słabo skartowanych, o nieaktualnych danych. Do wykonania klasyfikacji gatunków drzew można posłużyć się danymi zebranymi po terminie nalotu, ze względu na wolne tempo naturalnych zmian w lesie oraz fakt, że zmiany duże i szybkie (wycinka, wiatrołom itp.) bardzo łatwo zauważyć w terenie. Oczywiście w przypadku zbierania danych do klasyfikacji zbiorowisk występujących tylko przez pewien czas w ciągu roku, badania terenowe powinny być przeprowadzone w momencie wykonania 88 nalotu, by nie zafałszować wyników. W niniejszej pracy zdecydowano się na przeprowadzanie serii badań terenowych mających na celu zebranie danych referencyjnych do klasyfikacji. Badania terenowe odbyły się rok oraz dwa lata po wykonaniu zobrazowania APEX. Nie jest to optymalny termin. Podczas zbierania danych unikano zatem obszarów, które są aktywnie przekształcane lub których pobieżna inspekcja wykryła zmiany (wycięte drzewa, zalegające ścięte pnie), które mogły nastąpić między datą nalotu a badaniami terenowymi. Podczas prac przygotowawczych wykorzystano dostępne mapy i ortofotomapę do wyznaczenia powierzchni do badań terenowych. 7. Podsumowanie i wnioski W pracy przedstawiono metodę wyboru kanałów spektralnych zobrazowania hiperspektralego APEX przy użyciu metody PCA oraz wskaźnika użyteczności kanału (band loading). W pierwszym kroku wykonane zostały korekcje geometryczne z dokładnością oscylującą wokół 1 m oraz usunięto wpływ atmosfery na pomierzone charakterystyki spektralne z dokładnością około 2 %. Tak wysokie dokładności były możliwe dzięki zastosowaniu parametrycznej korekcji geometrycznej uwzględniającej wychylenia samolotu w czasie pozyskiwania obrazu, szczegółowego modelu terenu i pokrycia terenu (wygenerowanego z lotniczego skaningu laserowego) oraz precyzyjnych pomiarów spektrometrycznych stanu atmosfery w trakcie zobrazowania oraz równomiernie zlokalizowanych poligonów kalibracyjnych, których cechy spektralne pozwoliły korygować dokładność korekcji atmosferycznej. Po wykonaniu wstępnych przetworzeń, wybrano 40 kanałów spektralnych APEX, na których zostały przeprowadzone dalsze analizy. Zestaw danych, mimo że zawierał 1/7 wejściowej liczby kanałów pozwolił na osiągnięcie wysokich dokładności klasyfikacji. Dzięki pracy na mniejszym zestawie danych można było przeprowadzić większą liczbę eksperymentów i dokonać optymalizacji parametrów uczenia sieci w rozsądnym czasie. Wybrane kanały znajdowały się w obszarach istotnych z punktu widzenia identyfikacji roślinności. W pracy wykonano również optymalizację struktury i parametrów uczenia sztucznych sieci neuronowych z jedną warstwą ukrytą, zaimplementowanych w pakiecie „nnet”. Wymagało to przygotowania autorskich rozwiązań programistycznych. Wykorzystany typ sieci neuronowej (perceptron wielowarstwowy) okazał się odpowiedni do klasyfikacji zobrazowań hiperspektralnych. Wstępne etapy klasyfikacji pełnego zestawu danych APEX 89 był dosyć wolny i niewygodny (długi czas oczekiwania na wyniki), ale selekcja najbardziej informacyjnych kanałów pozwoliła rozwiązać problemy, które trudno pokonać za pomocą innych klasyfikatorów. Jednym z ograniczeń podczas pracy ze sztucznymi sieciami neuronowymi była liczba kanałów spektralnych zobrazowania. Duża liczba kanałów powodowała, że proces uczenia sieci był długi oraz wymagał znacznych zasobów obliczeniowych i pamięciowych. Dodatkowo sztuczne sieci neuronowe niepoprawnie klasyfikowały zestawy danych, który uprzednio nie zostały przefiltrowane w celu usunięcia nieistotnych informacji. Wyżej wymienione metody połączono w celu opracowania metody klasyfikacji gatunków drzew przy użyciu lotniczych danych hiperspektralnych. Sklasyfikowano sześć gatunków drzew. Uzyskano informacje na temat przestrzennego rozmieszczenia: świerka (Picea abies L. Karst), brzozy (Betula pendula Roth), buka (Fagus Sylvatica L.), modrzewia (Larix decidua Mill), sosny (Pinus sylvestris L.) i olchy (Alnus Mill) na obszarze KPN. Wszystkie klasy osiągnęły dokładność producenta ponad 76% oraz dokładność użytkownika ponad 77%. Najlepiej sklasyfikowanymi klasami była klasa świerk (93%), olcha (93%), buk (90%) oraz brzoza (84%). Obliczone na podstawie klasyfikacji powierzchnie zajmowane przez poszczególne sklasyfikowane gatunki drzew różnią się nieco od oficjalnych danych. Największe rozbieżności dotyczyły klasy buk (6 punktów procentowych) i świerk (7 p.p.). Pozostałe klasy nie wykazały znaczących rozbieżności. Wykonana klasyfikacja posłużyła do wykonania mapy rozmieszczenia wybranych gatunków drzew na obszarze Karkonoskiego Parku Narodowego Z pracy wyciągnięto następujące wnioski: dane hiperspektralne są zdecydowanie użyteczne w klasyfikacji gatunków drzew na obszarach chronionych. Duża liczba bardzo wąskich kanałów spektralnych pozwala z sukcesem wyróżniać gatunki drzew, chociaż bogactwo danych wymaga odpowiedzi na pytanie, które dane użyć, uzyskane wyniki pozwoliły na skuteczną klasyfikację dominujących na obszarze badań gatunków drzew (świerk, buk) oraz gatunków znacznie rzadziej występujących na obszarze badań (modrzew, sosna, brzoza, olcha), terenowe badania weryfikacyjne są niezbędne do prawidłowej interpretacji cząstkowych oraz końcowych wyników. Optymalnym rozwiązaniem jest stosowanie geodezyjnych odbiorników GPS, które poprzez system zewnętrznej anteny pozwalają 90 uzyskać dokładności rzędu 50-80 cm pod gęstym baldachimem drzew, mimo pewnej trudności w klasyfikacji obszarów chronionych (ze względu na mniej uporządkowany sposób występowania gatunków w porównaniu do lasów gospodarczych) klasyfikacja osiągnęła dokładność ogólną 87%. To pozwala stwierdzić dużą przydatność danych hiperspektralnych w badaniach obszarów chronionych oraz trudno dostępnych, duża liczba kanałów spektralnych zobrazowania hiperspektralnego, a co za tym idzie duża objętość takich danych, wymaga redukcji użytych danych, tak aby czas przetwarzania danych był rozsądny. Jest to szczególnie ważne przy wykonywaniu analiz wielkopowierzchniowych z wykorzystaniem zaawansowanych technik przetwarzania danych. Użyty algorytm wyboru kanałów hiperspektralnych pozwolił na zmniejszenie zestawu danych 7 razy w stosunku do pełnego zestawu. Ze względu na wykorzystany algorytm klasyfikujący nie zbadano, jaki wynik uzyskanoby przy użyciu całego zestawu badań. Wykorzystanie całego zestawu danych oraz SSN skutkowałoby bardzo długimi czasami treningu, co znacznie utrudniłoby proces optymalizacji parametrów uczenia i proces oceny dokładności, wykorzystana metoda wyboru kanałów spektralnych jest szczególnie pomocna w przypadku, gdy istotne jest zachowanie oryginalnych kanałów spektralnych. Przyjęto założenie o wykorzystaniu 40 kanałów spektralnych do klasyfikacji, jednak metoda pozwala na wybranie dowolnie wielkiego zestawu danych, dostarczając kanały spektralne według zawartości informacji w kanałach, przedstawiono metody optymalizacji struktury oraz parametrów uczenia sztucznej sieci neuronowej (perceptron wielowarstwowy z jedną warstwą ukrytą) w programie „nnet”. Ze względu na naturę działania SSN uzyskane wyniki mają nikłą szansę na bycie uniwersalnymi, chociaż opracowana metoda pozwala na poczynienie pewnych kroków w uzyskiwaniu optymalnych parametrów uczenia bez użycia zaawansowanych metod matematycznych. Podejście typu brute force zastosowane w pracy do optymalizacji trudno uznać za eleganckie, ale pozwoliło na uzyskanie wysokich dokładności klasyfikacji. Trzeba zauważyć że opracowana metoda została przetestowana na jednej z implementacji SSN, zatem może nie być odpowiednia do sieci budowanych innymi programami, 91 omówiono odmienną niż ogólnie przyjęta metodę oceny dokładności wyników. Zamiast opierać się na jednorazowym procesie treningu i weryfikacji na wyznaczonych wzorcach, zdecydowano się na wielokrotne losowanie zestawów wzorców do treningu i weryfikacji wyniku. Taka metoda pozwala na zmniejszenie niezamierzonego wpływu badacza na wynik, uwalnia go od żmudnego procesu dobierania wzorców do zestawu treningowego i weryfikacyjnego, pozwala na automatyzację procesu oceny dokładności oraz lepsze zrozumienie uzyskanych wyników. Jej zastosowanie nie tylko dostarcza informacji na temat miar dokładności, ale również pozwala na obserwację zmian obliczonych dokładności oraz ich oddziaływanie z zestawami treningowymi i weryfikacyjnymi. Otwarte zostają kwestie przestrzennej autokorelacji losowo wybranych pikseli, co może fałszować wynik, zaprezentowano kompletną metodę klasyfikacji i przetwarzania danych hiperspektralnych, kładąc nacisk na techniki optymalnego wyboru wykorzystanych danych oraz wysokie dokładności wyników. Może ona być z powodzeniem wykorzystana w rozwiązywaniu innych problemów badawczych, w których korzysta się z danych hiperspektralnych i sztucznych sieci neuronowych. Podsumowując badania, należy stwierdzić, że monitorowanie ekosystemów i efektywne zarządzania zasobami przyrody wymaga aktualnej informacji o stanie środowiska. Informacje te mogą być pozyskiwane na bieżąco przez polskie jednostki badawcze, a ceny są akceptowalne dla jednostek budżetowych. Znajomość składu gatunkowego danego lasu i przestrzennego rozmieszczenia gatunków drzew pozwala na nowe spojrzenie na dynamikę zmian w lasach. Mimo wysokich dokładności uzyskanej klasyfikacji, warto wykazać ostrożność interpretując wyniki. Jedną z podstawowych spraw jest opracowanie ujednoliconej metodyki zbierania danych terenowych oraz weryfikowania wyników klasyfikacji. W pracy wykorzystano metodę iteracyjnej oceny dokładności klasyfikacji, co pozwoliło zbadać wpływ zróżnicowania spektralnego zebranego zestawu danych dotyczącego sklasyfikowanych gatunków drzew. Zastosowana metoda oceny dokładności pozwala na większą niezależność wyniku od sprawności badacza w podziale dostępnych danych na zestaw do uczenia i testowania klasyfikatora. Automatyczna natura procesu oparta na losowaniu zwalnia badacza z konieczności samodzielnego dobierania zestawów oraz redukuje czas, w którym badacz „dopieszcza” zestawy. Ponadto łatwo określić, jak dużym błędem obarczone są osiągnięte 92 wyniki – wystarczy przeanalizować szerokość rozkładu danej miary dokładności oraz jej skośność. Nie można zapominać, że cała analiza wyników ogranicza się do analizy numerycznej, znacznie zmniejszając zapotrzebowania na dociekliwe dochodzenie do przyczyn uzyskania danego wyniku. Ceną za zwiększoną odporność na niezamierzony wpływ na wynik (negatywny lub pozytywny) jest konieczność przeprowadzenia serii klasyfikacji na różnych zestawach, co znacznie wydłuża proces klasyfikacji i oceny dokładności. Przy założeniu 100 iteracji czas klasyfikacji może wydłużyć się ponad stukrotnie, co naturalnie wymusza redukcję czasu przetwarzania i klasyfikacji danych. Mimo wymienionych zalet zastosowana metoda nie zwalnia badacza z wizualnej oceny wyniku. Teledetekcja hiperspektralna pozwala na dostarczenie ogromnej ilości danych, co niekiedy powoduje „klęskę obfitości”. Przy badaniach dużych obszarów czas przetwarzania danych ma znaczący wpływ na wybór zastosowanych metod i narzędzi. Mierząc się z tak dużymi zestawami danych badacz niekiedy musi samodzielnie opracować nowe narzędzie, często takie, które łatwo zautomatyzować. Wraz ze wzrostem ilości danych wzrasta liczba produktów teledetekcyjnych, jakie można dostarczyć. Powoduje to duże zapotrzebowanie na miejsce do przechowania danych i wyników. Problem staje się palący, gdy same zebrane dane wymagają terabajtów pamięci na ich przechowanie. Nie można też zapominać o wielkiej mocy obliczeniowej, potrzebnej do przekształcenia zebranych danych w wynik. Przy analizie tak dużych zestawów danych, klasyczne metody pracy oparte na komputerach PC przestają wystarczać. Rozwiązaniem jest budowanie mocniejszych stacji roboczych lub przeniesienie pracy na serwery obliczeniowe. Zastosowanie sztucznych sieci neuronowych w teledetekcji nie jest szeroko rozpowszechnione. Spowodowane jest to głównie trudnościami w ich użyciu oraz faktem, że inne klasyfikatory, takie jak SVM czy RF dostarczają porównywalne wyniki przy znacznie mniejszym nakładzie pracy. Sam proces optymalizacji uczenia sztucznej sieci neuronowej ma znaczny wpływ na końcowy wynik (Feret, Asner, 2013), a jest tylko jednym z wielu czynności, które trzeba wykonać chcąc otrzymać dobry wynik (innymi są: dobór architektury, wybór algorytmu uczącego czy balansowanie między sensownym czasem uczenia a wynikiem). Wykorzystanie w pracy programu „nnet” dostępnego dla programu R dowiodło, że można z powodzeniem używać sztucznych sieci neuronowych do klasyfikacji. Zaletami programu „nnet” jest jego proste użycie oraz zdolność do dostarczania wyników nawet wtedy, 93 kiedy nie w pełni rozumie się jego działanie. Warto wspomnieć o programie R – darmowym oraz opartym na zasadach open-source. Bogactwo dodatkowych podprogramów do R pozwala przenieść cały łańcuch przetwarzania w jedno miejsce. Takie podejście znacznie ułatwia automatyzację prac oraz modyfikację opracowywanego algorytmu. Biorąc pod uwagę powyższe fakty, nic nie stoi na przeszkodzie, aby (rozsądnie) rozszerzyć zakres zastosowania SSN w teledetekcji. Warto również przeprowadzić analizę użycia tzw. sieci głębokiego uczenia (deep-learning) w teledetekcji hiperspektralnej. 94 Praca naukowa finansowana ze środków budżetowych na naukę w latach 2013-2017 jako projekt badawczy w ramach programu pod nazwą „Diamentowy Grant”. Numer projektu DI2012020042 95 Podziękowania Jak każda praca naukowa, także ta była możliwa dzięki życzliwości znacznej grupy ludzi. Na największe podziękowania zasługuje promotor tej pracy doktorskiej Pan dr. hab. Bogdan Zagajewski. Jest to człowiek, który był od początku mojej przygody z teledetekcją zawsze gotowy do pomocy i otwarty na dyskusje. Pan Zagajewski był najlepszym motywatorem do pisania tej pracy oraz innych artykułów, nigdy nie pozwalając, bym błądził bez celu. Za pomoc w badaniach terenowych dziękuję Panu dr hab. Bogdanowi Zagajewskiemu, Adrianowi Ochtyrze oraz Dominikowi Jankowskiemu. Bez Waszej pomocy musiałbym poświęcić znacznie więcej czasu na prace polowe oraz znacznie je ograniczyć. Bardzo dziękuję pracownikom Karkonoskiego Parku Narodowego, Panu dr. Markowi Dobrowolskiemu i Panu Zygmuntowi Jała za pomoc w pisaniu artykułów oraz dostęp do danych. Dziękuję również moim Kolegom z Zakładu Geoinformatyki, Kartografii i Teledetekcji (Ani, Adrianowi, Adrianie, Marlenie, Karolinie, Anicie, Pani Alicji, Małgosi, Ewie) za pomoc w rozwiązywaniu problemów oraz cierpliwe słuchanie moich wywodów. Bardzo dziękuję Pani doktor Jolancie Koryckiej-Skorupie i doktorowi Pawłowi Kowalskiemu za pomoc przy opracowywaniu materiałów kartograficznych. Podziękowania należą się Kolegom z DLR Oberpfaffenhofen (Uta, Stefanie, Derrek, Martin H., Christian, Martin B., Gregoire, Anne, Carolin) gdzie spędziłem 6 miesięcy doskonaląc moje umiejętności lingwistyczne i naukowe. Naturalnie dziękuję też DBU (Deutsche Bundesstiftung Umwelt) za umożliwienie mi terminowania w jednej z najlepszych jednostek naukowych na świecie zajmujących się teledetekcją. Cała praca nie mogła by zostać wykonana, gdyby nie finansowe wsparcie Ministerstwa Nauki i Szkolnictwa Wyższego, w formie grantu, dzięki któremu mogłem zrealizować ten projekt naukowy. Na koniec chcę podziękować moim Rodzicom i Braciom za wsparcie podczas studiów doktoranckich i tolerowanie mojego ekscentrycznego trybu pracy. 96 Literatura Aardt V.J., Wynne R., 2001. Spectral separability among six southern tree species, Photogrammetric Engineering and Remote Sensing, 67 (12), s. 1367-1375, ISSN: 0099 0099-1112/01/6712-1367. Abrams M., Justice C., Ramachandran B., 2011. Land Remote Sensing and Global Environmental Change: NASA's Earth Observing System and the Science Of ASTER and MODIS, New York, NY: Springer, ss. 873, ISBN 978-1-4419-6749-7. Acquah G., Via B., Billor N., Fasina O., Eckhardt L., 2016. Identifying Plant Part Composition of Forest Logging Residue Using Infrared Spectral Data and Linear Discriminant Analysis, Sensors, 16 (9), s. 1-15, doi: 10.3390/s16091375. Adam E., Mutanga O., 2009. Spectral discrimination of papyrus vegetation (Cyperus papyrus L.) in swamp wetlands using field spectrometry, ISPRS Journal of Photogrammetry and Remote Sensing, 64 (6), s. 612-620. Adams W.W. III, Demmig-Adams B., Logan B.A., Barker D.H., Osmond C.B., 1999. Rapid changes in xanthophyll cycledependent energy dissipation and photosystem II efficiency in two vines, Stephania japonica and Smilax australis, growing in the understory of an open Eucalyptus forest, Plant, Cell and Environment, 22, s. 125-136. Aldakheel Y.Y., Danson F.M., 1997. Spectral refl ectance of dehydrating leaves: measurements and modelling, International Journal of Remote Sensing, 18, s. 3683-3690. Ali I., Greifeneder F., Notarnicola C., Stamenkovic J., Neumann M., 2015. Review of Machine Learning Approaches for Biomass and Soil Moisture Retrievals from Remote Sensing Data, Remote Sensing, 7 (12), s. 16398-16421, doi: 10.3390/rs71215841. Alonzo M., Roth K., Roberts D., 2013. Identifying Santa Barbara’s urban tree species from AVIRIS imagery using canonical discriminant analysis, Remote Sensing Letters, 4, s. 513-521, http://dx.doi.org/10.1080/2150704X.2013.764027. Angermueller C., Pärnamaa T., Parts L., Stegle O., 2016. Deep learning for computational biology, Molecular Systems Biology, 12 (7), s. 1-16, doi: 10.15252/msb.20156651. Asner G.P., Martin R.E., Knapp D.E., Tupayachi R., Anderson C., Carranza L., Martinez P., Houcheime M., Sinca F., Weiss P., 2011. Spectroscopy of canopy chemicals in humid tropical forests, Remote Sensing of Environment, 115, s. 3587-3598. Baldeck C.A., Asner G.P., Martin R.E., Anderson C.B., Knapp D.E., Kellner J.R., Wright J.S., 97 2015. Operational Tree Species Mapping in a Diverse Tropical Forest with Airborne Imaging Spectroscopy, PLoS ONE, 10 (7), ss. 21, doi: 10.1371/journal.pone.0118403. Ballanti L., Blesius L., Hines E., Kruse B., 2016. Tree Species Classification Using Hyperspectral Imagery: A Comparison of Two Classifiers, Remote Sensing, 8 (445), s. 1-18, doi: 10.3390/rs8060445. Barbosa J., Asner G., Martin R., Baldeck C., Hughes F., Johnson T., 2016. Determining subcanopy Psidium cattleianum Invasion in Hawaiian Forests Using Imaging Spectroscopy, Remote Sensing, 80 (1), s. 1-17, ISSN: 20724292. Barton C.V.M, North P.R.J., 2001, Remote sensing of canopy light use efficiency using the photochemical refl ectance index – model and sensitivity analysis, Remote Sensing of Environment, 78, s. 264-273. Beluco A., Engel P., Alexandre B., 2015. Classification of textures in satellite image with Gabor filters and a multilayer perceptron with back propagation algorithm obtaining high accuracy, International Journal of Energy & Environment, 6 (5), s. 437-459. Bengio Y., Grandvalet Y., 2004. No Unbiased Estimator of the Variance of K-Fold CrossValidation, Journal of Machine Learning Research, 5, s. 1089–1105, http://www. jmlr.org/papers/v5/grandvalet04a.html. Bergseng E., Ørka H., Næsset E., Gobakken T., 2015. Assessing forest inventory information obtained from different inventory approaches and remote sensing data sources, Annals of Forest Science, 72 (1), s. 33-45, doi: 10.1007/s13595-014-0389-x. Berry M.J.A., Linoff G., 1997. Data Mining Techniques For Marketing, Sales, and Customer Support , John Wiley & Sons, Indianapolis, IN, ss. 464, ISBN: 978-0-471-17980-1. Blum A., 1992. Neural Networks in C++, New York, NY, Wiley, ss. 224, ISBN-10: 0471552011. Braga-Neto U.M., Dougherty E.R., 2014. Is cross-validation valid for small sample microarray classification?, Bioinforamtics, 20, s. 374-380, doi: 10.1093/bioinformatics/btg419. Breiman L., 2001. Random forests, Machine Learning, 45, s. 5-32, doi: 10.1023/A:1010933404324. Brovkina O., Novotny J., Cienciala E., Zemek F., Russ R., 2017. Mapping forest aboveground biomass using airborne hyperspectral and LiDAR data in the mountainous conditions of Central Europe, Ecological Engineering, 100, s. 219-230, doi: 98 10.1016/j.ecoleng.2016.12.004 Campbell J. B., 1996. Introduction to Remote Sensing (2nd ed.), London: Taylor and Francis, ISBN-10: 160918176X. Carter G.A., 1994. Ratios of leaf reflectance in narrow wavebands as indicators of plant stress, International Journal of Remote Sensing, 15, s. 697-703. Cho M. A., Mathieu R., Asner G.P., Naidoo L., van Aardt J., Ramoelo A., Debba P., Wessels K., Main R., Smit I.P.J., Erasmus B., 2012. Mapping tree species composition in South African savannas using an integrated airborne spectral and lidar system, Remote Sensing of Environment, 125, s. 214-226, doi: http://dx.doi.org/10.1016/j.rse. 2012.07.010. Cohen J., 1960. A coefficient of agreement for nominal scales, Educational and Psychological Measurement, 20, s. 37-46, doi: https://doi.org/10.1177/001316446002000104. Cochrane M. A., 2000. Using vegetation reflectance variability for species level classification of hyperspectral data, International Journal of Remote Sensing, 10 (21), s. 2075-2087, doi: http://dx.doi.org/10.1080/01431160050021303. Cochrane M.A., 2001, Synergistic interactions between habitat fragmentation and fire in evergreen tropical forests, Conservation Biology, 15 (6), s. 1515-1521, doi: 10.1046/j.1523-1739.2001.01091.x. Cochrane M.A., 2002, Spreading Like Wildfire – Tropical Forest Fires in Latin America and the Caribbean: Prevention, Assessment and Early Warning, United Nations Environment Program, Regional Office for Latin America and the Caribbean, UNEP, ss. 96. Dalponte M., Ørka H.O., Gobakken T., Gianelle D., Naesset E., 2013. Tree species classification in boreal forests with hyperspectral data, IEEE Transactions on Geoscience & Remote Sensing, 51 (5), s. 2632-2645, doi: 10.1109/TGRS. 2012.2216272. Dalponte M., Ørka H.O., Ene L.T., Gobakken T., Næsset E., 2014. Tree crown delineation and tree species classification in boreal forests using hyperspectral and ALS data, Remote Sensing of Environment, 140, s. 306-317, doi: 10.1016/j.rse.2013.09.006. Danielewicz W., Raj A., Zientarski J., 2012. Ekosystemy leśne Karkonoskiego Parku 99 Narodowego, Jelenia Góra: Karkonoski Park Narodowy, ss. 96, ISBN: 978-83-9269335-2. Datt B., 1999. Visible/near infrared reflectance and chlorophyll content in Eucalyptus leaves, International Journal of Remote Sensing, 20, s. 2741-2759, doi: http://dx.doi.org/10.1080/014311699211778. Datt B., 2000. Red edge shifts for detecting phenologic change and stress symptoms in evergreen eucalyptus forests, w: Proceedings of 10th Australasian Remote Sensing and Photogrammetry Conference, Australia, Adelaide, s. 863-874. Dawson T.P., Curran P.J., Plummer S.E., 1998. The biochemical decomposition of slash pine needles from refl ectance spectra using neural networks, International Journal of Remote Sensing, 19, s. 1433-1438. Dehaene-Lambertz G., Spelke E. S., 2015. The infancy of the human brain, Neuron, 88 (1), s. 93-109, doi: http://dx.doi.org/10.1016/j.neuron.2015.09.026 . D'Odorico P., Alberti E., Schaepman M.E., 2010. In-flight spectral performance monitoring of the Airborne Prism Experiment, Applied Optics, 49 (16), s. 3082-3091, doi: 10.1364/AO.49.003082. Dowling J. E., 1987. The retina: An Approachable Part of the Brain, Cambridge, Mass: Harvard University Press, ss. 384, ISBN 9780674061545. Efron B., 1979. Bootstrap Methods: Another Look at the Jackknife, The Annals of Statistics 7, Institute of Mathematical Statistics, s. 1–26, doi: 10.1214/aos/1176344552. Efron, B.. 1983. Estimating the Error Rate of a Prediction Rule: Improvement on CrossValidation, Journal of the American Statistical Association, 78 (382), s. 316-331, doi: 10.2307/2288636. Fassnacht F.E., Neuman C., Forster M., Buddenbaum H., Ghosh A., Clasen A., Joshi P.K., Koch B., 2014. Comparison of Feature Reduction Algorithms for Classifying Tree Species With Hyperspectral Data on Three Central European Test Sites, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 7 ,s. 2547-2561, doi: 10.1109/JSTARS.2014.2329390. Fassnacht F.E., Latifi H., Stereńczak K., Modzelewska A., Lefsky M., Waser L., Straub C., Ghosh A., 2016. Review of studies on tree species classification from remotely sensed data, Remote Sensing of Environment, 186, s. 64-87, doi: 10.1016/j.rse.2016.08.013. 100 Feilhauer H., Asner G. P., Martin R. E., 2015. Multi-method ensemble selection of spectral bands related to leaf biochemistry, Remote Sensing of Environment, 164, s. 57-65, doi: 10.1016/j.rse.2015.03.033. Feret J.B., Asner G.P., 2013. Tree species discrimination in tropical forests using Airborne Imaging Spectroscopy, IEEE Transactions on Geoscience and Remote Sensing, 51, s. 73-84, doi: 10.1109/TGRS.2012.2199323. Finger S., 2001. Origins of Neuroscience: A History of Explorations into Brain Function, Oxford : Oxford University Press, ss. 480, ISBN: 0195065034. Foody G.M., 2002. Status of land cover classification accuracy assessment, Remote Sensing of Environment, 80, s. 185-201, doi: 10.1016/S0034-4257(01)00295-4. Fourty Th., Baret F., 1998. On spectral estimates of fresh leaf biochemistry, International Journal of Remote Sensing, 19, s. 1283-1297, doi: http://dx.doi.org/10.1080/ 014311698215441. Gamon J., Penuelas J., Field C., 1992. A narrow-waveband spectral index that tracks diurnal changes in photosynthetic efficiency, Remote Sensing of Environment, 41, s. 35–44, doi: 10.1016/0034-4257(92)90059-S. Gao B., Montes M., Davis C., Goetz A., 2009. Atmospheric correction algorithms for hyperspectral remote sensing data of land and ocean, Remote Sensing of Environment, 113, załącznik 1, s. S17-S24, doi: 10.1016/j.rse.2007.12.015. Ghosh A., Fassnacht F.E., Joshi P. K., Koch B., 2014. A framework for mapping tree species combining hyperspectral and LiDAR data: Role of selected classifiers and sensor across three spatial scales, International Journal of Applied Erath Observation and Geoinforamation, 26, s. 49-63, doi: 10.1016/j.jag.2013.05.017. Gitelson A.A., Merzlyak M.N., 1997, Remote estimation of chlorophyll content in higher plant leaves, International Journal of Remote Sensing, 18, s. 2691-2697, doi: http://dx.doi.org/10.1080/014311697217558. Graves S.J., Asner G.P., Martin R.E., Anderson C.B., Colgan M.S., Kalantari L., Bohlman S.A., 2016. Tree species abundance predictions in a tropical agricultural landscape with a supervised classification model and imbalanced data, Remote Sensing, 8, (161), ss. 21, doi: 10.3390/rs8020161. Green A., Craig M., Berman M., Switzer P., 1988. a Transformation for ordering multispectral 101 data in terms of image quality with implications for noise eemoval, IEEE Transactions on Geoscience and Remote Sensing, 26, (1), s. 65-74, doi: 10.1109/36.3001. Goetz A F.H., 2009. Three decades of hyperspectral remote sensing of Earth: A personal view, Remote Sensing of Environment, 113, s. S5-S16, doi: http://dx.doi.org/10.1016/ j.rse.2007.12.014. Goetz A.F.H., Vane G., Solomon J., Roch B.N., 1985. Imaging spectrometry for Earth remote sensing, Science, 228, s. 1147 – 1153, doi: 10.1126/science.228.4704.1147. Hastie T., Tibshirani R., Friedman J.H., 2009. 7.10.1 K-Fold Cross-Validation w: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed. New York: Springer. Hebb D.O., 1949. The organization of behavior: A neuropsychological theory, New York: John Wiley and Sons, ss. 335, doi: 10.1002/sce.37303405110. Herold M., See L., Tsendbazar N., Fritz S., 2016. Towards an Integrated Global Land Cover Monitoring and Mapping System, Remote Sensing, 8 (12), s. 1-11, doi: 10.3390/rs8121036. Hoerig B., Kuehn F., Oschuetz F., Lehmann F., 2001. Hyperspectral remote sensing to detect hydrocarbons, International Journal of Remote Sensing, 22, s. 1413-1422. Holzwarth S., Mueller A., Habermeyer M., Richter R., Hausold A., Thiemann S., Strobl P., 2003. HySens - DAIS 7915/ ROSIS Imaging Spectrometers at DLR, prezentacja na 3rd EARSeL Workshop on Imaging Spectroscopy, Herrsching 13-16 maja 2003, http://www.earsel.org/workshops/imaging-spectroscopy-2003/papers/sensors_and _missions/holzwarth.pdf Hope A.S., Kimball J.S., Stow D.A., 1993. The relationship between tussock tundra spectral reflectance properties and biomass and vegetation composition, International Journal of Remote Sensing, 14, s. 1861-1874. Hughes G.P., 1968, On the mean accuracy of statistical pattern recognizers, Information Theory, IEEE Transactions on, 14 (1), s. 55-63. Hunt G.R., 1979. Near-infrared (1.3-2.4 um) spectra of alteration minerals: potential for use in remote sensing, Geophysics, 44, s. 1974-1986. Itten K.I., Dell’Endice F., Hueni A., Kneubuhler M., Schlapfer D., Odermatt D., Seidel F., Huber S., Schopfer J., Kellenberger T., Buhler Y., D’Odorico P., Nieke J., Alberti E., 102 Meuleman K., 2008. APEX – the Hyperspectral ESA Airborne Prism Experiment, Sensors, 8, s. 6235–6259, doi: 10.3390/s8106235. Jadczyk P., 2009. Natural effects of large-area forest decline in the Western Sudeten, Environment Protection Engineering, 35 (1), s. 49-56. Jain A.K., Duin R.P.W., Mao, J., 2000. Statistical pattern recognition: A review, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, s. 4-37. Jarocińska A. M., Kacprzyk M. , Marcinkowska-Ochtyra A., Ochtyra A., Zagajewski B., Meuleman K., 2016. The application of APEX images in the assessment of the state of non-forest vegetation in the Karkonosze Mountains, Miscellanea Geographica – Regional Studies On Development, 20, (1), s. 21-27, doi: 10.1515/mgrsd-2016-0009. Khatami R., Mountrakis G., Stehman S., 2017. Mapping per-pixel predicted accuracy of classified remote sensing images, Remote Sensing of Environment, 191, s. 156-167, doi: 10.1016/j.rse.2017.01.025. Kim J. H., 2009. Estimating classification error rate: Repeated cross-validation, repeated holdout and bootstrap, Computational Statistics and Data Analysis, 53, s. 3735-3745, http://dx.doi.org/10.1016/j.csda.2009.04.009. Knapik R., Raj A., 2014. Monitoring przyrodniczy w Karkonoskim Parku Narodowym jako narzędzie do śledzenia zmian w środowisku, Peckiana, 9, s. 39-44, ISSN: 1618-1735. Kohonen T., 1990. The self-organising maps, Proceedings of IEEE, 78, s. 1464-1479. Kokaly R.F., Despain D.G., Clark R.N. Livo K.E., 2003. Mapping vegetation in Yellowstone National Park using spectral feature analysis of AVIRIS data, Remote Sensing of Environment, 84, s. 437-456. Kozhoridze G., Nikolai Orlovsky N., Orlovsky L., Blumberg D.G., Golan-Goldhirsh A., 2016. Remote sensing models of structure-related biochemicals and pigments for classification of trees, Remote Sensing of Environment, 186, s. 184-195, doi: http://dx.doi.org/10.1016/j.rse.2016.08.024. Krizhevsky A., Sutskever I., Hinton G.E., 2012. Imagenet classification with deep convolutional neural networks, w: Advances in neural information processing systems, s. 1097-1105, Cambridge: MIT Press. Kruse F., Lefkoff A., Boardman J., Heidebrecht K., Shapiro A., Barloon P., Goetz A.F.H., 1993. The spectral image processing system (SIPS)-interactive visualization and 103 analysis of imaging spectrometer data, Remote Sensing of Environment, 44, s. 145-63, doi: http://dx.doi.org/10.1016/0034-4257(93)90013-N. Kycko M., Zagajewski B., Kozłowska A., 2014. Variability in spectral characteristics of trampled high-mountain grasslands, Miscellanea Geographica: Regional Studies on Development, 18 (2), s. 10-14, doi: 10.2478/mgrsd-2014-0003. Lausch A., Bannehr L., Beckmann M., Boehm C., Feilhauer H., Hacker J.M., Heurich M., Jung A., Klenke R., Neumann C., Pause M., Rocchini D., Schaepman M.E., Schmidtlein S., Schulz K., Selsam P., Settele J., Skidmore A.K., Cord A.F., 2016. Linking Earth Observation and taxonomic, structural and functional biodiversity: Local to ecosystem perspectives, Ecological Indicators, 70, s. 317-339, doi: 10.1016/j.ecolind.2016.06.022. Lawley V., Lewis M., Clarke K., Ostendorf B., 2016. Site-based and remote sensing methods for monitoring indicators of vegetation condition: An Australian review, Ecological Indicators, 60, s. 1273-1283, doi: 10.1016/j.ecolind.2015.03.021 . Lazaridou M.A., Patmios E.N., 2012. Photogrammetry – Remote Sensing And Geoinformation, International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XXXIX-B6, 2012 XXII ISPRS Congress, 25 August – 01 September 2012, Melbourne, Australia, http://www.int-arch-photogrammremote-sens-spatial-inf-sci.net/XXXIX-B6/69/2012/isprsarchives-XXXIX-B6-692012.pdf. LeCun Y., Bengio Y., Hinton G., 2015. Deep learning, Nature, 521, s. 436-444, doi: 10.1038/nature14539. Lee J., Cai X., Dalponte M., Schonlieb C., Coomes D., Lellmann J., Malhi Y., Butt N., Morecroft M., 2016. Individual Tree Species Classification from Airborne Multisensor Imagery Using Robust PCA, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 9 (6), s. 2554-2567, doi: 10.1109/JSTARS.2016.2569408. Lichtenthaler H.K., Wellburn R.R., 1983. Determination of total caretonoids and chlorophylls a and b in leaf extracs in different solvents, Biochemical Society Transactions, 603, s. 591-592. Lucas R., Lee A., Bunting P., 2008. Retrieving forest biomass through integration of CASI and 104 LiDAR data, International Journal Of Remote Sensing, 29 (5), s. 1553, doi: doi:10.1016/j.rse.2008.06.009. Ma. X., Wang H., Geng J., 2016. Spectral–Spatial Classification of Hyperspectral Image Based on Deep Auto-Encoder, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 9 (9), s. 4073-4085, doi: 10.1109/JSTARS. 2016.2517204. Makisara K., Meinander M., Rantasuo M., Okkonen J., Aikio M., Sipola K., Pylkko P., Braam B., 1993. Airborne imaging spectrometer for applications (AISA), International Geoscience and Remote Sensing Symposium (IGARSS), 2, Better Understanding of Earth Environment, s. 479-481, ISBN: 0780312406. Marcinkowska A., Zagajewski B., Ochtyra A., Jarocińska A., Raczko E., Kupkova L., Stych P., Meuleman K., 2014. Mapping vegetation communities of the Karkonosze National Park using APEX hyperspectral data and Support Vector Machines, Miscellanea Geographica, 18 (2), s. 23-29, doi: 10.2478/mgrsd-2014-0007. Martin M., Newman S., Aber J., Congalton R., 1998. Determining forest species composition using high spectral resolution remote sensing data, Remote Sensing of Environment, 65, (3), s. 249-254, doi: 10.1016/S0034-4257(98)00035-2. Martin M.E., Plourde L.C., Ollinger S.V., Smith M. L., McNeil B.E., 2008. A generalizable method for remote sensing of canopy nitrogen across a wide range of forest ecosystems, Remote Sensing of Environment, 112, s. 3511-3519, doi: 10.1016/j.rse.2008.04.008. Martinez del Castillo, E., García-Martin A., Longares Aladrén L., de Luis M. 2015. Evaluation of forest cover change using remote sensing techniques and landscape metrics in Moncayo Natural Park (Spain), Applied Geography, 62, s. 247-255, doi: 10.1016/j.apgeog.2015.05.002. Mas J.F., Flores J.J., 2008. The application of artificial neural networks to the analysis of remotely sensed data, International Journal of Remote Sensing, 29 (3), s. 617-663, doi: 10.1080/01431160701352154. Masaitis G,, Mozgeris G., 2013. The Influence of The Growing Season on the Spectral Reflectance Properties of Forest Tree Species, Research for Rural Development International Scientific Conference, 2, s. 20-26. 105 Mather P. M., Koch M., 2011. Computer Processing of Remotely-Sensed Images, WileyBlackwell, ss. 460, edycja 4, ISBN: 978-0-470-74238-9. Matuszkiewicz A., Matuszkiewicz W., 1967. Zespoły roślinne Karkonoskiego Parku Narodowego. Cz. 1 Zespoły leśne, Prace Wrocławskiego Towarzystwa Naukowego, Ser. B, 135. Matuszkiewicz A., Matuszkiewicz W., 1975. Mapa zbiorowisk roślinnych Karkonoskiego Parku Narodowego, Ochrona Przyrody, 40, s. 45-112. Mazurski K. R., 1986. The destruction of forests in the Polish Sudetes Mountains by industrial emissions, Forest Ecology and Management, 17, (4), s. 303-315. McCulluch W.S., Pitts W.H., 1943. A logical calculus of ideas immanent in nervous activity, Bulletin of Mathematical Biophysics, 5, s. 115-119. Merzlyak M., Gitelson A., Chivkunova O., Rakitin V., 1999. Non-destructive optical detection of pigment changes during leaf senescence and fruit ripening, Physiologia Plantarum, 106 (1), s. 135-141, doi: 10.1034/j.1399-3054.1999.106119.x. Merzlyak M.N., Gitelson A.A., Chivkunova O.B., Solovchenko A.E., Pogosyan S.I., 2003. Application of reflectance spectroscopy for analysis of higher plant pigment, Russian Journal of Plant Physiology, 50 (5), s. 704-710, ISSN: 1021-4437. Miguez G., Xavier A., Maculan N., 2014. An evaluation of the bihyperbolic function in the optimization of the backpropagation algorithm, International Transactions In Operational Research, 21 (5), s. 835-854, doi: 10.1111/itor.12072. Minsky M., Papert S., 1969. Perceptrons. An Introduction to Computational Geometry, MIT Press, Cambridge, MA, ss. 258. Mohri M., Rostamizadeh A., Talwalkar A., 2012. Foundations of Machine Learning, Cambridge, London: MIT Press, ss. 412, ISBN: 9780262018258. Montserud R.A., Leamans R., 1992. Comparing global vegetation maps with kappa statistic, Ecological Modelling, 62, s. 275-293. Mueller A., Oertel D., Richter R., Strobl P., Beran D., Fries J., Boehl H.-R., Obermeier P., Hausold A., Reinhäckel G., 1998. The DAIS 7915 - Three years operating airborne imaging spectrometer, Proceedings of the 1st EARSel Workshop on Imaging Spectroscopy, Remote Sensing Laboratories, University of Zurich, Switzerland, 6-8 October 1998, s. 21-28. 106 Neal R.M., 1996. Bayesian Learning for Neural Networks, New York: Springer-Verlag, ISBN 0-387-94724-8. Nicodemus F.E., 1965. Directional Reflectance and Emissivity of an Opaque Surface, Applied Optics, 4, s.767-775, doi: https://doi.org/10.1364/AO.4.000767. North P.R.J., 2002. Estimation of fAPAR, LAI and vegetation fractional cover from ATSR-2 imagery, Remote Sensing of Environment, 80, s. 114-121. Nyrek A., 1992. Kultura użytkowania gruntów uprawnych, lasów i wód na Śląsku od XV do XX wieku, Acta Universitas Wratislaviensis, 1361. Oldeland J., Dorigo W., Lieckfeld L., Lucieer A., Jürgens N., 2010. Combining vegetation indices, constrained ordination and fuzzy classification for mapping semi-natural vegetation units from hyperspectral imagery, Remote Sensing of Environment, 114, s. 1155-1166, doi: 10.1016/j.rse.2010.01.003. Omer G., Mutanga O., Abdel-Rahman E.M., Adam E., 2015. Performance of Support Vector Machines and Artificial Neural Network for Mapping Endangered Tree Species Using WorldView-2 Data in Dukuduku Forest, South Africa, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 8 (10), s. 4825-4840, doi: 10.1109/JSTARS.2015.2461136. Osowski S., 1996. Sieci neuronowe w ujęciu algorytmicznym, WNT, Warszawa, ss. 352. Pal M., Mather P.M., 2006. Some issues in the classification of DAIS hyperspectral data, International Journal of Remote Sensing, 27 (14), s. 2895-2916, doi: 10.1080/01431160500185227. Pearlman J., Crawford M., Jupp D., Ungar S., 2003. Foreword to the Earth Observing 1 Special Issue, IEEE Transactions on Geoscience & Remote Sensing, 41, (6), s. 11471148, ISSN: 0196-2892. Peerbhay K., Mutanga O., Ismail R., 2013. Commercial tree species discrimination using airborne AISA Eagle hyperspectral imagery and partial least squares discriminant analysis (PLS-DA) Photogrammetry in KwaZulu–Natal, South Africa, ISPRS Journal of and Remote Sensing, 79, s. 19-28, doi: 10.1016/j.isprsjprs. 2013.01.013. Plummer S.E., North P.R.J., Briggs S.A., 1994. The Angular Vegetation Index: an atmospherically resistant index for the second along track scanning radiometer (ATSR107 2) w: Proceedings of the 6th Symposium on Physical Measurements and Spectral Signatures in Remote Sensing, CNES, Toulouse, s. 717-722. Poop C., Brunner D., Damm A., Van Roozendael M., Fayt C., Buchmann B., 2012. Highresolution NO2 remote sensing from the Airborne Prism EXperiment (APEX) imaging spectrometer, Atmospheric Measurement Techniques, 5, s. 2211-2225. Price J.C., 1994. How unique are spectral signatures?, Remote Sensing of Environment, 49, s. 181-186. Priedītis G., Šmits I., Daģis S., Paura L., Krūmiņš J., Dubrovskis D., 2015. Assessment Of Hyperspectral Data Analysis Methods To Classify Tree Species, Research for Rural Development, 2, s. 7-13. Pu R., 2009. Broadleaf species recognition within situ hyperspectral data, International Journal of Remote Sensing, 30 (11), s. 2759-2777. Quinlan J.R., 1986. Induction of decision trees, Machine Learning, 1, s. 81-106, doi: 10.1007/BF00116251. Raj A., 2014. Przemiany krajobrazu leśnego Karkonoskiego Parku Narodowego w okresie ostatnich kilkudziesięciu lat, Jelenia Góra: Karkonoski Park Narodowy, ss. 100, ISBN: 978-83-64528-16-3. Raj A., Knapik R., 2014. Karkonoski Park Narodowy, Jelenia Góra: Karkonoski Park Narodowy, ss.100. ISBN: 978-83-64528-13-2. R Core Team, 2015. R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/. Richards J.A., 1999. Remote Sensing Digital Image Analysis, Berlin: Springer-Verlag, s. 240, ISBN 978-3-540-29711-6. Richter R., Schläpfer D., 2002. Geo-atmospheric processing of airborne imaging spectrometry data. Part 2: Atmospheric/Topographic Correction, International Journal of Remote Sensing, 23 (13), s. 2631-2649, doi: http://dx.doi.org/10.1080/01431160110115834. Rocchini D., Andreo V., Förster M., Garzon-Lopez C., Gutierrez A., Gillespie T., Hauffe H., He K., Kleinschmit B., Mairota P., Marcantonio M., Metz M., Nagendra H., Pareeth S., Ponti L., Ricotta C., Rizzoli A., Schaab G., Zebisch M., Zorer R., 2015. Potential of remote sensing to predict species invasions: A modelling perspective, Progress in Physical Geography, 39 (3), s. 283-309, doi: 10.1177/0309133315574659. 108 Rosenblatt F., 1958. The Perceptron: A probabilistic model for information storage and organization in the brain, Psychological Review, 65, 6, s. 386-408. Ruban A.V., Horton P., Young A.J., 1993. Aggregation of higher plant xanthophylls: Differences in absorption spectra and in the dependency on solvent polarity, Journal of Photochemistry and Photobiology, B: Biology, 21, (2-3), s. 229-234. Sandmeier St., Deering D.W., 1999. Structure Analysis and Classification of Boreal Forests Using Airborne Hyperspectral BRDF Data from ASAS, Remote Sensing of Environment, 69, s. 281-295. Schaepman M., Jehle M., Hueni A., D'Odorico P., Damm A., Weyermann J., Schneider F., Laurent V., Popp C., Seidel F., Lenhard K., Gege P., Küchler C., Brazile J., Kohler P., De Vos L., Meuleman K., Meynart R., Schläpfer D., Kneubühler M., Itten K., 2015. Advanced radiometry measurements and Earth science applications with the Airborne Prism Experiment (APEX), Remote Sensing of Environment, 158, s. 207-219, doi: 10.1016/j.rse.2014.11.014. Schläpfer D., Schaepman M.E., Itten K.I., 1998. PARGE: Parametric Geocoding Based on GCP-Calibrated Auxiliary Data, SPIE International Symposium on Optical Science, Engineering and Instrumentation, San Diego (CA), s. 334-344, http://www.danielschlaepfer.ch/pdf/1998/SPIE_98_parge.pdf. . Schläpfer D., Richter R., 2002. Geo-atmospheric processing of airborne imaging spectrometry data. Part 1: parametric orthorectification, International Journal of Remote Sensing, 23 (13), s. 2609-2630, doi: http://dx.doi.org/10.1080/01431160110115825. Schläpfer D., Richter R., Kellenberger T., 2012. Atmospheric and Topographic Correction of Photogrammetric Airborne Digital Scanner Data (ATCOR-ADS), s. 5, http://www.daniel-schlaepfer.ch/pdf/Schlaepfer_eurocow2012_ATCOR-ADS.pdf . Schläpfer D., Richter R., Feingersh T., 2014. Operational BRDF Effects Correction for WideField-of-View Optical Scanners (BREFCOR), IEEE TGARS, 53, (4), s. 1855-1864, doi: 10.1109/TGRS.2014.2349946 . Shafie A.S., Mohtar S.M., Ahmad N., 2012. Backpropagation neural network with new improved error function and activation function for classification problem, IEEE Symposium on Humanities, Science and Engineering Research, 1, s. 1359-1364. Shaw D.T., Malthus T.J., Kupiec J.A., 1998, High-spectral resolution data for monitoring 109 Scots pine (Pinus sylvestris L.) regeneration, International Journal of Remote Sensing, 19 (13), s. 2601-2608. Shen G., Sakai K., Hoshino Y., 2010. High Spatial Resolution Hyperspectral Mapping for Forest Ecosystem at Tree Species Level, Agricultural Information Research, 19 (3), s. 71-78. Słownik Języka Polskiego pod red. M. Szymczaka. 1978. PWN, Warszawa. Sommer C., Holzwarth S., Heiden U., Heurich M., Mueller J., Mauser W., 2015. Featurebased treee species classification using airborne hyperspectral and lidar data in the Bavarian Forest National Park, EARSeL eProceedings, 14 (2), s. 49-70, doi: 10.12760/02-2015-2-05. Sterckx S., Vreys K., Biesemans J., Iordache M.D., Bertels L., Muelman K., 2015. Atmospheric correction of APEX hyperspectral data, Miscellanea Geographica, 20 (12), s. 16-20, doi: 10.1515/mgrsd-2015-0022. Swingler K., 1996. Applying Neural Networks: A Practical Guide, London: Academic Press, ss. 303, ISBN: 9780126791709. Sztemberg-Lewandowska M., 2015. Problemy decyzyjne w funkcjonalnej analizie głównych składowych, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, 385, s. 267275, doi: 10.15611/pn.2015.385.29. Szymura T. H., Dunajski A., Ruczakowska M., 2010. Zmiany powierzchni lasów na obszarze Karkonoskiego Parku Narodowego w okresie 1747–1977, Opera Corcontica, 47, Suppl. 1, s. 159-166. Tagliabue G., Panigada C., Colombo R., Fava F., Cilia C., Baret F., Vreys K., Meuleman K., Rossini M., 2016. Forest species mapping using airborne hyperspectral APEX data, Miscellanea Geographica, 20 (1), s. 28-33, ISSN: 2084-6118, doi: 10.1515/mgrsd2016-0002. Thenkabail P.S., Enclona E.A., Ashton M.S., Van Der Meer B., 2004. Accuracy assessments of hyperspectral waveband performance for vegetation analysis applications, Remote Sensing of Environment, 91, s. 354- 376. Thenkabail P.S., Lyon J.G., Huete A., 2012. Advances in hyperspectral remote sensing of Vegetation and Agricultural Croplands, w: P.S. Thenkabail, J. G. Lyon, A. Huete (red.), Hyperspectral Remote Sensing of Vegetation,. Boca Raton, FL, USA: CRC Press 110 Taylor & Francis Group, s/ 3-35. Tian Q., Tong Q., Pu R., Guo X., Zhao C., 2001. Spectroscopic determination of wheat water status using 1650-1850 nm spectral absorption features, International Journal of Remote Sensing, 22, s. 2329-2338. Tkáč M., Verner R., 2016. Artificial neural networks in business: Two decades of research, Applied Soft Computing, 38, s. 788-804, doi: 10.1016/j.asoc.2015.09.040. Tomanek J., Witkowska-Żuk L., 1994. Botanika Leśna: Podręcznik Dla Studentów Wydziałów Leśnych, Warszawa: Państwowe Wydawnictwo Rolnicze i Leśne, ss. 448, ISBN: 8309018193. Vane G., Goetz A., 1988. Terrestrial imaging spectroscopy, Remote Sensing of Environment, 24, s. 1-29, doi: 10.1016/0034-4257(88)90003-X. Vapnik V.N. 1995. The Nature of Statistical Learning Theory, New York, NY: Springer, ss.314, ISBN: 978-1-4757-3264-1, doi: 10.1007/978-1-4757-3264-1. Venables W.N., Ripley B.D., 2002. Modern Applied Statistics with S. Fourth Edition, New York: Springer, ISBN 0-387-95457-0, ss. 462. Vaughan R., Calvin W., Taranik J., 2003. SEBASS hyperspectral thermal infrared data: surface emissivity measurement and mineral mapping, Remote Sensing of Environment, 85, s. 48-63, doi: 10.1016/S0034-4257(02)00186-4. Vreys K., Iordache M., Bomans B., Meuleman K., 2016. Data acquisition with the APEX hyperspectral sensor, Miscellanea Geographica, 20 (1), s. 5-10, doi: 10.1515/mgrsd2016-0001. Werbos P., 1994. The roots of backpropagation: from ordered derivatives to neural networks and political forecasting (adaptive and learning systems for signal processing, communications and control series), New York: John Wiley and Sons, ss. 342. Wężyk P. Wertz B., Waloszek A., 2003. Skaner hiperspektralny AISA (Airborne Imaging Spectrometer For Applications) jako narzędzie pozyskiwania informacji o ekosystemie leśnym, Archiwum Fotogrametrii, Kartografii i Teledetekcji, 13, s. 485-496, ISBN 83912227-1-3. Xiong C., Merity S., Socher R., 2016. Dynamic memory networks for visual and textual question answering, ss. 19, arXiv:1603.01417, URL: http://arxiv.org/abs/1603.01417 Yang S., Ting T.O., Man K.L., Guan S., 2013. Investigation of neural networks for function 111 approximation. First International Conference on Information Technology and Quantitative Management (ITQM2013), Procedia Computer Science, 17, s. 586-594, doi: 10.1016/j.procs.2013.05.076. Yugal K., Sahoo G., 2012. Analysis of Parametric & Non Parametric Classifiers for Classification Technique using WEKA, International Journal of Information Technology and Computer Science, 4 (7), s. 43-49, doi: 10.5815/ijitcs.2012.07.06. Zabalza J., Ren J., Yang M., Zhang Y., Wang J., Marshall S., Han J., 2014. Novel Folded-PCA for improved feature extraction and data reduction with hyperspectral imaging and SAR in remote sensing, ISPRS Journal of Photogrammetry and Remote Sensing, 93, s. 112-122, doi: 10.1016/j.isprsjprs.2014.04.006. Zagajewski B. 2010. Ocena przydatności sieci neuronowych i danych hiperspektralnych do klasyfikacji roślinności Tatr Wysokich, Teledetekcja Środowiska, 43, ss.113. Zagajewski B., Jarocińska A., Olesiuk D., 2009. Metody i techniki badań geoinformatycznych, Warszawa: WGiSR UW, ss. 118. Ze'ev B. E., Karnieli A., Agam N., Kaufman Y., Holben B., 2006. Assessing vegetation condition in the presence of biomass burning smoke by applying the Aerosol‐free Vegetation Index (AFRI) on MODIS images, International Journal of Remote Sensing, 27 (15), s. 3203-3221, doi: 10.1080/01431160500177380 Zhang H., Pu R., Liu X., 2016. A new image processing procedure integrating PCI-RPC and ArcGIS-Spline Tools to improve the orthorectification accuracy of High-Resolution Satellite Imagery, Remote Sensing, 8 (827), s. 16, doi: 10.3390/rs8100827. Źródła internetowe: http://sci.esa.int/prodex/33641-the-programme/ - stan na dzień 31.01.2017 http://www.apex-esa.org/ - stan na dzień 31.01.2017 http://www.daniel-schlaepfer.ch/ - stan na dzień 31.01.2017 http://www.eufar.net/planning/xml_print.php?idp=ta_hymountecos_1230 – stan na dzień 01.02.2017 112 Spis rycin Ryc. 1. Porównanie charakterystyk spektralnych pozyskanych z detektora wielospektralnego oraz symulacji charakterystyk spektralnych 218-kanałowego zobrazowania EnMAP ....... 16 Ryc. 2. Wpływ czynników na przebieg krzywej odbicia spektralnego. .................................... 17 Ryc. 3. Schemat perceptronu wielowarstwowego składającego się z trzech warstw ................ 36 Ryc. 4. Dokładność klasyfikacji danych hiperspektralnych pokrycia terenu algorytmem sztucznych sieci neuronowych ............................................................................................ 37 Ryc. 5. Lokalizacja Karkonoskiego Parku Narodowego w Polsce. .......................................... 44 Ryc. 6. Rozmieszczenie zbiorowisk leśnych i nieleśnych na obszarze Karkonoskiego Parku Narodowego (KPN) ............................................................................................................. 45 Ryc. 7. Mapa potencjalnego występowania badanych gatunków drzew na obszarze Karkonoskiego Parku Narodowego.. ................................................................................... 50 Ryc. 8. Schemat najważniejszych procedur klasyfikacji roślinności drzewiastej ..................... 52 Ryc. 9. Plan nalotu wykonanego podczas projektu HyMountEco ............................................ 53 Ryc. 10. Wykonanie pomiarów spektrometrycznych ASD FieldSpec 3 wykorzystanych do korekcji obrazów APEX ...................................................................................................... 54 Ryc. 11. Wizualizacja fragmentu zobrazowania hiperpsektralnego APEX w postaci tzw. datacube ...................................................................................................................................... 54 Ryc. 12. Zdjęcie wykonane podczas zbierania danych terenowych. Po prawej odbiornik GPS ZENO 10 razem z anteną odbiorczą. ................................................................................... 55 Ryc. 13. Mapa rozmieszczenia poligonów pomiarowych zebranych w trakcie badań. ............ 56 Ryc. 14. Lokalizacja wzorców wyznaczonych na scenach APEX ............................................ 58 Ryc. 15. Przykład kanałów o słabej (obrazek a – 413 nm) i dobrej jakości (obrazek b – 630 nm).. ..................................................................................................................................... 59 Do dalszych analiz wykorzystano sceny posiadające 222 kanały spektralne. .......................... 59 Ryc. 17. Przykłady Numerycznego Modelu Terenu (DTM), Numerycznego Modelu Pokrycia Terenu (DSM) i znormalizowanego Numerycznego Modelu Pokrycia Terenu (nDSM) .... 61 Ryc. 18. Schemat wykonania maski drzewostanów .................................................................. 62 Ryc. 19. Zasięg obszarów wymaskowanych z klasyfikacji na tle zasięgu zbiorowisk leśnych KPN ..................................................................................................................................... 62 Ryc. 20. Efekt korekcji atmosferycznej krzywej spektralnej charakteryzującej łąki ................ 66 Ryc. 21. Najbardziej informacyjne kanały spektralne zobrazowania APEX. .......................... 67 Ryc. 22. Zależność między liczbą neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej a średnią dokładności producenta dla zestawu użytego do uczenia sieci i zestawu weryfikacyjnego. ........................................... 68 Ryc. 23. Wartość błędu RMSE w zależności od liczby neuronów w warstwie ukrytej perceptronu wielowarstwowego o jednej warstwie ukrytej. ............................................... 69 Ryc. 24. Mapa występowania gatunków drzew na podstawie wykonanej klasyfikacji obrazów APEX ................................................................................................................................... 70 Ryc. 25. Porównanie dokładności producenta i użytkownika dla sklasyfikowanych klas ....... 72 Ryc. 26. Dokładność ogólna i współczynnik kappa klasyfikacji .............................................. 72 Ryc. 27. Dokładności producenta dla poszczególnych klas ...................................................... 73 Ryc. 28. Dokładności użytkownika dla poszczególnych klas) .................................................. 73 Ryc. 29. Procentowy udział klas wysokościowych dla klasyfikowanych gatunków drzew ..... 74 Ryc. 30. Obraz poklasyfikacjyny lasu w Oxfordshire.. ............................................................. 79 Ryc. 31. Lokalizacja obszarów wykorzystanych w porównaniu. .............................................. 83 113 Ryc. 32. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Szklarska Poręba). ............................................................................................................... 83 Ryc. 33. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Wodospad Szklarki). ........................................................................................................... 84 Ryc. 34. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 1). ..................................................................................................................... 85 Ryc. 35. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 2). ..................................................................................................................... 85 Ryc. 36. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Jagniątków 3). ..................................................................................................................... 86 Ryc. 37. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 1).. ......................................................................................................................... 86 Ryc. 38. Porównanie dostępnej mapy (a) i wyników wykonanej klasyfikacji (b) (obszar Karpacz 2).. ......................................................................................................................... 87 Spis tabel Tabela 1. Wybrane zakresy absorpcji promieniowania elektromagnetycznego przez rośliny .. 18 Tabela 2. Charakterystyki skanera APEX ................................................................................. 30 Tabela 3. Liczba zebranych poligonów pomiarowych uzyskanych podczas badań terenowych, włączając zestaw danych pozyskany z KPN oraz liczba pikseli wyznaczonych na podstawie badań terenowych............................................................................................... 57 Tabela 4. Liczba wzorców (pikseli) wykorzystanych do uczenia i weryfikacji dla poszczególnych klas ............................................................................................................ 65 Tabela 5. Macierz błędów klasyfikacji dla iteracji o najwyższej dokładności ogólnej ............. 71 Tabela 6. Dokładność producenta i użytkownika dla poszczególnych klas (iteracja o najwyższej dokładności ogólnej) ........................................................................................ 71 Tabela 7. Powierzchnia (ha) zajmowana przez klasyfikowane gatunki drzew w podziale na trzy klasy wysokości ........................................................................................................... 75 Tabela 8. Porównanie procentowego udziału poszczególnych gatunków drzew na obszarze KPN, według danych KPN (Danielewicz i inni, 2012) oraz wyników uzyskanych z klasyfikacji .......................................................................................................................... 75 Tabela 9. Porównanie wyników pracy z dostępną literaturą ..................................................... 77 Załączniki 1. Mapa rozmieszcznia wybranych gatunków drzew na terenie Karkonoskiego Parku Narodowego, Arkusz Karpacz 2. Mapa rozmieszcznia wybranych gatunków drzew na terenie Karkonoskiego Parku Narodowego, Arkusz Szklarska Poręba 114