Inteligentne Systemy Autonomiczne Uniwersalne Modele Uczenia W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika 1 EE141 Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Uczenie zadań Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele. Hebbowskie sieci modelują stany świata ale nie percepcje-działanie. Korekcja błędu może się nauczyć mapowania. Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie ukrytej, bo trzeba jej podać cel. Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte. Ale nie ma dla niej dobrego uzasadnienia biologicznego ... Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie wymaga sporo obliczeń. Główna idea: szukamy minimum funkcji błędu, mierzącej różnice między pożądanym zachowaniem i tym realizowanym przez sieć. EE141 2 Funkcja błędu E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to suma błędów E(X;w) dla wszystkich wzorców X. ok(X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X. tk(X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X. Jeden wzorzec X, jeden parametr w to: E X; w t X o X; w 2 Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć wystarczająco dużo parametrów by się nauczyć pożądanego zachowania, można jedynie dążyć do najmniejszego błędu. W minimum błąd E(X;w) jest dla parametru w dla pochodnej dE(X;w)/dw = 0. Dla wielu parametrów mamy pochodne po wszystkich, dE/dwi, czyli gradient. EE141 3 Propagacja błędu Reguła delta minimalizuje błąd dla jednego neuronu, np. wyjściowego, do którego docierają sygnały si Dwik =e ||tk – ok|| si Jakie sygnały należy brać dla neuronów ukrytych? Najpierw przepuszczamy sygnały przez sieć obliczając aktywacje h, wyjściowe sygnały z neuronów h, przez wszystkie warstwy, aż do wyjść ok (forward step). Obliczamy błędy dk = (tk-ok), i poprawki dla neuronów wyjściowych Dwik = e dk hi. Błąd dla ukrytych neuronów: dj = e Sk wjk dk hj(1-hj), (backward step) (backpropagation of error). Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5 EE141 4 GeneRec Chociaż większość modeli używanych w psychologii uczy struktury wielowarstwowych perceptronów za pomocą odmian wstecznej propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea przekazu informacji o błędach nie ma biologicznego uzasadnienia. GeneRec (General Recirculation, O’Reilly 1996), Propagacja sygnału w obie strony, niesymetryczne wagi wkl wjk. Najpierw faza –, opowiedź sieci na aktywację x– daje wyjście y–, potem obserwacja pożądanego wyniku y+ i propagacja do wejścia x+. Zmiana wagi wymaga informacji o sygnałach z obu faz. EE141 5 GeneRec - uczenie Reguła uczenia jest zgodna z regułą delta: Dwij e y j y j xi W porównaniu z wsteczną propagacją różnica sygnałów [y+-y-] zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności * pochodna funkcji aktywacji, stąd jest to reguła gradientowa. Dla nastawień b jest xi=1, więc: Db j e y j y j Dwukierunkowe przesyłanie informacji jest niemal równoczesne odpowiada za powstawanie stanów atraktorowych, spełnianie ograniczeń, dopełnianie wzorców. fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje oczekiwania wynikające z pobudzenia zewnętrznego Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki dostaniemy biorąc średnią [x++x-]/2 i zachowując symetrię wag: EE141 Dwij e xi y j xi y j Reguła CHL (Contrastive 6 Hebbian Rule) Dwie fazy Skąd bierze się błąd do korygowania połączeń synaptycznych? Warstwa po prawej stronie = środkowa po czasie t+1; np. a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia). EE141 7 Własności GeneRec Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje, ale nie potrafi się nauczyć wykonywania zadań. Ukryte warstwy pozwalają na transformację problemu a korekcja błędu pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść. Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na błędach może się nauczyć wszystkiego w poprawny biologicznie sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria, połączenia są zwykle dwukierunkowe. Err = CHL w tabelce. * * * * Brak Ca2+ = nie ma uczenia; mało Ca2+ = LTD, dużo Ca2+ = LTP 8 LTD – niespełnione oczekiwania, tylko faza -, brak wzmocnienia z +. EE141 Kombinacja Hebb + błędy Dobrze jest połączyć uczenie Hebbowskie i korekcję błędów CHL CHL jak socjalizm próbuje poprawić błędy całości, ogranicza motywacje jednostek, wspólna odpowiedzialność mała efektywność działalność planowa Hebbowskie uczenie jak kapitalizm EE141 oparty na zachłanności lokalne interesy indywidualizm skuteczność działań brak nadzoru nad całością Zalety Wady Hebb (Lokalny) Autonomiczny Niezawodny zawężony zachłanny Error (Odległy) Celowy współzależny 9 Współpracujący leniwy Kombinacja Hebb + błędy Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL Korelacje i błędy: Kombinacja Dodatkowo potrzebne jest hamowanie wewnątrz warstw: tworzy oszczędne reprezentacje wewnętrzne, jednostki konkurują ze sobą, zostają tylko najlepsze, wyspecjalizowane, umożliwia samoorganizujące się uczenie. EE141 10 Symulacje trudnego problemu Genrec.proj.gz, roz. 5.9 3 ukryte jednostki. Uczenie jest przerywane po 5 epokach bez błędu. Błędy w czasie uczenia wykazują znaczne fluktuacje – sieci z rekurencją są wrażliwe na małe zmiany wag, eksplorują różne rozwiązania. Porównaj z uczeniem przypadków łatwych i trudnych z samym Hebbem. EE141 11 Hamująca konkurencja jako bias Hamowanie (inhibition) Prowadzi do rzadkich rozproszonych reprezentacji (wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji) Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych Uczenie samoorganizujące się Często ważniejsze niż Hebbowskie Hamowanie było tez użyte w mieszankach ekspertów bramki (gating units) podlegają kompetycji WTA kontrolują wyjścia ekspertów 12 EE141 Porównanie zmian wag w uczeniu Widok wag warstwy ukrytej w uczeniu Hebbowskim Wagi neuronów przedstawione są w odniesieniu do poszczególnych wejść EE141 Widok wag warstwy ukrytej przy uczeniu metoda korekcji błędu Wagi wydaja się dosyć przypadkowe w porównaniu z uczeniem Hebba 13 Porównanie zmian wag w uczeniu b) Epochs Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje ilości epok treningowych dla trzech rożnych metod uczenia Hebbowskie (Pure Hebb) Korekcja błędów (Pure Err) Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki 14 EE141 Pełny model Leabra 6 zasad budowy inteligentnego systemu. 1. 2. 3. 4. Biologiczny realizm Rozproszone reprezentacje Wzajemne hamowanie Dwukierunkowa propagacja aktywności 1. Uczenie korygujące błąd 2. Uczenie Hebbowskie Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów dla wag pomiędzy warstwami. 15 EE141 Generalizacja Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy nust za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde zdanie które słyszysz, itd. Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy Jak to robimy? 16 EE141 Dobre reprezentacje Rozproszone reprezentacje wewnętrzne. Nowe pojęcia są kombinacją istniejących cech. Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają korekcję błędów tak, by utworzyć dobre reprezentacje. 17 EE141 Generalizacja w sieciach atraktorowych Sama reguła GeneRec nie prowadzi do dobrej generalizacji. Symulacje: model_and_task.proj. gz, rozdz. 6 Parametr hebb kontroluje ile CHL a ile Hebba. Pure_err realizuje tylko CHL, sprawdzić fazy - i + Porównać rep. wewnętrzne dla różnych rodzajów uczenia. 18 EE141 Głębokie sieci (deep networks) Do nauczenia się trudnych zagadnień potrzebnych jest wiele transformacji, mocno zmieniających reprezentację problemu. Sygnały błędu stają się słabe i uczenie jest trudne. Trzeba dodać ograniczenia i samoorganizujące się uczenie. Analogia: Balansowanie kilkoma połączonym kijkami jest trudne, ale dodanie samoorganizującego się uczenia pomiędzy fragmentami znacznie to uprości – jak dodanie żyroskopu do każdego elementu. 19 EE141 Uczenie sekwencyjne Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach: Ten kraj znasz dobrze. Znasz dobrze ten kraj? Dziecko podniosło zabawkę do góry. Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się zbliżał. Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu. Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur w czasie gry są widoczne dopiero po kilku krokach. Modele sieci reagują od razu – jak robią to mózgi? EE141 20 Drzewo rodzinne Przykład symulacji: family_trees.proj.gz, rozdz. 6.4.1 Czego jeszcze brakuje? Zależności czasowych i sekwencji ! 21 EE141 Uczenie sekwencyjne Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej a) przed uczeniem b) po uczeniu metoda kombinacji Hebba i korekcji błędów Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom 22 EE141 Uczenie sekwencyjne Kategorie zależności czasowych: Sekwencje o określonej strukturze Opóźnione w czasie Ciągłe trajektorie Kontekst reprezentowany jest w płatach czołowych kory powinien wpływać na warstwę ukryta. Potrzebne są sieci z rekurencją, które potrafią utrzymać przez pewien czas informacje o kontekście. Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN), Warstwa kontekstu jest kopia warstwy ukrytej Sieć Elmana. 23 EE141 Uczenie sekwencyjne Biologiczne uzasadnienie reprezentacji kontekstu Płaty czołowe kory Odpowiadają za planowanie i wykonanie czynności w czasie. Ludzie z uszkodzeniami płata czołowego maja trudności w wykonaniu sekwencji czynności mimo ze nie maja problemu z poszczególnymi krokami czynności Platy czołowe odpowiedzialne są za reprezentacje w czasie Na przykład takie wyrazy jak “pokój” czy “pole” nabierają znaczenia w zależności od kontekstu Kontekst jest funkcja poprzednio uzyskanej informacji Ludzie ze schizofrenia mogą używać kontekstu bezpośrednio przed wieloznacznym wyrazem ale nie w oparciu o poprzednie zdanie. Reprezentacje kontekstu nie tylko prowadza do sekwencyjnego zachowania ale tez są wymagane do zrozumienia sekwencyjnie prezentowanej informacji takiej jak mowa. 24 EE141 Przykłady uczenia sekwencji Czy można odkryć reguły tworzenia się sekwencji? Przykłady: Czy te sekwencje są do akceptacji? BTXSE BPVPSE BTSXXTVVE BPTVPSE BTXXTTVVE TSXSE VVSXE BSSXSE Automat o następujących przejściach produkuje takie zachowania: Jak pokazały testy ludzie są w stanie nauczyć się szybciej rozpoznawać litery wyprodukowane według określonego schematu, mimo ze nie znają użytych reguł 25 EE141 Realizacja sieciowa Sieć wybiera przypadkowo jeden z dwóch możliwych stanów. Ukryte/kontekstowe neurony uczą się rozpoznawać stany automatu, a nie tylko etykiety. Modelowanie zachowania: te same obserwacje ale różne stany wewnętrzne => różne decyzje i następne stany. Projekt fsa.proj.gz, rozdz. 6.6.3 26 EE141 Opóźnienie czasowe i wzmocnienie Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem np. w uczeniu się gier, strategii zachowań. Idea: trzeba przewidywać dostatecznie wcześnie jakie zdarzenia prowadzą do nagrody. Robi to algorytm różnic czasowych (Temporal Differences TD - Sutton). Skąd w mózgu nagroda? Dopaminergiczny system śródmózgowia moduluje działanie jąder podstawnych (BG) przez substancję czarną (SN), oraz kory czołowej przez brzuszną część nakrywki śródmózgowia (VTA). Dość skomplikowany system, którego działania związane są z oceną bodźców/działań z punktu widzenia wartości i nagrody. EE141 27 Opóźnienie czasowe i wzmocnienie Nakrywka śródmózgowia (VTA) jest częścią systemu nagradzającego. Neurony nakrywki śródmózgowia dostarczaja neurotransmiter dopamine (DA) do płatów czołowych i jąder podstawnych modulując uczenie w tym obszarze odpowiedzialnym za planowanie i akcje. Bardziej zaawansowane rejony mózgu odpowiedzialne są za wyprodukowanie tego globalnego sygnału uczenia Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego role w przewidywaniu nagrody i kary. Uczenie szympansow – liczenie 1-min EE141 28 Mechanizmy nagrody Skomplikowany mechanizm, pętle pobudzeń między wzgórzem, jądrami podstawnymi, prążkowiem i korą czołową. Jądra SNpc i VTA wykorzystują dopaminę by przewidywać zdarzenia niespodziewane. Kora przedczołowa (PFC) Kora okołoczołodołowa WZGÓRZE Brzuszne Prążkowie SNpc Jądro półleżące VTA 29 EE141 Antycypacja nagrody i wynik Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001)30 EE141 GŁÓWNY UKŁAD MOTYWACJI KORA PRZEDCZOŁOWA (PfC) Zmysłoworuchowa kora skojarzeniowa THALAMUS PRĄŻKOWIE J.OGONIASTE -SKORUPA PODWZGÓRZEPRZEGRODA JĄDRO PÓŁLEŻĄCE Brzuszna Część Nakrywki (VTA) HIPOKAMP ISTOTA CZARNA J. SZWU Neuroprzekaźniki CIAŁO MIGDAŁOWATE DODATKOWY UKŁAD MOTYWACJI Glutamininan GABA Pętla kora-prążkowie-wzgórze-kora EE141 Dopamina Serotonina 31 Jądra podstawne BG Neurony VTA uczą się najpierw reagować na nagrodę a następnie przewidywać wcześniej pojawienie się nagrody. 32 EE141 Szkic sformułowania – algorytm TD Należy określić funkcję wartości, suma po wszystkich przyszłych nagrodach, im dalsze w czasie tym mniej ważne: Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t) AC w każdej chwili czasowej stara się przewidzieć wartość nagrody Można to zrobić rekursywnie: Błąd przewidywanej nagrody: Sieć próbuje zredukować ten błąd. Nazwa algorytmu – TD (temporal difference) reprezentuje błąd oceny funkcji wartości otrzymany w przedziale czasowym EE141 33 Implementacja sieciowa Przewidywania aktywności i błędu. Warunkowe pobudzenie CS dla t=2 Bezwarunkowe pobudzenie (nagroda) US dla t=16 rl_cond.proj.gz Początkowo duży błąd dla Time=16 bo nagroda r(16) jest niespodziewana Adaptacyjny krytyk AC 34 EE141 Dwufazowa implementacja (Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r). (Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(tk). Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie - 1 Vˆ (t 1) Vˆ (t 1) CS dla t=2 US dla t=16 Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku Uczenie szympansów – kolejność cyfr 1 min 35 EE141 Dwufazowa implementacja System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę Wejście CSC – Complete Serial Compound, zastosowano unikalne elementy do bodźców w kolejnych momentach czasu. Rozdz. 6.7.3, proj. rl_cond.proj.gz Nie jest to zbyt realistyczny model warunkowania klasycznego. 36 EE141