Inteligentne Systemy Autonomiczne Uczenie zadań zadań Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele. Hebbowskie sieci modelują stany świata ale nie percepcje-działanie. Uniwersalne Modele Uczenia Korekcja błędu może się nauczyć mapowania. Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie ukrytej, bo trzeba jej podać cel. Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte. Ale nie ma dla niej dobrego uzasadnienia biologicznego ... W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie wymaga sporo obliczeń. 1 EE141 Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Funkcja błę du błędu Propagacja błę du błędu Jakie sygnały należy brać dla neuronów ukrytych? Najpierw przepuszczamy sygnały przez sieć obliczając aktywacje η, wyjściowe sygnały z neuronów h, przez wszystkie warstwy, aż do wyjść ok (forward step). Obliczamy błędy δk = (tk-ok), i poprawki dla neuronów wyjściowych ∆wik = ε δk hi. Błąd dla ukrytych neuronów: δj = ε Σk wjk δk hj(1-hj), (backward step) Jeden wzorzec X, jeden parametr w to: 2 Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć wystarczająco dużo parametrów by się nauczyć pożądanego zachowania, można jedynie dążyć do najmniejszego błędu. W minimum błąd E(X;w) jest dla parametru w dla pochodnej dE(X;w)/dw = 0. Dla wielu parametrów mamy pochodne po wszystkich, dE/dwi, czyli gradient. (backpropagation of error). 3 EE141 Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5 GeneRec - uczenie Chociaż większość modeli używanych w psychologii uczy struktury wielowarstwowych perceptronów za pomocą odmian wstecznej propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea przekazu informacji o błędach nie ma biologicznego uzasadnienia. Reguła uczenia jest zgodna z regułą delta: GeneRec (General Recirculation, O’Reilly 1996), Propagacja sygnału w obie strony, niesymetryczne wagi wkl ≠ wjk. EE141 4 EE141 GeneRec Najpierw faza –, opowiedź sieci na aktywację x– daje wyjście y–, potem obserwacja pożądanego wyniku y+ i propagacja do wejścia x+. Zmiana wagi wymaga informacji o sygnałach z obu faz. 2 Reguła delta minimalizuje błąd dla jednego neuronu, np. wyjściowego, do którego docierają sygnały si ∆wik =ε ||tk – ok|| si E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to suma błędów E(X;w) dla wszystkich wzorców X. ok(X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X. tk(X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X. E ( X; w ) = ( t ( X ) − o ( X; w ) ) Główna idea: szukamy minimum funkcji błędu, mierzącej różnice między pożądanym zachowaniem i tym realizowanym przez sieć. EE141 ∆wij = ε ⎡⎣ y +j − y −j ⎤⎦ xi− W porównaniu z wsteczną propagacją różnica sygnałów [y+-y-] zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności * pochodna funkcji aktywacji, stąd jest to reguła gradientowa. Dla nastawień β jest xi=1, więc: ∆β j = ε ⎡⎣ y +j − y −j ⎤⎦ Dwukierunkowe przesyłanie informacji jest niemal równoczesne odpowiada za powstawanie stanów atraktorowych, spełnianie ograniczeń, dopełnianie wzorców. fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje oczekiwania wynikające z pobudzenia zewnętrznego Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki dostaniemy biorąc średnią [x++x-]/2 i zachowując symetrię wag: 5 EE141 ∆wij = ε ⎡⎣ xi+ y +j − xi− y −j ⎤⎦ Reguła CHL (Contrastive 6 Hebbian Rule) 1 Dwie fazy Własnoś asności GeneRec Skąd bierze się błąd do korygowania połączeń synaptycznych? Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje, ale nie potrafi się nauczyć wykonywania zadań. Ukryte warstwy pozwalają na transformację problemu a korekcja błędu pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść. Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na błędach może się nauczyć wszystkiego w poprawny biologicznie sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria, połączenia są zwykle dwukierunkowe. Err = CHL w tabelce. Warstwa po prawej stronie = środkowa po czasie t+1; np. a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia). * * * * 7 EE141 Brak Ca2+ = nie ma uczenia; mało Ca2+ = LTD, dużo Ca2+ = LTP 8 LTD – niespełnione oczekiwania, tylko faza -, brak wzmocnienia z +. EE141 Kombinacja Hebb + błę dy błędy Kombinacja Hebb + błę dy błędy Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL Dobrze jest połączyć uczenie Hebbowskie i korekcję błędów CHL 9CHL jak socjalizm 9 9 9 9 9 Korelacje i błędy: próbuje poprawić błędy całości, ogranicza motywacje jednostek, wspólna odpowiedzialność mała efektywność działalność planowa Kombinacja 9Hebbowskie uczenie jak kapitalizm 9 9 9 9 9 oparty na zachłanności lokalne interesy indywidualizm skuteczność działań brak nadzoru nad całością EE141 Zalety Wady Hebb (Lokalny) Autonomiczny Niezawodny zawężony zachłanny Error (Odległy) Celowy współzależny 9 Współpracujący leniwy Symulacje trudnego problemu Dodatkowo potrzebne jest hamowanie wewnątrz warstw: tworzy oszczędne reprezentacje wewnętrzne, jednostki konkurują ze sobą, zostają tylko najlepsze, wyspecjalizowane, umożliwia samoorganizujące się uczenie. 10 EE141 Hamują Hamująca konkurencja jako bias Genrec.proj.gz, roz. 5.9 3 ukryte jednostki. Uczenie jest przerywane po 5 epokach bez błędu. Hamowanie (inhibition) Prowadzi do rzadkich rozproszonych reprezentacji (wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji) Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych Uczenie samoorganizujące się Często ważniejsze niż Hebbowskie Błędy w czasie uczenia wykazują znaczne fluktuacje – sieci z rekurencją są wrażliwe na małe zmiany wag, eksplorują różne rozwiązania. Porównaj z uczeniem przypadków łatwych i trudnych z samym Hebbem. EE141 Hamowanie było tez użyte w mieszankach ekspertów 11 bramki (gating units) podlegają kompetycji WTA kontrolują wyjścia ekspertów 12 EE141 2 Poró Porównanie zmian wag w uczeniu Poró Porównanie zmian wag w uczeniu b) Epochs Widok wag warstwy ukrytej w uczeniu Hebbowskim Wagi neuronów przedstawione są w odniesieniu do poszczególnych wejść Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje ilości epok treningowych dla trzech rożnych metod uczenia Widok wag warstwy ukrytej przy uczeniu metoda korekcji błędu Wagi wydaja się dosyć przypadkowe w porównaniu z uczeniem Hebba 13 EE141 Hebbowskie (Pure Hebb) Korekcja błędów (Pure Err) Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki 14 EE141 Generalizacja Peł Pełny model Leabra Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy 6 zasad budowy inteligentnego systemu. 1. 2. 3. 4. Biologiczny realizm Rozproszone reprezentacje Wzajemne hamowanie Dwukierunkowa propagacja aktywności 1. Uczenie korygujące błąd 2. Uczenie Hebbowskie nust za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde zdanie które słyszysz, itd. Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów dla wag pomiędzy warstwami. Jak to robimy? 15 EE141 16 EE141 Generalizacja w sieciach atraktorowych Dobre reprezentacje Sama reguła GeneRec nie prowadzi do dobrej generalizacji. Symulacje: model_and_task.proj. gz, rozdz. 6 Rozproszone reprezentacje wewnętrzne. Nowe pojęcia są kombinacją istniejących cech. Parametr hebb kontroluje ile CHL a ile Hebba. Pure_err realizuje tylko CHL, sprawdzić fazy - i + Porównać rep. wewnętrzne dla różnych rodzajów uczenia. Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają korekcję błędów tak, by utworzyć dobre reprezentacje. 17 EE141 18 EE141 3 Głębokie łębokie sieci (deep (deep networks) networks) Uczenie sekwencyjne Do nauczenia się trudnych zagadnień potrzebnych jest wiele transformacji, mocno zmieniających reprezentację problemu. Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach: Sygnały błędu stają się słabe i uczenie jest trudne. Ten kraj znasz dobrze. Znasz dobrze ten kraj? Trzeba dodać ograniczenia i samoorganizujące się uczenie. Dziecko podniosło zabawkę do góry. Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się zbliżał. Analogia: Balansowanie kilkoma połączonym kijkami jest trudne, ale dodanie samoorganizującego się uczenia pomiędzy fragmentami znacznie to uprości – jak dodanie żyroskopu do każdego elementu. Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu. Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur w czasie gry są widoczne dopiero po kilku krokach. 19 EE141 Modele sieci reagują od razu – jak robią to mózgi? 20 EE141 Drzewo rodzinne Uczenie sekwencyjne Przykład symulacji: family_trees.proj.gz, rozdz. 6.4.1 ¾Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej ¾ a) przed uczeniem ¾ b) po uczeniu metoda kombinacji Hebba i korekcji błędów Czego jeszcze brakuje? Zależności czasowych i sekwencji ! 21 EE141 22 ¾Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom EE141 Uczenie sekwencyjne Uczenie sekwencyjne Biologiczne uzasadnienie reprezentacji kontekstu Płaty czołowe kory Kategorie zależności czasowych: ¾ Sekwencje o określonej strukturze ¾ Opóźnione w czasie ¾ Ciągłe trajektorie ¾ Odpowiadają za planowanie i wykonanie czynności w czasie. ¾ Ludzie z uszkodzeniami płata czołowego maja trudności w wykonaniu sekwencji czynności mimo ze nie maja problemu z poszczególnymi krokami czynności ¾ Platy czołowe odpowiedzialne są za reprezentacje w czasie Kontekst reprezentowany jest w płatach czołowych kory ¾ powinien wpływać na warstwę ukryta. ¾ Na przykład takie wyrazy jak “pokój” czy “pole” nabierają znaczenia w zależności od kontekstu ¾ Kontekst jest funkcja poprzednio uzyskanej informacji Potrzebne są sieci z rekurencją, które potrafią utrzymać przez pewien czas informacje o kontekście. Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN), ¾ Ludzie ze schizofrenia mogą używać kontekstu bezpośrednio przed wieloznacznym wyrazem ale nie w oparciu o poprzednie zdanie. ¾ Warstwa kontekstu jest kopia warstwy ukrytej Sieć Elmana. 23 EE141 Reprezentacje kontekstu nie tylko prowadza do sekwencyjnego zachowania ale tez są wymagane do zrozumienia sekwencyjnie prezentowanej informacji takiej jak mowa. 24 EE141 4 Przykł Przykłady uczenia sekwencji Realizacja sieciowa Czy można odkryć reguły tworzenia się sekwencji? Przykłady: Czy te sekwencje są do akceptacji? BTXSE BPVPSE BTSXXTVVE BPTVPSE BTXXTTVVE TSXSE VVSXE BSSXSE Sieć wybiera przypadkowo jeden z dwóch możliwych stanów. Ukryte/kontekstowe neurony uczą się rozpoznawać stany automatu, a nie tylko etykiety. Modelowanie zachowania: te same obserwacje ale różne stany wewnętrzne => różne decyzje i następne stany. Automat o następujących przejściach produkuje takie zachowania: Projekt fsa.proj.gz, rozdz. 6.6.3 Jak pokazały testy ludzie są w stanie nauczyć się szybciej rozpoznawać litery wyprodukowane według określonego schematu, mimo ze nie znają użytych reguł 25 EE141 26 EE141 Opó Opóźnienie czasowe i wzmocnienie Opó Opóźnienie czasowe i wzmocnienie Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem np. w uczeniu się gier, strategii zachowań. Nakrywka śródmózgowia (VTA) jest częścią systemu nagradzającego. Idea: trzeba przewidywać dostatecznie wcześnie jakie zdarzenia prowadzą do nagrody. Robi to algorytm różnic czasowych (Temporal Differences TD - Sutton). Skąd w mózgu nagroda? Neurony nakrywki śródmózgowia dostarczaja neurotransmiter dopamine (DA) do płatów czołowych i jąder podstawnych modulując uczenie w tym obszarze odpowiedzialnym za planowanie i akcje. Dopaminergiczny system śródmózgowia moduluje działanie jąder podstawnych (BG) przez substancję czarną (SN), oraz kory czołowej przez brzuszną część nakrywki śródmózgowia (VTA). Dość skomplikowany system, którego działania związane są z oceną bodźców/działań z punktu widzenia wartości i nagrody. Bardziej zaawansowane rejony mózgu odpowiedzialne są za wyprodukowanie tego globalnego sygnału uczenia Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego role w przewidywaniu nagrody i kary. 27 EE141 EE141 Uczenie szympansow – liczenie 1-min 28 Antycypacja Antycypacja nagrody nagrody ii wynik wynik Mechanizmy nagrody Skomplikowany mechanizm, pętle pobudzeń między wzgórzem, jądrami podstawnymi, prążkowiem i korą czołową. Jądra SNpc i VTA wykorzystują dopaminę by przewidywać zdarzenia niespodziewane. Kora przedczołowa (PFC) Kora okołoczołodołowa WZGÓRZE Brzuszne Prążkowie SNpc Jądro półleżące VTA 29 EE141 Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001)30 EE141 5 Jądra podstawne podstawne BG GŁÓWNY UKŁAD MOTYWACJI KORA PRZEDCZOŁOWA (PfC) Zmysłoworuchowa kora skojarzeniowa Neurony VTA uczą się najpierw reagować na nagrodę a następnie przewidywać wcześniej pojawienie się nagrody. THALAMUS PRĄŻKOWIE J.OGONIASTE -SKORUPA PODWZGÓRZEPRZEGRODA JĄDRO PÓŁLEŻĄCE Brzuszna Część Nakrywki (VTA) HIPOKAMP ISTOTA CZARNA J. SZWU Neuroprzekaźniki CIAŁO MIGDAŁOWATE DODATKOWY UKŁAD MOTYWACJI Glutamininan GABA Dopamina Serotonina Pętla kora-prążkowie-wzgórze-kora 31 32 EE141 EE141 Szkic sformuł sformułowania – algorytm TD Implementacja sieciowa Należy określić funkcję wartości, suma po wszystkich przyszłych nagrodach, im dalsze w czasie tym mniej ważne: Przewidywania aktywności i błędu. Warunkowe pobudzenie CS dla t=2 Bezwarunkowe pobudzenie (nagroda) US dla t=16 rl_cond.proj.gz Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t) AC w każdej chwili czasowej stara się przewidzieć wartość nagrody Można to zrobić rekursywnie: Błąd przewidywanej nagrody: Początkowo duży błąd dla Time=16 bo nagroda r(16) jest niespodziewana Sieć próbuje zredukować ten błąd. Nazwa algorytmu – TD (temporal difference) reprezentuje błąd oceny funkcji wartości otrzymany w przedziale czasowym Adaptacyjny krytyk AC ( ) δ (16) = r (16) + Vˆ (17) − Vˆ (16) = (1 + 0) − 0 33 34 EE141 EE141 Dwufazowa implementacja Dwufazowa implementacja (Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r). System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę (Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(tk). Wejście CSC – Complete Serial Compound, zastosowano unikalne elementy do bodźców w kolejnych momentach czasu. Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie - ( 1 Vˆ − (t + 1) = γVˆ + (t + 1) γ Rozdz. 6.7.3, proj. rl_cond.proj.gz ) CS dla t=2 US dla t=16 Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku Uczenie szympansów – kolejność cyfr 1 min 35 EE141 Nie jest to zbyt realistyczny model warunkowania klasycznego. 36 EE141 6