Inteligentne Systemy Autonomiczne

advertisement
Inteligentne Systemy
Autonomiczne
Uczenie zadań
zadań
Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące
korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele.
Hebbowskie sieci modelują stany świata ale nie percepcje-działanie.
Uniwersalne Modele
Uczenia
Korekcja błędu może się nauczyć mapowania.
Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie
ukrytej, bo trzeba jej podać cel.
Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte.
Ale nie ma dla niej dobrego uzasadnienia biologicznego ...
W oparciu o wykład
Prof. Randall O'Reilly
University of Colorado oraz
Prof. Włodzisława Ducha
Uniwersytet Mikołaja Kopernika
Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie
wymaga sporo obliczeń.
1
EE141
Janusz
A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie
Funkcja błę
du
błędu
Propagacja błę
du
błędu
Jakie sygnały należy brać dla neuronów
ukrytych?
Najpierw przepuszczamy sygnały przez
sieć obliczając aktywacje η,
wyjściowe sygnały z neuronów h, przez
wszystkie warstwy, aż do wyjść ok
(forward step).
Obliczamy błędy δk = (tk-ok),
i poprawki dla neuronów wyjściowych
∆wik = ε δk hi.
Błąd dla ukrytych neuronów:
δj = ε Σk wjk δk hj(1-hj), (backward step)
Jeden wzorzec X, jeden parametr w to:
2
Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć
wystarczająco dużo parametrów by się nauczyć pożądanego
zachowania, można jedynie dążyć do najmniejszego błędu.
W minimum błąd E(X;w) jest dla parametru w
dla pochodnej dE(X;w)/dw = 0.
Dla wielu parametrów mamy pochodne
po wszystkich, dE/dwi, czyli gradient.
(backpropagation of error).
3
EE141
Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5
GeneRec - uczenie
Chociaż większość modeli używanych w psychologii uczy struktury
wielowarstwowych perceptronów za pomocą odmian wstecznej
propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea
przekazu informacji o błędach nie ma biologicznego uzasadnienia.
Reguła uczenia jest zgodna z regułą delta:
GeneRec (General Recirculation,
O’Reilly 1996),
Propagacja sygnału w obie
strony, niesymetryczne wagi
wkl ≠ wjk.
EE141
4
EE141
GeneRec
Najpierw faza –, opowiedź sieci
na aktywację x– daje wyjście y–,
potem obserwacja pożądanego
wyniku y+ i propagacja do wejścia
x+. Zmiana wagi wymaga
informacji o sygnałach z obu faz.
2
Reguła delta minimalizuje błąd dla jednego neuronu,
np. wyjściowego, do którego docierają sygnały si
∆wik =ε ||tk – ok|| si
E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to
suma błędów E(X;w) dla wszystkich wzorców X.
ok(X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X.
tk(X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X.
E ( X; w ) = ( t ( X ) − o ( X; w ) )
Główna idea: szukamy minimum funkcji błędu, mierzącej różnice
między pożądanym zachowaniem i tym realizowanym przez sieć.
EE141
∆wij = ε ⎡⎣ y +j − y −j ⎤⎦ xi−
W porównaniu z wsteczną propagacją różnica sygnałów [y+-y-]
zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności *
pochodna funkcji aktywacji, stąd jest to reguła gradientowa.
Dla nastawień β jest xi=1, więc:
∆β j = ε ⎡⎣ y +j − y −j ⎤⎦
Dwukierunkowe przesyłanie informacji jest niemal równoczesne
odpowiada za powstawanie stanów atraktorowych, spełnianie
ograniczeń, dopełnianie wzorców.
fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje
oczekiwania wynikające z pobudzenia zewnętrznego
Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki
dostaniemy biorąc średnią [x++x-]/2 i zachowując symetrię wag:
5
EE141
∆wij = ε ⎡⎣ xi+ y +j − xi− y −j ⎤⎦
Reguła CHL (Contrastive
6
Hebbian Rule)
1
Dwie fazy
Własnoś
asności GeneRec
Skąd bierze się błąd do korygowania połączeń synaptycznych?
Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje,
ale nie potrafi się nauczyć wykonywania zadań.
Ukryte warstwy pozwalają na transformację problemu a korekcja błędu
pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść.
Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na
błędach może się nauczyć wszystkiego w poprawny biologicznie
sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria,
połączenia są zwykle dwukierunkowe. Err = CHL w tabelce.
Warstwa po prawej stronie = środkowa po czasie t+1; np.
a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania
wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania
i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia).
*
*
*
*
7
EE141
Brak Ca2+ = nie ma uczenia; mało Ca2+ = LTD, dużo Ca2+ = LTP
8
LTD – niespełnione oczekiwania, tylko faza -, brak wzmocnienia z +.
EE141
Kombinacja Hebb + błę
dy
błędy
Kombinacja Hebb + błę
dy
błędy
Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL
Dobrze jest połączyć uczenie
Hebbowskie i korekcję błędów CHL
9CHL jak socjalizm
9
9
9
9
9
Korelacje i błędy:
próbuje poprawić błędy całości,
ogranicza motywacje jednostek,
wspólna odpowiedzialność
mała efektywność
działalność planowa
Kombinacja
9Hebbowskie uczenie jak kapitalizm
9
9
9
9
9
oparty na zachłanności
lokalne interesy
indywidualizm
skuteczność działań
brak nadzoru nad całością
EE141
Zalety
Wady
Hebb
(Lokalny)
Autonomiczny
Niezawodny
zawężony
zachłanny
Error
(Odległy)
Celowy
współzależny
9
Współpracujący leniwy
Symulacje trudnego problemu
Dodatkowo potrzebne jest hamowanie wewnątrz warstw:
tworzy oszczędne reprezentacje wewnętrzne,
jednostki konkurują ze sobą, zostają tylko najlepsze,
wyspecjalizowane, umożliwia samoorganizujące się uczenie.
10
EE141
Hamują
Hamująca konkurencja jako bias
Genrec.proj.gz, roz. 5.9
3 ukryte jednostki.
Uczenie jest przerywane po 5
epokach bez błędu.
Hamowanie (inhibition)
‰Prowadzi do rzadkich rozproszonych reprezentacji
(wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji)
‰Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych
‰Uczenie samoorganizujące się
‰Często ważniejsze niż Hebbowskie
Błędy w czasie uczenia wykazują
znaczne fluktuacje – sieci z rekurencją
są wrażliwe na małe zmiany wag,
eksplorują różne rozwiązania.
Porównaj z uczeniem przypadków
łatwych i trudnych z samym Hebbem.
EE141
‰Hamowanie było tez użyte
w mieszankach ekspertów
ƒ
ƒ
11
bramki (gating units)
podlegają kompetycji WTA
kontrolują wyjścia ekspertów
12
EE141
2
Poró
Porównanie zmian wag w uczeniu
Poró
Porównanie zmian wag w uczeniu
b)
Epochs
Widok wag warstwy ukrytej w
uczeniu Hebbowskim
ƒ Wagi neuronów
przedstawione są w
odniesieniu do
poszczególnych wejść
Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje
ilości epok treningowych dla trzech rożnych metod uczenia
Widok wag warstwy ukrytej przy
uczeniu metoda korekcji błędu
ƒ Wagi wydaja się dosyć
przypadkowe w porównaniu
z uczeniem Hebba 13
EE141
ƒ Hebbowskie (Pure Hebb)
ƒ Korekcja błędów (Pure Err)
ƒ Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki
14
EE141
Generalizacja
Peł
Pełny model Leabra
Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy
6 zasad budowy inteligentnego systemu.
1.
2.
3.
4.
Biologiczny realizm
Rozproszone reprezentacje
Wzajemne hamowanie
Dwukierunkowa
propagacja aktywności
1. Uczenie korygujące błąd
2. Uczenie Hebbowskie
nust
za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde
zdanie które słyszysz, itd.
Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy
Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów
dla wag pomiędzy warstwami.
Jak to robimy?
15
EE141
16
EE141
Generalizacja w sieciach atraktorowych
Dobre reprezentacje
Sama reguła GeneRec nie prowadzi do dobrej generalizacji.
Symulacje: model_and_task.proj. gz, rozdz. 6
Rozproszone reprezentacje wewnętrzne.
Nowe pojęcia są kombinacją istniejących cech.
Parametr hebb kontroluje ile CHL a
ile Hebba.
Pure_err realizuje tylko CHL,
sprawdzić fazy - i +
Porównać rep. wewnętrzne dla
różnych rodzajów uczenia.
Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają
korekcję błędów tak, by utworzyć dobre reprezentacje.
17
EE141
18
EE141
3
Głębokie
łębokie sieci (deep
(deep networks)
networks)
Uczenie sekwencyjne
Do nauczenia się trudnych zagadnień potrzebnych jest wiele
transformacji, mocno zmieniających reprezentację problemu.
Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań
istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach:
Sygnały błędu stają się słabe
i uczenie jest trudne.
Ten kraj znasz dobrze.
Znasz dobrze ten kraj?
Trzeba dodać ograniczenia i
samoorganizujące się uczenie.
Dziecko podniosło zabawkę do góry.
Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się
zbliżał.
Analogia:
Balansowanie kilkoma połączonym
kijkami jest trudne, ale dodanie
samoorganizującego się uczenia
pomiędzy fragmentami znacznie to
uprości – jak dodanie żyroskopu do
każdego elementu.
Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu.
Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą
być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur
w czasie gry są widoczne dopiero po kilku krokach.
19
EE141
Modele sieci reagują od razu – jak robią to mózgi?
20
EE141
Drzewo rodzinne
Uczenie sekwencyjne
Przykład symulacji: family_trees.proj.gz, rozdz. 6.4.1
¾Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej
¾ a) przed uczeniem
¾ b) po uczeniu metoda kombinacji Hebba i korekcji błędów
Czego jeszcze brakuje? Zależności czasowych i sekwencji !
21
EE141
22
¾Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom
EE141
Uczenie sekwencyjne
Uczenie sekwencyjne
Biologiczne uzasadnienie reprezentacji kontekstu
Płaty czołowe kory
Kategorie zależności czasowych:
¾ Sekwencje o określonej strukturze
¾ Opóźnione w czasie
¾ Ciągłe trajektorie
¾ Odpowiadają za planowanie i wykonanie czynności w
czasie.
¾ Ludzie z uszkodzeniami płata czołowego maja trudności w
wykonaniu sekwencji czynności mimo ze nie maja problemu
z poszczególnymi krokami czynności
¾ Platy czołowe odpowiedzialne są za reprezentacje w czasie
Kontekst reprezentowany jest w płatach
czołowych kory
¾ powinien wpływać na warstwę
ukryta.
¾ Na przykład takie wyrazy jak “pokój” czy “pole” nabierają
znaczenia w zależności od kontekstu
¾ Kontekst jest funkcja poprzednio uzyskanej informacji
Potrzebne są sieci z rekurencją, które
potrafią utrzymać przez pewien czas
informacje o kontekście.
Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN),
¾ Ludzie ze schizofrenia mogą używać kontekstu
bezpośrednio przed wieloznacznym wyrazem ale nie w
oparciu o poprzednie zdanie.
¾ Warstwa kontekstu jest kopia warstwy ukrytej
Sieć Elmana.
23
EE141
Reprezentacje kontekstu nie tylko prowadza do
sekwencyjnego zachowania ale tez są wymagane do
zrozumienia sekwencyjnie prezentowanej informacji takiej
jak mowa.
24
EE141
4
Przykł
Przykłady uczenia sekwencji
Realizacja sieciowa
Czy można odkryć reguły
tworzenia się sekwencji?
Przykłady:
Czy te sekwencje są do akceptacji?
BTXSE
BPVPSE
BTSXXTVVE
BPTVPSE
BTXXTTVVE
TSXSE
VVSXE
BSSXSE
Sieć wybiera przypadkowo jeden z
dwóch możliwych stanów.
Ukryte/kontekstowe neurony uczą się
rozpoznawać stany automatu, a nie
tylko etykiety.
Modelowanie zachowania:
te same obserwacje ale różne stany
wewnętrzne => różne decyzje i
następne stany.
Automat o następujących
przejściach produkuje takie
zachowania:
Projekt fsa.proj.gz,
rozdz. 6.6.3
Jak pokazały testy ludzie są w stanie nauczyć się szybciej
rozpoznawać litery wyprodukowane według określonego
schematu, mimo ze nie znają użytych reguł
25
EE141
26
EE141
Opó
Opóźnienie czasowe i wzmocnienie
Opó
Opóźnienie czasowe i wzmocnienie
Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem
np. w uczeniu się gier, strategii zachowań.
Nakrywka śródmózgowia (VTA)
jest częścią systemu
nagradzającego.
Idea: trzeba przewidywać dostatecznie wcześnie
jakie zdarzenia prowadzą do nagrody.
Robi to algorytm różnic czasowych
(Temporal Differences TD - Sutton).
Skąd w mózgu nagroda?
Neurony nakrywki śródmózgowia
dostarczaja neurotransmiter
dopamine (DA) do płatów
czołowych i jąder podstawnych
modulując uczenie w tym
obszarze odpowiedzialnym za
planowanie i akcje.
Dopaminergiczny system śródmózgowia
moduluje działanie jąder podstawnych (BG)
przez substancję czarną (SN), oraz kory
czołowej przez brzuszną część nakrywki
śródmózgowia (VTA). Dość skomplikowany
system, którego działania związane są z
oceną bodźców/działań z punktu widzenia
wartości i nagrody.
Bardziej zaawansowane rejony mózgu odpowiedzialne są za
wyprodukowanie tego globalnego sygnału uczenia
Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego
role w przewidywaniu nagrody i kary.
27
EE141
EE141
Uczenie szympansow – liczenie 1-min
28
Antycypacja
Antycypacja nagrody
nagrody ii wynik
wynik
Mechanizmy nagrody
Skomplikowany mechanizm, pętle pobudzeń między wzgórzem, jądrami
podstawnymi, prążkowiem i korą czołową.
Jądra SNpc i VTA
wykorzystują dopaminę
by przewidywać zdarzenia niespodziewane.
Kora przedczołowa (PFC)
Kora okołoczołodołowa
WZGÓRZE
Brzuszne
Prążkowie
SNpc
Jądro
półleżące
VTA
29
EE141
Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001)30
EE141
5
Jądra podstawne
podstawne BG
GŁÓWNY UKŁAD MOTYWACJI
KORA PRZEDCZOŁOWA (PfC)
Zmysłoworuchowa kora
skojarzeniowa
Neurony VTA uczą się najpierw reagować na nagrodę a następnie
przewidywać wcześniej pojawienie się nagrody.
THALAMUS
PRĄŻKOWIE
J.OGONIASTE
-SKORUPA
PODWZGÓRZEPRZEGRODA
JĄDRO
PÓŁLEŻĄCE
Brzuszna
Część Nakrywki (VTA)
HIPOKAMP
ISTOTA
CZARNA
J. SZWU
Neuroprzekaźniki
CIAŁO MIGDAŁOWATE
DODATKOWY UKŁAD MOTYWACJI
Glutamininan
GABA
Dopamina
Serotonina
Pętla kora-prążkowie-wzgórze-kora
31
32
EE141
EE141
Szkic sformuł
sformułowania – algorytm TD
Implementacja sieciowa
Należy określić funkcję wartości, suma po wszystkich przyszłych
nagrodach, im dalsze w czasie tym mniej ważne:
Przewidywania aktywności i błędu.
Warunkowe
pobudzenie
CS dla t=2
Bezwarunkowe
pobudzenie
(nagroda)
US dla t=16
rl_cond.proj.gz
Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t)
AC w każdej chwili czasowej stara się przewidzieć wartość nagrody
Można to zrobić rekursywnie:
Błąd przewidywanej nagrody:
Początkowo duży błąd
dla Time=16 bo nagroda
r(16) jest niespodziewana
Sieć próbuje zredukować ten błąd.
Nazwa algorytmu – TD (temporal difference) reprezentuje błąd
oceny funkcji wartości otrzymany w przedziale czasowym
Adaptacyjny
krytyk AC
(
)
δ (16) = r (16) + Vˆ (17) − Vˆ (16) = (1 + 0) − 0
33
34
EE141
EE141
Dwufazowa implementacja
Dwufazowa implementacja
(Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r).
System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę
(Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(tk).
Wejście CSC – Complete Serial Compound, zastosowano unikalne
elementy do bodźców w kolejnych momentach czasu.
Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie -
(
1
Vˆ − (t + 1) = γVˆ + (t + 1)
γ
Rozdz. 6.7.3, proj.
rl_cond.proj.gz
)
CS dla t=2
US dla t=16
Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku
Uczenie szympansów – kolejność cyfr 1 min
35
EE141
Nie jest to zbyt realistyczny model warunkowania klasycznego.
36
EE141
6
Download