Arithmetic - Ohio University

advertisement
Inteligentne Systemy
Autonomiczne
Uniwersalne Modele
Uczenia
W oparciu o wykład
Prof. Randall O'Reilly
University of Colorado oraz
Prof. Włodzisława Ducha
Uniwersytet Mikołaja Kopernika
1
EE141
Janusz
A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie
Uczenie zadań
Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące
korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele.
Hebbowskie sieci modelują stany świata ale nie percepcje-działanie.
Korekcja błędu może się nauczyć mapowania.
Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie
ukrytej, bo trzeba jej podać cel.
Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte.
Ale nie ma dla niej dobrego uzasadnienia biologicznego ...
Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie
wymaga sporo obliczeń.
Główna idea: szukamy minimum funkcji błędu, mierzącej różnice
między pożądanym zachowaniem i tym realizowanym przez sieć.
EE141
2
Funkcja błędu
E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to
suma błędów E(X;w) dla wszystkich wzorców X.
ok(X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X.
tk(X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X.
Jeden wzorzec X, jeden parametr w to:
E  X; w    t  X   o  X; w  
2
Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć
wystarczająco dużo parametrów by się nauczyć pożądanego
zachowania, można jedynie dążyć do najmniejszego błędu.
W minimum błąd E(X;w) jest dla parametru w
dla pochodnej dE(X;w)/dw = 0.
Dla wielu parametrów mamy pochodne
po wszystkich, dE/dwi, czyli gradient.
EE141
3
Propagacja błędu
Reguła delta minimalizuje błąd dla jednego neuronu,
np. wyjściowego, do którego docierają sygnały si
Dwik =e ||tk – ok|| si
Jakie sygnały należy brać dla neuronów
ukrytych?
Najpierw przepuszczamy sygnały przez
sieć obliczając aktywacje h,
wyjściowe sygnały z neuronów h, przez
wszystkie warstwy, aż do wyjść ok
(forward step).
Obliczamy błędy dk = (tk-ok),
i poprawki dla neuronów wyjściowych
Dwik = e dk hi.
Błąd dla ukrytych neuronów:
dj = e Sk wjk dk hj(1-hj), (backward step)
(backpropagation of error).
Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5
EE141
4
GeneRec
Chociaż większość modeli używanych w psychologii uczy struktury
wielowarstwowych perceptronów za pomocą odmian wstecznej
propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea
przekazu informacji o błędach nie ma biologicznego uzasadnienia.
GeneRec (General Recirculation,
O’Reilly 1996),
Propagacja sygnału w obie
strony, niesymetryczne wagi
wkl  wjk.
Najpierw faza –, opowiedź sieci
na aktywację x– daje wyjście y–,
potem obserwacja pożądanego
wyniku y+ i propagacja do wejścia
x+. Zmiana wagi wymaga
informacji o sygnałach z obu faz.
EE141
5
GeneRec - uczenie
Reguła uczenia jest zgodna z regułą delta:
Dwij  e  y j  y j  xi
W porównaniu z wsteczną propagacją różnica sygnałów [y+-y-]
zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności *
pochodna funkcji aktywacji, stąd jest to reguła gradientowa.
Dla nastawień b jest xi=1, więc:
Db j  e  y j  y j 
Dwukierunkowe przesyłanie informacji jest niemal równoczesne
odpowiada za powstawanie stanów atraktorowych, spełnianie
ograniczeń, dopełnianie wzorców.
fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje
oczekiwania wynikające z pobudzenia zewnętrznego
Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki
dostaniemy biorąc średnią [x++x-]/2 i zachowując symetrię wag:
EE141
Dwij  e  xi y j  xi y j 
Reguła CHL (Contrastive
6
Hebbian Rule)
Dwie fazy
Skąd bierze się błąd do korygowania połączeń synaptycznych?
Warstwa po prawej stronie = środkowa po czasie t+1; np.
a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania
wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania
i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia).
EE141
7
Własności GeneRec
Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje,
ale nie potrafi się nauczyć wykonywania zadań.
Ukryte warstwy pozwalają na transformację problemu a korekcja błędu
pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść.
Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na
błędach może się nauczyć wszystkiego w poprawny biologicznie
sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria,
połączenia są zwykle dwukierunkowe. Err = CHL w tabelce.
*
*
*
*
Brak Ca2+ = nie ma uczenia; mało Ca2+ = LTD, dużo Ca2+ = LTP
8
LTD
–
niespełnione
oczekiwania,
tylko
faza
-,
brak
wzmocnienia
z
+.
EE141
Kombinacja Hebb + błędy
Dobrze jest połączyć uczenie
Hebbowskie i korekcję błędów CHL
CHL jak socjalizm





próbuje poprawić błędy całości,
ogranicza motywacje jednostek,
wspólna odpowiedzialność
mała efektywność
działalność planowa
Hebbowskie uczenie jak kapitalizm





EE141
oparty na zachłanności
lokalne interesy
indywidualizm
skuteczność działań
brak nadzoru nad całością
Zalety
Wady
Hebb
(Lokalny)
Autonomiczny
Niezawodny
zawężony
zachłanny
Error
(Odległy)
Celowy
współzależny
9
Współpracujący leniwy
Kombinacja Hebb + błędy
Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL
Korelacje i błędy:
Kombinacja
Dodatkowo potrzebne jest hamowanie wewnątrz warstw:
tworzy oszczędne reprezentacje wewnętrzne,
jednostki konkurują ze sobą, zostają tylko najlepsze,
wyspecjalizowane, umożliwia samoorganizujące się uczenie.
EE141
10
Symulacje trudnego problemu
Genrec.proj.gz, roz. 5.9
3 ukryte jednostki.
Uczenie jest przerywane po 5
epokach bez błędu.
Błędy w czasie uczenia wykazują
znaczne fluktuacje – sieci z rekurencją
są wrażliwe na małe zmiany wag,
eksplorują różne rozwiązania.
Porównaj z uczeniem przypadków
łatwych i trudnych z samym Hebbem.
EE141
11
Hamująca konkurencja jako bias
Hamowanie (inhibition)
Prowadzi do rzadkich rozproszonych reprezentacji
(wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji)
Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych
Uczenie samoorganizujące się
Często ważniejsze niż Hebbowskie
Hamowanie było tez użyte
w mieszankach ekspertów


bramki (gating units)
podlegają kompetycji WTA
kontrolują wyjścia ekspertów
12
EE141
Porównanie zmian wag w uczeniu
Widok wag warstwy ukrytej w
uczeniu Hebbowskim
 Wagi neuronów
przedstawione są w
odniesieniu do
poszczególnych wejść
EE141
Widok wag warstwy ukrytej przy
uczeniu metoda korekcji błędu
 Wagi wydaja się dosyć
przypadkowe w porównaniu
z uczeniem Hebba 13
Porównanie zmian wag w uczeniu
b)
Epochs
Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje
ilości epok treningowych dla trzech rożnych metod uczenia
 Hebbowskie (Pure Hebb)
 Korekcja błędów (Pure Err)
 Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki
14
EE141
Pełny model Leabra
6 zasad budowy inteligentnego systemu.
1.
2.
3.
4.
Biologiczny realizm
Rozproszone reprezentacje
Wzajemne hamowanie
Dwukierunkowa
propagacja aktywności
1. Uczenie korygujące błąd
2. Uczenie Hebbowskie
Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów
dla wag pomiędzy warstwami.
15
EE141
Generalizacja
Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy
nust
za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde
zdanie które słyszysz, itd.
Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy
Jak to robimy?
16
EE141
Dobre reprezentacje
Rozproszone reprezentacje wewnętrzne.
Nowe pojęcia są kombinacją istniejących cech.
Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają
korekcję błędów tak, by utworzyć dobre reprezentacje.
17
EE141
Generalizacja w sieciach atraktorowych
Sama reguła GeneRec nie prowadzi do dobrej generalizacji.
Symulacje: model_and_task.proj. gz, rozdz. 6
Parametr hebb kontroluje ile CHL a
ile Hebba.
Pure_err realizuje tylko CHL,
sprawdzić fazy - i +
Porównać rep. wewnętrzne dla
różnych rodzajów uczenia.
18
EE141
Głębokie sieci (deep networks)
Do nauczenia się trudnych zagadnień potrzebnych jest wiele
transformacji, mocno zmieniających reprezentację problemu.
Sygnały błędu stają się słabe
i uczenie jest trudne.
Trzeba dodać ograniczenia i
samoorganizujące się uczenie.
Analogia:
Balansowanie kilkoma połączonym
kijkami jest trudne, ale dodanie
samoorganizującego się uczenia
pomiędzy fragmentami znacznie to
uprości – jak dodanie żyroskopu do
każdego elementu.
19
EE141
Uczenie sekwencyjne
Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań
istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach:
Ten kraj znasz dobrze.
Znasz dobrze ten kraj?
Dziecko podniosło zabawkę do góry.
Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się
zbliżał.
Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu.
Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą
być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur
w czasie gry są widoczne dopiero po kilku krokach.
Modele sieci reagują od razu – jak robią to mózgi?
EE141
20
Drzewo rodzinne
Przykład symulacji: family_trees.proj.gz, rozdz. 6.4.1
Czego jeszcze brakuje? Zależności czasowych i sekwencji !
21
EE141
Uczenie sekwencyjne
Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej
 a) przed uczeniem
 b) po uczeniu metoda kombinacji Hebba i korekcji błędów
Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom
22
EE141
Uczenie sekwencyjne
Kategorie zależności czasowych:
 Sekwencje o określonej strukturze
 Opóźnione w czasie
 Ciągłe trajektorie
Kontekst reprezentowany jest w płatach
czołowych kory
 powinien wpływać na warstwę
ukryta.
Potrzebne są sieci z rekurencją, które
potrafią utrzymać przez pewien czas
informacje o kontekście.
Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN),
 Warstwa kontekstu jest kopia warstwy ukrytej
Sieć Elmana.
23
EE141
Uczenie sekwencyjne
Biologiczne uzasadnienie reprezentacji kontekstu
Płaty czołowe kory
 Odpowiadają za planowanie i wykonanie czynności w
czasie.
 Ludzie z uszkodzeniami płata czołowego maja trudności w
wykonaniu sekwencji czynności mimo ze nie maja problemu
z poszczególnymi krokami czynności
 Platy czołowe odpowiedzialne są za reprezentacje w czasie
 Na przykład takie wyrazy jak “pokój” czy “pole” nabierają
znaczenia w zależności od kontekstu
 Kontekst jest funkcja poprzednio uzyskanej informacji
 Ludzie ze schizofrenia mogą używać kontekstu
bezpośrednio przed wieloznacznym wyrazem ale nie w
oparciu o poprzednie zdanie.
Reprezentacje kontekstu nie tylko prowadza do
sekwencyjnego zachowania ale tez są wymagane do
zrozumienia sekwencyjnie prezentowanej informacji takiej
jak mowa.
24
EE141
Przykłady uczenia sekwencji
Czy można odkryć reguły
tworzenia się sekwencji?
Przykłady:
Czy te sekwencje są do akceptacji?
BTXSE
BPVPSE
BTSXXTVVE
BPTVPSE
BTXXTTVVE
TSXSE
VVSXE
BSSXSE
Automat o następujących
przejściach produkuje takie
zachowania:
Jak pokazały testy ludzie są w stanie nauczyć się szybciej
rozpoznawać litery wyprodukowane według określonego
schematu, mimo ze nie znają użytych reguł
25
EE141
Realizacja sieciowa
Sieć wybiera przypadkowo jeden z
dwóch możliwych stanów.
Ukryte/kontekstowe neurony uczą się
rozpoznawać stany automatu, a nie
tylko etykiety.
Modelowanie zachowania:
te same obserwacje ale różne stany
wewnętrzne => różne decyzje i
następne stany.
Projekt fsa.proj.gz,
rozdz. 6.6.3
26
EE141
Opóźnienie czasowe i wzmocnienie
Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem
np. w uczeniu się gier, strategii zachowań.
Idea: trzeba przewidywać dostatecznie wcześnie
jakie zdarzenia prowadzą do nagrody.
Robi to algorytm różnic czasowych
(Temporal Differences TD - Sutton).
Skąd w mózgu nagroda?
Dopaminergiczny system śródmózgowia
moduluje działanie jąder podstawnych (BG)
przez substancję czarną (SN), oraz kory
czołowej przez brzuszną część nakrywki
śródmózgowia (VTA). Dość skomplikowany
system, którego działania związane są z
oceną bodźców/działań z punktu widzenia
wartości i nagrody.
EE141
27
Opóźnienie czasowe i wzmocnienie
Nakrywka śródmózgowia (VTA)
jest częścią systemu
nagradzającego.
Neurony nakrywki śródmózgowia
dostarczaja neurotransmiter
dopamine (DA) do płatów
czołowych i jąder podstawnych
modulując uczenie w tym
obszarze odpowiedzialnym za
planowanie i akcje.
Bardziej zaawansowane rejony mózgu odpowiedzialne są za
wyprodukowanie tego globalnego sygnału uczenia
Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego
role w przewidywaniu nagrody i kary.
Uczenie szympansow – liczenie 1-min
EE141
28
Mechanizmy nagrody
Skomplikowany mechanizm, pętle pobudzeń między wzgórzem, jądrami
podstawnymi, prążkowiem i korą czołową.
Jądra SNpc i VTA
wykorzystują dopaminę
by przewidywać zdarzenia niespodziewane.
Kora przedczołowa (PFC)
Kora okołoczołodołowa
WZGÓRZE
Brzuszne
Prążkowie
SNpc
Jądro
półleżące
VTA
29
EE141
Antycypacja nagrody i wynik
Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001)30
EE141
GŁÓWNY UKŁAD MOTYWACJI
KORA PRZEDCZOŁOWA (PfC)
Zmysłoworuchowa kora
skojarzeniowa
THALAMUS
PRĄŻKOWIE
J.OGONIASTE
-SKORUPA
PODWZGÓRZEPRZEGRODA
JĄDRO
PÓŁLEŻĄCE
Brzuszna
Część Nakrywki (VTA)
HIPOKAMP
ISTOTA
CZARNA
J. SZWU
Neuroprzekaźniki
CIAŁO MIGDAŁOWATE
DODATKOWY UKŁAD MOTYWACJI
Glutamininan
GABA
Pętla kora-prążkowie-wzgórze-kora
EE141
Dopamina
Serotonina
31
Jądra podstawne BG
Neurony VTA uczą się najpierw reagować na nagrodę a następnie
przewidywać wcześniej pojawienie się nagrody.
32
EE141
Szkic sformułowania – algorytm TD
Należy określić funkcję wartości, suma po wszystkich przyszłych
nagrodach, im dalsze w czasie tym mniej ważne:
Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t)
AC w każdej chwili czasowej stara się przewidzieć wartość nagrody
Można to zrobić rekursywnie:
Błąd przewidywanej nagrody:
Sieć próbuje zredukować ten błąd.
Nazwa algorytmu – TD (temporal difference) reprezentuje błąd
oceny funkcji wartości otrzymany w przedziale czasowym
EE141
33
Implementacja sieciowa
Przewidywania aktywności i błędu.
Warunkowe
pobudzenie
CS dla t=2
Bezwarunkowe
pobudzenie
(nagroda)
US dla t=16
rl_cond.proj.gz
Początkowo duży błąd
dla Time=16 bo nagroda
r(16) jest niespodziewana
Adaptacyjny
krytyk AC
34
EE141
Dwufazowa implementacja
(Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r).
(Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(tk).
Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie -


1
Vˆ  (t  1)  Vˆ  (t  1)

CS dla t=2
US dla t=16
Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku
Uczenie szympansów – kolejność cyfr 1 min
35
EE141
Dwufazowa implementacja
System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę
Wejście CSC – Complete Serial Compound, zastosowano unikalne
elementy do bodźców w kolejnych momentach czasu.
Rozdz. 6.7.3, proj.
rl_cond.proj.gz
Nie jest to zbyt realistyczny model warunkowania klasycznego.
36
EE141
Download