Architektury kognitywne, czyli jak zbudować sztuczny

advertisement
Architektury kognitywne, czyli
jak zbudować sztuczny umysł?
Włodzisław Duch
Katedra Informatyki Stosowanej UMK
Google: W. Duch
Sposoby działania umysłu i metody ich badania, Poznań, 18-19.04.08
Plan
Podejście inżynierskie: zrozumieć = zbudować.
Przegląd architektur kognitywnych przydatnych do
modelowania umysłu + propozycja nowej.
• Porażki sztucznej inteligencji
• Wielkie wyzwania dla AI
•
•
•
•
Architektury symboliczne
Architektury emergentne
Architektury hybrydowe
Trendy rozwoju
• Umysł i mózg,
nowe (?) spojrzenie.
Porażki AI
Wiele ambitnych projektów zmierzających do stworzenia AI
skończyło się niepowodzeniem, np:
A. Newell, H. Simon, General Problem Solver (1957).
Eduardo Caianiello (1961) napisał równania „mnemoniczne”, które
wyjaśniały wszystkie zachowania, ale nie były .
Japoński projekt komputerów 5-tej generacji 1982-1994.
AI zawiodła w wielu zastosowaniach:
• percepcji, rozumienia obrazów,
• rozwiązywaniu problemów, rozumowaniu,
• kontroli i planowania zachowania,
• rozumienia i używania języka naturalnego ...
Dlaczego?
• Zbyt naiwne podejścia?
• Zbyt teoretyczne, oderwane od zastosowań?
• Ignorowanie prawdziwych problemów i wyzwań?
Kilka ambitnych projektów
CYC, Douglas Lenat, 1984 rok, firma komercyjna CyCorp od 1995 roku.
Zawiera obecnie ponad 2.5 milionów faktów (asercji) łączących ponad
150.000 pojęć zorganizowanych w tysiące mikro-teorii.
Cyc-NL ciągle figuruje jako “potencjalne zastosowanie”, reprezentacja
wiedzy za pomocą ram daje wielkie możliwości, ale jest trudna w użyciu.
Podejście symulujące procesy rozwojowe:
Cog: od 1994 roku na MIT, grupa R. Brooksa,
inteligencja behawioralna - nadal aktywna dziedzina.
Założenie: inteligencja ludzka jest wynikiem procesów
rozwojowych, oddziaływań społecznych,
ucieleśnienia umysłu oraz integracji wielomodalnej
informacji zmysłowej; konieczna jest ewolucja robota.
Seria robotów Nomad/Darwin, G. Edelman.
Hall baby brain – konwersacja z botem by rozwinąć
umysł dziecka? www.a-i.com
Wyzwania: język
• Test Turinga – pierwotny test zbyt trudny.
• Warianty: pytania: tak/nie; osobisty test Turinga
(Carpenter & Freeman), program udaje osobę, którą dobrze znamy.
• Nagroda Loebnera: w stylu testu Turinga, od prawie 20 lat zawody
botów i ludzi rozmawiających z sędziami, większość oparta na
szablonach i dopasowaniu wzorców = oszustwo daje dość dużo.
• Systemy Q/A, oceniane na Text Retrieval Conference (TREC).
• Gry słowne, np. gra w 20 pytań, wymagająca znajomości pojęć i ich
własności, ale nie złożonych relacji pomiędzy nimi.
Postępy w uczeniu się naturalnego języka zależą od automatycznego
tworzenia, rozwijania i używania obszernych baz wiedzy.
• Inteligentne systemy wspomagające nauczanie, kombinacja
rozumowania i kompetencji językowych, trudne do oceny?
Wyzwania: rozumowanie
• Partnerzy doradzający ludziom w pracy, oceniający ich rozumowanie
(sprawdzanie twierdzeń), podsuwający kreatywne idee, interesujące
skojarzenia, szukający istotnych informacji dla danego projektu.
• Super-expert w wąskiej dziedzinie (Feigenbaum): potrzebuje sporo
ogólnej inteligencji do komunikacji + wyrafinowanego wnioskowania;
realne zastosowania w matematyce, prawie, bionaukach, partner dla
eksperta stawiającego pytania, egzaminy jak studentów.
• Podobny kierunek, ale bez NLP: Automated Theorem Proving (ATM)
System Competitions (CASC) organizowany w wielu podkategoriach.
• Ogólne AI w matematyce: dowodzenie twierdzeń z różnych dziedzin,
techniki metauczenia + specializowane moduły + NLP.
• Automatyczne rozwijanie genomicznych baz danych, tworzenie modeli
procesów genetycznych, białkowych, metabolicznych bioorganizmów.
Ogólna AI, czyli AGI?
• System ogólnego użytku, który mógłby się nauczyć wykonywania
różnych prac, jaki procent zawodów wykonywanych przez ludzi mogą
wykonywać systemy AI (Nilsson, “child machine” Turinga).
• W dziedzinach wymagających przetwarzania informacji postęp można
oceniać robiąc egzaminy, tak jak np. w księgowości.
• Prace manualne wymagają koordynacji percepcji/działania, trudniejsze?
• Wiele prac w przemyśle, usługach finansowych, drukarniach itd. zostało
zautomatyzowanych przez zmianę organizacji pracy, a nie AI.
• Zawody DARPA Desert & Urban Challenge (2005/07), stara technologia,
integracja analizy obrazów i sygnałów, sterowania, rozumowania.
• Robotyka humanoidalna: rozumienie percepcji, uwaga, nauka modeli
przyczynowych, uczenie hierarchiczne z różnymi skalami czasowymi.
• “Personal Assistants that Learn” (PAL), DARPA 2007, SRI+21 instytucji
5-letni projekt budowy partnerów/osobistych asystentów, a nie całkowitej
eliminacji ludzi (projekt RADAR na CMU ma się sam douczać).
Projekty lingwistyczne
Open Mind Common Sense Project (MIT):
projekt kolaboracyjny WWW , ponad 15 000 autorów,
którzy wpisali ponad 710 000 faktów; wyniki posłużyły do utworzenia
ConceptNet, bardzo dużej sieci semantycznej.
Commonsense Computing @ MediaLab, MIT, miał stworzyć skalowalny
system oparty na zdroworozsądkowej wiedzy, zbieranej z tekstów,
zautomatyzowanych obserwacji i w projektach kolaboracyjnych.
LifeNet zbiera informację o wydarzeniach w życiu, opiera się na wersji
Multi-Lingual ConceptNet używając sieci semantycznej, która ma 300 000
węzłów; informacja o zdarzeniach ma być zbierana z sensorów.
Honda Open Mind Indor Common Sense zbiera nadal info zadając pytania.
Inne projekty:
HowNet (Chinese Academy of Science),
FrameNet (Berkeley), różne duże ontologie,
MindNet (Microsoft), początkowo do tłumaczenia.
Projekty te próbują zgromadzić fakty o świecie.
Architektury kognitywne
• AK służą często do modelowania ludzkich działań w sytuacjach
wykonywania wielu czynności wymagających interakcji, a nie AGI.
• Newell, Unified Theories of Cognition (1990), podał 12 kryteriów oceny
AK: behawioralne: adaptacja, dynamika, elastyczność; rozwój,
ewolucja, uczenie się, integracja wiedzy, rozległość wiedzy, zdolności
językowe, sterowanie w czasie rzeczywistym, mózgopodobność.
Architektury kognitywne
Symboliczne
Emergentne
Pamięć
Pamięć
Reguły lub grafy
Globalna, rozproszona
lub lokalna
Hybrydowe
Pamięć
Regułowa, symboliczna,
lub koneksjonistyczna
Uczenie
Indukcyjne
lub analityczne
Uczenie
Asocjacyjne
i/lub konkurencyjne
Uczenie
Mieszane
-
Architektury symboliczne
• Typy architektur ~ typom problemów.
• Fizykalny system symboliczny (Newell & Simon): wejścia, wyjścia i
manipulacja tokenami odpowiadającymi symbolom, cele i działania.
• Większość symbolicznych AK ma: centralny nadzór nad przepływem
informacji od sensorów przez pamięć do efektorów; rozumowanie
logiczne; regułowa reprezentacja relacji postrzeżenie/działanie;
ważna rola pamięci roboczej + semantycznej + funkcji wykonawczych.
• Reprezentacje graficzne: sieci semantyczne i grafy koncepcji,
ramy/schematy, zbiory reakcji (reactive action packages, RAPs).
• Techniki uczenia: analityczne i indukcyjne.
• Analityczne: prowadź wnioskowanie z którego wynikają dodatkowe
fakty, np. explanation-based learning (EBL), uczenie przez analogię.
• Indukcyjne: przykłady => reguły ogólne; np. knowledge-based inductive
learning (KBIL), czy uczenie z opóźnioną krytyką (DRF).
• Symbole statyczne i dynamiczne: istotne rozróżnienie?
• Kilka AK jest dobrymi kandydatami na AGI.
SOAR
• SOAR (State, Operator And Result): klasyczny przykład
(rozwijany >25 lat) architektury symbolicznej, aproksymacja regułowa
AK systemu opartego na wiedzy, model ogólnej inteligencji.
• Wiedza = reguły produkcji, wnioskowanie = operatory w p-ni problemu.
• Uczenie przez porcjowanie (chunking), technika analityczna tworzenia
reguł i makro-operacji z analizy historii rozwiązywania problemu.
• Pokazano wiele funkcji wyższego rzędu: przetwarzanie złożonych baz
wiedzy w planowaniu, rozwiązywaniu problemów, rozumieniu języka
naturalnego (NL-SOAR) w czasie rzeczywistym w realnych warunkach.
• Wiele rozszerzeń architektury SOAR, nie w pełni zintegrowanych:
uczenie – z krytykiem, zmienia preferencje działań operatorów,
uczenie epizodyczne oparte na historii ewolucji stanu systemu,
uczenie semantyczne by lepiej opisać abstrakcyjną wiedzę,
wyobraźnia przestrzenna, zachowania afektywne, uczucia
ukierunkowujące uczeni z krytykiem i rozumowanie bezpośrednie.
• Brakuje: zapominania, uwagi, selekcji informacji, uczenia
hierarchicznych reprezentacji, uczenia w warunkach niepewności.
Inne symboliczne AK
• EPIC (Executive Process Interactive Control), D.E. Kieras, model HCI,
percepcja, elementy poznawcze i sterowanie, równoległe procesory
kontrolowane przez reguły produkcji + procesory sygnałów wzrokowych,
dźwiękowych i dotykowych & procesory sterujące działające na
symbolicznie opisanych cechach.
• EPIC-SOAR do rozwiązywania problemów, planowania i uczenia się,
zastosowany do kontrolowania lotów.
• ICARUS (P. Langley) to architektura przeznaczona dla robotów, wiedza
jest w reakcjach i planach związanych z celami dla określonej klasy
problemów (~2005). Uwzględnia percepcję, planowanie, sterowanie,
kilka podsystemów pamięci.
Percepty => Koncepty; posiada wiedzę o ogólnych klasach obiektów.
Cele => Umiejętności; wiedza proceduralna, hierarchiczna LTM & STM,
oraz hierarchiczne, RL => stopniowe nabywanie umiejętności, skupianie
uwagi, szybkie reakcje i szukanie; gry, jazda samochodem.
• OSCAR (J. Pollock, 1989), blueprint for mind, rozumowanie podważalne.
Symboliczne AK 2
• NARS (Non-Axiomatic Reasoning System) (P. Wang, ~20 lat),
semantyka oparta na doświadczeniu i języku, zbiór reguł
wnioskowania, pamięć i mechanizm kontrolny, to różne aspekty tego
samego procesu realizującego wyższe czynności poznawcze.
• Prawdziwość oceniana jest na podstawie doświadczenia w używaniu
danego wzorca, nie-aksjomatyczna logika pozwala na adaptację przy
niewystarczającej wiedzy.
Prototypy NARS stosowane były do prostych problemów.
• SNePS (Semantic Network Processing System) (S. Shapiro ~30 lat);
logika, ramy i koneksjonistyczna reprezentacja wiedzy, rozumowania
i działania; schematy wnioskowania w oparciu o logikę, ramy i sieci
semantycznie w pakiecie SNIP + system aktualizacji wiedzy.
• SNePS Rational Engine kontroluje i planuje sekwencje działań w
oparciu o założenia pozytywne i negatywne.
• Stosowany w projektach NLP, rozumowania zdroworozsądkowego,
systemach Q/A, agentach, ale żadnych większych aplikacji.
Emergentne AK
Funkcje poznawcze powinny pojawić się w sieciach
prostych neuropodobnych elementów.
• Globalna bądź lokalna organizacja pamięci:
uczenie się danych o złożonej strukturze logicznej wymaga obu!
• Globalne: sieci MLP używają nielokalnych funkcji, projekcji,
rozproszonych reprezentacji, reakcje zależą od wszystkich parametrów,
dobrze generalizują ale czasami katastroficznie zapominają.
• Lokalne: sieci wykorzystujące rozwinięcia na funkcje bazowe używają
funkcji zlokalizowanych, rezultat zależy od lokalnych parametrów.
• Modularna organizacja sieci zawsze może utworzyć grupy elementów
przetwarzających, które będą reagować lokalnie.
• Różna metodologia uczenia: heteroasocjacja w nadzorowanym lub
wzmacnianym uczeniu, uczenie konkurencyjne (WTA lub WTM),
uczenie korelacyjne (Hebb) do tworzenia modeli wewnętrznych.
• Bliżej percepcji i niższych czynności niż czynności wyższych, które
łatwiej jest zrealizować w oparciu o podejście symboliczne.
Dynamika Synaptyczna
Synapsy
Soma
I syn (t )
Impuls
EPSP, IPSP
Projekt Blue Brain
10 000 neuronów w
kolumnie, 30M synaps
Rsyn
Impuls
Csyn
Cm
I AMPA,ext (t )  g AMPA,ext (Vi (t )  VE ) w s
AMPA, ext
ij j
Rm
s AMPA
(t )
d AMPA
j
s j (t )  
   (t  t kj )
dt
 AMPA
k
(t )
j
I AMPA,rec (t )  g AMPA,rec (Vi (t )  VE ) w s
AMPA, rec
ij j
s NMDA
(t )
d NMDA
j
s j (t )  
  x j (t )(1  s NMDA
(t ))
j
dt
 NMDA,decay
(t )
j
I NMDA,rec (t ) 
g NMDA,rec (Vi (t )  VE )
(1  [ Mg
2
ws

]exp( 0.062V (t ) / 3.57))
i
, rec
I GABA,rec (t )  gGABA,rec (Vi (t )  VE ) wij s GABA
(t )
j
j
NMDA, rec
ij j
j
x NMDA
(t )
d NMDA
j
(t ) x j (t )  
   (t  t kj )
dt
 NMDA,rise k
sGABA
(t )
d GABA
j
s j (t )  
   (t  t kj )
dt
 GABA
k
Pole średnie czy impulsy?
Mózg: 1011 neuronów
Połączone mikroobwody
A
C
B
F

 I B   I B  aF ( A)  I ext  ...
t
Model pola
średniego
Sieci neuronów impulsujących
Neuron Pools
neuron
Grupa
spikes
1
2
3
V2 (t ) neuron 1
neuron 2
t
d
 m Vi (t )   gm (Vi (t )  VL )  I syn (t )
dt
Całkuj i impulsuj:
t
M Neurony
Aktywność
grupy:
t
M
A(t )  lim
t  0
nspikes (t , t  t )
M t
Emergentne IBCA
• IBCA (Integrated Biologically-based Cognitive Architecture),
(O'Reilly, Y. Munakata 2000): wyróżnia 3 typy pamięci.
• W korze ciemieniowej (PC), zazębiające się, rozproszone lokalne
moduły, hierarchiczne, sensomotoryczne wielomodalne działania.
• W korze czołowej (FC) izolowana lokalna rekurencyjna reprezentacja
odpowiedzialna za pamięć roboczą, wkład kombinatoryczny.
• W hipokampie (HC) rzadka, koniunktywna organizacja globalna,
scalająca wszystkie pobudzenia w PC i FC (pamięć epizodyczna).
• Algorytm LEABRA łączy korelacyjne uczenie Hebbowskie, redukcję
błędów do uczenia umiejętności i dynamikę konkurencyjną kWTA.
• Moduły PC & FC: powolne uczenie się regularności.
• Moduł HC: szybkie uczenie, zapamiętywanie i rozróżnianie epizodów.
Współpraca HC - FC/PC realizuje komplementarne strategie uczenia.
• Wyższe czynności poznawcze wynikają z aktualizacji reprezentacji
modułu FC umożliwiającego samo-regulację.
• Jedynie podstawowe fakty psychologiczne; cele? emocje? skalowanie?
Emergent CA: others
• NOMAD (Neurally Organized Mobile Adaptive Device)
(Edelman >20 lat), oparty o teorię “neuronalnego Darwinizmu”,
emergentna architektura rozpoznająca wzorce w czasie
rzeczywistym. Symulacja ~105 neuronów i~107 synaps, rozwój poprzez
zadania behawioralne, system wartości oparty o nagrody i adaptację
pozwala na uczenie interesujących zachowań, własne ruchy istotne dla
rozwoju percepcji, model hipokampa do nawigacji przestrzennej i
pamięci epizodycznej, niezmiennicze rozpoznawanie obiektów
widzianych na obrazach, scalanie cech obiektów dzięki synchronizacji
neuronów, sterowanie współbieżne. Wyższe czynności poznawcze?
• Cortronics (Hecht-Nielsen 2006), funkcje wzgórzowo-korowe.
• Leksykon oparty na zlokalizowanych, cześciowo się nakrywjących,
ensemblach korowych ze zwrotnymi połączeniami koduje symbole.
Atomy wiedzy = połączone symbole, z uczeniem i wydobywaniem
informacji przez konfabulację, konkurencyjną aktywację symboli.
• Konfabulacja odpowiedzialna jest za antycypację, wyobraźnię,
kreatywność, w skali czasu szybszej niż procesy rozumowania.
Emergente trendy
• The NuPIC (Numenta Platform for Intelligent Computing) , J. Hawking
(2004), Hierarchical Temporal Memory (HTM), każdy węzeł uczy się i
ma pamięć. Specyficzne połączenia między warstwami dają
niezmienniczą reprezentację obiektów. Podkreśla czasy aspekt
percepcji, sekwencji pamiętanych zdarzeń, antycypację.
• Autonomous mental development (J. Weng, ~10 y).
• M.P. Shanahan (2006), symulacja stanów wewnętrznych z globalnej
p-ni roboczej za pomocą bezwagowych sieci, prosta kontrola robota.
• P. Haikonen “świadome maszyny” (2007) oparte na sieciach z
rekurencją i mechanizmem WTA w każdym module, dość naiwne.
• J. Anderson, Erzatz brain (2007), prosty model kory.
• COLAMN (M. Denham, 2006), i “laminar computing” S. Grossberga.
• E. Korner & G. Matsumoto: AK kontroluje ograniczenia używane do
wyboru właściwego algorytmu dla rozwiązania specyficznego problemu.
• DARPA Biologically-Inspired Cognitive Architectures (BICA) program
(2006), “TOSCA: Comprehensive brain-based model of human mind”.
Hybrydowe AK: ACT-R
• ACT-R (Adaptive Components of Thought-Rational) (J. Anderson,
>20 lat rozwoju), symulacje szerokiej gamy zadań poznawczych.
• Moduły sensomotoryczne, moduły pamięci, dopasowywanie wzorców.
• Symboliczno-koneksjonistyczne structury pamięci deklaratywnej (DM),
porcjowanie wiedzy; pamięć proceduralna (PM) w postaci reguł.
Konstrukcje symboliczne związane są ze zbiorem niesymbolicznych
parametrów które zapisują informacje o użyteczności w przeszłości,
pozwalając ocenić przydatność skojarzeń, reguł i porcji wiedzyw
przeszłości i w obecnym kontekście.
• Bufory - WM dla komunikacji między modułami i dopasowanie wzorców
dla szukania reguł, które pasują do informacji w buforach pamięci.
• Uczenie wykorzystuje hipotezy, niesymboliczne parametry najbardziej
przydatnych porcji wiedzy i reguł są dostrajane algorytmem Bayesa.
• Architektura ACT-R może być z grubsza porównana z budową mózgu.
• Wykorzystywany w wielu symulacjach psychologicznych, inteligentnych
tutorach, brak ambitnych zastosowań do rozwiązywania problemów.
Hybrydy: CLARION
• CLARION (Connectionist Learning Adaptive Rule Induction ON-line)
(R. Sun, ~15 lat): celem jest tworzenie kognitywnych agentów oraz
zrozumienie procesów psychologicznych uczenia się i rozumowania.
4 moduły pamięci, każdy ma reprezentację jawną i ukrytą: podsystemy
działania (ACS) do sterowania działaniami agenta,
wiedzy (NCS) do pielęgnacji wiedzy zawartej w systemie,
motywacji (MS), wpływa na postrzeganie, działanie, poznawanie,
meta-poznania (MCS) to najwyższy szczebel kontroli pozostałych.
• Pamięć zlokalizowana koduje wiedze jawną, a rozproszona
(realizowana np. w sieci MLP) wiedze utajoną.
• Utajone uczenie oparte jest na RL lub sieci MLP która ma
rekonstruować wiedze utajoną na poziomie działania.
• Niektóre reguły są ustalane lub pre-kodowane na najwyższym szczeblu
i modyfikowane w wyniku obserwacji skutków ich użycia.
• Dostępny jest program + przykłady symulacji; zrobiono złożony model
podejmowania decyzji w czasie nawigacji po polu minowym.
Hybrid CA: Polyscheme
• Polyscheme (N.L. Cassimatis, 2002) integruje kilka metod
reprezentacji, rozumowania i schematów rozwiązywania problemów.
Używa modeli „specjalistów” dla wybranych aspektów środowiska.
• Są to skrypty, ramy, warunki logiczne, sieci neuronowe, sieci
ograniczeń reprezentują wiedzę, komunikujące się i uczące od innych
specjalistów; uwaga sterowana jest przez specjalistę, schematy
skupiania się wykorzystują wiele mechanizmów wnioskowania,
pielęgnacji wiedzy i symulacji stochastycznych.
• Rozumowanie na wysokim poziomie sterowane jest przez schematy
skupiania uwagi; konkretne operacje to tworzenie podceli,
wnioskowanie wprzód i w tył z różnymi reprezentacjami dla tych
samych celów; można więc uwzględnić percepcję i sterowanie.
• AK przeznaczona zarówno do rozumowań abstrakcyjnych jak i
sterowania robotem. Zastosowana do modelownia rozumownania
niemowlaka na temat zdarzeń, ich przyczyn, relacji przestrzennych.
• Meta-uczenie, łączące różne podejścia do rozwiązywania problemów.
• Na razie brak ambitnych zastosowań.
Hybrydowe 4CAPS
• 4CAPS (M.A. Just 1992) powstało z myślą o złożonych zadaniach,
rozumieniu języka, rozwiązywaniu problemów i orientacji przestrzennej.
• Zasada operacyjna: “Myślenie jest wynikiem jednoczesnej aktywności
wielu obszarów w rozległych sieciach korowych”.
• Użyteczne do modelowania szybkości reakcji i liczby błędów przy
rozwiązywaniu problemów wymagających analogii, pracy z komputerem,
rozumieniu tekstów i innych złożonych zadań rozwiązywanych przez
normalnych ludzi jak i chorych psychicznie.
• Aktywność modułów 4CAPS można skorelować z fMRI i innymi danymi.
• Model zawiera centra odpowiadające poszczególnym obszarom mózgu,
które mają różne style przetwarzania informacji; np. obszar Wernickego
konstruuje i selektywnie odwołuje się do sekwencyjnych i hierarchicznych reprezentacji. Każdy obszar może brać udział w wielu funkcjach
kognitywnych, ale sam ma ograniczone możliwości obliczeniowe.
Funkcje przypisywane są obszarom w zależności od tego jak już są
obciążone, dlatego topologia całej sieci nie jest ustalona.
Interesujące, ale czy nadaje się w tej formie do AGI?
Inne hybrydy
• LIDA (The Learning Intelligent Distribution Agent) (S. Franklin, 1997),
schemat budowy agentów, idee globalnej przestrzeni roboczej.
• LIDA: organizacja pamięci symboliczno-koneksjonistyczna, moduły
percepcyjne, pamięci roboczej, emocji, pamięci semantycznej i
epizodycznej, oczekiwań, wyboru akcji, uczenia proceduralnego,
spełniania ograniczeń, negocjacji, rozwiązywania problemów,
metapoznania i imitacji zachowań świadomych.
• Współpraca kodletów, specjalizowanych podsieci.
• Uczenie percepcyjne, epizodyczne i proceduralne, od danych.
• DUAL (B. Kokinov 1994), inspirowane przez “Society of Mind” (Minsky)
hybrydowa architektura wieloagentowa, emergentna dynamika
obliczeń, micro-agenci realizują funkcje pamięci i przetwarzania
informacji tworząc koalicje, na makropoziomie możliwe są interpretacje
psychologiczne własności powstających w ten sposób modeli.
• Mikro-ramy używane są do symbolicznej reprezentacji faktów,
istotność w określonym kontekście <= wag połączeń i aktywacji sieci.
• Stosowane w modelowaniu psychofizyki i rozumowania. Skalowanie?
Hybrid CA: others 2
• Shruti (Shastri 1993), biologicznie inspirowany model wnioskowania,
koneksjonistyczna reprezentacja typów, związków przyczynowych,
używając synchronizacji klastrów elementów, dopuszcza
kwantyfikatory, stopnie zaufania do informacji. Synchronizacja pozwala
na dynamiczne powiązania węzłów, pozwalając na reprezentację
złożonej wiedzy i szybkie wnioskowanie.
model ma duży potencjał, ale rozwija się powoli.
• The Novamente AI Engine (B. Goertzel, 1993), oparty na modelu
psynet i “filozofii umysłu opartej na wzorcach”: samoorganizujących
się wzorcach odpowiadających stanom mentalnym.
• Emergentne procesy wynikające z interakcji prowadzą do
hierarchicznej i relacyjnej (heterarchicznej) organizacji wzorców.
• Probabilistyczna logika termów (PTL), i algorytm Bayesowskiej
Optymalizacji (BOA) odpowiedzialne są za wnioskowanie.
• Akcje, postrzeżenia, stany wewnętrzne reprezentowane przez grafy.
• Nowa architektura, skalowanie nie znane.
Dokąd zmierzamy?
• Wiele AK, niektóre rozwijają się od ~ 30 lat, inne są nowe.
• Jedynie nieliczne użyto w ambitnych projektach, nie było to łatwe.
• Potrzebne jest skupienie na wielkich wyzwaniach + precyzyjnych
krokach prowadzących do super-ludzkiego poziomu kompetencji.
• AGI potrzebuje większej elastyczności, rozszerzenia demonstracji AK z
trywialnych domen na rezultaty interesujące dla ekspertów,
pomagające im jako partnerzy w pracy – vide projekty w realizacji.
• Jakiego typu inteligencję chcemy zbudować?
H. Gardner (1993) wyróżnił siedem typów inteligencji:
logiczno-matematyczną, lingwistyczną, przestrzenną, muzyczną,
kinestetyczną, inter i intra-personalną, ostatnio dodano do tego
inteligencję emocjonalną i kilka innych.
• Do pewnego stopnia są to niezależne rodzaje inteligencji!
AGI nie musi dobra we wszystkim... musi być wystarczająco szeroka
by osiągnąć kompetencje w kilku dziedzinach, np. różnych grach.
Inteligencja behawioralna?
• R. Brooks: słonie nie grają w szachy, roboty potrzebują wzroku,
słuchu i czucia by się “nauczyć myślenia w oparciu o doświadczenie
działania, realizując coraz bardziej abstrakcyjne zadania”.
• Projekt Cog ma wielu naśladowców, ale po 15 latach jest to nadal
agent reaktywny i nie widać jak w nim zrealizować wyższe czynności.
• W 7PR priorytet panelu „intelligence and cognition” określony został
jako „deep embodiment, new materials, physics doing computations”.
• Czy enaktywizm wystarczy? Czy jest konieczny? Jakie są ograniczenia
podejścia symbolicznego, emergentnego, hybrydowego?
• Słonie są inteligentne, ale nie grają w szachy ani nie dyskutują.
• Rezultaty ostatnich dwóch dekad nie są dla AGI zachęcające.
• Ogólne AK mogą nie wystarczyć do rozwiązania problemów z
percepcją (np. Poggio lansuje BICA dla wzroku), języka naturalnego,
specyficzne modele różnych funkcji mózgu mogą być konieczne do
osiągnięcia poziomu organizmów biologicznych.
• Znaczny postęp w robotyce.
Ocena postępów
• Jak mierzyć postępy? To zależy od dziedziny.
• Warianty testu Turinga, konkurs Loebnera, gra w 20Q i inne gry słowne
mogą dostarczyć wymiernych wskaźników.
• Machine Intelligence Quotient (MIQ) można systematycznie mierzyć w
zadaniach wymagających kooperacji człowiek-maszyna, np. z pomocą
analizy używającej Intelligence Task Graph (ITG) (Park i in. 2001).
• Wskaźniki użyteczności HCI sprawności narzędzi AI, np. tutorów ITS.
• Konkurs Agent-Based Modeling and Behavior Representation (AMBR)
Model Comparison (2005) porównał poziom działania AK i ludzi w
uproszczonym środowisku kontroli lotów.
• W 2007 r. na AAAI Workshop “Evaluating Architectures for Intelligence”
zaproponowano oceny AK używając sterowania pojazdami w mieście
w różnych warunkach by mierzyć możliwości rozwoju i dostosowania
się systemu mającego wykazać się ogólną inteligencją.
Kognitywny wiek
• Ocena “kognitywnego wieku” może opierać się na
problemach, które potrafią rozwiązać dzieci w danym
wieku w określonych dziedzinach, np. percepcji, rozumienia języka,
rozumowania o różnych zagadnieniach, pytań na temat ogólnej wiedzy
o świecie, uczenia się, rozwiązywania problemów, kreatywności itp.
• Rozwiązania wszystkich problemów typowych dla danego wieku
kwalifikowało by dany system do określenia „inteligentnego n-latka”.
• Wiek można by określić również osobno w wybranych dziedzinach –
AK są bardzo młode w percepcji ale zaawansowane w rozumowaniu
abstrakcyjnym, przynajmniej w porównaniu z przeciętną populacją.
• Ogólną wiedze o świecie sprawdzają systemy Q/A – czemu Mars jest
czerwony? Odpowiedzi AK można porównać z odpowiedziami dzieci.
• Wiedza zdroworozsądkowa jest dość ograniczona, poza CyC, który
jest trudny w użyciu. Brakuje ontologii zdroworozsądkowych,
reprezentacje pojęć w słownikach są bardzo ubogie.
Trendy
• Dominują architektury hybrydowe, ale inspiracje biologiczne
nabierają znaczenia, nowe architektury to głowie BICA.
• Inspiracje głównie oparte na działaniu układu wzgórzowo-korowego i
limbicznego, utożsamianego z aspektami kognitywnymi i afektywnymi.
• Kilka kluczowych cech znajdzie się we wszystkich BICA:
hierarchiczna organizacja przetwarzania informacji na wszystkich
poziomach; mechanizmy uwagi, orientacji przestrzennej, elastyczne
wykorzystanie zasobów, różne skale czasowe, różne typy pamięci ,
wyobraźnia, intuicja i kreatywność.
Czego jeszcze brakuje:
• Interakcji lewej i prawej półkuli w procesach poznawczych.
• Regulacyjnej roli pnia mózgu w wyborze zachowań różnego typu.
• W modelach ludzkiego zachowania brakuje bardziej subtelnych funkcji,
np. różnych aspektów ja, lub rozróżnień strachu i lęku, za które
odpowiedzialne są odmienne jądra migdałowate.
Pamięć
Rozróżnienie typów pamięci jest ważne; rozumienie wymaga:
• rozpoznawania elementarnych fonemów lub znaków, czyli mapowanie
dźwięków lub stringów liter na unikalne termy;
• rozstrzyganie wieloznaczności i mapowanie termów na pojęcia
określone w ontologii;
• pełna semantyczna reprezentacja tekstów wspomagająca rozumienie i
odpowiedzi na pytania.
• Te 3 kroki wymagają różnego typu pamięci.
• Pamięć rozpoznawcza zwraca uwagę na odstępstwa od oczekiwań.
• Pamięć semantyczna to nie tylko hierarchiczna ontologia, lecz również
dynamiczny proces rozchodzenia się aktywacji, skojarzeń na
podstawie strukturalnych własności pojęć i ich relacji.
• Pamięć epizodyczna konieczna jest do tworzenia modelu sytuacji czy
zdarzenia, scalenia różnych aspektów przeżywanego doświadczenia.
• Pamięć robocza tworzy tymczasową przestrzeni do działania.
BICA jako aproksymacja
• Znaczne postępy poczyniono wykorzystujące inspiracje z badań nad
mózgiem do analizy percepcji, mniejsze dla wyższych czynności pozn.
• Neurokognitywne podejście do lingwistyki stosowano do analizy
zjawisk lingwistycznych ale nie ma ono wpływu na NLP.
• Potrzebne są nowe matematyczne techniki by opisać procesy
obliczeniowe w terminach “wzorców stanów mózgu” i rozchodzenia się
aktywacji między takimi wzorcami. Jak to zrobić? Prototypy stanów
neuronowych? Quasi-stacjonarne fale pobudzeń opisujące globalne
stany mózgu (w,Cont)? Transformacja mózg-umysł?
• Jak wyglądają ścieżki rozchodzenia się aktywacji w mózgu?
Praktyczny algorytm rozszerza rep. pojęcia o te kategorie skojarzeń,
które są pomocne w klasteryzacji i klasyfikacji (Duch i inn, NN w
druku), usuwając słabe skojarzenia przez filtrowanie cech.
• Prace nad automatycznym tworzeniem opisu pojęć na podstawie
słowników, ontologii, encyklopedii i projektów kolaboracyjnych, oraz
aktywnego szukania w swobodnych tekstach są w toku.
HIT – duży projekt …
T-T-S synthesis
Affective
computing
Learning
Brain models
Behavioral
models
Speech recognition
HIT projects
Talking heads
Cognitive Architectures
AI
Robotics
Graphics
Lingu-bots
A-Minds
VR avatars
Info-retrieval
Cognitive
science
Knowledge
modeling
Semantic
memory
Episodic
Memory
Working
Memory
Architektura DREAM
Web/text/
databases interface
NLP
functions
Natural input
modules
Cognitive
functions
Text to
speech
Behavior
control
Talking
head
Control of
devices
Affective
functions
Specialized
agents
DREAM zawiera zarówno afektywne jak i kognitywne funkcje, sterowanie, analizę
naturalnych sygnałów, ale nacisk kładziemy na funkcje językowe.
Zapytanie
Pamięć semantyczna
Zastosowania, np
gra w 20 pytań.
Magazynowanie
Awatar, HIT:
interfejs graficzny
http://diodor.eti.pg.gda.pl
Oznaczanie części mowy
i ekstrakcja frac
weryfikacja
Słowniki, ontologie,
informacja tekstowa
ręczne poporawki
Parser
Realistyczne cele
Różne sposoby reprezentacji wiedzy są przydatne w różnych
zastosowaniach. Warto zacząć od najprostszej reprezentacji dla potrzeb
pomięci semantycznej, zbadać do czego się nadaje i jakie ma
ograniczenia.
Korzystając z takiej pamięci semantycznej awatar może sformułować
odpowiedzi na wiele pytań; potrzeba ekspotencjalnie wiele szablonów
AIML lub podobnych by odpowiedzieć na wszystkie pytania.
Przydawanie inteligencji agentom wymaga:
• budowania modeli pamięci semantycznej i innych;
• budowy naturalnych interfejsów komunikacyjnych.
Cel:
stworzyć model 3D awatara z syntezą i rozpoznawaniem mowy, użyć go do
interakcji z programami i stronami WWW: Humanized InTerface (HIT).
Kontrolowanie działania HIT w oparciu o wiedzę w pamięci semantycznej.
Słowa w mózgu
Eksperymenty psycholingwistyczne dotyczące mowy pokazują, że w mózgu
mamy dyskretne reprezentacje fonologiczne, a nie akustyczne.
Sygnał akustyczny => fonemy => słowa => koncepcje semantyczne.
Aktywacje semantyczne następują 90 ms po fonologicznych (N200 ERPs).
F. Pulvermuller (2003) The Neuroscience of Language. On Brain Circuits of
Words and Serial Order. Cambridge University Press.
Sieci działania –
postrzegania,
wnioski z badań
ERP i fMRI.
Fonologiczna gęstość otoczenia słowa = liczba słów brzmiących podobnie
jak dane słowo, czyli dająca podobne pobudzenia mózgu.
Semantyczna gęstość otoczenia słowa = liczba słów o podobnym
znaczeniu (rozszerzona podsieć aktywacji).
Rozumienie tekstów
Próbujemy rozwinąć neurokognitywne podejście do rozumienia języka w
oparciu o koncepcję grafów spójnych koncepcji, aktywnej części pamięci
semantycznej z hamowaniem i rozchodzeniem się aktywacji.
Dla tekstów medycznych mamy >2 mln koncepcji, 15 mln relacji …
Wiele innych zastosowań ...
Słowa: prosty model
Cele:
• zrobić najprostszy model kreatywnego myślenia;
• tworzyć interesujące nowe nazwy, oddające cechy produktów;
• zrozumieć nowe słowa, których nie ma w słowniku.
Model zainspirowany przez procesy zachodzące w mózgu w czasie
wymyślania nowych słów. Dany jest zbiór słów kluczowych, które pobudzają
korę słuchową.
Fonemy (allofony) są rezonansami, uporządkowane pobudzenie fonemów
aktywuje zarówno znane słowa jak i nowe kombinacje; kontekst +
hamowanie w procesie zwycięzca bierze wszystko zostawia jedno słowo.
Kreatywność = wyobraźnia (fluktuacje) + filtrowanie (konkurencja)
Wyobraźnia: wiele chwilowych rezonansów powstaje równolegle, aktywując
reprezentacje słów i nie-słów, zależnie od siły połączeń oscylatorów.
Filtrowanie: skojarzenia, emocje, gęstość fonologiczna/semantyczna.
Gry słowne
Gry słowne były popularne na długo przed komputerami ...
Były bardzo przydatne do rozwoju zdolności analitycznego myślenia.
Do niedawna słownych gier komputerowych było bardzo mało.
Gra w 20 pytań może być kolejnym wielkim wyzwaniem AI, jest bardziej
realistyczna niż nieograniczony test Turinga.
Szachy są za proste – komputery szybko liczą, więc wygrywają.
Maszyna, zgadująca o czym myślę, musi być inteligentna ...
Znajdywanie dobrych pytań wymaga wiedzy i kreatywności.
Pozwala na testowanie modeli pamięci semantycznej i
pamięci epizodycznej w realistycznych warunkach.
Inne zastosowania: identyfikacja obiektów na podstawie ich opisu,
uściślanie zapytań dla wyszukiwarek internetowych itp.
Potrzebna jest pamięć semantyczna na dużą skalę, miliony pojęć:
ontologie, słowniki (Wordnet), encyklopedie, MindNet (Microsoft), projekty
kolaboracyjne, np. Concept Net (MIT) … co się da.
Nadal nie wystarczy ... przykład gry w 20 pytań.
Wglądy i mózgi
Można badać aktywność mózgu w czasie rozwiązywania problemów, które
wymagają wglądu lub które rozwiązywane są schematycznie.
E.M. Bowden, M. Jung-Beeman, J. Fleck, J. Kounios, „New approaches to
demystifying insight”. Trends in Cognitive Science 2005.
Po rozwiązaniu problemu badani za pomocą EEG i fMRI sami określali, czy
w czasie rozwiązywania pojawił się wgląd, czy nie.
Około 300 ms przed pojawieniem się wglądu w zakręcie skroniowym
górnym prawej półkuli (RH-aSTG) obserwowano salwę aktywności gamma.
Interpretacja autorów: „making connections across distantly related
information during comprehension ... that allow them to see connections
that previously eluded them”.
Moja: lewa półkula reprezentująca w STG konkretne obiekty nie może
znaleźć pomiędzy nimi związku =>impas; prawa STG widzi jej aktywność
na meta-poziomie, ogólne abstrakcyjne kategorie, które może powiązać;
salwa gamma zwiększa jednoczesną aktywność reprezentacji w lewej
półkuli, emocje Eureka konieczne są do utrwalenia bezpośrednich koneksji.
ICD-9 coding challenge
Przyszłość?
Widać kilka ważnych inicjatyw i kierunków rozwoju:
• Decade of the Mind, wzorowane na DoBrain.
• Artificial General Intelligence, pismo JAGI, seria konferencji, sesje
specjalne i panele dyskusyjne na WCCI.
• Dominacja i ulepszenie architektur typu BICA, konwergencja.
• Pamięci semantyczne, projekty kolaboracyjne, rozwój ontologii
zdroworozsadkowych – dużo do zrobienia.
• Budowa wielkiej sieci semantycznej - subsymboliczny Wordnet?
• Affective computing: wiele projektów.
• Zainteresowanie intuicją, wyobraźnią, kreatywnością szybko rośnie.
http://www-users.mat.uni.torun.pl/~macias/mambo/index.php
• Mistrzostwa świata w grach słownych.
• Symulacje efektów torowania i innych efektów badanych w psychologii
eksperymentalnej.
• Analiza EEG: transformacja sygnałów do „przestrzeni umysłu”,
dynamiczne architektury kognitywne.
Nadchodzą
interesujące
czasy!
Dziękuję za
zsynchronizowanie
swoich neuronów
Google: W Duch => Prace, referaty, wykłady
Download