Architektury kognitywne, czyli jak zbudować sztuczny umysł? Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch Sposoby działania umysłu i metody ich badania, Poznań, 18-19.04.08 Plan Podejście inżynierskie: zrozumieć = zbudować. Przegląd architektur kognitywnych przydatnych do modelowania umysłu + propozycja nowej. • Porażki sztucznej inteligencji • Wielkie wyzwania dla AI • • • • Architektury symboliczne Architektury emergentne Architektury hybrydowe Trendy rozwoju • Umysł i mózg, nowe (?) spojrzenie. Porażki AI Wiele ambitnych projektów zmierzających do stworzenia AI skończyło się niepowodzeniem, np: A. Newell, H. Simon, General Problem Solver (1957). Eduardo Caianiello (1961) napisał równania „mnemoniczne”, które wyjaśniały wszystkie zachowania, ale nie były . Japoński projekt komputerów 5-tej generacji 1982-1994. AI zawiodła w wielu zastosowaniach: • percepcji, rozumienia obrazów, • rozwiązywaniu problemów, rozumowaniu, • kontroli i planowania zachowania, • rozumienia i używania języka naturalnego ... Dlaczego? • Zbyt naiwne podejścia? • Zbyt teoretyczne, oderwane od zastosowań? • Ignorowanie prawdziwych problemów i wyzwań? Kilka ambitnych projektów CYC, Douglas Lenat, 1984 rok, firma komercyjna CyCorp od 1995 roku. Zawiera obecnie ponad 2.5 milionów faktów (asercji) łączących ponad 150.000 pojęć zorganizowanych w tysiące mikro-teorii. Cyc-NL ciągle figuruje jako “potencjalne zastosowanie”, reprezentacja wiedzy za pomocą ram daje wielkie możliwości, ale jest trudna w użyciu. Podejście symulujące procesy rozwojowe: Cog: od 1994 roku na MIT, grupa R. Brooksa, inteligencja behawioralna - nadal aktywna dziedzina. Założenie: inteligencja ludzka jest wynikiem procesów rozwojowych, oddziaływań społecznych, ucieleśnienia umysłu oraz integracji wielomodalnej informacji zmysłowej; konieczna jest ewolucja robota. Seria robotów Nomad/Darwin, G. Edelman. Hall baby brain – konwersacja z botem by rozwinąć umysł dziecka? www.a-i.com Wyzwania: język • Test Turinga – pierwotny test zbyt trudny. • Warianty: pytania: tak/nie; osobisty test Turinga (Carpenter & Freeman), program udaje osobę, którą dobrze znamy. • Nagroda Loebnera: w stylu testu Turinga, od prawie 20 lat zawody botów i ludzi rozmawiających z sędziami, większość oparta na szablonach i dopasowaniu wzorców = oszustwo daje dość dużo. • Systemy Q/A, oceniane na Text Retrieval Conference (TREC). • Gry słowne, np. gra w 20 pytań, wymagająca znajomości pojęć i ich własności, ale nie złożonych relacji pomiędzy nimi. Postępy w uczeniu się naturalnego języka zależą od automatycznego tworzenia, rozwijania i używania obszernych baz wiedzy. • Inteligentne systemy wspomagające nauczanie, kombinacja rozumowania i kompetencji językowych, trudne do oceny? Wyzwania: rozumowanie • Partnerzy doradzający ludziom w pracy, oceniający ich rozumowanie (sprawdzanie twierdzeń), podsuwający kreatywne idee, interesujące skojarzenia, szukający istotnych informacji dla danego projektu. • Super-expert w wąskiej dziedzinie (Feigenbaum): potrzebuje sporo ogólnej inteligencji do komunikacji + wyrafinowanego wnioskowania; realne zastosowania w matematyce, prawie, bionaukach, partner dla eksperta stawiającego pytania, egzaminy jak studentów. • Podobny kierunek, ale bez NLP: Automated Theorem Proving (ATM) System Competitions (CASC) organizowany w wielu podkategoriach. • Ogólne AI w matematyce: dowodzenie twierdzeń z różnych dziedzin, techniki metauczenia + specializowane moduły + NLP. • Automatyczne rozwijanie genomicznych baz danych, tworzenie modeli procesów genetycznych, białkowych, metabolicznych bioorganizmów. Ogólna AI, czyli AGI? • System ogólnego użytku, który mógłby się nauczyć wykonywania różnych prac, jaki procent zawodów wykonywanych przez ludzi mogą wykonywać systemy AI (Nilsson, “child machine” Turinga). • W dziedzinach wymagających przetwarzania informacji postęp można oceniać robiąc egzaminy, tak jak np. w księgowości. • Prace manualne wymagają koordynacji percepcji/działania, trudniejsze? • Wiele prac w przemyśle, usługach finansowych, drukarniach itd. zostało zautomatyzowanych przez zmianę organizacji pracy, a nie AI. • Zawody DARPA Desert & Urban Challenge (2005/07), stara technologia, integracja analizy obrazów i sygnałów, sterowania, rozumowania. • Robotyka humanoidalna: rozumienie percepcji, uwaga, nauka modeli przyczynowych, uczenie hierarchiczne z różnymi skalami czasowymi. • “Personal Assistants that Learn” (PAL), DARPA 2007, SRI+21 instytucji 5-letni projekt budowy partnerów/osobistych asystentów, a nie całkowitej eliminacji ludzi (projekt RADAR na CMU ma się sam douczać). Projekty lingwistyczne Open Mind Common Sense Project (MIT): projekt kolaboracyjny WWW , ponad 15 000 autorów, którzy wpisali ponad 710 000 faktów; wyniki posłużyły do utworzenia ConceptNet, bardzo dużej sieci semantycznej. Commonsense Computing @ MediaLab, MIT, miał stworzyć skalowalny system oparty na zdroworozsądkowej wiedzy, zbieranej z tekstów, zautomatyzowanych obserwacji i w projektach kolaboracyjnych. LifeNet zbiera informację o wydarzeniach w życiu, opiera się na wersji Multi-Lingual ConceptNet używając sieci semantycznej, która ma 300 000 węzłów; informacja o zdarzeniach ma być zbierana z sensorów. Honda Open Mind Indor Common Sense zbiera nadal info zadając pytania. Inne projekty: HowNet (Chinese Academy of Science), FrameNet (Berkeley), różne duże ontologie, MindNet (Microsoft), początkowo do tłumaczenia. Projekty te próbują zgromadzić fakty o świecie. Architektury kognitywne • AK służą często do modelowania ludzkich działań w sytuacjach wykonywania wielu czynności wymagających interakcji, a nie AGI. • Newell, Unified Theories of Cognition (1990), podał 12 kryteriów oceny AK: behawioralne: adaptacja, dynamika, elastyczność; rozwój, ewolucja, uczenie się, integracja wiedzy, rozległość wiedzy, zdolności językowe, sterowanie w czasie rzeczywistym, mózgopodobność. Architektury kognitywne Symboliczne Emergentne Pamięć Pamięć Reguły lub grafy Globalna, rozproszona lub lokalna Hybrydowe Pamięć Regułowa, symboliczna, lub koneksjonistyczna Uczenie Indukcyjne lub analityczne Uczenie Asocjacyjne i/lub konkurencyjne Uczenie Mieszane - Architektury symboliczne • Typy architektur ~ typom problemów. • Fizykalny system symboliczny (Newell & Simon): wejścia, wyjścia i manipulacja tokenami odpowiadającymi symbolom, cele i działania. • Większość symbolicznych AK ma: centralny nadzór nad przepływem informacji od sensorów przez pamięć do efektorów; rozumowanie logiczne; regułowa reprezentacja relacji postrzeżenie/działanie; ważna rola pamięci roboczej + semantycznej + funkcji wykonawczych. • Reprezentacje graficzne: sieci semantyczne i grafy koncepcji, ramy/schematy, zbiory reakcji (reactive action packages, RAPs). • Techniki uczenia: analityczne i indukcyjne. • Analityczne: prowadź wnioskowanie z którego wynikają dodatkowe fakty, np. explanation-based learning (EBL), uczenie przez analogię. • Indukcyjne: przykłady => reguły ogólne; np. knowledge-based inductive learning (KBIL), czy uczenie z opóźnioną krytyką (DRF). • Symbole statyczne i dynamiczne: istotne rozróżnienie? • Kilka AK jest dobrymi kandydatami na AGI. SOAR • SOAR (State, Operator And Result): klasyczny przykład (rozwijany >25 lat) architektury symbolicznej, aproksymacja regułowa AK systemu opartego na wiedzy, model ogólnej inteligencji. • Wiedza = reguły produkcji, wnioskowanie = operatory w p-ni problemu. • Uczenie przez porcjowanie (chunking), technika analityczna tworzenia reguł i makro-operacji z analizy historii rozwiązywania problemu. • Pokazano wiele funkcji wyższego rzędu: przetwarzanie złożonych baz wiedzy w planowaniu, rozwiązywaniu problemów, rozumieniu języka naturalnego (NL-SOAR) w czasie rzeczywistym w realnych warunkach. • Wiele rozszerzeń architektury SOAR, nie w pełni zintegrowanych: uczenie – z krytykiem, zmienia preferencje działań operatorów, uczenie epizodyczne oparte na historii ewolucji stanu systemu, uczenie semantyczne by lepiej opisać abstrakcyjną wiedzę, wyobraźnia przestrzenna, zachowania afektywne, uczucia ukierunkowujące uczeni z krytykiem i rozumowanie bezpośrednie. • Brakuje: zapominania, uwagi, selekcji informacji, uczenia hierarchicznych reprezentacji, uczenia w warunkach niepewności. Inne symboliczne AK • EPIC (Executive Process Interactive Control), D.E. Kieras, model HCI, percepcja, elementy poznawcze i sterowanie, równoległe procesory kontrolowane przez reguły produkcji + procesory sygnałów wzrokowych, dźwiękowych i dotykowych & procesory sterujące działające na symbolicznie opisanych cechach. • EPIC-SOAR do rozwiązywania problemów, planowania i uczenia się, zastosowany do kontrolowania lotów. • ICARUS (P. Langley) to architektura przeznaczona dla robotów, wiedza jest w reakcjach i planach związanych z celami dla określonej klasy problemów (~2005). Uwzględnia percepcję, planowanie, sterowanie, kilka podsystemów pamięci. Percepty => Koncepty; posiada wiedzę o ogólnych klasach obiektów. Cele => Umiejętności; wiedza proceduralna, hierarchiczna LTM & STM, oraz hierarchiczne, RL => stopniowe nabywanie umiejętności, skupianie uwagi, szybkie reakcje i szukanie; gry, jazda samochodem. • OSCAR (J. Pollock, 1989), blueprint for mind, rozumowanie podważalne. Symboliczne AK 2 • NARS (Non-Axiomatic Reasoning System) (P. Wang, ~20 lat), semantyka oparta na doświadczeniu i języku, zbiór reguł wnioskowania, pamięć i mechanizm kontrolny, to różne aspekty tego samego procesu realizującego wyższe czynności poznawcze. • Prawdziwość oceniana jest na podstawie doświadczenia w używaniu danego wzorca, nie-aksjomatyczna logika pozwala na adaptację przy niewystarczającej wiedzy. Prototypy NARS stosowane były do prostych problemów. • SNePS (Semantic Network Processing System) (S. Shapiro ~30 lat); logika, ramy i koneksjonistyczna reprezentacja wiedzy, rozumowania i działania; schematy wnioskowania w oparciu o logikę, ramy i sieci semantycznie w pakiecie SNIP + system aktualizacji wiedzy. • SNePS Rational Engine kontroluje i planuje sekwencje działań w oparciu o założenia pozytywne i negatywne. • Stosowany w projektach NLP, rozumowania zdroworozsądkowego, systemach Q/A, agentach, ale żadnych większych aplikacji. Emergentne AK Funkcje poznawcze powinny pojawić się w sieciach prostych neuropodobnych elementów. • Globalna bądź lokalna organizacja pamięci: uczenie się danych o złożonej strukturze logicznej wymaga obu! • Globalne: sieci MLP używają nielokalnych funkcji, projekcji, rozproszonych reprezentacji, reakcje zależą od wszystkich parametrów, dobrze generalizują ale czasami katastroficznie zapominają. • Lokalne: sieci wykorzystujące rozwinięcia na funkcje bazowe używają funkcji zlokalizowanych, rezultat zależy od lokalnych parametrów. • Modularna organizacja sieci zawsze może utworzyć grupy elementów przetwarzających, które będą reagować lokalnie. • Różna metodologia uczenia: heteroasocjacja w nadzorowanym lub wzmacnianym uczeniu, uczenie konkurencyjne (WTA lub WTM), uczenie korelacyjne (Hebb) do tworzenia modeli wewnętrznych. • Bliżej percepcji i niższych czynności niż czynności wyższych, które łatwiej jest zrealizować w oparciu o podejście symboliczne. Dynamika Synaptyczna Synapsy Soma I syn (t ) Impuls EPSP, IPSP Projekt Blue Brain 10 000 neuronów w kolumnie, 30M synaps Rsyn Impuls Csyn Cm I AMPA,ext (t ) g AMPA,ext (Vi (t ) VE ) w s AMPA, ext ij j Rm s AMPA (t ) d AMPA j s j (t ) (t t kj ) dt AMPA k (t ) j I AMPA,rec (t ) g AMPA,rec (Vi (t ) VE ) w s AMPA, rec ij j s NMDA (t ) d NMDA j s j (t ) x j (t )(1 s NMDA (t )) j dt NMDA,decay (t ) j I NMDA,rec (t ) g NMDA,rec (Vi (t ) VE ) (1 [ Mg 2 ws ]exp( 0.062V (t ) / 3.57)) i , rec I GABA,rec (t ) gGABA,rec (Vi (t ) VE ) wij s GABA (t ) j j NMDA, rec ij j j x NMDA (t ) d NMDA j (t ) x j (t ) (t t kj ) dt NMDA,rise k sGABA (t ) d GABA j s j (t ) (t t kj ) dt GABA k Pole średnie czy impulsy? Mózg: 1011 neuronów Połączone mikroobwody A C B F I B I B aF ( A) I ext ... t Model pola średniego Sieci neuronów impulsujących Neuron Pools neuron Grupa spikes 1 2 3 V2 (t ) neuron 1 neuron 2 t d m Vi (t ) gm (Vi (t ) VL ) I syn (t ) dt Całkuj i impulsuj: t M Neurony Aktywność grupy: t M A(t ) lim t 0 nspikes (t , t t ) M t Emergentne IBCA • IBCA (Integrated Biologically-based Cognitive Architecture), (O'Reilly, Y. Munakata 2000): wyróżnia 3 typy pamięci. • W korze ciemieniowej (PC), zazębiające się, rozproszone lokalne moduły, hierarchiczne, sensomotoryczne wielomodalne działania. • W korze czołowej (FC) izolowana lokalna rekurencyjna reprezentacja odpowiedzialna za pamięć roboczą, wkład kombinatoryczny. • W hipokampie (HC) rzadka, koniunktywna organizacja globalna, scalająca wszystkie pobudzenia w PC i FC (pamięć epizodyczna). • Algorytm LEABRA łączy korelacyjne uczenie Hebbowskie, redukcję błędów do uczenia umiejętności i dynamikę konkurencyjną kWTA. • Moduły PC & FC: powolne uczenie się regularności. • Moduł HC: szybkie uczenie, zapamiętywanie i rozróżnianie epizodów. Współpraca HC - FC/PC realizuje komplementarne strategie uczenia. • Wyższe czynności poznawcze wynikają z aktualizacji reprezentacji modułu FC umożliwiającego samo-regulację. • Jedynie podstawowe fakty psychologiczne; cele? emocje? skalowanie? Emergent CA: others • NOMAD (Neurally Organized Mobile Adaptive Device) (Edelman >20 lat), oparty o teorię “neuronalnego Darwinizmu”, emergentna architektura rozpoznająca wzorce w czasie rzeczywistym. Symulacja ~105 neuronów i~107 synaps, rozwój poprzez zadania behawioralne, system wartości oparty o nagrody i adaptację pozwala na uczenie interesujących zachowań, własne ruchy istotne dla rozwoju percepcji, model hipokampa do nawigacji przestrzennej i pamięci epizodycznej, niezmiennicze rozpoznawanie obiektów widzianych na obrazach, scalanie cech obiektów dzięki synchronizacji neuronów, sterowanie współbieżne. Wyższe czynności poznawcze? • Cortronics (Hecht-Nielsen 2006), funkcje wzgórzowo-korowe. • Leksykon oparty na zlokalizowanych, cześciowo się nakrywjących, ensemblach korowych ze zwrotnymi połączeniami koduje symbole. Atomy wiedzy = połączone symbole, z uczeniem i wydobywaniem informacji przez konfabulację, konkurencyjną aktywację symboli. • Konfabulacja odpowiedzialna jest za antycypację, wyobraźnię, kreatywność, w skali czasu szybszej niż procesy rozumowania. Emergente trendy • The NuPIC (Numenta Platform for Intelligent Computing) , J. Hawking (2004), Hierarchical Temporal Memory (HTM), każdy węzeł uczy się i ma pamięć. Specyficzne połączenia między warstwami dają niezmienniczą reprezentację obiektów. Podkreśla czasy aspekt percepcji, sekwencji pamiętanych zdarzeń, antycypację. • Autonomous mental development (J. Weng, ~10 y). • M.P. Shanahan (2006), symulacja stanów wewnętrznych z globalnej p-ni roboczej za pomocą bezwagowych sieci, prosta kontrola robota. • P. Haikonen “świadome maszyny” (2007) oparte na sieciach z rekurencją i mechanizmem WTA w każdym module, dość naiwne. • J. Anderson, Erzatz brain (2007), prosty model kory. • COLAMN (M. Denham, 2006), i “laminar computing” S. Grossberga. • E. Korner & G. Matsumoto: AK kontroluje ograniczenia używane do wyboru właściwego algorytmu dla rozwiązania specyficznego problemu. • DARPA Biologically-Inspired Cognitive Architectures (BICA) program (2006), “TOSCA: Comprehensive brain-based model of human mind”. Hybrydowe AK: ACT-R • ACT-R (Adaptive Components of Thought-Rational) (J. Anderson, >20 lat rozwoju), symulacje szerokiej gamy zadań poznawczych. • Moduły sensomotoryczne, moduły pamięci, dopasowywanie wzorców. • Symboliczno-koneksjonistyczne structury pamięci deklaratywnej (DM), porcjowanie wiedzy; pamięć proceduralna (PM) w postaci reguł. Konstrukcje symboliczne związane są ze zbiorem niesymbolicznych parametrów które zapisują informacje o użyteczności w przeszłości, pozwalając ocenić przydatność skojarzeń, reguł i porcji wiedzyw przeszłości i w obecnym kontekście. • Bufory - WM dla komunikacji między modułami i dopasowanie wzorców dla szukania reguł, które pasują do informacji w buforach pamięci. • Uczenie wykorzystuje hipotezy, niesymboliczne parametry najbardziej przydatnych porcji wiedzy i reguł są dostrajane algorytmem Bayesa. • Architektura ACT-R może być z grubsza porównana z budową mózgu. • Wykorzystywany w wielu symulacjach psychologicznych, inteligentnych tutorach, brak ambitnych zastosowań do rozwiązywania problemów. Hybrydy: CLARION • CLARION (Connectionist Learning Adaptive Rule Induction ON-line) (R. Sun, ~15 lat): celem jest tworzenie kognitywnych agentów oraz zrozumienie procesów psychologicznych uczenia się i rozumowania. 4 moduły pamięci, każdy ma reprezentację jawną i ukrytą: podsystemy działania (ACS) do sterowania działaniami agenta, wiedzy (NCS) do pielęgnacji wiedzy zawartej w systemie, motywacji (MS), wpływa na postrzeganie, działanie, poznawanie, meta-poznania (MCS) to najwyższy szczebel kontroli pozostałych. • Pamięć zlokalizowana koduje wiedze jawną, a rozproszona (realizowana np. w sieci MLP) wiedze utajoną. • Utajone uczenie oparte jest na RL lub sieci MLP która ma rekonstruować wiedze utajoną na poziomie działania. • Niektóre reguły są ustalane lub pre-kodowane na najwyższym szczeblu i modyfikowane w wyniku obserwacji skutków ich użycia. • Dostępny jest program + przykłady symulacji; zrobiono złożony model podejmowania decyzji w czasie nawigacji po polu minowym. Hybrid CA: Polyscheme • Polyscheme (N.L. Cassimatis, 2002) integruje kilka metod reprezentacji, rozumowania i schematów rozwiązywania problemów. Używa modeli „specjalistów” dla wybranych aspektów środowiska. • Są to skrypty, ramy, warunki logiczne, sieci neuronowe, sieci ograniczeń reprezentują wiedzę, komunikujące się i uczące od innych specjalistów; uwaga sterowana jest przez specjalistę, schematy skupiania się wykorzystują wiele mechanizmów wnioskowania, pielęgnacji wiedzy i symulacji stochastycznych. • Rozumowanie na wysokim poziomie sterowane jest przez schematy skupiania uwagi; konkretne operacje to tworzenie podceli, wnioskowanie wprzód i w tył z różnymi reprezentacjami dla tych samych celów; można więc uwzględnić percepcję i sterowanie. • AK przeznaczona zarówno do rozumowań abstrakcyjnych jak i sterowania robotem. Zastosowana do modelownia rozumownania niemowlaka na temat zdarzeń, ich przyczyn, relacji przestrzennych. • Meta-uczenie, łączące różne podejścia do rozwiązywania problemów. • Na razie brak ambitnych zastosowań. Hybrydowe 4CAPS • 4CAPS (M.A. Just 1992) powstało z myślą o złożonych zadaniach, rozumieniu języka, rozwiązywaniu problemów i orientacji przestrzennej. • Zasada operacyjna: “Myślenie jest wynikiem jednoczesnej aktywności wielu obszarów w rozległych sieciach korowych”. • Użyteczne do modelowania szybkości reakcji i liczby błędów przy rozwiązywaniu problemów wymagających analogii, pracy z komputerem, rozumieniu tekstów i innych złożonych zadań rozwiązywanych przez normalnych ludzi jak i chorych psychicznie. • Aktywność modułów 4CAPS można skorelować z fMRI i innymi danymi. • Model zawiera centra odpowiadające poszczególnym obszarom mózgu, które mają różne style przetwarzania informacji; np. obszar Wernickego konstruuje i selektywnie odwołuje się do sekwencyjnych i hierarchicznych reprezentacji. Każdy obszar może brać udział w wielu funkcjach kognitywnych, ale sam ma ograniczone możliwości obliczeniowe. Funkcje przypisywane są obszarom w zależności od tego jak już są obciążone, dlatego topologia całej sieci nie jest ustalona. Interesujące, ale czy nadaje się w tej formie do AGI? Inne hybrydy • LIDA (The Learning Intelligent Distribution Agent) (S. Franklin, 1997), schemat budowy agentów, idee globalnej przestrzeni roboczej. • LIDA: organizacja pamięci symboliczno-koneksjonistyczna, moduły percepcyjne, pamięci roboczej, emocji, pamięci semantycznej i epizodycznej, oczekiwań, wyboru akcji, uczenia proceduralnego, spełniania ograniczeń, negocjacji, rozwiązywania problemów, metapoznania i imitacji zachowań świadomych. • Współpraca kodletów, specjalizowanych podsieci. • Uczenie percepcyjne, epizodyczne i proceduralne, od danych. • DUAL (B. Kokinov 1994), inspirowane przez “Society of Mind” (Minsky) hybrydowa architektura wieloagentowa, emergentna dynamika obliczeń, micro-agenci realizują funkcje pamięci i przetwarzania informacji tworząc koalicje, na makropoziomie możliwe są interpretacje psychologiczne własności powstających w ten sposób modeli. • Mikro-ramy używane są do symbolicznej reprezentacji faktów, istotność w określonym kontekście <= wag połączeń i aktywacji sieci. • Stosowane w modelowaniu psychofizyki i rozumowania. Skalowanie? Hybrid CA: others 2 • Shruti (Shastri 1993), biologicznie inspirowany model wnioskowania, koneksjonistyczna reprezentacja typów, związków przyczynowych, używając synchronizacji klastrów elementów, dopuszcza kwantyfikatory, stopnie zaufania do informacji. Synchronizacja pozwala na dynamiczne powiązania węzłów, pozwalając na reprezentację złożonej wiedzy i szybkie wnioskowanie. model ma duży potencjał, ale rozwija się powoli. • The Novamente AI Engine (B. Goertzel, 1993), oparty na modelu psynet i “filozofii umysłu opartej na wzorcach”: samoorganizujących się wzorcach odpowiadających stanom mentalnym. • Emergentne procesy wynikające z interakcji prowadzą do hierarchicznej i relacyjnej (heterarchicznej) organizacji wzorców. • Probabilistyczna logika termów (PTL), i algorytm Bayesowskiej Optymalizacji (BOA) odpowiedzialne są za wnioskowanie. • Akcje, postrzeżenia, stany wewnętrzne reprezentowane przez grafy. • Nowa architektura, skalowanie nie znane. Dokąd zmierzamy? • Wiele AK, niektóre rozwijają się od ~ 30 lat, inne są nowe. • Jedynie nieliczne użyto w ambitnych projektach, nie było to łatwe. • Potrzebne jest skupienie na wielkich wyzwaniach + precyzyjnych krokach prowadzących do super-ludzkiego poziomu kompetencji. • AGI potrzebuje większej elastyczności, rozszerzenia demonstracji AK z trywialnych domen na rezultaty interesujące dla ekspertów, pomagające im jako partnerzy w pracy – vide projekty w realizacji. • Jakiego typu inteligencję chcemy zbudować? H. Gardner (1993) wyróżnił siedem typów inteligencji: logiczno-matematyczną, lingwistyczną, przestrzenną, muzyczną, kinestetyczną, inter i intra-personalną, ostatnio dodano do tego inteligencję emocjonalną i kilka innych. • Do pewnego stopnia są to niezależne rodzaje inteligencji! AGI nie musi dobra we wszystkim... musi być wystarczająco szeroka by osiągnąć kompetencje w kilku dziedzinach, np. różnych grach. Inteligencja behawioralna? • R. Brooks: słonie nie grają w szachy, roboty potrzebują wzroku, słuchu i czucia by się “nauczyć myślenia w oparciu o doświadczenie działania, realizując coraz bardziej abstrakcyjne zadania”. • Projekt Cog ma wielu naśladowców, ale po 15 latach jest to nadal agent reaktywny i nie widać jak w nim zrealizować wyższe czynności. • W 7PR priorytet panelu „intelligence and cognition” określony został jako „deep embodiment, new materials, physics doing computations”. • Czy enaktywizm wystarczy? Czy jest konieczny? Jakie są ograniczenia podejścia symbolicznego, emergentnego, hybrydowego? • Słonie są inteligentne, ale nie grają w szachy ani nie dyskutują. • Rezultaty ostatnich dwóch dekad nie są dla AGI zachęcające. • Ogólne AK mogą nie wystarczyć do rozwiązania problemów z percepcją (np. Poggio lansuje BICA dla wzroku), języka naturalnego, specyficzne modele różnych funkcji mózgu mogą być konieczne do osiągnięcia poziomu organizmów biologicznych. • Znaczny postęp w robotyce. Ocena postępów • Jak mierzyć postępy? To zależy od dziedziny. • Warianty testu Turinga, konkurs Loebnera, gra w 20Q i inne gry słowne mogą dostarczyć wymiernych wskaźników. • Machine Intelligence Quotient (MIQ) można systematycznie mierzyć w zadaniach wymagających kooperacji człowiek-maszyna, np. z pomocą analizy używającej Intelligence Task Graph (ITG) (Park i in. 2001). • Wskaźniki użyteczności HCI sprawności narzędzi AI, np. tutorów ITS. • Konkurs Agent-Based Modeling and Behavior Representation (AMBR) Model Comparison (2005) porównał poziom działania AK i ludzi w uproszczonym środowisku kontroli lotów. • W 2007 r. na AAAI Workshop “Evaluating Architectures for Intelligence” zaproponowano oceny AK używając sterowania pojazdami w mieście w różnych warunkach by mierzyć możliwości rozwoju i dostosowania się systemu mającego wykazać się ogólną inteligencją. Kognitywny wiek • Ocena “kognitywnego wieku” może opierać się na problemach, które potrafią rozwiązać dzieci w danym wieku w określonych dziedzinach, np. percepcji, rozumienia języka, rozumowania o różnych zagadnieniach, pytań na temat ogólnej wiedzy o świecie, uczenia się, rozwiązywania problemów, kreatywności itp. • Rozwiązania wszystkich problemów typowych dla danego wieku kwalifikowało by dany system do określenia „inteligentnego n-latka”. • Wiek można by określić również osobno w wybranych dziedzinach – AK są bardzo młode w percepcji ale zaawansowane w rozumowaniu abstrakcyjnym, przynajmniej w porównaniu z przeciętną populacją. • Ogólną wiedze o świecie sprawdzają systemy Q/A – czemu Mars jest czerwony? Odpowiedzi AK można porównać z odpowiedziami dzieci. • Wiedza zdroworozsądkowa jest dość ograniczona, poza CyC, który jest trudny w użyciu. Brakuje ontologii zdroworozsądkowych, reprezentacje pojęć w słownikach są bardzo ubogie. Trendy • Dominują architektury hybrydowe, ale inspiracje biologiczne nabierają znaczenia, nowe architektury to głowie BICA. • Inspiracje głównie oparte na działaniu układu wzgórzowo-korowego i limbicznego, utożsamianego z aspektami kognitywnymi i afektywnymi. • Kilka kluczowych cech znajdzie się we wszystkich BICA: hierarchiczna organizacja przetwarzania informacji na wszystkich poziomach; mechanizmy uwagi, orientacji przestrzennej, elastyczne wykorzystanie zasobów, różne skale czasowe, różne typy pamięci , wyobraźnia, intuicja i kreatywność. Czego jeszcze brakuje: • Interakcji lewej i prawej półkuli w procesach poznawczych. • Regulacyjnej roli pnia mózgu w wyborze zachowań różnego typu. • W modelach ludzkiego zachowania brakuje bardziej subtelnych funkcji, np. różnych aspektów ja, lub rozróżnień strachu i lęku, za które odpowiedzialne są odmienne jądra migdałowate. Pamięć Rozróżnienie typów pamięci jest ważne; rozumienie wymaga: • rozpoznawania elementarnych fonemów lub znaków, czyli mapowanie dźwięków lub stringów liter na unikalne termy; • rozstrzyganie wieloznaczności i mapowanie termów na pojęcia określone w ontologii; • pełna semantyczna reprezentacja tekstów wspomagająca rozumienie i odpowiedzi na pytania. • Te 3 kroki wymagają różnego typu pamięci. • Pamięć rozpoznawcza zwraca uwagę na odstępstwa od oczekiwań. • Pamięć semantyczna to nie tylko hierarchiczna ontologia, lecz również dynamiczny proces rozchodzenia się aktywacji, skojarzeń na podstawie strukturalnych własności pojęć i ich relacji. • Pamięć epizodyczna konieczna jest do tworzenia modelu sytuacji czy zdarzenia, scalenia różnych aspektów przeżywanego doświadczenia. • Pamięć robocza tworzy tymczasową przestrzeni do działania. BICA jako aproksymacja • Znaczne postępy poczyniono wykorzystujące inspiracje z badań nad mózgiem do analizy percepcji, mniejsze dla wyższych czynności pozn. • Neurokognitywne podejście do lingwistyki stosowano do analizy zjawisk lingwistycznych ale nie ma ono wpływu na NLP. • Potrzebne są nowe matematyczne techniki by opisać procesy obliczeniowe w terminach “wzorców stanów mózgu” i rozchodzenia się aktywacji między takimi wzorcami. Jak to zrobić? Prototypy stanów neuronowych? Quasi-stacjonarne fale pobudzeń opisujące globalne stany mózgu (w,Cont)? Transformacja mózg-umysł? • Jak wyglądają ścieżki rozchodzenia się aktywacji w mózgu? Praktyczny algorytm rozszerza rep. pojęcia o te kategorie skojarzeń, które są pomocne w klasteryzacji i klasyfikacji (Duch i inn, NN w druku), usuwając słabe skojarzenia przez filtrowanie cech. • Prace nad automatycznym tworzeniem opisu pojęć na podstawie słowników, ontologii, encyklopedii i projektów kolaboracyjnych, oraz aktywnego szukania w swobodnych tekstach są w toku. HIT – duży projekt … T-T-S synthesis Affective computing Learning Brain models Behavioral models Speech recognition HIT projects Talking heads Cognitive Architectures AI Robotics Graphics Lingu-bots A-Minds VR avatars Info-retrieval Cognitive science Knowledge modeling Semantic memory Episodic Memory Working Memory Architektura DREAM Web/text/ databases interface NLP functions Natural input modules Cognitive functions Text to speech Behavior control Talking head Control of devices Affective functions Specialized agents DREAM zawiera zarówno afektywne jak i kognitywne funkcje, sterowanie, analizę naturalnych sygnałów, ale nacisk kładziemy na funkcje językowe. Zapytanie Pamięć semantyczna Zastosowania, np gra w 20 pytań. Magazynowanie Awatar, HIT: interfejs graficzny http://diodor.eti.pg.gda.pl Oznaczanie części mowy i ekstrakcja frac weryfikacja Słowniki, ontologie, informacja tekstowa ręczne poporawki Parser Realistyczne cele Różne sposoby reprezentacji wiedzy są przydatne w różnych zastosowaniach. Warto zacząć od najprostszej reprezentacji dla potrzeb pomięci semantycznej, zbadać do czego się nadaje i jakie ma ograniczenia. Korzystając z takiej pamięci semantycznej awatar może sformułować odpowiedzi na wiele pytań; potrzeba ekspotencjalnie wiele szablonów AIML lub podobnych by odpowiedzieć na wszystkie pytania. Przydawanie inteligencji agentom wymaga: • budowania modeli pamięci semantycznej i innych; • budowy naturalnych interfejsów komunikacyjnych. Cel: stworzyć model 3D awatara z syntezą i rozpoznawaniem mowy, użyć go do interakcji z programami i stronami WWW: Humanized InTerface (HIT). Kontrolowanie działania HIT w oparciu o wiedzę w pamięci semantycznej. Słowa w mózgu Eksperymenty psycholingwistyczne dotyczące mowy pokazują, że w mózgu mamy dyskretne reprezentacje fonologiczne, a nie akustyczne. Sygnał akustyczny => fonemy => słowa => koncepcje semantyczne. Aktywacje semantyczne następują 90 ms po fonologicznych (N200 ERPs). F. Pulvermuller (2003) The Neuroscience of Language. On Brain Circuits of Words and Serial Order. Cambridge University Press. Sieci działania – postrzegania, wnioski z badań ERP i fMRI. Fonologiczna gęstość otoczenia słowa = liczba słów brzmiących podobnie jak dane słowo, czyli dająca podobne pobudzenia mózgu. Semantyczna gęstość otoczenia słowa = liczba słów o podobnym znaczeniu (rozszerzona podsieć aktywacji). Rozumienie tekstów Próbujemy rozwinąć neurokognitywne podejście do rozumienia języka w oparciu o koncepcję grafów spójnych koncepcji, aktywnej części pamięci semantycznej z hamowaniem i rozchodzeniem się aktywacji. Dla tekstów medycznych mamy >2 mln koncepcji, 15 mln relacji … Wiele innych zastosowań ... Słowa: prosty model Cele: • zrobić najprostszy model kreatywnego myślenia; • tworzyć interesujące nowe nazwy, oddające cechy produktów; • zrozumieć nowe słowa, których nie ma w słowniku. Model zainspirowany przez procesy zachodzące w mózgu w czasie wymyślania nowych słów. Dany jest zbiór słów kluczowych, które pobudzają korę słuchową. Fonemy (allofony) są rezonansami, uporządkowane pobudzenie fonemów aktywuje zarówno znane słowa jak i nowe kombinacje; kontekst + hamowanie w procesie zwycięzca bierze wszystko zostawia jedno słowo. Kreatywność = wyobraźnia (fluktuacje) + filtrowanie (konkurencja) Wyobraźnia: wiele chwilowych rezonansów powstaje równolegle, aktywując reprezentacje słów i nie-słów, zależnie od siły połączeń oscylatorów. Filtrowanie: skojarzenia, emocje, gęstość fonologiczna/semantyczna. Gry słowne Gry słowne były popularne na długo przed komputerami ... Były bardzo przydatne do rozwoju zdolności analitycznego myślenia. Do niedawna słownych gier komputerowych było bardzo mało. Gra w 20 pytań może być kolejnym wielkim wyzwaniem AI, jest bardziej realistyczna niż nieograniczony test Turinga. Szachy są za proste – komputery szybko liczą, więc wygrywają. Maszyna, zgadująca o czym myślę, musi być inteligentna ... Znajdywanie dobrych pytań wymaga wiedzy i kreatywności. Pozwala na testowanie modeli pamięci semantycznej i pamięci epizodycznej w realistycznych warunkach. Inne zastosowania: identyfikacja obiektów na podstawie ich opisu, uściślanie zapytań dla wyszukiwarek internetowych itp. Potrzebna jest pamięć semantyczna na dużą skalę, miliony pojęć: ontologie, słowniki (Wordnet), encyklopedie, MindNet (Microsoft), projekty kolaboracyjne, np. Concept Net (MIT) … co się da. Nadal nie wystarczy ... przykład gry w 20 pytań. Wglądy i mózgi Można badać aktywność mózgu w czasie rozwiązywania problemów, które wymagają wglądu lub które rozwiązywane są schematycznie. E.M. Bowden, M. Jung-Beeman, J. Fleck, J. Kounios, „New approaches to demystifying insight”. Trends in Cognitive Science 2005. Po rozwiązaniu problemu badani za pomocą EEG i fMRI sami określali, czy w czasie rozwiązywania pojawił się wgląd, czy nie. Około 300 ms przed pojawieniem się wglądu w zakręcie skroniowym górnym prawej półkuli (RH-aSTG) obserwowano salwę aktywności gamma. Interpretacja autorów: „making connections across distantly related information during comprehension ... that allow them to see connections that previously eluded them”. Moja: lewa półkula reprezentująca w STG konkretne obiekty nie może znaleźć pomiędzy nimi związku =>impas; prawa STG widzi jej aktywność na meta-poziomie, ogólne abstrakcyjne kategorie, które może powiązać; salwa gamma zwiększa jednoczesną aktywność reprezentacji w lewej półkuli, emocje Eureka konieczne są do utrwalenia bezpośrednich koneksji. ICD-9 coding challenge Przyszłość? Widać kilka ważnych inicjatyw i kierunków rozwoju: • Decade of the Mind, wzorowane na DoBrain. • Artificial General Intelligence, pismo JAGI, seria konferencji, sesje specjalne i panele dyskusyjne na WCCI. • Dominacja i ulepszenie architektur typu BICA, konwergencja. • Pamięci semantyczne, projekty kolaboracyjne, rozwój ontologii zdroworozsadkowych – dużo do zrobienia. • Budowa wielkiej sieci semantycznej - subsymboliczny Wordnet? • Affective computing: wiele projektów. • Zainteresowanie intuicją, wyobraźnią, kreatywnością szybko rośnie. http://www-users.mat.uni.torun.pl/~macias/mambo/index.php • Mistrzostwa świata w grach słownych. • Symulacje efektów torowania i innych efektów badanych w psychologii eksperymentalnej. • Analiza EEG: transformacja sygnałów do „przestrzeni umysłu”, dynamiczne architektury kognitywne. Nadchodzą interesujące czasy! Dziękuję za zsynchronizowanie swoich neuronów Google: W Duch => Prace, referaty, wykłady