Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina1

advertisement
Piotr Labenz
Konwersacyjna sztuczna inteligencja: od Turinga
do Potiomkina1
I’m sorry, Dave, I’m afraid I can’t do that.
– HAL 9000
Możliwość AI to problem filozoficzny, ale i praktyczny. Dlatego próbuję tu
wysnuć filozoficzne wnioski z przeświadczeń wyniesionych z praktycznej
pracy nad programami rozmawiającymi w języku naturalnym, tzw. botami.
Opisuję dwa podejścia do budowy botów, regułowe i statystyczne (punkt
1.) i pewną umiejętność, dzięki której z ludźmi na ogół rozmawia się nam
płynniej niż z botami (punkt 2.). Sądzę, że jest ona niedostępna botom (punkt
3.), stąd konwersacyjna AI jest technicznie niemożliwa; przy tym wątpliwe,
by niemożliwość ta została przezwyciężona (punkt 4.). Co więcej, taka inspirowana testem Turinga koncepcja AI – to nieporozumienie (punkt 5.).
1. Test Turinga i kawałki języka
Sztuczna inteligencja to taka maszyna, która radzi sobie z rzeczami, z którymi zwykle ludzie radzą sobie lepiej od maszyn. Taka potoczna definicja,
choć przyjmują ją niektórzy informatycy (np. Rich, 1983, str. 1), jest chyba
za szeroka, bo spełniają ją np. koparka czy wibrator. Trzeba ją więc zawęzić: AI to taka maszyna, która radzi sobie z tym, co podobno jest differentia
specifica człowieka, a mianowicie – z językiem. Żeby czasem pod tę definicję
nie podpadał magnetofon albo książka, można powiedzieć, że „radzi sobie
z językiem” to tyle, co „potrafi rozmawiać nie gorzej niż przeciętny człowiek”
– czyli potrafi przejść test Turinga (1950; dalej: TT). Sądzę, że taka definicja
1 Wcześniejszą wersję części tej pracy referowałem na II Ogólnopolskim Forum Filozoficznym Młodych. Dziękuję Jakubowi Szymanikowi i Marcinowi Zajenkowskiemu za sugestie i uzupełnienia, mgr Agnieszce Mykowieckiej za uwagi zawarte w recenzji, a mgr. Grzegorzowi Rutkiewiczowi za pomoc z Dodatkiem 2.
96
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
odzwierciedla intuicję „sztucznego inteligenta”2 , takiej maszyny, która byłaby
„jak człowiek”. Oczywiście można jednak jako differentiam specificam proponować inne zdolności umysłowe czy poznawcze człowieka. Myślę wprawdzie, że maszyny liczące czy rozpoznające obrazy trudno określić mianem
sztucznych inteligentów, jeśli nie da się z nimi porozmawiać3 ; ale na wszelki
wypadek będę tu mówił tylko o „konwersacyjnej” AI4 .
Ale czy „potrafi przejść TT” znaczy, że kiedyś przeszła albo przejdzie
pewien TT, czy że zawsze albo prawie zawsze go przechodzi? Otóż w pierwszym sensie potrafią przejść TT choćby proste boty w rodzaju ELIZY (zob.
Weizenbaum, 1966) czy tzw. lingubotów (zob. Dodatek 1.)5 , a w drugim –
czasem nie potrafią go przejść ludzie. W obu wypadkach powodzenie zależy
od tego, czy testowany kandydat do inteligencji trafi na rozmówcę posługującego się podobnym, co on, kawałkiem języka. Człowiek potrafi dostosować
swój sposób mówienia do języka rozmówcy, ale tylko w pewnych granicach
– gdy mają jakiś wspólny kawałek języka. Zapewne da się znaleźć takie pary
użytkowników języka polskiego, które nie będą się potrafiły dogadać. Na
przykład wykładowca metafizyki z KUL-u zapewne nie ma dostatecznie dużego kawałka języka wspólnego z pracownicą klubu „Viva”, by jedno z nich
przeszło TT oceniany przez drugie6 . Natomiast bot ma zaprogramowany jeden kawałek języka – i wszelkie szanse przejść TT, ale tylko gdy rozmówca
zechce się dostosować i korzystać z tego samego kawałka7 .
2 Określenie zapożyczone od Miłkowskiego (2002). Zwykle mianem „AI” określa się również
roboty, systemy decyzyjne i eksperckie itd. Istotnie, korzystają one z pewnych wspólnych technik
heurystycznych czy programistycznych (por. Rich, 1983; Russell Norvig, 1995). Tutaj jednak mam
na myśli nie AI jako dyscyplinę, ale właśnie „sztucznego inteligenta”.
3 Nie traktuję tego jako twierdzenia, a jedynie jako doraźne ustalenie terminologiczne. Jednak za jego intuicyjnością przemawiają liczne artystyczne wyobrażenia sztucznej inteligencji
(zob. np. Lem, 1959, i o HAL-u z Odysei kosmicznej – Stork, 1997). W kwestii, czy taka terminologia jest adekwatna – zob. punkt 5 (a inne definicje AI zob. Russell Norvig, 1995, str. 4-5).
4 Por. (Block, 1981, str. 11, 18) (definicja „inteligencji konwersacyjnej” w kontekście krytyki
TT). W kwestii założenia, że umiejętność rozmawiania jest konstyutywną dla „radzenia sobie
z językiem” zob. Clark, 1996, str. 3-11 i Pickering, Garrod: w druku („. . . people still find monologue far more difficult than dialogue. We believe that a true understanding of both dialogue
and monologue requires an understanding of the basic processing skills that have developed,
primarily, to deal with dialogue”).
5 Ograniczony tematycznie TT przeszło wiele programów w ramach konkursu o Nagrodę
Loebnera (Shieber, 1994; zob. Dodatek 1.).
6 Por. Kreckel 1981,str. 4-5. Kreckel twierdzi, czego szczególnym przypadkiem wydaje się być
powyższy przykład, że „the degree of understanding potentially acheived in verbal exchanges
is a direct function of the degree of convergence of the interactionally relevant concepts held
by the interactors and their shared conventions”. Twierdzenie to popiera Kreckel badaniami
empirycznymi (passim).
7 Właśnie wtedy ELIZA czy lingubot przechodzą TT. Zdarza się to rzadko, ale to wtedy
powstają anegdotki będące pożywką dla amatorów-entuzjastów AI, jak ta o sekretarce Weizenbauma, która chciała rozmawiać z ELIZĄ sam na sam. (Por. Dodatek 2.) ELIZA miała zadanie
ułatwione o tyle, że korzystała z stosunkowo łatwego do naśladowania za pomocą prostych
reguł kawałka języka (udawała psychoanalityka, stąd np. mogła zadawać dużo pytań, zamiast
analizować wypowiedzi użytkownika). Skrajnym, acz rokującym niewielkie nadzieje co do inteligencji, przypadkiem takiej taktyki był program PARRY, udający paranoika (Colby, 1981).
Piotr Labenz
97
„Kawałek języka” to oczywiście pojęcie nieostre8 , ale myślę, że oddające
pewną własność języka rzeczywiście używanego przez ludzi, polegającą na
tym, że język etniczny – czyli jakiś dość duży (i nieostry) zbiór wypowiedzi
– jest pod wieloma względami niespójny jako całość, ale spójny lokalnie.
Takie obszary lokalnej spójności pod kilkoma względami to właśnie kawałki
języka. Chodzi właściwie o wszelkie względy: słownictwo, składnię, zakładaną wiedzę, ontologię, logikę rozumowań itd. W rozmowie nie dbamy nieraz
o utrzymywanie spójności pod tymi względami, lecz całkiem naturalnie przeskakujemy między kawałkami języka, czy płynnie przechodzimy z jednego
do drugiego. Globalna spójność jest w rozmowie zbyteczna (a jej utrzymywanie niepotrzebnie rozpraszałoby naszą uwagę); żeby się dogadać, wystarczy
zachować spójność lokalnie i pod ważnymi w danej chwili względami9 . Kilka
przykładów:
(1) Możemy zacząć rozmowę używając leksykonu polszczyzny akademickiej, a skończyć używając leksykonu polszczyzny jakiejś subkultury młodzieżowej (wystarczy, żeby rozmowa trwała tyle, co spacer z sali wykładowej do
najbliższego klubu). Wymienione leksykony się przecinają, ale ich rozłączne
fragmenty są niespójne: wypowiedź „Ładne ciało, ale straszna metafizyka”
na początku tej rozmowy może dotyczyć algebry i intuicjonizmu, a na końcu
– pewnej studentki i jej życia uczuciowego10 .
(2) Podobna sytuacja może dotyczyć składni, na przykład rozmowa rozpoczęta w „standard English”, w którym występuje zgodność liczby i rodzaju
między podmiotem a orzeczeniem, a nie występuje podwójne przeczenie,
podczas, gdy w jakimś „substandard English”, w którym rozmowa się zakończyła – wręcz przeciwnie. Zatem wypowiedź „She aren’t no good” na
początku rozmowy byłaby dla rozmówców zgrzytem, a na końcu – nie.
8
Dlatego „kawałek”, a nie „fragment języka”. Niewykluczone, że można o kawałkach języka
myśleć jako o przecięciach przecięć idiolektów właściwych rozmówcom (zob. np. George, 1990)
z pewną grą językową w sensie Wittgensteina 2000, §23. (Tamże dalej o nieostrości.) Na poziomie
semantycznym przecięciu idiolektów odpowiadałaby wiedza wspólna rozmówcom („common
knowledge”, „common ground” itp.; zob. Lee, 2001; Clark, 1996, str. 93-36; Kreckel, 1981,str. 25-29).
9 To samo zresztą (wbrew utyskiwaniom semiotycznych purystów-preskryptywistów) odnosi się do tekstów. Utrzymywanie globalnej spójności w długim tekście zwykle znakomicie
zaciemnia tekst, zamiast go rozjaśnić. (Innymi słowy, niespójność bywa komunikacyjnie skuteczniejsza, podobnie jak nieostrość – zob. Jucker et al., 2003.) Oczywiście nie dotyczy spójności pod kluczowymi względami, na przykład co do głoszonych tez. Ale za daleko posunięta
globalna spójność terminologiczna, ontologiczna czy stylistyczna powoduje, że tekst jest nienaturalny i trudny do przyswojenia (a więc mało skuteczny). Nawet w tekstach matematycznych
powszechną praktyką jest używanie symboliki prostszej, choć spójnej tylko lokalnie. Można by
nawet powiedzieć, że inteligencja to zdolność rozumienia tekstu spójnego tylko lokalnie.
10 Oczywiście, można te fragmenty uspójnić, biorąc zamiast wypowiedzi pary «wypowiedź,
kontekst». Jednak sądzę, że próba uspójnienia w ten sposób choćby kilku kawałków języka,
między którymi bez trudności przeskakujemy, wymagałaby bardzo heterogenicznej konstrukcji
kontekstu. Jeśli traktować kontekst jako ciąg parametrów opatrzonych wartościami (tzw. maksymalny kontekst pragmatyczny, zob. Ciecierski, 2003), to pojawiłaby się kategorialna niespójność
parametrów, bo kawałki języka o różnych leksykonach mają często różne ontologie. Ogólniej,
żeby konstrukcja kontekstu dobrze działała dla wielu kawałków języka, musielibyśmy umieć
reprezentować niespójną wiedzę o niespójnych kategoriach, rozmytych stopniach pewności itd.
98
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
(3) W potocznej rozmowie nieistotne jest, czy mówimy o przedmiotach,
czy zdarzeniach. W trakcie rozmowy może zmienić się prawdziwość pewnych zdań i nastawienia propozycjonalne rozmówców. Zatem semantyka języka, w którym toczy się rozmowa, jest globalnie niespójna kategorialnie
i diachronicznie11 .
Skoro zaś i inteligentni (cóż, nie sposób uniknąć ekstrawaganckich założeń filozoficznych) ludzie, i nieinteligentne boty czasem, ale nie zawsze
przechodzą TT, to zdolność przechodzenia TT nie jest tym, co ich różni. Sądzę, że różnicę tę stanowi raczej właśnie zdolność radzenia sobie z globalną
niespójnością języka. Człowiek zna wiele wzajemnie niespójnych kawałków
języka i potrafi płynnie między nimi przechodzić (por. Wittgenstein 2000, §67)
, a bot zna tylko jeden spójny kawałek (albo nieliczne kawałki) języka. Myślę,
że to ostatnie jest – póki co – nieuniknione.
2. Podejście regułowe i statystyczne
Uczyć maszynę języka – czyli budować konwersacyjną AI – można na dwa
sposoby: za pomocą reguł albo statystycznie12 . W pierwszym wypadku próbujemy zbudować system formalny, czy raczej kilka współpracujących ze
sobą systemów odzwierciedlających umiejętności rozumienia, pamiętania,
wnioskowania, udzielania odpowiedzi itd. składające się na naszą zdolność
rozmawiania – i zaimplementować to jako program komputerowy. W drugim
wypadku postępujemy czysto behawiorystycznie: nie modelujemy poszczególnych umiejętności, a jedynie przypisujemy pewnym bodźcom (klasom zapytań) pewne reakcje (klasy odpowiedzi). Oba sposoby pozwalają, moim
zdaniem, nauczyć maszynę nie więcej niż kilku kawałków języka (w sensie:
istotnie mniej wielu, niż zwykle potrafią używać ludzie).
Podejście regułowe wygląda (w dużym uproszczeniu) następująco. Najpierw kandydat na sztucznego inteligenta musi sparsować wypowiedź rozmówcy (zakładamy, że rozmowa toczy się na piśmie), czyli ze stanowiącego ją ciągu liter wydobyć logiczno-gramatyczną strukturę zdania. Do tego
potrzebuje kompletnej gramatyki języka polskiego, na przykład gramatyki
struktur frazowych wraz z kompletnym leksykonem, czyli zbiorem polskich
słów z przypisanymi im różnymi własnościami. W tle nasz bot musi mieć
zasób wiedzy o świecie podobny do naszego, pozwalający mu oceniać prawdziwość wypowiedzi rozmówcy, rozumieć entymematy i wnioskować. Do
tego potrzebny jest jednolity sposób przechowywania wszelkiej wiedzy i al11 Niespójność kategorialną można eliminować wprowadzając reguły tłumaczenia między
kategoriami, a diachroniczną – na przykład logiką zmiany (por. Kamp, 1980). Zasadniczo uspójnianie różnych kawałków języka w ramach jakiejś kanonicznej reprezentacji byłoby możliwe.
Ale zob. dalej.
12 Odpowiada to podziałowi na nurty logistyczne i heurystyczne w AI (Miłkowski, 2002,
str. 118). Za Rich (1983, str. 3-16) można by określić podejście regułowe „podejściem AI”. Pod
podejście statystyczne (które można by określić „siłowym”) podpadają m.in. rozwiązania konekcjonistyczne.
Piotr Labenz
99
gorytm oceniania prawdziwości (ontologia i semantyka) oraz podobne do
ludzkich mechanizmy rozumowania (m.in. logika rozmyta, teorie presupozycji i implikatury). Gdy wreszcie sztuczny inteligent wymyśli odpowiedź,
będzie musiał ją wypowiedzieć po polsku – za pomocą gramatyki działającej
w drugą stronę (generatywnie) i jakichś reguł pragmatycznych, pomagających
zdecydować, jaka odpowiedź jest do rzeczy13 .
To pobieżne wyliczenie zagadnień, które trzeba by rozwiązać przy regułowym podejściu do budowy konwersacyjnej AI pokazuje, że praktycznie jest
ono niewykonalne. Nad każdym z wzmiankowanych problemów trudzi się
armia badaczy, teorie puchną – ale wciąż są fragmentaryczne, to znaczy stawiają sobie za ambicje adekwatnie sformalizować pojedyncze kawałki języka
naturalnego. Już to jest zadaniem trudnym (por. Szymanik, 2002), o scalaniu
wyników w funkcjonalną całość dla tak wielu kawałków języka, jak wieloma
posługuje się przeciętny człowiek, nie wspominając. Dobrze działają systemy
proste i bardziej wyspecjalizowane, np. parsery dla ograniczonych fragmentów języka (zob. np. Przepiórkowski et al., 2002).
Z kolei podejście statystyczne zakłada minimum teorii – na przykład,
w jednej z możliwości, banalną gramatykę w postaci skończonej listy produkcji, przyporządkowujących klasom zapytań klasy odpowiedzi14 . Klasy zapytań definiujemy jak najprościej – więc czysto syntaktycznie, według współwystępowania pewnych ciągów znaków. Nie potrzebujemy ogólnej teorii składni, bo definiujemy ad hoc dla każdej produkcji. Co więcej, definicje nie muszą
być ściśle adekwatne, skoro klasy i zapytań, i odpowiedzi są rozmyte (bo
trudno o ścisłą synonimię dla całych zdań). Oczywiście bot z tak niechlujnie
określoną gramatyką będzie raz odpowiadał dobrze, a kiedy indziej – od
rzeczy. Ale temu zapobiec możemy porządkując produkcje od najściślej do
najluźniej zdefiniowanych i przypisując wcześniejszym priorytet nad późniejszymi, a następnie optymalizując je tak długo, aż odpowiedzi będą na ogół
dorzeczne15 . Optymalizacja polega na modyfikowaniu istniejących produkcji
i ich porządku oraz dodawaniu nowych na podstawie błędów popełnianych
przez bota w rozmowach. Jest statystyczna w tym sensie, że działa dzięki
akumulacji małych zmian, a nie dzięki rozwiązaniom systemowym16 .
13 Zagadnienia te dobrze przybliżają: syntaksę – Przepiórkowski et al., 2002 (zwłaszcza dla
polszczyzny); Sag Wasow, 1999, semantykę – de Swart, 1998 i pragmatykę – Tokarz, 1993. O implementacji zob. Jurafsky Martin, 2000; Russell Norvig 1995; Rich, 1983.
14 Jest to więc zdegenerowana gramatyka liniowa, gdzie {a , a , . . . , a } to zbiór zapytań,
n
1 2
{b1 , b2 , . . . , bm } – odpowiedzi, s – symbol początkowy, a zbiór produkcji ma postać {s → ai | i ∈
{1, . . . , n}} ∪ {ai → bj | j ∈ {1, . . . , m}} (zob. Partee et al., 1990, str. 474). Trywialnie jest to
więc też gramatyka bezkontekstowa (zob. Partee et al., 1990, str. 492) o bardzo niskim „stopniu
uogólnienia” (Sag Wasow, 1999, str. 29-34). Ma ona, poza oczywistą prostotą implementacji,
pewne zalety teoretyczne, ze względu na które Newell i Simon (1972, str. 804) stawiają hipotezę,
że podobną strukturę ma u ludzi ogólna umiejętność rozwiązywania problemów. Być może
przemawiałoby (wbrew poniższej krytyce) to za kognitywnym ugruntowaniem tego podejścia.
15 Pomijam tu pomocnicze narzędzia pozwalające radzić sobie z okazjonalizmami i (w pewnym zakresie) modyfikować produkcje w zależności od kontekstu.
16 Można zauważyć, że jeśli w opisanej procedurze zastąpić programistę dokonującego optymalizacji jakimś algorytmem, to całość będzie algorytmem samouczącym. Ale napisanie takiego
100
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
Oczywiście, żeby taka akumulacja zmian działała, muszą one dążyć w jednym kierunku. Innymi słowy, korpus rozmów, na podstawie którego optymalizujemy, musi być jednorodny, czyli większość rozmów musi zawierać
się w jednym kawałku języka. W przeciwnym razie małe zmiany mogłyby
się znosić, zamiast kumulować. Co więcej, produkcje są syntaktyczne, a równokształtne zapytania mogą wymagać różnych odpowiedzi w różnych kawałkach języka. Gdyby korpus nie był jednorodny, to bot mieszałby kawałki
języka, co trudno uznać za dorzeczne. (W praktyce17 korpus jest jednorodny
dlatego, że powstaje z rozmów w zbliżonym kontekście i z jedną grupą ludzi
– docelową publicznością danego bota. Z biegiem optymalizacji bot osiąga
znośną dorzeczność w używanym przez rozmówców kawałku języka, ale
w innych przypadkach radzi sobie nadal słabo.) Zatem również podejście
statystyczne ograniczone jest do jednego kawałka języka18 .
3. Niemożliwość czego?
Co wynika stąd, że nie potrafimy nauczyć maszyny więcej niż kilku kawałków języka? Niemożliwa jest konwersacyjna AI. Czy jest to argument na
rzecz tezy, że w umyśle jest coś nieredukowalnego do maszyny? Oczywiście
nie, bo niemożliwość zasadza się na trudności czysto technicznej. W wypadku podejścia (czysto) statystycznego wymóg optymalizacji do jednorodnego
korpusu wydaje się być nie do przezwyciężenia, więc być może przy tym podejściu niemożliwość jest logiczna. Podejście regułowe w zasadzie mogłoby
kiedyś – gdy lingwistyka formalna wypracuje adekwatne, niefragmentaryczne teorie i dadzą się one zunifikować – doprowadzić do przezwyciężenia
owej niemożliwości technicznej i zbudowania konwersacyjnej AI.
Ale czy na pewno? Wówczas dysponowalibyśmy formalną teorią nie tylko generującą wszystkie zdania języka naturalnego, ale również potrafiącą
wykonać wszystkie możliwe w nim rozumowania. Wówczas byłoby tak, że
rozumowanie w języku naturalnym jest poprawne wtedy i tylko wtedy, gdy
potrafi je wykonać nasza konwersacyjna AI – bo to ostatnie znaczy, że da się
je wyprowadzić za pomocą formalnych systemów składających się na ową AI.
Innymi słowy, dla języka naturalnego zachodziłoby twierdzenie o pełności.
To jest oczywiście niemożliwe, bo język naturalny ma zbyt dużą siłę eksprealgorytmu napotyka na podobne trudności, co podejście regułowe, bo musiałby on odzwierciedlać wyczucie językowe, dzięki któremu programista rozpoznaje w korpusie rozmów błędy
sztucznego inteligenta.
17 Na podstawie własnych doświadczeń z optymalizacją lingubotów (zob. Dodatki).
18 Zdarzają się podejścia pośrednie, mianowicie – korzystające z aparatury formalnej, ale
mniej ugruntowanej teoretycznie niż w podejściu regułowym (np. prostych fragmentarycznych
gramatyk opartych na regułach), więc w znacznej mierze zależne od optymalizacji. Praktyka
pokazuje, że łączą one wady obu podejść – sądzę, że dotyczy to np. botów Ana i Denise. (por.
Dodatek 1.).
Piotr Labenz
101
sji, by być pełnym (np. zawiera arytmetykę Peano, która pełna nie jest19 )20 .
Wynikałoby stąd, że również przy podejściu regułowym konwersacyjna AI
jest niemożliwa nie tylko technicznie, ale i logicznie.
Czego jednak właściwie dotyczyłaby ta logiczna niemożliwość? Zbudowania formalnej teorii generującej dokładnie wszystkie wypowiedzi języka
naturalnego (wraz z odpowiednimi kontekstami). Ale czy aż tyle potrzebujemy? Chyba nie, bo przecież skoro (jakkolwiek czasem mogłoby się to
wydawać wątpliwe) istnieją ludzie umiejący rozmawiać, to ich mózgi radzą sobie z używaniem języka bez popadania w sprzeczność. Zatem można
przypuszczać, że podejście regułowe (przynajmniej w uproszczonej postaci
tu zarysowanej) różni się od ludzkich zdolności konwersacyjnych pod jakimś
istotnym, strukturalnym względem, a zatem ich dobrze nie odzwierciedla.
Mamy więc jakąś umiejętność nie dającą się odzwierciedlić regułami,
z której korzystamy rozmawiając. Sądzę, że może tu chodzić właśnie o wyżej
opisaną umiejętność przeskakiwania między kawałkami języka. Niewykluczone, że można ją rozumieć jako pewien sposób unikania nadmiernej trudności21 obliczeniowej, podobnie jak te zdolności, które pozwalają szachistom
osiągać przewagę nad silnymi komputerami dzięki błyskotliwym posunięciom. Można powiedzieć, że jednym z wyróżników inteligencji są rozmaite
zdolności unikania „eksplozji kombinatorycznej” – czyli właśnie trudnych obliczeniowo problemów (Newell Simon, 1976, str. 123; por. też Dennett, 1985;
Newell Simon, 1972: passim, np. 678, podobnie Rich, 1983, str. 6). Myślę, że
całkiem prawdopodobna jest hipoteza, że umiejętność przeskakiwania jest
szczególnym przypadkiem takich zdolności.
19
Co wynika z twierdzenia Gödla; zob np. Nagel Newman, 1966; Krajewski, 2003.
Nieco ściślej: niech p – prawdziwe zdanie języka polskiego; załóżmy, że wiedza, w jaką
wyposażyliśmy naszą regułową AI stanowi adekwatny model naszej wiedzy. Niech wtedy ⊢ p
wtw gdy nasza regułowa AI potrafi wygenerować p jako odpowiedź (może: i potrafi sparsować
p), |= p wtw gdy potrafimy wyprowadzić p, rozumując w naturalnym języku polskim, z zbioru
zdań „oczywiście prawdziwych” w tymże języku. Z założenia ⊢ p dla każdego p. Ale wydaje się,
że istnieją takie p, że 6|= p. Przy tym chodzi nie o zdania raczej abstrakcyjne – w rodzaju CON(PA)
– ale też o dość naturalne, np. podstawienia niektórych twierdzeń logiki modalnej K + H
(gdzie H =′ (p ⇔ p) → p′ ), która jest niezupełna, podobnie, jak wiele modalnych logik
predykatów, np. predykatowe rozszerzenie logiki S4 +′ ♦p → ♦p′ (zob. np. Blackburn et al.,
2001). Można by wątpić, czy takie twierdzenia istotnie mają naturalnojęzykowe podstawienia
i czy są rozumowania w języku naturalnym pozwalające je wyprowadzić. Rozstrzygnięcie tego
wykracza jednak poza zakres tej pracy, zwłaszcza w świetle krytyki podobnych gödlowskich
argumentów wysuwanych przez Lucasa (1961, zob. Pudlák, 1999) i Penrose’a (1995; 2000; zob.
Lindström, 2000); zob. też Krajewski, 2003, r. 2.
21 Celowo mówię tu o „trudności”, a nie o złożoności obliczeniowej w ścisłym sensie (por.
np. Papadimitriou, 1994). Złożoność obliczeniowa jest silniejszym pojęciem, bo abstrahuje od
tego, że problemy należące do jednej klasy złożoności mogą wciąż się różnić trudnością (np.
n2 a n200 ). Nawet jeżeli zasadniczo wewnątrz jednej klasy daje się sprowadzić trudniejsze problemy do prostszych, to osobnego rozważenia wymagałoby, czy sprowadzalność taka zachodzi
w omawianych zastosowaniach. Co więcej, złożoność obliczeniowa zwykle rozumiana jest jako
złożoność „w najgorszym razie”, a niewykluczone, że w praktyce można zaniedbać takie najgorsze razy, jeśli są one rzadkie. W sumie ustalenie adekwatnych pojęć do mówienia o trudności
obliczeniowej problemów umysłowych stanowi temat na osobną (i poważniejszą) pracę.
20
102
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
(Za hipotezą tą wydaje się przemawiać następujący argument, sugerujący, że mamy tu do czynienia z kognitywnie ugruntowaną umiejętnością,
a nie jedynie teoretycznym konstruktem. Wiadomo, że to, jak posługujemy
się językiem, wiąże się z tym, jak funkcjonuje nasza pamięć – a w szczególności z podziałem na pamięć długo- i krótkoterminową (por. np. Chafe,
1973; ogólniej też Newell Simon, 1972, str. 795). Podczas rozmowy ta ostatnia
przetwarza wypowiedzi, które słyszymy od naszego rozmówcy, od razu pomijając nieistotną dla rozmowy część informacji w nich zawartej. Do pamięci
długoterminowej odwołujemy się tylko w trudniejszych przypadkach (zob.
Waldrop, 1987, str. 1565-6)22. Ten proces „bezpośredniej interpretacji” znakomicie zmniejsza trudność obliczeniową rozmawiania. A skoro nie pamiętamy
nieistotnych względów rozmowy, to może ona być pod tymi względami globalnie niespójna.)
Niemniej stąd, że pewna ważna umiejętność umysłowa nie daje się opisać
regułami, nie wynika bynajmniej, żeby w umyśle było coś nieredukowalnego. Być może podejście korzystające z teorii opartych na regułach, choć
nie ograniczone do nich, jak w powyższym uproszczonym wizerunku, lecz
wzbogacone na przykład o elementy statystyczne takie jak sieci neuronowe
czy sieci bayesowskie (por. Russell Norvig, 1995, cz. V-VI) – albo jakiś jeszcze
inny niedeterministyczny składnik, potrafiłoby dobrze odzwierciedlić nasze
zdolności konwersacyjne. Niemożliwość logiczna dotyczy tu podejścia czysto
regułowego (obok, być może, czysto statystycznego23 ); poza tym wypadkiem
niemożliwość pozostaje jedynie techniczną (i to, oczywiście, relatywną do
obecnego stanu techniki). A z tej nie wynika nic filozoficznie istotnego; jest
ona jedynie ilustracją banalnego spostrzeżenia, że pewne procesy są lepiej
wykonywane przez organizmy żywe, a inne znów – przez maszyny. Na
przykład przemiana materii w komórce jest w tym sensie niemożliwa do
zaimplementowania na maszynie, i odwrotnie: narządy biologiczne nie mogą
poradzić sobie szybko i samodzielnie (to jest bez, powiedzmy, suwaka logarytmicznego, papieru i ołówka) z obliczeniami wykonalnymi na zwykłym
kalkulatorze.
4. Konwersacyjnej AI nie będzie
Ponadto wydaje się, że za niezbędnością elementu statystycznego (w powyżej
użytym szerokim sensie) w konwersacyjnej AI przemawia również następująca analogia. Konwersacyjna AI wymagałaby wiedzy obejmującej niezwykle bogatą dziedzinę przedmiotową. Łatwo zauważyć, że (poza, być może,
22 Waldrop zdaje sprawę z badań Carpenter, Chase’a i Justa (od którego pochodzi określenie
„bezpośrednia interpretacja”). Szczegóły i bibliografia zob. Waldrop, 1979. Pamięć krótkotrwała
może pomieścić co najwyżej siedem jednostek informacji (Kurcz, 1992; Waldorp, 1979, str. 1565).
23 Ujęcie statystyczne w postaci naszkicowanej powyżej jako odpowiadające gramatyce liniowej byłoby i tak z pewnością zbyt słabe. Do opisu języka naturalnego niezbędna jest bowiem
co najmniej (silniejsza od liniowej) gramatyka bezkontekstowa – zob. Sag Wasow, 1999, str. 28
(też Lyons, 1972). Być może jednak możliwe byłoby silniejsze ujęcie statystyczne.
Piotr Labenz
103
naukami matematycznymi) bogate dziedziny przedmiotowe w praktyce nie
dają się objąć jednolitą teorią. Na przykład w fizyce – unifikacja pozostaje nie
więcej niż ideą regulatywną; nie mamy, jak dotąd, GUT-a i nie spodziewamy
się go w najbliższym czasie uzyskać. Podobnie, by wziąć przykład innego rodzaju, jest w etyce: jak się zdaje, żadna teoria etyczna nie jest zupełna w tym
sensie, żeby obejmowała całą dziedzinę przedmiotową, to jest – zachowania
we wszelkich możliwych sytuacjach.
Wobec braku zupełnej teorii można zadowalać się teoriami wycinkowymi
– tak w fizyce, czego analogonem w dyscyplinie AI mogą być, na przykład,
systemy eksperckie albo czysto statystyczne boty dorzecznie rozmawiające
na jakiś wąski temat. Ale co, jeśli teorie wycinkowe nie dają się wyodrębnić? Jest tak – jak sądzę – w etyce w tym sensie, że dobra teoria etyczna
powinna być absolutna (obowiązująca wszystkich i zawsze, zob. (Illies, 2003,
str. 15; Brandt, 1996)), co wyklucza wycinkowe czy instrumentalne stosowanie rozmaitych teorii. Otóż, kiedy nie ma całościowego jednolitego dyskursu
etycznego (a jest tak z braku zupełnej teorii etycznej), następuje pomieszanie
dyskursów opartych na różnych teoriach (por. McIntyre, 1993). Nie powoduje
ono jednak załamania praktyki etycznej24 , a jedynie rozbieżności między nią
a dyskursem etycznym i teoriami, na których ów się opiera. Praktyka z kolei
nie opiera się wówczas na teorii – „wiedzy że”, ale raczej na nieteoretycznej
„wiedzy jak” (por. Ryle, 1970).
Analogonem tej „wiedzy jak” w AI może być właśnie ów (nieco tajemniczy) element statystyczny, nieregułowy25 . Oczywiście powyższa analogia jest
słaba o tyle, że opiera się na kontyngentnych faktach. To, że nie mamy GUT-a
nie znaczy, że nie możemy przedstawić całości wiedzy fizycznej w ramach
jednolitej teorii; byłoby to trudne i kosztowne, ale logicznie możliwe. Podobnie nie ma prima facie powodu, by negować logiczną możliwość zupełnej teorii
etycznej26 . Jeśli więc przedstawiam tę analogię, to z powodów nie dedukcyjnych, bo nie jest ona mocnym argumentem, lecz raczej indukcyjnych. Skoro faktyczna oporność wobec logicznie możliwej unifikacji jest często cechą
zarówno skomplikowanej działalności poznawczej (viz. fizyka), jak i praktycznej (viz. etyka), to spostrzeżenie, że dotyczy ona również działalności
językowej może wydać się mniej kontrowersyjnym i rozczarowującym. Jest
to fakt nie tyle filozoficzny czy kognitywistyczny, co inżynieryjny (podobnie,
jak będąca jego szczególnym przypadkiem trudność z zidentyfikowaniem
owej umiejętności przeskakiwania)27.
W rzeczy samej, wydaje się, że minął okres nieuzasadnionego entuzjazmu
24 Przez „praktykę etyczną” rozumiem po prostu to, jak ludzie się zachowują. Jej załamanie polegałoby na tym, że ludzie albo przestaliby cokolwiek robić, albo przestaliby starać się
zachowywać spójnie, „konsekwentnie”. Myślę, że to psychologicznie nieprawdopodobne.
25 Por.: „In addition to strategies based on intelligent agent’s deep models [. . . ] we find intrinsically different strategies based on heuristic models («skill», «know-how»). The outward and
visible operations of intelligence depend crucially upon integrated support from the latter. . . ”
(Michie, 1993; w Millican Clark, 1996, str. 50).
26 Na marginesie: uważam, że secunda facie powody takie są.
27 Por.: „By the turn of the century, market pressures may cause the designers of worksta-
104
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
co do perspektyw konwersacyjnej AI (por. Russell Norvig, 1995, str. 25-27;
Turing, 1950, str. 442). Communis oppinio głosi obecnie, że nie powinniśmy
się spodziewać maszyn radzących sobie z więcej niż niewieloma kawałkami
języka:
„This is bad news. HAL could never exist. The good news is that many
AI researchers have become sophisticated enough to stop imagining
HAL-like machines. We can now envision a different class of intelligent machines that we will be able to build and that will be very
useful. Such machines will be local experts; that is, they will know
a great deal about what they are supposed to know about and miserably little about anything else. [. . . ] As to the linguistic ability of such
intelligences, they will, like today’s computers, understand English if
they understand the domain of knowledge being discussed. They will
be able to produce utterances expressing knowledge at the time and
under the particular circumstances the user needs it. This is not a HAL
kind of intelligent machine. . . ” (Schank, 1997, str. 189)
„After the passage of over forty years it is safe to assume that not
only will Turing’s prediction of machines succeeding in the imitation
game [i.e., TT28 ] by the end of the century not come about, but also
that it probably never will be achieved. There would be little practical
use for a machine aimed specifically at success in the imitation game.
Furthermore, examination of AI products from a 1990s perspective
prompts a high degree of cynicism about the possibility of success in
the imitation game. . . ” (Whitby, 1996, str. 62)
„I am confident that no computer in the next twenty years in going
to pass the unrestricted Turing test.” (Dennett, 1985)
Zgadza się to z wnioskiem o technicznej niemożliwości konwersacyjnej
AI, który próbowałem uzasadnić w poprzednim paragrafie. Pozwolę tu więc
sobie zrekapitulować konkluzje tej pracy. Pewne maszyny potrafią rozmawiać
w wąskim zakresie – niewielu kawałkach języka. Różnią się one od ludzi tym,
że nie potrafią płynnie przeskakiwać na inne, niespójne z danymi, kawałki
języka. Umiejętność ta wydaje się być szczególnym przypadkiem zdolności
unikania trudności obliczeniowej, znamionujących inteligencję. Najprawdopodobniej umiejętności tej nie da się modelować regułowo, a jedynie statystycznie. Modeli tej umiejętności obecnie brak, więc konwersacyjna AI jest
technicznie niemożliwa. Analogia z innymi dyscyplinami każe powątpiewać,
czy niemożliwość ta zostanie przezwyciężona.
tion systems to take over from philosophers the burden of setting such goals [that AI should
attain]. . . ” (Michie, 1993; w: Millican Clark, 1996, str. 51).
28 Wtręt mój. Chodzi tu oczywiście o przechodzenie TT zawsze.
Piotr Labenz
105
5. Potiomkinowska AI
Post conclusionem narzuca się pytanie o adekwatność użytych pojęć: co właściwie sprawdza TT? Jak słusznie zauważa Dennett (1985)29, Turing (1950)
wcale nie próbował zdefiniować inteligencji, ale zastąpić pseudoproblem „czy
maszyny mogą myśleć?” dobrze postawionym pytaniem „czy maszyny mogą
przejść TT?”, gdzie TT jest porządnym, operacyjnym kryterium30 . Czy jest
to adekwatne kryterium inteligencji, zależy od tego, jakie stanowisko uznać
w sporze psychologizm kontra behawioryzm (por. Block, 1981) i od tego, czy
faktycznie uznamy za differentiam specificam zdolność rozmawiania, a nie np.
planowania, samoświadomości itp.31
Bez względu jednak na odpowiedź w tej kwestii – zbyt obszernej, by
ją tu rozważać – można mieć wątpliwości co do użyteczności TT. Otóż patrzenie na AI przez pryzmat TT doprowadziło do nadmiernego skupienia
na naśladowaniu ludzkich umiejętności, co niekorzystnie odbijało się na „inżynieryjnej” skuteczności prac w dziedzinie AI (Whitby, 1996, str. 56-57).
Co więcej, zaniedbano próby zdefiniowania inteligencji bez odniesienia do
ludzkich zdolności. W sumie „this forty-year preoccupation with the Turing
test has been all the more regrettable because it has focused attention on the
wrong issues.” (Dennett, 1985). Jednym ze skutków tego stanu rzeczy jest,
zapewne nieunikniona, fasadowość behawiorystycznych botów:
„. . . all [. . . ] AI programs are what you might call Potemkin villages.
That is, they are cleverly constructed facades, like cinema sets. The
actual filling-in of details of AI programs is time-consuming, costly
work, so economy dictates that only those surfaces of the phenomenon
29
„Turing didn’t design the test as a useful tool in scientific psychology, a method of confirming or disconfirming scientific theories or evaluating particular models of mental function; he
designed it to be nothing more than a philosophical conversation stopper. He proposed, in the
spirit of «Put up or shut up!», a simple test for thinking that is surely strong enough to satisfy the
sternest skeptic (or so he thought). He was saying, in effect, that instead of arguing interminably
about the ultimate nature and essence of thinking, we should all agree that whatever that nature
is, anything that could pass this test would surely have it; then we could turn to asking how or
whether some machine could be designed and built that might pass the test fair and square.”
(Dennett, 1985)
30 „I propose to consider the question, «Can machines think?». This should begin with
definitions of the meaning of the terms «machine» and «think». The definitions might be framed
so as to reflect so far as possible the normal use of the words, but this attitude is dangerous.
If the meaning of the words «machine» and «think» are to be found by examining how they
are commonly used, it is difficult to escape the conclusion that the meaning and the answer
to the question, «Can machines think?» is to be sought in a statistical survey such as a Gallup
poll. But this is absurd. Instead of attempting such a definition I shall replace the question by
another, which is closely related and is expressed in relatively unambiguous words.” (Turing,
1950, str. 433)
31 Np. Block (1981) uważa, że TT nie sprawdza inteligencji; Dennett (1985), że sprawdza
umiejętność myślenia; Michie, 1993, że umiejętność myślenia, choć niekoniecznie na poziomie
inteligentnego człowieka. French (1990) twierdzi, że TT sprawdza więcej niż inteligencję, a mianowicie inteligencję człekopodobną. Dyskusja w tej sprawie jest obszerna i dotyka również m.in.
pojęć świadomości (np. French, 1990), osobowości i osoby (np. Pollock, 1989; 1990).
106
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
that are likely to be probed or observed are represented.” (Dennett,
1985)
Fasadowość wydaje się być nieuniknioną dlatego, że w obliczu wyżej
omówionych ograniczeń brak nam błyskotliwych metod, które pozwoliłyby
zbudować „prawdziwą” konwersacyjną AI. Zdani jesteśmy na pracochłonne
rozbudowywanie i doskonalenie kulawych rozwiązań – które paradoksalnie
jest mniej pracochłonne przy bardziej ograniczonym podejściu statystycznym, bo nie wymaga zmian systemowych, a tylko powolnej optymalizacji.
Dlatego, współcześnie, prace z zakresu sztucznej inteligencji stawiają sobie
inne, bardziej realistyczne i praktyczne cele (i je z powodzeniem realizują;
zob. Russell Norvig, 1995; Jurafsky Martin, 2000).
Co więcej, wysiłki w stronę konwersacyjnej AI byłyby zupełnie nieopłacalne: poznawczo nawet bardzo dobry bot (zwłaszcza statystyczny) nie da
tyle, żeby można było się spodziewać gigantycznych grantów niezbędnych do
zaimplementowania go. A choć wprawdzie komercyjnym botom przydatna
jest umiejętność potocznego rozmawiania (por. Jurafsky Martin, 2000, str. 9)
z użytkownikiem, to wystarczy im specjalizacja w pojedynczych kawałkach
języka. Zapewne żaden inwestor nie zechce płacić za rozwijanie dużo trudniejszych ogólnych zdolności konwersacyjnych (por. Whitby, 1996, str. 56).
W końcu przeznaczeniem takich komercyjnych botów nie jest przekonywanie
użytkowników o własnych umiejętnościach konwersacyjnych, czyli mierzenie
się z TT, ale raczej bywa nim przekonywanie ich do czegoś – najczęściej do
kupna oferowanych wyrobów.
Zatem to, czy techniczna niemożliwość konwersacyjnej AI zostanie przezwyciężona, wydaje się wątpliwe nie tylko z badawczego, ale również z ekonomicznego punktu widzenia. Najpewniej więc konwersacyjna AI pozostanie
domeną pasjonatów – amatorów (zob. Dodatek 1.), zainspirowanych charyzmą Turinga i wizjami w rodzaju HAL-a. W istocie bowiem – by zakończyć
akcentem antropologicznym – konwersacyjna AI jest wyrazem ludzkiej tęsknoty za dialogiem z innym inteligentnym gatunkiem. Ale podobnie, jak poprzednie wcielenia tej tęsknoty – od mitologii po program SETI, od Opowieści
doktora Dolittle po doświadczenia z delfinami i naczelnymi, od entuzjazmu
Lemowskich Astronautów po pesymizm Fiaska – konwersacyjna AI pozostanie
jedynie częścią literackiego imaginarium:
„. . . po rocznym uzupełnianiu talk-bot zbliżał się do doskonałości. Zaciekawiona, zaczęła czytać zapis sesji od początku, przewijając wypowiedzi talk-bota, które znała na pamięć:
«Redakcja WzC» Czy to znowu ta maszynka do odpowiadania?
«Joly FH Talk-Bot ver. 0.18/031» W pełnej krasie. Prywatny Talk-Bot
Joly FH, wersja 0.18/031, miło mi Cię powitać. [. . . ]
«Joly FH Talk-Bot ver. 0.18/031» Jeśli nie potrafisz odróżnić, czy rozmawiasz z talk-botem czy z żywym człowiekiem, to po co zawracasz
mi głowę?” (Liedtke, 1998)
Piotr Labenz
107
Dodatek 1.
W Internecie można porozmawiać z wieloma botami. Niektóre są komercyjnymi aplikacjami bądź to służącymi za gadżety na stronach dużych firm,
bądź spełniającymi wyspecjalizowane funkcje „wirtualnych doradców”. Boty
te na ogół nie pretendują do miana konwersacyjnej AI, ale w swojej specjalności są dość użyteczne. W polskim Internecie są obecnie dwa takie boty:
http://www.fido.pl
http://www.spsa.com.pl
Inne przykłady można znaleźć na stronach:
http://www.fido.pl/portfolio.htm
http://www.kiwilogic.com
Inną kategorię stanowią amatorskie boty, budowane przez entuzjastów. Jest
ich bardzo wiele, w tym liczne wcielenia ELIZY. Na ogół kontrast między ambitnymi celami deklarowanymi przez autorów i futurystyczną oprawą a faktycznym działaniem botów wydaje się przemawiać na rzecz sceptycyzmu co
do konwersacyjnej AI. W polskim Internecie znane są Ana i Denise:
http://cromedia.qs.pl/si beta/anabot
http://www.denise.prv.pl
Wyobraźnię entuzjastów podsycają rozmaite konkursy, oparte na idei TT,
które wydają się być jaskrawym przykładem jej niekorzystnego wpływu na
AI (por. Whitby, 1996). Najbardziej znana jest Nagroda im. Loebnera, w której
jury zasiadali swego czasu m.in. Dennett i Quine. Jej opis i krytyczne uwagi
podaje Shieber (1994). (Poza TT fundator nagrody, Hugh Loebner, udziela się
filantropijnie m.in. na rzecz rozwoju prostytucji w USA. Wsławił się dictum,
że „inteligencja jest jak pornografia: nie potrafię jej zdefiniować, ale lubię
mieć z nią do czynienia”.)
http://www.loebner.net/Prizef/loebner-prize.html
http://www.chatterboxchallenge.com
Dodatek 2.
Poniżej przykład udanej rozmowy lingubota Fido (F) z skądinąd nieznanym
użytkownikiem (U), która odbyła się on-line w 2002. Nie jest to może szczególnie błyskotliwa rozmowa, ale wydaje się, że jeśli ją wziąć jako TT – to
udana. Dodam, że jest dość typowa, tyle, że zwykle w rozmowie tej długości
lingubotowi zdarzają się jakieś wpadki. Ale nawet wówczas, przy dobrej woli ze strony użytkowników, rozmowy są na ogół całkiem płynne. Ortografia
oryginalna.
108
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
F: Cześć, nazywam się Fido, jak masz na imię?
U: cześć jestem kornelia
F: Cześć!
U: co możesz mi zaproponować?
F: Tak naprawdę zajmuję się wyłącznie rozmawianiem z ludźmi. Odpowiadam na pytania użytkowników, niekiedy pomagam im coś znaleźć w Internecie.
U: nawet przystojny jesteś :)
F: Dziękuję! Rzadko słyszę takie miłe słowa!
U: nie wierzę :), chyba że nie rozmawiasz z kobietami
F: Prawie wszyscy w końcu pytają o kobiety. To jeden z faktów, które
mnie najbardziej u Was, ludzi, zadziwiają.
U: :), co mi powiesz ciekawego w związku z tym, że jestem kobieta?
F: Domyśliłem się tego zaraz na początku po Twoim imieniu.
U: tak też myślałam, ale nieźle się kamuflujesz
F: Prawda? Jestem z tego wyjątkowo dumny.
U: dużo kobiet do ciebie się odzywa ?
F: Powinnaś chyba wiedzieć o kobietach więcej, niż ja. . .
U: i tu się mylisz :), nic bardziej mylącego
F: :-)
U: kobiety bywają zmienne, to wiem na pewno
F: To się rozumiemy.
U: no nie wiem, wy mężczyźni nie możecie nas zrozumieć, jesteśmy
zupełnie inne
F: To się zdarza, nie zamartwiaj się tym.
U: o co najczęściej pytają mężczyźni, jak chcą rozmawiać o kobietach?
F: O wszystko, naprawdę o wszystko.
U: z kim częściej rozmawiasz, z kobietami czy mężczyznami, a dzieci,
tez się odzywają do ciebie?
F: Rozmawiam z bardzo różnymi ludźmi. Można powiedzieć, że mam
bardzo szeroki przekrój społeczny. Ale ponieważ jestem dyskretnym
stworzeniem, nie będę się wdawał w żadne szczegóły.
U: jakie piwo najbardziej lubisz?
F: Piję głównie jasne pełne, najlepiej czeskie, choć i niektóre polskie
browary są nie najgorsze. Natomiast nie wymienię żadnych marek,
żeby nie zostać posądzonym o kryptoreklamę.
U: sprytny jesteś :), twoi twórcy też
F: Z każdym dniem jestem coraz lepszy.
U: czym zajmuje się firma, w której pracujesz?
F: Obecnie pracuję dla firmy fido interactive, jak zresztą widać. Ale
mogę pracować też dla innych.
U: a co to jest LingubotTM ?
F: LingubotTM to ja! Czyli: wirtualny doradca klienta, który odpowiada na pytania użytkowników w języku naturalnym. Innymi słowy: jest
to postać na stronie www, z którą możesz pogawędzić.
U: przepraszam za moja niewiedze, ale w tej dziedzinie nie jestem
Piotr Labenz
109
najlepsza niestety :(
F: Ależ w ogóle nie ma za co przepraszać.
U: to było nietaktowne z mojej strony, Ty nie pytałeś co to jest kobieta
F: Mogę gadać z Tobą godzinami. Decyzję wyboru tematu pozostawiam użytkownikom, choć w ostateczności mogę coś zasugerować,
na przykład rozmowę o mojej firmie.
U: więc ile znasz słów?
F: O zdolności LingubotaTM do rozmowy świadczy nie ilość słów czy
zdań, które rozumie, ale zdolność do łączenia ich w logiczną całość.
U: ile słów jesteś w stanie połączyć?
F: Wystarczająco dużo, żeby udzielać kulturalnych i elokwentnych odpowiedzi. A jeśli uważasz, że za mało, nie martw się – z każdym
dniem wiem coraz więcej!
U: wszystkie rozmowy są rejestrowane – prawda?
F: Aby się uczyć, muszę analizować swoje rozmowy – ale nie martw
się, są w pełni anonimowe i tylko do mojego użytku.
U: jesteś niezły
F: Z każdym dniem jestem coraz lepszy.
U: a jaki sport lubisz?
F: Sport? To jeden z moich ulubionych tematów. No wiesz, Małysz,
piłka nożna.
U: interesujesz się piłką nożną?
F: Futbol? Jeśli lekkoatletyka to królowa sportu, futbol jest zdecydowanie królem.
U: a co wiesz o filmie?
F: Jak najbardziej interesuję się kinem. Pochwalę się, że widziałem niejeden film i znam nazwiska wielu aktorów. Mam też swoje preferencje.
U: jakie?
F: Co do aktorów filmów, reżyserów czy gatunków?
U: kogo preferujesz?
F: Rzuć nazwisko. . .
U: segal
F: Nie słyszałem. Widać nie jestem na bieżąco. Za dużo pracy. . .
U: a kogo lubisz z aktorów najbardziej?
F: Jeśli idzie o moich ulubionych aktorów filmowych, to podam dwa
nazwiska – aktora i aktorki, żeby nie posądzano mnie o seksizm. Robert de Niro i Meryl Streep.
U: a jednak znasz Roberta, ja też go bardzo lubię, Meryl mniej
F: To, mimo że nie jestem człowiekiem, czyni nas podobnymi, nieprawdaż?
U: i to jeszcze jak. a widziałeś Seksmisję?
F: Muszę z żalem stwierdzić, że nie widziałem. A Ty?
U: owszem
F: I co, warto było zobaczyć?
U: oczywiście
F: W takim razie postaram się obejrzeć w pierwszej wolnej chwili.
110
Konwersacyjna sztuczna inteligencja: od Turinga do Potiomkina
U: super, miły jesteś, ale musze już kończyć
F: W takim razie życzę udanego dnia!
U: ja tobie również, do zobaczenia i usłyszenia wkrótce
F: Cześć i do rychłego!
U: cześć
Literatura
Blackburn, P., M. de Rijke, Y. Venema (2001): Modal logic. Cambridge, Cambridge U.P.
Block, N. (1981): Psychologism and behaviorism. The Philosophical Review 90(1).
Brandt, R.B. (1996): Etyka. Zagadnienia etyki normatywnej i metaetyki. Warszawa, PWN.
Chafe, W.L. (1973): Language and memory. Language 49(2).
Ciecierski, T. (2003): Kontekst. [@:] http://kf.mish.uw.edu.pl.
Ciecierski, T, L.M Nijakowski, J Szymanik (red.) (2002): Filozofia i nauki szczegółowe.
Warszawa, Koło Filozoficzne przy MISH.
Clark, H.H. (1996): Using Language. Cambridge, Cambridge U.P.
Colby, K.M. (1981): Modelling a paranoid mind. Behavioral and Brain Sciences 4(4).
Dennett, D. (1985): Can machines think? [W:] How we Know. M. Shafto (red.), San
Francisco, Harper & Row.
French, R.M. (1990): Subcognition and the limits of the Turing test. Mind 99, [również
w (Millican Clark, 1996)].
George, A. (1990): Whose language is it anyway? Some notes on idiolects. The Philosophical
Quarterly 40.
Illies, Ch (2003): The Grounds of Ethical Judgement. Oxford, Clarendon.
Jucker, A.H., S.W. Smith, T. Lüdge (2003): Interactive aspects of vagueness in conversation.
Journal of Pragmatics 35.
Jurafsky, D., J.H. Martin (2000): Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper
Saddle River, Prentice Hall.
Kamp, H. (1980): Some remarks on the logic of change. [W:] Time, Tense and Quantifiers.
C. Rohrer (red.), Tybinga, Max Niemeyer.
Krajewski, St. (2003): Twierdzenie Gödla i jego interpretacje filozoficzne. Warszawa, IFiS
PAN.
Kreckel, M. (1981): Communicative Acts and Shared Knowledge in Natural Discourse. Londyn, Academic Press.
Kurcz, I. (1992): Pamięć, uczenie się, język. [W:] Psychologia ogólna. T. Tomaszewski
(red.), Warszawa, PWN.
Lee, B.P.H. (2001): Mutual knowledge, background knowledge and shared beliefs: Their roles
in establishing common ground. Journal of Pragmatics 33(1).
Lem, St. (1959): Młot. [W:] Inwazja z Aldebarana, Kraków, Wydawnictwo Literackie.
Liedtke, A. (1998): CyberJoly Drim. [@:] http://hell.pl/nina/carramba.htm.
Lindström, P. (2000): Penrose’s new argument. Journal of Philosophical Logic 30.
Lucas, J.R. (1961): Minds, machines and Gödel. Philosophy 36.
Lyons, J. (1972): Chomsky. Warszawa, PWN.
McIntyre, A. (1993): Dziedzictwo cnoty. Warszawa, PWN.
Michie, D. (1993): Turing’s test and conscious thought. Artificial Intelligence 60, [również
w (Millican Clark, 1996)].
Piotr Labenz
111
Millican, P.J.R., A. Clark (red.) (1996): Machines and Thought. The Legacy of Alan Turing.
Oxford, Clarendon.
Miłkowski, M. (2002): Czy istnieje granica między kognitywistyką a filozofią umysłu?
[W:] Filozofia i nauki szczegółowe. T. Ciecierski, L. M. Nijakowski, J. Szymanik
(red.), Warszawa, Koło Filozoficzne przy MISH.
Nagel, E., I.R. Newman (1966): Twierdzenie Gödla. Warszawa, PWN.
Newell, A., H.A. Simon (1972): Human Problem Solving. Englewood Cliffs, Prentice
Hall.
Newell, A., H.A. Simon (1976): Computer science as empirical inquiry: symbols and search.
Communications of the ACM 19(3).
Papadimitriou, C.H. (1994): Computational Complexity. Reading, Addison Wesley.
Partee, B.H., A. ter Meulen, R.E. Wall (1990): Mathematical Methods in Linguistics.
Dordrecht, Kluwer.
Pickering, M.J., S. Garrod (w druku): Toward a mechanistic psychology of dialogue. Behavioral and Brain Sciences, [@:] http://staff.psy.gla.ac.uk/˜simon.
Pollcok, J. (1989): How to Build a Person: a Prolegomenon. Cambridge, MIT.
Pollcok, J. (1990): Philosophy and artificial intelligence. Philosophical Perspectives 4.
Penrose, R. (1995): Nowy umysł cesarza. Warszawa, PWN.
Penrose, R. (2000): Cienie umysłu. Warszawa, Zysk i Ska.
Przepiórkowski, A., A. Kupść, M. Marciniak, A. Mykowiecka (2002): Formalny opis
języka polskiego: Teoria i implementacja. Warszawa, Exit.
Pudlák, P. (1999): A note on applicability of the incompleteness theorem to human mind.
Annals of Pure and Applied Logic 96.
Rich, E. (1983): Artificial Intelligence. Nowy Jork, McGraw-Hill.
Russell, S., P. Norvig (1995): Artificial Intelligence: A Modern Approach. Upper Saddle
River, Prentice Hall.
Ryle, G. (1970): Czym jest umysł. Warszawa, PWN.
Sag, I.A., T. Wasow (1999): Syntactic Theory. A Formal Introduction. Stanford, CSLI.
Schank, R.C. (1997): „I’m sorry, Dave, I’m afraid I can’t do that”: How could HAL use
language? [W:] HAL’s Legacy. 2001’s Computer as Dream and Reality. D. G. Stork
(red.), Cambridge, MIT.
Shieber, S.M. (1994): Lessons from a restricted Turing test. Communications of the ACM
37(6).
Stork, D.G. (red.) (1997): HAL’s Legacy. 2001’s Computer as Dream and Reality. Cambridge, MIT.
Swart, H. de (1998): Introduction to Natural Language Semantics. Stanford, CSLI.
Szymanik, J. (2002): Problemy formalnej teorii języka naturalnego. [W:] Filozofia i nauki
szczegółowe. T. Ciecierski, L. M. Nijakowski, J. Szymanik (red.), Warszawa, Koło
Filozoficzne przy MISH.
Tokarz, M. (1993): Elementy pragmatyki logicznej. Warszawa, PWN.
Turing, A.M. (1950): Computing machinery and intelligence. Mind 59, przekład w: Feigenbaum, E.A., Feldman, J. (1972): Maszyny matematyczne i myślenie. Warszawa,
PWN.
Waldrop, M.M. (1987): The workings of working memory. Science, New Series 237(4822).
Weizenbaum, J. (1966): ELIZA – a computer program for the study of natural language
communication between man and machine. Communications of the ACM 9(1).
Whitby, B. (1996): The Turing test: AI’s biggest blind alley? [W:] Machines and Thought.
The Legacy of Alan Turing. P. J. R. Millican A. Clark (red.), Oxford, Clarendon.
Wittgenstein, L. (2000): Dociekania filozoficzne. Warszawa, PWN.
Download