X.Język i komunikacja
Wprowadzenie
Język i komunikacja, uważane ogólnie za istotne dla sztucznej inteligencji (AI), odnoszę się do kwestii, które skupiają się wokół reprezentacji języka i znaczenia, aby umożliwić przetwarzanie języka i komunikację znaczenia przez komputer, obszar badania z grubsza ujęte w dziedzinie przetwarzania języka naturalnego (NLP) i lingwistyki komputerowej (CL). Niezwykłą cechą pięćdziesięcioletniej historii tych dwóch powiązanych dziedzin jest to, jak wiele z tego, co teraz traktujemy jako tematy będące przedmiotem zainteresowania, było tam od samego początku; brakowało pionierom prawdziwych komputerów. W latach pięćdziesiątych i sześćdziesiątych Gilbert King opowiadał się za tłumaczeniem maszynowym metodami statystycznymi, co jest teraz rzeczywistością, Margaret Masterman za potęgę struktur opartych na znaczeniach w programach, a Vic Yngve, wciąż pracujący w czasie pisania, zaprojektował COMIT , specjalny język programowania dla NLP, i stwierdził swoje słynne twierdzenie, że ograniczenia w przetwarzaniu języka przez komputery powinny odzwierciedlać strukturę składni języka. Ten ostatni projekt doprowadził Yngve do bezpośredniego konfliktu z Noamem Chomskim w sprawie dopuszczalnych sposobów rysowania składniowych struktur drzewiastych, co obecnie można uznać za decydujący moment schizmy w historii NLP w związku z lingwistyką głównego nurtu. Chomsky zawsze zaprzeczał jakiemukolwiek znaczeniu obliczeń dla zrozumienia struktury języka, a ta fundamentalna schizma została uleczona dopiero po dziesięcioleciach później, kiedy Gerald Gazdar stał się pierwszym dużym językoznawcą, który wyraźnie przyjął strategię obliczeniową. Przy wyrażaniu różnicy między NLP a CL zasadą ogólną jest to, że CL zawsze twierdził, że jest programem badań naukowych wykorzystujących komputery do przetwarzania języka, podczas gdy mówi się, że NLP składa się z aplikacji, takich jak tłumaczenie maszynowe (MT), które było pierwotne zadanie NLP i pozostaje główne. Istnieje teraz szereg innych zadań NLP, które badacze badają i dla których firmy sprzedają rozwiązania programowe: odpowiadanie na pytania, ekstrakcja informacji, podsumowanie dokumentów i tak dalej. Zatem NLP wymaga zadania i nie jest samo w sobie programem badań naukowych, chociaż wielu uważa, że MT pozostaje aplikacją, w której należy przetestować dowolną teorię CL zawartą w programach. Ważne jest również odróżnienie głównych zadań, takich jak te właśnie wspomniane, od szerokiego zakresu zadań, które są zdefiniowane tylko w kategoriach teorii językowych i których wyniki mogą być oceniane tylko przez ekspertów, w przeciwieństwie do naiwnych użytkowników wyników wyżej wymienionych głównych zadań, w tym sensie, że każdy kompetentny dwujęzyczny może ocenić jakość wyników programu MT. Te bardziej wewnętrzne zadania przedmiotowe obejmują ujednolicenie wyrazu, oznaczanie części mowy, analizę składniową, równoległe wyrównanie tekstu itd., I można je traktować jako sposoby testowania pojedynczych hipotez CL zamiast tworzenia przydatnych artefaktów. Lingwiści nie są jedynymi naukowcami, którzy chcą przetestować teorie funkcjonowania języka, podobnie jak psychologowie i neurofizjolodzy. Dominujący paradygmat językowy ostatniego półwiecza, Chomsky'ego, nigdy nie zaakceptował faktu, że CL był sposobem na przetestowanie teorii językowych. Ten spór dotyczy tego, co stanowi dane do nauki języka, i bardzo wyraźnie odróżnia NLP i CL z jednej strony od właściwej językoznawstwa z drugiej strony, temat, w którym dane są ściśle związane z intuicjami mówcy, a nie z procesy obliczalne stosowane do danych językowych, zwykle zwanych korpusami. Od 1990 r. Nacisk położono na wykorzystanie korpusów rzeczywistych tekstów, a nie tych wymyślonych lub napisanych przez językoznawców. Korpusy są teraz zwykle pozyskiwane z sieci i stały się kanonicznymi danymi NLP i CL.
Wczesne systemy w NLP / CL
Cechą historii NLP / CL, której nie można przecenić, jest wpływ rozwoju sprzętu, który spowodował nadzwyczajny wzrost mocy przechowywania i przetwarzania dostępnej dla eksperymentów. Jest to oczywiste, a jego wpływ na rozwój pola można zobaczyć na podstawie rozprawy doktorskiej Karen Spärck Jones, która prawie na pewno była pierwszą pracą, która miała zastosowanie techniki klastrowania statystycznego do pytań semantycznych, a pierwsze wykorzystują duży zasób korpusu, tezaurus Rogeta. Jej statystyczne algorytmy "grupowania" wymagały obliczenia dużych macierzy, których po prostu nie można było w pełni obliczyć za pomocą małych maszyn z 1964 r. W związku z tym znaczenie tej pracy nie zostało w tym czasie docenione i było regularnie odkrywane, zwykle bez znajomości oryginału , odtąd w regularnych odstępach czasu. Pierwszą pracą, która przykuła uwagę AI poza głównym nurtem NLP, była praca Winograda na MIT (oparta na jego systemie SHRDLU. Jednym z powodów jego zainteresowania był wybór domeny: świat bloków MIT wykorzystywany do robotyki i badań planistycznych, który składał się z blatu zawierającego bloki o różnych kształtach, które można układać w stosy, a także dźwigu i pudełka do układania bloków in, z których wszystkie były rzeczywiste lub symulowane (symulowane w przypadku Winograda). To był mały świat, o którym można było poznać każdy fakt. Winograd zaprojektował program dialogowy, który omawiał ten świat i manipulował nim, odpowiadając na dwuznaczne prośby, takie jak WŁÓŻ CZERWONY BLOK NA ZIELONYM BLOKU W PUDEŁKU. System ten miał wiele wyrafinowanych funkcji, w tym implementację gramatyki językowej zaprojektowanej przez Michaela Hallidaya specjalnie do celów komunikacyjnych (w przeciwieństwie do większości gramatyk językowych w tym czasie, które były czysto abstrakcyjne). Ta gramatyka została zaprogramowana w języku proceduralnym, PROGRAMMAR, który był prekonfigurowanym językiem LISP i został zaprojektowany, podobnie jak wcześniej COMIT, specjalnie do przetwarzania ciągów symboli, takich jak zdania. Miał także metodę budowania reprezentacji warunków prawdy w języku podobnym do LISP, który można następnie oceniać na podstawie stanu świata bloków. Warunki te wyrażały treść semantyczną wypowiedzi, a jeśli zdanie zostanie ocenione na PRAWDA, wówczas wartości reprezentacji obiektów w warunkach, gdy są uruchamiane jako program, podają oznaczenia obiektów w zdaniu, które byłyby nazwą konkretny blok. Było to eleganckie wdrożenie proceduralne rozróżnienia Gottlob Frege między sensem a odniesieniem. Jak większość systemów w tym czasie, nie był dostępny do ogólnych testów i wykonywany tylko na kilku zdaniach. Cnoty i wady SHRDLU można zobaczyć, porównując je z współczesny system ze Stanford: system dialogu PARRY Colby′ego . System ten, również zaprogramowany w LISP, został udostępniony w ówczesnym młodym Internecie i przetestowany przez tysiące użytkowników, którzy często nie chcieli uwierzyć, że nie pisali na maszynie człowieka. Symulował pacjenta z paranoją w szpitalu weteranów i miał wszystkie zainteresowania i umiejętności konwersacyjne, których brakowało bardziej znanej, ale trywialnej ELIZIE Josepha Weizenbauma. Był bardzo solidny, wydawał się pamiętać, co zostało powiedziane i źle zareagował, gdy wewnętrzne parametry o nazwie FEAR i ANGER stały się wysokie. Nie powtarzał się i wydawało się, że chce wnieść wkład w rozmowę, gdy poruszono tematy, na które był paranoikiem: konie, wyścigi, hazard, włosko-amerykańscy Amerykanie i mafia. W przeciwieństwie do SHRDLU, nie miał gramatyki, parsowania ani logiki, ale tylko bardzo szybką tabelę składającą się z około sześciu tysięcy wzorów dopasowanych do jej danych wejściowych. Kontrasty między tymi dwoma systemami pokazują problemy, które stały się ważniejsze później w NLP: szeroko dostępne i solidne systemy (PARRY) vs. zabawkowe (SHRDLU); parsowanie gramatyki, które było kłopotliwe i rzadko udane (SHRDLU), w porównaniu z dopasowaniem wzorca powierzchni (w PARRY, a później nazywane ekstrakcją informacji); systemy napędzane światową wiedzą (SHRDLU) vs. te (takie jak PARRY), które nie były i które w zasadzie "nie znały" niczego (chociaż PARRY byłby o wiele lepszym wyborem jako towarzysz wyspy pustynnej niż SHRDLU). John McCarthy, w którego laboratorium utworzono PARRY, powiedział, że PARRY nie był tak naprawdę AI "ponieważ nic nie wiedział, nawet kim jest Prezydent". Dzień po tym, jak to powiedział, PARRY wiedział o tym, co pokazuje słabość każdego takiego kryterium "bycia prawdziwą AI". Rozpoczęliśmy od krótkiego przyjrzenia się próbkom ważnej i przewidywalnej wczesnej pracy, a następnie pokazania dwóch kontrastujących, nieco później, podejść do wydobywania treści, oceny, reprezentacji i roli wiedzy. Rozważymy teraz szereg systemów ucieleśniających aspekty NLP / CL od wczesnych lat siedemdziesiątych i podzielimy je według ich związków z systemami językowymi (sekcja 10.3 poniżej) oraz w odniesieniu do pojęć zwykle uważanych za kluczowe dla sztucznej inteligencji, a mianowicie logiki, wiedzy i semantyki
Systemy NLP / CL w odniesieniu do językoznawstwa
Wyraźne powiązania między CL / NLP a właściwą lingwistyką nie są tak liczne, ani tak produktywne, jak mogłoby się wydawać. Odnieśliśmy się już do wczesnej schizmy między Yngve i Chomskym nad naturą reprezentacji drzew, a co ważniejsze, nad rolą procedur i przetwarzania zasobów w obliczaniu struktury składniowej. Twierdził Yngve, że takie obliczenia musiały respektować ograniczenia pojemności pamięci dla struktur pośrednich, które, jak zakładał, odpowiadały wrodzonym ograniczeniom w przetwarzaniu języków przez ludzi. (Przykładem jest podkreślone we współczesnym twierdzeniu Georgea Millera o głębokości ludzkiego przetwarzania językowego, zwykle znanego jako "magiczna liczba siedem, plus minus minus dwa", która wskazuje liczbę niezależnych pozycji - słów lub struktur składniowych kodów gramatycznych - że mózg może zachować i manipulować w jednym momencie w pamięci.) Chomsky z drugiej strony przypisał wszystkie takie względy wyłącznie umiejętnościom językowym. W latach sześćdziesiątych próbowano zaprogramować gramatyki transformacyjne Chomsky′ego w celu parsowania zdań, przy czym największy i najdłużej działa w IBM w Nowym Jorku. Były one jednakowo nieskuteczne, ponieważ parsowały niewiele lub nic poza zdaniami, dla których zostały zaprojektowane, a nawet wtedy wytworzyły dużą liczbę odczytów, między którymi nie można było wybrać. Ten ostatni los spotkał praktycznie wszystkie analizatory składniowe aż do nowszych opracowań statystycznych opisanych poniżej. Nawet we wczesnych dniach niektóre gramatyki (takie jak te w IBM) zostały wyraźnie zaprojektowane jako podstawa do analizowania programów, a nie do prostego badania językowego. Później, gdy lingwiści stali się bardziej zorientowani obliczeniowo, takie badania gramatyczne kierowane przez analizator parserów stały się ważne: najbardziej znaną była uogólniona gramatyka struktury fraz (GPSG) Gazdara i współpracowników, która stanowiła powrót do struktury fraz z gramatyki transformacyjnej w stylu Chomsky'ego. Później pojawiła się kierowana przez głowę gramatyka struktury wyrażeń (HPSG) od Ronalda Kaplana i Joan Bresnan oraz funkcjonalna gramatyka unifikacyjna (FUG) od Martina Kay. FUG, podobnie jak wcześniejsza praca Winograda, został zainspirowany gramatykami Hallidaya, a także paradygmatem logiki unifikacji przetwarzania gramatyki, który pojawił się wraz z pojawieniem się języka programowania Prolog. Badacze ci podzielali z Chomskim i ogólnie językoznawcami przekonanie, że określenie struktury składniowej było nie tylko celem samym w sobie, ponieważ było zadaniem samowystarczalnym, ale było również konieczne do określenia struktury semantycznej. Dopiero znacznie później, wraz z rozwojem technik takich jak ekstrakcja informacji (technika opisana bardziej szczegółowo poniżej), ten link został zakwestionowany wynikami eksperymentów na dużą skalę. Jednak ten link był również bardzo wcześnie kwestionowany przez osoby w NLP, które postrzegały strukturę semantyczną jako podstawową i zasadniczo niezależną od struktury składniowej w zakresie określania treści. Ci badacze, tacy jak Roger Schank i Yorick Wilks w latach sześćdziesiątych i siedemdziesiątych, czerpali inspirację i wsparcie z gramatyki przypadku Charlesa Fillmore'a. Fillmore argumentował, początkowo w paradygmacie Chomsky'ego, że elementy przypadku czasownika są kluczowe dla struktury zdania (np. Agenci, pacjenci, odbiorcy działań). Jego podejście podkreślało semantyczną treść języka bardziej niż jego strukturę gramatyczną, ponieważ elementy tych przypadków mogą występować w wielu formach gramatycznych. Podjęto setki prób, aby parsować zdania obliczeniowo w strukturę przypadków, a Fillmore prawie na pewno pozostaje lingwistą, który ma najbardziej wyraźny wpływ na NLP / CL jako całość
Zagadnienia związane z reprezentacją: logika, wiedza i semantyka
Centralna wizja sztucznej inteligencji jest taka, że jakaś wersja rachunku predykatów pierwszego rzędu (FOPC), uzupełniona o wszelkie mechanizmy, które okażą się konieczne, będzie wystarczająca do przedstawienia języka i wiedzy. Ta pozycja i jej równoległy ruch w semantyce językowej twierdzą, że logika może i powinna zapewniać podstawową semantykę języka naturalnego, a także miała głęboki i trwały wpływ na CL / NLP. Mimo że próby AI i lingwistyki mające na celu opracowanie pewnej formy logicznej semantyki jako klucza do reprezentacji treści zdań językowych były kontynuowane, nie odniosły one sukcesu w tworzeniu żadnego ogólnego i użytecznego programu do tłumaczenia języka angielskiego na logikę formalną. Psychologia nie wykazała też, że takie przełożenie na logikę odpowiadałoby sposobowi, w jaki ludzie przechowują i manipulują znaczeniem. W długim konkursie przetwarzania języka prowadzonym przez amerykańską Agencję Zaawansowanych Projektów Badawczych Obrony (DARPA) tłumaczenie języka angielskiego na struktury FOPC pozostaje celem, ale nikt jeszcze nie wyznaczył realistycznych standardów jego osiągnięcia. Bez wątpienia pojawią się aplikacje NLP, które wymagają logicznego wnioskowania między reprezentacjami zdań, ale jeśli są one tylko częścią aplikacji (np. spójność czasów w systemie rezerwacji linii lotniczych), nie jest oczywiste, że mają coś do zrobić z podstawową strukturą znaczeniową języka naturalnego, a zatem z właściwą CL / NLP, ponieważ pierwotną funkcją struktury logicznej było branie udziału w wnioskach. W tym momencie dyskusji istnieje wiele możliwych dróg, którymi można się kierować: Można powiedzieć (1), że logiczne wnioskowanie jest ściśle związane ze znaczeniem zdań, ponieważ poznanie ich znaczenia polega na tym, aby móc wyciągać wnioski , a logika jest najlepszym sposobem na to. Jasne stwierdzenie tego poglądu na temat roli logiki w sztucznej inteligencji zostało przedstawione przez Thomason. Można również powiedzieć (2), że reprezentacja znaczeń może istnieć poza logiką, a można to znaleźć w językoznawstwie, odwołując się do teorii znaczników semantycznych Jerry′ego Fodora i Jerrolda Katza, rozwiniętych w paradygmacie transformacyjnym Chomsky′ego, a także całkiem niezależnie w NLP, formy semantyki obliczeniowej. Teorie te postulują szereg znaczników semantycznych lub prymitywów, takich jak ANIMATE, lub prymitywnych działań, takich jak MOVE, które można dołączyć do słów, aby wyrazić ich znaczenie; proces, który normalnie nazywamy teraz "adnotacją". Istnieje również bardziej skrajna pozycja (3), że predykaty logiki i ogólnie systemy formalne wydają się być inne niż język ludzki (często akcentowany przez pisanie predykatów dużymi literami, jak w (2) powyżej), ale to jest iluzją, a ich terminy są w rzeczywistości słowami, którymi się wydają, tak samo podatnymi na dwuznaczności i niejasności, jak inne słowa. Obie strony są argumentowane w Nirenburg i Wilks (2001). W punkcie (2) powyżej można wskazać na tradycję AI NLP lat siedemdziesiątych i osiemdziesiątych pojęciowych / semantycznych kodowań znaczeniowych za pomocą języka prymitywnych elementów i rysowania (nielogicznych) wniosków ze struktur na nich opartych. Najbardziej znanymi z takich systemów z lat 70. był system zależności konceptualnej Schanka oraz system semantyki preferencji Wilksa ; oba zostały zaimplementowane w systemach MT, a także w szeregu innych aplikacji NLP. W systemach MT kodowania zawierające struktury tych prymitywnych elementów były używane jako język interlingua lub język pośredni między tłumaczonymi językami. System Schanka opierał się na zestawie czternastu pierwotnych czasowników, a Wilks na zestawie około osiemdziesięciu pierwotnych różnych typów. Schank stanowczo potwierdził, że jego prymitywne słowa nie były angielskimi słowami, pomimo podobieństwa wyglądu (np. z angielskim słowem INGEST), podczas gdy Wilks twierdził, że może istnieć wiele zestawów pierwotnych i że są to jedynie uprzywilejowane słowa, jak w słowniku definicje. Pojęcie "preferencji" Wilksa stało się dobrze ugruntowane: pojęcie, że czasowniki i przymiotniki mają preferowanych agentów, obiekty itd., A znajomość tych domyślnych preferencji jest główną metodą rozwiązywania niejednoznaczności i wykrywania metafory. Takie preferencje zostały później obliczone statystycznie, gdy NLP stał się większy i bardziej empiryczny. Schank opracował później struktury na dużą skalę zwane skryptami, które stały się bardzo wpływowe jako sposób na uchwycenie ogólnego znaczenia tekstów i dialogów.
Istnieją analogie między tym wątkiem pracy NLP a współczesną pracą w językoznawstwie, szczególnie Fillmore′'a i George′a Lakoffa, ale w tym czasie brakowało bezpośredniego kontaktu między badaczami NLP a właściwą językoznawstwem. Jedną z najbardziej uderzających zmian w ciągu ostatnich dwudziestu lat jest uświadomienie przez językoznawców, przynajmniej od czasu pracy Gazdara, że metody obliczeniowe mogą być dla nich kluczowe. Ale bez wątpienia istniały wpływy w całym podziale: na przykład Ray Jackendoff w 1990 r. Zaproponował ustrukturyzowane sekwencje prymitywów, takich jak CAUSE GO LIQUID TO IN MOUTHOF, aby reprezentowały "napój", które były praktycznie identyczne z wcześniejszymi strukturami NLP wspomnianych powyżej Wilks. Ponownie, ten poziom reprezentacji semantycznej, między logiką pierwszego rzędu a językiem, nie tylko zakorzenił się w językoznawstwie, ale także powrócił później do sztucznej inteligencji osobliwą drogą, którą omówimy później w związku z siecią semantyczną, gdzie płytka, ale możliwa do przełożenia nielogiczna reprezentacja o nazwie RDF (Resource Description Framework) stał się podstawowym poziomem opisu wiedzy w ramach nowej tradycji sztucznej inteligencji. Trzy inne tradycje reprezentacyjne w AI mają również bezpośredni związek z kwestiami językowymi: akty mowy, semantyka proceduralna i łączność. Akty mowy to pojęcie zaczerpnięte z pracy Johna Searle′a w dziedzinie filozofii, która stała się centralną koncepcją pragmatyki obliczeniowej. To pojęcie może umożliwić systemowi odróżnienie żądania informacji od oczywistego pytania, które jest tak naprawdę poleceniem, na przykład "Czy możesz zamknąć drzwi?" Ta wypowiedź wydaje się być pytaniem, ale Searle argumentował, że powinna być reprezentowana jako prośba o działanie i zamknięcie drzwi. Ray Perrault i jego koledzy z Toronto pod koniec lat siedemdziesiątych byli pierwszą grupą, która obliczyła przekonania reprezentowane w FOPC, aby przypisać akty mowy do wypowiedzi w systemie dialogu. System Toronto został zaprojektowany jako system doradztwa kolejowego dla pasażerów i wykorzystał ograniczone logiczne uzasadnienie, aby na przykład ustalić, że system wiedział, kiedy przyjechał dany pociąg, a pasażer wiedział, że tak, więc pytanie "Czy wiesz, że kiedy przyjedzie następny pociąg z Montrealu? " nie byłoby, jak mogłoby się wydawać, o własnej wiedzy o systemie, ale raczej prośba o ujawnienie tej wiedzy. Podczas tłumaczenia pomysłów Searle′a na programy grupa ta znalazła błędy w sformułowaniu, a ich opis aktów mowy jest w pewnym sensie bardziej spójny niż oryginał. Reprezentacja aktów mowy i jej wdrażanie w systemach dialogu człowiek-komputer pozostaje ważne, ponieważ zasadniczo dotyczy komunikacji, w pewnym sensie kilka obszarów NLP / CL. Semantyka proceduralna była początkowo elementem teorii AI. Twierdzenie, w różnych formach, jest takie, że znaczenia symboli w obliczeniach, które wyrażają inteligentne funkcje, same są procedurami, a nie jednostkami referencyjnymi zadeklarowanymi w konwencjonalnej semantyce formalnej. Wersje takiej teorii proceduralnej wysunęli Terry Winograd, Bill Woods, Philip Johnson-Laird i Yorick Wilks. Na przykład w SHRDLU Winograda pojęcia takie jak poruszanie ramieniem żurawia nie zostały wyrażone przez żadne prymitywne działanie (jak MOVE), ale przez rzeczywiste procedury lub kod do poruszania ramieniem. Pojęcie "znaczeń jako procedur" zostało zaatakowane przez Fodora na tej podstawie, że wszystkie te teorie są w gruncie rzeczy oparte na dolnym poziomie kodu maszynowego rzeczywistych silników obliczeniowych, który tak naprawdę zapewnia omawiane jednostki referencyjne za pomocą formalnego programu semantyki. Zdecydowanie temu zaprzeczali niektórzy zwolennicy tej teorii, wykorzystując zasadę Scotta-Stracheya, że semantyka różnych "poziomów programu" jest niezależna, a zatem semantyka jednego nie może być semantyką dla drugiego: to znaczy semantyka tłumaczeń kodu maszynowego nie ma znaczenia dla semantyki kodowanego działania wyższego poziomu. W tym miejscu należy wspomnieć także o łączeniu: klaster teorii AI oparty na koncepcji bardzo prostych jednostek obliczeniowych, połączonych w bardzo dużej liczbie, oraz "uczenia się z doświadczenia" poprzez przesunięcie zagregowanych wag w sieci. Rozwój ten może stanowić krok naprzód w wielu obszarach sztucznej inteligencji, w tym w semantyce obliczeniowej języka naturalnego. Connectionism ma wiele cech semantyki proceduralnej, które odróżniają obie od poglądów logiki. Funkcje te obejmują integrację semantyki i składni; ciągłość między językową i innymi formami wiedzy światowej (i znowu, nie w sensie po prostu asymilowania pierwszej z drugą, jak to robią niektóre podejścia logiczne i "system ekspercki"); oraz rodzaj wnioskowania, którego nie da się pogodzić z rodzajem oferowanym przez podejścia oparte na logice. Co więcej, łącznik podkreślał pojęcia takie jak współzawodnictwo między strukturami reprezentacyjnymi, tak aby silniejsza, bardziej połączona struktura "wygrywa", co można wyraźnie znaleźć w semantycznych systemach obliczeniowych, takich jak semantyka preferencji. Istotna różnica, w szczególności w odniesieniu do rozwiązywania niejednoznaczności leksykalnej, pojawia się tutaj między tak zwanymi podejściami pod-symbolicznymi w ramach łączności (bronionymi przez Paula Smoleńskiego) i tymi zwykle nazywanymi lokalistami (bronionymi przez Davida Waltza i Jordana Pollacka). Różnica ta wiąże się bardzo z kwestią reprezentacji: w pod-symbolicznym podejściu do semantyki obliczeniowej niekoniecznie można oczekiwać, że rozróżni się reprezentacje dla poszczególnych zmysłów słów; byłyby to po prostu różne wzorce aktywacji w zestawie jednostek reprezentujących cechy pod-symboliczne, w których podobne zmysły prowadziłyby do podobnych wzorców. Z drugiej strony, podejścia lokalizacyjne do semantyki obliczeniowej przyjęły na początku prawdziwie dające się odróżnić zmysły słów w ich symbolicznych reprezentacjach, a następnie podały kryteria ważenia przy ich wyborze. Główny nurt sztucznej inteligencji nadal pozostaje, w chwili pisania, mocno przywiązany do pojęcia manipulacji symbolami i wyraźnych reprezentacji jako podstawy ich rzemiosła.
Korpusy, zasoby i słowniki
W latach sześćdziesiątych Margaret Masterman i Karen Spärck Jones korzystali z tezaurusa Rogeta, uderzanego w karty IBM, jako urządzenia do ujednoznaczniania słów i prymitywów pochodnych semantycznych, nawet jeśli nie byli w stanie wykonać poważnych obliczeń na komputerach, które były wtedy dostępne. Następnie obliczenia językowe na dużą skalę znaleziono tylko w tłumaczeniu maszynowym; W erze wpływów, metody AI w CL / NLP słownictwo działających systemów zostało ustalone przez Boguraeva średnio na około trzydzieści pięć, co dało początek określeniu "systemy zabawkowe" w odniesieniu do większości opisanych wcześniej systemów. Pojawiły się jednak ruchy mające na celu wykorzystanie znacznej liczby tekstów do eksperymentów, chociaż były one w dużej mierze wywodzące się z nauk humanistycznych oraz w interesie badań stylistycznych i statystycznych miar użycia i dystrybucji słów. Najbardziej znanym z nich był korpus języka angielskiego Brown-Oslo-Bergen, ale brytyjski korpus narodowy został skonstruowany wyraźnie z myślą o potrzebach NLP, a zespół Uniwersytetu Lancaster pod kierunkiem Geoffrey'a Leecha odegrał kluczową rolę w jego budowie . Ta grupa stworzyła już pierwszy skuteczny statystyczny NLP, tagger części mowy CLAWS4, który automatycznie przypisuje kody części mowy, takie jak ADJ (przymiotnik) do wszystkich słów w korpusie. W tym samym czasie na początku lat osiemdziesiątych pojawiło się zainteresowanie wartością nie dla NLP ogólnie tylko korpusy tekstowe, ale w szczególności słowniki, zarówno jednojęzyczne, jak i dwujęzyczne. Brian Boguraev w Cambridge był jednym z pierwszych badaczy (od bardzo wczesnych prac nad trzecim słownikiem Webstera w Systems Development Corporation w latach sześćdziesiątych), którzy starali się korzystać ze słownika za pomocą kodowanej formy używanej przez wydawców, w tym przypadku Longman Dictionary of Contemporary English (LDOCE), słownik zaprojektowany specjalnie dla osób uczących się języka obcego. Miało to definicje z ograniczoną składnią zaczerpnięte ze słownika zawierającego jedynie 2000 słów. W latach osiemdziesiątych wiele wysiłku poświęcono wydobywaniu znaczenia obliczeniowego na dużą skalę z takich słowników odczytywalnych maszynowo. Wydawało się to rozsądnym sposobem przezwyciężenia problemu "systemu zabawek", a biorąc pod uwagę, że słowniki kodują znaczenia, dlaczego nie wykorzystać ich jako środka bezpośredniego dostępu do reprezentacji semantycznych? Znaczące i użyteczne semantyczne bazy danych zostały zbudowane automatycznie z LDOCE i szeregu innych słowników, ponownie zwykle ze słowników dla osób uczących się języka angielskiego, ponieważ wyrażały się one wyraźniej niż tradycyjne słowniki dla uczonych i osób ogólnie wykształconych. Hierarchiczne ontologie pojęć zostały skonstruowane automatycznie, a te bazy danych wraz z tezaurusami są składową bazą danych dla wielu głównych systemów rozwiązywania dwuznaczności słownej. Ontologię można szeroko rozumieć jako drzewiastą strukturę pojęć, która zawiera pojęcia lub osoby znajdujące się pod nimi w drzewie, tak jak klasa lub koncepcja "ptaki" zawiera "kanarki", ponieważ wszystkie kanarki są ptakami. Ale takie słowniki nie stanowiły panaceum, który leczył problem sensu, i stało się jasne, że same słowniki wymagają znacznej wiedzy ukrytej, aby mogły być przydatne do obliczeń. Innym dość niezależnym źródłem adnotowanych zasobów korpusów były banki drzew, z których najbardziej znany jest Bank Drzew Penn. Jest to korpus ręcznie skonstruowany składniowo, przy czym struktura syntaktyczna jest dodawana do tekstu jako adnotacje, wskazujące strukturę, a nie tylko kategorie. Jednym z efektów szerokiego wykorzystania banku drzew Penn do eksperymentów było zapisanie użytych do niego tekstów, w szczególności fragmentów Wall Street Journal, jako über-corpora, używanych tak często i tak często, że niektórzy uważali, że ich szczególne cechy zostały zniekształcone Badania NLP. W niedawnej przeszłości wiele energii i dyskusji poświęcono wybieraniu i "równoważeniu" ciał - tyle dialogu, tylu powieści i memorandów itp. - ale działalność ta staje się nieistotna z powodu rosnącego wykorzystania bardzo dużych części świata Sam Internet jako korpus, który można opatrzyć adnotacjami.
Metody statystyczne i ilościowe w NLP
Wprowadzenie metod statystycznych na dużą skalę do CL / NLP jest najnowszym trendem w dziedzinie najtrudniejszej do zbadania w skrócie, ponieważ wciąż jesteśmy w tym ruchu w momencie pisania. Zasadniczo metody statystyczne sugerują stosowanie wyłącznie metod numerycznych, opartych na ilości, dla NLP / CL, zamiast metod opartych na reprezentacjach, niezależnie od tego, czy są one przypisywane przez ludzi, czy przez komputery. Ogólna strategia polega na nauczeniu się, jak przetwarzać język, miejmy nadzieję, tak jak ludzie, chociaż nie jest to konieczne. Na przykład w przypadku MT oznacza to naukę tłumaczenia poprzez przetwarzanie bardzo dużych korpusów rzeczywistych tłumaczeń wykonywanych przez ludzi. Często uważa się, że oznacza to przypisywanie adnotacji, oznaczanie ciał (właśnie omawianego rodzaju) za pomocą kategorii części mowy lub znaczników semantycznych / prymitywów i robienie tego z dużych ciał, które zostały już częściowo oznaczone przez ludzi. W latach sześćdziesiątych Gilbert King przewidział, że MT można wykonać metodami statystycznymi, na podstawie dobrze znanej 50-procentowej nadmiarowości znaków i słów w językach zachodnich, choć nie jest łatwo zrozumieć
Statystyczne i ilościowe metody in NLP
Wprowadzenie metod statystycznych na dużą skalę do CL / NLP jest najnowszym trendem w dziedzinie, który jest najtrudniejszy do zbadania w skrócie, ponieważ wciąż jesteśmy w tym ruchu w momencie pisania. Zasadniczo metody statystyczne sugerują stosowanie wyłącznie metod numerycznych, opartych na ilości, dla NLP / CL, zamiast metod opartych na reprezentacjach, niezależnie od tego, czy są one przypisywane przez ludzi, czy przez komputery. Ogólna strategia polega na nauczeniu się, jak przetwarzać język, miejmy nadzieję, tak jak ludzie, chociaż nie jest to konieczne. Na przykład w przypadku MT oznacza to naukę tłumaczenia poprzez przetwarzanie bardzo dużych korpusów rzeczywistych tłumaczeń wykonywanych przez ludzi. Często uważa się, że oznacza to przypisywanie adnotacji, oznaczanie ciał (właśnie omawianego rodzaju) za pomocą kategorii części mowy lub znaczników semantycznych / prymitywów i robienie tego z dużych ciał, które zostały już częściowo oznaczone przez ludzi. W latach sześćdziesiątych Gilbert King przewidział, że MT można wykonać metodami statystycznymi, na podstawie dobrze znanej 50-procentowej nadmiarowości znaków i słów w językach zachodnich, chociaż nie jest łatwo zrozumieć, dlaczego druga sugerowała pierwszą. Później, jak widzieliśmy wcześniej, Spärck Jones była pionierem w zakresie metod wyszukiwania informacji (IR) w celu uzyskania klasyfikacji semantycznych, które ostatecznie miały do użytku w MT. Zauważyliśmy wcześniej, że pierwszym wyraźnym przykładem współczesnego NLP statystycznego była praca Leecha i jego współpracowników nad taggerem części mowy CLAWS4 pod koniec lat siedemdziesiątych. W tym czasie niewielu widziało zainteresowanie przypisywaniem kategorii części mowy do słowa tekstu. Jednak teraz prawie wszystkie prace związane z przetwarzaniem tekstu zaczynają się od fazy przypisywania części mowy, ponieważ obecnie uważa się, że (nawet z dokładnością około 98 procent, zwykły poziom osiągnięty) w celu uproszczenia wszystkich kolejnych procesów językowych. Odbywa się to poprzez odfiltrowanie szerokiego zakresu możliwości, które były wykorzystywane do przeciążania analizatorów składniowych. Niewątpliwy sukces takich metod pokazał, że decyzje analityczne, które wcześniej uważano za wymagające "informacji wysokiego poziomu", składniowych lub semantycznych, mogły być wykonywane przy użyciu jedynie informacji statystycznych niższego poziomu na temat sekwencji słów. Największy bodziec dla statystycznego NLP wywarł jednak praca nad programem badawczym MT Fredericka Jelinka i jego grupy w IBM (Brown i in., 1990), który zastosował metody uczenia maszynowego, które odniosły sukces w automatycznym rozpoznawaniu mowy (ASR) MT, który został uznany za problem czysto symboliczny i językowy. Jelinek zaczął pytać, jakie zjawisko ma być modelowane - odpowiedź, tłumaczenie - a następnie szukał przykładów ludzkiej umiejętności zastosowania uczenia maszynowego. Najbardziej oczywistym zasobem przechwytującym tę umiejętność były równoległe korpusy: teksty o tym samym znaczeniu w więcej niż jednym języku. Były one szeroko dostępne i wziął miliony słów z kanadyjskich tekstów Hansarda w języku angielskim i francuskim. Opisaliśmy już jedną formę uczenia maszynowego (ML) w NLP: W pracy CLAWS4 zjawisko (oznaczanie części mowy) zostało przypisane do tekstu przez ludzi, a następnie algorytmy ML zostały ustawione, aby poznać możliwe powiązania znaczników ze słowami, a następnie mogli tagować nowe, niewidoczne teksty z akceptowalnym poziomem dokładności. Nazywa się to nadzorowanym ML, co oznacza, że podano cel uczenia się. Z drugiej strony, w pracy Jelinek o MT, choć podano cele do nauczenia się, a mianowicie tłumaczenia tekstów równoległych, materiał szkoleniowy nie został opracowany specjalnie do tego zadania przez ludzi przypisujących kodowanie. Docelowymi danymi są po prostu naturalnie występujące teksty, aczkolwiek tworzone przez ludzi. Wielu nazwałoby to słabo nadzorowanym ML. Jednak w ML bez nadzoru nie podano żadnych celów. W pracy Spärcka Jonesa, wspomnianej wcześniej, dane tezaurusa są grupowane w semantycznie istotne grupy, których wcale nie podano z góry. System CANDIDE firmy Jelinek działał, najpierw ucząc się wyrównywać zdania tekstów francuskiego i angielskiego, aby odpowiadały znaczeniom. Następnie nauczył się związków między słowami zawartymi w odpowiadających / wyrównanych parach zdań francuskiego i angielskiego - tak, że angielskie słowo Ex, powiedzmy, zostało znalezione regularnie naprzeciw francuskich słów Fy lub Fz w różnych dopasowanych zdaniach. Tymczasem nauczył się prawdopodobnych sekwencji słów w języku wyjściowym, powiedzmy francuskim, i dzięki nim był w stanie wykazać, że dla zdań dopasowanych do Ex, z pewnym zestawem sąsiednich słów F… F, Fy był bardziej prawdopodobnym wynikiem dla Przykładowo, podczas gdy w innych sekwencjach sąsiadów F… F, prawdopodobnym wynikiem będzie Fz. Dzięki takim metodom - w dużej mierze wywodzącym się z wcześniejszych prac tego zespołu nad transkrypcjami mowy na angielski - CANDIDE był w stanie rozróżnić możliwe ciągi słów wyjściowych w języku docelowym. W projekcie CANDIDE uzyskano poziom dokładności około 50 procent poprawnie przetłumaczonych zdań, co jest niezwykłym faktem, biorąc pod uwagę, że system nie posiadał żadnej wiedzy językowej, na przykład słowników lub gramatyk. W przypadku zastosowania do nowych, niewidzialnych tekstów nie udało się jednak pobić tradycyjnego, ręcznie kodowanego systemu MT SYSTRAN, który nie został przeszkolony dla określonych rodzajów tekstu. System był jedynie punktem odniesienia, ale limit 50 procent sugerował, że istnieją ograniczenia w metodach czysto statystycznych stosowanych do zadań językowych takich jak MT. Sam Jelinek rozpoczął program wyprowadzania struktur językowych (leksykony, gramatyki itp.) Tymi samymi statystycznymi metodami ML, aby podnieść poziom sukcesu CANDIDE. W ten sposób uruchomił ruch w NLP, aby nauczyć się tradycyjnych struktur NLP / CL na każdym poziomie językowym za pomocą tych metod. Obecnie jest o wiele za dużo takich aplikacji, aby je cytować, a wprowadzenie ML w każdej części NLP pozwoliło ponownie przybliżyć przetwarzanie języka do centrum sztucznej inteligencji, ponieważ ML jest tak fundamentalną metodologią w AI. Metody ML zostały zastosowane do wyrównywania tekstów, analizy składniowej, tagowania semantycznego, ujednoznaczniania słów, przypisywania aktów mowy, a nawet zarządzania dialogiem. W przypadku niektórych z tych tradycyjnych zadań charakter zadania zmienił się wraz z reżimami oceny i punktacji, które pojawiły się wraz ze zmianą paradygmatu. Na przykład zaledwie kilka lat temu konwencjonalne było twierdzenie, że parsery składniowe zawiodły, przynajmniej w przypadku języków takich jak angielski, i że po prostu nie było parsera, na którym można by polegać w celu uzyskania poprawnej analizy dla niewidocznego zdania w języku angielskim. Jednak teraz, gdy parsery oparte na statystykach mogą uczyć się o bankach drzew, takich jak wspomniany wcześniej Bank drzew Penn, i są oceniane według liczby nawiasów, które mogą poprawnie wstawić i odpowiednich adnotacji struktury fraz, które mogą przypisać, kwestia jest jedynie ilościowa i to nie jest już uważany za niezbędny do wygenerowania "pełnej analizy". Istnieje ogólne przekonanie, że lingwistyka statystyczna lub oparta na ciałach (tj. empirycznych) spowodowała przejście do ponownego podkreślenia względów powierzchniowych w języku. Na przykład wspomniane wcześniej płytsze wyniki analizy składniowej pozwoliły analizie składniowej stać się bardziej użyteczną w przetwarzaniu językowym, ponieważ są one bardziej skuteczne i wiarygodne. Można również wskazać na sukces oddzielnej ekstrakcji informacji o zadaniach NLP (IE) (Cowie i Wilks, 2000), która w szerokim ujęciu polega na wydobywaniu struktur faktów z tekstów na dużą skalę w celach praktycznych poprzez przeglądanie struktura powierzchni tekstu dla wzorów, a nie przez analizę jego struktury składniowej. Na przykład system IE może wyszukiwać wszystkie fakty w publicznych gazetach na temat osób w IBM, które zostały awansowane w 2010 r., I robić to za pomocą określonych wzorców zakodowanych dla takiego zadania lub maszyny wyciągniętej z przykładów. IE stała się uznaną technologią w dużej mierze bez użycia analizy składniowej i dostępu do struktur wiedzy, chociaż odegrały one rolę w niektórych udanych systemach. IE działa teraz na poziomie 95 procent plus poziom sukcesu, który jest normą akceptowalności w językoznawstwie empirycznym. Jednak wiele ostatnich sukcesów tego głównego nowoczesnego podejścia, ponownie opartego na ML nad ciałami, miało miejsce w obszarach zwykle uważanych za semantyczne lub "mniej powierzchowne" z natury, takich jak brak jednoznaczności słów i adnotacja wypowiedzi dialogowych wraz z ich akty dialogu lub mowy, wskazując ich funkcję w ogólnym dialogu. W końcowych częściach tego rozdziału chciałbym rozważyć dwie alternatywne tradycje zarówno dla tradycyjnego rdzenia AI GOFAI (Good ld-Fashioned AI), jak i dla okresu reakcji statystycznej przeciwko niemu, okresu, w którym nadal dominujemy. Jednym z nich jest alternatywne statystyczne podejście powierzchniowe do empirycznej NLP po Jelinek: tradycja IR, która jest tak stara jak sama AI. Drugi to nowszy ruch Semantic Web, który, jak sądzę, ma swoje korzenie w NLP i IE (choć kwestionowałby to jego założyciel Tim Berners-Lee).
Sztuczna inteligencja i wyszukiwanie informacji
Jak zauważyliśmy na początku, klasyczny okres McCarthy′ego w AI był oparty na logice lub symbolach, ale oczywiście nie był całkowicie pozbawiony liczb, ponieważ teorie widzenia AI rozwijały się w pobliżu badań nad rozpoznawaniem wzorów. Chociaż symboliczne, reprezentatywne, teorie w wizji komputerowej czasami zyskiwały na znaczeniu, tak jak w pracy Davida Marra, niemniej jednak zawsze była ona, na dole, ilościową subdyscypliną inżynierii. Ale w obliczu jakiejkolwiek próby wprowadzenia metod ilościowych do klasycznej podstawowej sztucznej inteligencji w latach siedemdziesiątych, John McCarthy zawsze odpowiadał "Ale skąd się biorą te wszystkie liczby?" Od czasu powrotu metod ilościowych do NLP / CL, właśnie opisanych, teraz wiemy lepiej, skąd pochodzą liczby; ale nigdzie nie było tak wyraźnych liczb, jak w całkiem oddzielnym polu podczerwieni. IR ma starożytność podobną do sztucznej inteligencji, ale do tej pory rzadko zaplątali się intelektualnie, choć w jakiejkolwiek szerokiej definicji AI jako "modelowania inteligentnych ludzkich zdolności" można sobie wyobrazić, że IR, podobnie jak MT, zostanie objęty. Jednak ani IR, ani MT nie były tradycyjnie postrzegane jako część sztucznej inteligencji. IR jest zasadniczo metodologią pobierania dokumentów statystycznych, która grupuje dokumenty na podstawie ich treści słów w zestawy dokumentów powiązanych ze sobą, tak aby każdy, kto chce jednego dokumentu, mógł chcieć zobaczyć inne w tym samym klastrze. Z tego powodu opisaliśmy wczesną pracę Spärck Jones nad grupowaniem terminów tezaurusa lingwistycznego jako inspirowaną IR. W pewnym sensie wszystkie takie nienadzorowane zadania grupowania są formami klasyfikacji. IR następnie pobiera dokumenty z utworzonych przez siebie klastrów, podczas gdy IE pobiera z tekstów elementy wiedzy podobne do faktów lub, w odpowiedzi, odpowiada na pytania z tekstu. IR może dać ci tylko dokumenty; rozróżnienie to jest jednak rozmyte, biorąc pod uwagę, że pojedyncze zdanie można uznać za mały dokument. IR może jednak nie być wcześniej istniejącą inteligentną ludzką funkcjonalnością modelowaną obecnie przez komputery, takie jak MT, ponieważ we wcześniejszych czasach przedmechanicznych ludzie w praktyce nie byli w stanie przeprowadzać takich przeszukiwań na dużą skalę i operacje porównania, na których opiera się IR. I chociaż IR często kohabituje się z naukami o bibliotekach, które wyrosły z indeksowania kart w bibliotekach, być może nie ma prawdziwej ciągłości między tymi polami, ponieważ współczesna IR składa się z operacji indeksowania i wyszukiwania, których ludzie nie mogliby przeprowadzić w normalnych okresach życia. Jeśli którykolwiek czytelnik zacznie się zastanawiać, dlaczego podniosłem kwestię związku AI z IR, dzieje się tak dlatego, że Spärck Jones, w niezwykłym artykule, już to zrobił w kontekście AI argumentował, że AI musi się wiele nauczyć. z IR. Jej głównym celem były badacze AI postrzegani jako "Strażnicy treści". Pokrótce przedstawię jej poglądy, a następnie podważę je. Dokonując analogii w szczególności z przypadkiem MT, zasugeruję, że wpływ może być w innym kierunku, AI na IR. Pokazują to zarówno ograniczenia metod statystycznych, które pokazały zmiany MT w ostatnich latach, jak i dziwne odwrócenie terminologii w IR, które miało miejsce w tym samym okresie. Ważne pytania w artykule Spärcka Jonesa sprowadzają się do jednego kluczowego pytania: jaki jest pierwotny poziom danych językowych? Jej stanowisko w tej sprawie pokazują poniższe cytaty, które oddają istotę jej poglądów:
"Jednym z tych [prostych, rewolucyjnych, IR] pomysłów jest przyjmowanie słów bez zmian."
"Oświadczenie AI w najsilniejszej formie oznacza, że baza wiedzy całkowicie zastępuje bazę tekstową dokumentów."
Podsumowałbym jej złożoną pozycję w następujący sposób: słowa przedstawiają się w ten sposób, że nie można ich zastąpić bardziej prymitywną reprezentacją; wszystko, co my, technicy z komputerami, możemy dodać, to wyrafinowane skojarzenia między nimi. Jednak podstawowa sztuczna inteligencja błędnie stara się zastąpić słowa ich nieuniknioną niedokładnością dokładnymi logicznymi reprezentacjami - a przynajmniej nie opartymi na słowach - reprezentacjami. Nie powinniśmy postrzegać tych kwestii jako po prostu krytyki Spärck Jones (opartej na IR) o podstawowej, tradycyjnej lub symbolicznej sztucznej inteligencji, ponieważ jej poglądy łączą się bezpośrednio z wewnętrzną kwestią w samej AI, o której dyscyplina prowadziła wewnętrzny dialog dla wiele lat, zarówno szeroko, jak i na wielu jego podobszarach. Problemem jest charakter i konieczność ustrukturyzowanych reprezentacji symbolicznych oraz ich związek z danymi, które rzekomo reprezentują. Jest to kwestia, którą już omawialiśmy powyżej w związku z propozycjami Schanka i Wilksa z lat 70. XX wieku dotyczącymi poziomu reprezentacji języka, który nie był logiczny, ale miał pewne właściwości samego języka. Kluczowym odniesieniem do poglądu, który Spärck Jones odrzuca, byłby cytowany już artykuł McCarthy′ego i Hayesa, a jego skrajnym przeciwieństwem byłby każdy pogląd, który zawiera elementy, które można by nazwać łącznikami, który nalega na prymat danych nad wszelkimi możliwymi reprezentacja tego. Z poprzednich akapitów powinno być jasne, że Spärck Jones nie jest ukierunkowany na całą AI, ale tylko na silną reprezentatywną tradycję, jedną zwykle związaną ze stosowaniem pierwszego rzędu rachunek predykatów. Jej podstawowym argumentem jest to, że słowa pozostają ich najlepszą interpretacją i nie mogą być zastąpione jakimś innym sztucznym kodowaniem, takim jak logika, w celu przedstawienia ich znaczenia. Chyba że Spärck Jones naprawdę zamierza twierdzić, że każda metoda analizy języka wykorzystuje statystyki a nadmiarowość (jak te cytowane w ostatniej części) to naprawdę IR, to niewiele jest podstaw do jej twierdzenia, że AI ma wiele do nauczenia się z IR w tym obszarze, ponieważ ma teraz swoje własne tradycje metodologii statystycznej, a one przyszły w AI / NLP z badań mowy zapoczątkowanych przez Jelinek i rdzennych prac nad uczeniem maszynowym, a wcale nie z IR. Adnotacje są również formami reprezentacji i nie ma wątpliwości, że dołączanie do słów nawet adnotacji na bardzo niskim poziomie, niezależnie od tego, jak otrzymane, może dać wyniki, które bez nich trudno sobie wyobrazić. Uderzającym przypadkiem jest użycie już wspomnianych znaczników części mowy (takich jak PROPERNOUN); biorąc pod uwagę zasób słów, taki jak LDOCE, Mark Stevenson i Yorick Wilks byli w stanie wykazać, że same tagi części mowy mogą rozwiązać niejednoznaczność słów (przynajmniej na poziomie zwanym homografiami w L OCE) na poziomie około 92 procentowy poziom dokładności. Biorąc pod uwagę takie proste znakowanie, prawie cała dwuznaczność wyczuwalna w słowach jest trywialnie rozwiązywana względem tego konkretnego ustrukturyzowanego zasobu, wyniku, którego nie można byłoby uzyskać bez tych dodatkowych reprezentacji niskiego poziomu, które nie są tylko słowami.
Sieć semantyczna i sztuczna inteligencja
Przejdźmy teraz do ostatniej części, aby połączyć ze sobą wiele rozważań z wcześniejszych części, w szczególności rolę adnotacji w tekstach i interpretowalność podstawowych reprezentacji AI. Niektórzy podjęli wstępną prezentację propozycji Semantic Web (SW) przez Bernersa-Lee, Hendlera i Lassila jako powtórzenie programu GOFAI w nowych i modnych warunkach WWW. W tym artykule trzej autorzy opisują system usług, takich jak umówienie wizyty lekarskiej dla starszego krewnego, które wymagałoby planowania i dostępu do baz danych dzienników lekarza i krewnego oraz ich synchronizacji. Tego rodzaju planowanie było sednem GOFAI i nastąpiło bezpośrednie przejście (całkiem poza dyskusją na temat samych propozycji SW) z dziesięcioleci pracy nad formalną reprezentacją wiedzy w AI do współczesnej dyskusji ontologii - które są daleko więcej niż hierarchiczne relacje pojęć, ale są raczej reprezentacjami wiedzy pod nową nazwą. Podstawową formą informacji w SW jest trójka: bardzo duża liczba prostych wykresów opartych na słowach i prymitywnych działaniach w tak zwanym RDF, czyli formacie opisu zasobu. W tym formacie wydawana jest duża liczba oficjalnych dokumentów (a także Wikipedia, Facebook itp.) W celu dalszego przetwarzania w Internecie. Jeszcze jednym bardziej ogólnym sposobem opisywania SW jest WWW, ale w formie, która w pewnym sensie "rozumie" semantyczną treść sieci, w sposób, w jaki WWW tak po prostu nie rozumie. Nie rozumie więcej zawartych w nim tekstów, niż telewizja wie, co pokazuje. Jest to najwyraźniejsze w pracach nad formalnymi ontologiami jako reprezentującymi treść nauki, gdzie wiele tych samych osób przeniosło dyskusję na temat zagadnień badawczych z jednego paradygmatu - Reprezentacja wiedzy (KR) w AI - do inne (SW). Wszystko to zostało zrobione w ramach standardowego założenia KR w AI i takiego, który powraca do najwcześniejszej pracy na temat systematycznego KR autorstwa McCarthy i Hayesa (1969), pracy, którą wzięliśmy za określenie podstawowego GOFAI. Kluczowym założeniem wszystkich takich prac było to, że predykaty w przedstawieniach KR wyglądają po prostu jak angielskie słowa, ale w rzeczywistości są obiektami formalnymi, luźno związanymi z odpowiadającym im angielskim, ale bez dwuznaczności, niejasności i zdolności do nabywania nowych zmysłów przy użyciu. Powrócimy poniżej do tego założenia, które z pewnością było ważne zarówno w oryginalnym dokumencie SW, jak i w części tego, co z niego wypłynęło. Niemniej jednak niewiele złożonych teorii na temat KR w GOFAI faktycznie pojawiło się w ich oryginalnych formach w dotychczasowych dyskusjach SW: od płynności McCarthy′ego i Hayesa, późniejszej autoepistemicznej logiki McCarthy′ego i naiwnej fizyki Hayesa, by wymienić tylko kilka wybitnych przykładów. Ciągłość celów między GOFAI i SW nie oznacza po prostu ciągłości poszczególnych tradycji badawczych, a jest to zarówno zysk, jak i strata: zysk, ponieważ dał prostsze schematy reprezentacji, które prawdopodobnie można obliczyć; strata z powodu braku wyrafinowania w obecnych schematach rodziny języków rozumowania DAML / OIL dla SW. Podstawową kwestią jest to, czy te nowe systemy rozumowania zorientowane na SW mają moc reprezentacyjną potrzebną do złożoności świata, zdrowego rozsądku lub naukowego. Istnieją co najmniej dwie inne tradycje wkładu w to, co obecnie nazywamy SW, i omówię jedną: mianowicie sposób, w jaki koncepcja SW wyrosła z humanistycznej tradycji adnotacji dokumentów. W oryginalnej pracy Scientific American przedstawiającej SW, jest schemat struktury SW z dolnopoziomowym XML na dole sięgającym do złożone koncepcje na wyższych poziomach, takie jak reguły, logika, dowód i zaufanie. Patrząc tylko na te etykiety wyższego poziomu, niektórzy krytycy i wielbiciele SW powiedzieli, że jest to projekt GOFAI pod inną nazwą, ponieważ te pojęcia były częścią rdzenia tradycyjnej sztucznej inteligencji. Ale jeśli spojrzymy na niższe poziomy, znajdziemy Przestrzenie nazw i XML, które są produktami tego, co możemy ogólnie nazwać NLP uzyskanym z adnotacji tekstów za pomocą technologii, możemy wygodnie wywoływać IE, jak w powyższych sekcjach IE niezawodnie lokalizuje teraz nazwy w tekście, ich typy semantyczne i łączy je razem za pomocą wyuczonych struktur zwanych szablonami w postaci faktów i zdarzeń, obiektów praktycznie identycznych z potrójnymi magazynami RDF u podstawy SW, które nie są całkiem logiczne, ale bardzo jak wyjście IE. IE zaczęło od automatyzacji adnotacji, ale teraz opracowało coś, co możemy nazwać silnikami adnotacji opartymi na uczeniu maszynowym (np. Ciravegna i in. 2004), które uczą się adnotować teksty w dowolnej formie i w dowolnej dziedzinie. Ten pogląd na SW, w którym NLP ma kluczowe znaczenie dla jego rozwoju, nie jest jedynym poglądem, jak podkreśliłem na początku, ale jest to ten, który leży u podstaw większości prac nad SW w Europie. W takim ujęciu SW można postrzegać na poziomie podstawowym jako konwersję z stron WWW tekstów za pomocą procesu adnotacji w celu zwiększenia zrozumienia i wizji, który rzutuje pojęcia znaczenia w górę klasycznego schematu SW od dołu do złożone koncepcje u góry. Jeśli można to osiągnąć w ramach projektu SW - przypisanie znaczenia abstrakcyjnym pojęciom przez procesy empiryczne łączące je z powrotem z tekstem - będzie to duże osiągnięcie intelektualne AI i rozwiązanie problemu, który był z nim związany od samego początku początek.