V.Koneksjonizm i sieci neuronowe
Koneksjonizm i sieci neuronowe stały się ostoją sztucznej inteligencji i kognitywistyki. W dzisiejszych czasach konferencje dotyczące sieci neuronowych z punktu widzenia sztucznej inteligencji (lub inteligencji obliczeniowej, jak by to ujęli niektórzy) odbywają się regularnie i zwykle są dość często odwiedzane (takie jak Międzynarodowe Wspólne Konferencje na temat Sieci Neuronowych). Na głównych konferencjach kognitywistyki praca oparta na modelach łączących zajmuje zwykle ważne miejsce. Na wielu konferencjach i czasopismach technicznych prace z wykorzystaniem modeli sieci neuronowych są powszechne. Ich popularność i atrakcyjność osiągnęły w pewnym sensie stabilny stan. Innymi słowy, stały się one integralną częścią badania i eksploracji inteligencji i poznania. W tym rozdziale najpierw przejrzę krótko historię modeli łączących, identyfikując główne idee i główne obszary zastosowań, a następnie przejdę do zagadnienie symbolicznego przetwarzania w modelach łączących; na koniec rozszerzę dyskusję na hybrydowe modele łączników, które obejmują zarówno metody łączące, jak i symboliczne.
Rewolucja koneksjonistyczna z lat 80-tych
Modele łączące - czyli modele składające się z sieci prostych jednostek przetwarzających połączonych ze sobą za pomocą różnego rodzaju wzorców łączności - ponownie pojawiły się w latach 80. XX wieku jako główny paradygmat dla kognitywistyki i sztucznej inteligencji po okresie spoczynku w późnych latach 60. i 70. . Ta ewolucjonizm łącznikowy w latach 80. przyniósł ze sobą nowe paradygmaty, nowe podejścia, nowe pomysły i nowe techniki, a także nowe emocje i nowe kontrowersje. Podekscytowanie i kontrowersje do tej pory w dużej mierze ucichły, ale wiele pomysłów i technik koneksjonizmu pozostało i stały się integralną częścią zestawu narzędzi AI i kognitywistyki.
Przegląd konkesjonizmu
Mówiąc ogólnie, łączność jest sposobem na uchwycenie i zrozumienie mechanizmów i procesów poznawczych poprzez budowanie modeli przy użyciu sieci prostych, podobnych do neuronów elementów (jednostek) przetwarzających, z których każdy wykonuje proste obliczenia numeryczne. Modele łączące zostały zastosowane do wielu różnych zadań: na przykład postrzegania przedmiotów i zdarzeń ; wymawianie tekstów w języku angielskim; przechowywanie i wyszukiwanie (odpowiednie kontekstowo) informacji z pamięci; produkowanie i rozumienie języka ; uczenie się umiejętności; rozumowanie i tak dalej. Modele łączące (sieci neuronowe) opierają się na założeniu, że poznanie powstaje poprzez interakcje dużej liczby prostych elementów lub jednostek przetwarzających (tj. "neuronów"). Podstawową ideą jest to, że mózg składa się z ogromnej liczby takich jednostek i że razem są one zdolne do niezwykle złożonego przetwarzania poznawczego (takiego jak percepcja, język, kontrola motoryczna itp.). Chociaż konkesjiniści często twierdzą, że wychwytują zasady biologicznych procesów neuronowych w swoich modelach, jednostki (węzły) w łączniku modelu jednak rzadko odpowiadają poszczególnym neuronom biologicznym. Często było to konieczne ze względów praktycznych obliczeniowych lub było spowodowane brakiem pełnej wiedzy na temat biologii procesów neuronowych. W modelu łączącym "reprezentacja" jest często wzorem aktywacji nad zestawem jednostek przetwarzających w modelu (chociaż istnieje wiele odmian a także alternatyw dla tego;). Przetwarzanie odbywa się poprzez propagację aktywacji między jednostkami przetwarzającymi (węzłami), poprzez wzajemne połączenia między nimi. To, co pośredniczy w propagowaniu aktywacji, to numeryczne "wagi" między parami jednostek przetwarzających. Uczenie się odbywa się poprzez (zwykle stopniową) zmianę połączenia "wag", jak funkcja aktywności w sieci. Uczenie się odbywa się czasami z sygnałami "błędów" dostarczanymi ze źródeł zewnętrznych, w postaci sygnału sukcesu / niepowodzenia lub sygnału wskazującego stopień niedopasowania rzeczywistego wyniku z sieci oraz pożądany wynik lub cel . Oto kilka szczególnie interesujących (i potencjalnie użytecznych) właściwości modeli łączących, wyliczonych w książce Rumelharta , a także w innych istotnych literaturach:
• Równoległość (tzn. fakt, że węzły mogą wykonywać obliczenia jednocześnie, a łącza mogą propagować informacje jednocześnie w większości tych modeli).
• Adaptacyjność (tzn. wbudowana zdolność uczenia się w większości tych modeli, np. Poprzez modyfikację wag na łączach łączących węzły).
• Wdzięczna degradacja (to znaczy możliwość uniknięcia katastrofalnych awarii w obliczu błędów w przetwarzaniu lub danych wejściowych).
• Automatyczne uzupełnianie (nowych lub znanych) wzorów (jako nieodłączna właściwość wielu z tych modeli).
• Spontaniczne uogólnienie (czyli zdolność do spontanicznego zastosowania istniejącej wiedzy w różnych sytuacjach).
• Wytrzymałość (tj. nieodłączna odporność na uszkodzenia wynikająca z poprzednich pięciu właściwości, wynikająca ze struktury takich modeli).
• Adresowalność treści (to znaczy zdolność do wyszukiwania informacji na podstawie częściowej wiedzy o ich treści).
• Optymalizacja i satysfakcja z ograniczeń (to znaczy zdolność do znalezienia optymalnych lub prawie optymalnych rozwiązań, które spełniają wiele "miękkich" ograniczeń, jako nieodłączna właściwość niektórych z tych modeli).
Zobacz literaturę łączącą, aby uzyskać bardziej szczegółowe omówienie tych właściwości sieci neuronowych. Historycznie, koneksjonizm powstał z kilku różnych badań. Niektóre z wczesnych badań dotyczyły sieci jednostek binarnych. Inne wczesne badania koncentrowały się na systemach adaptacyjnych. Praca nad programowaniem dynamicznym i nauka wzmacniająca przyczyniła się również do sieci neuronowych. W szczególności McCulloch i Pitts w latach 40. XX wieku badali proste sieci "neuronów" z progiem binarnym pod względem operacji logicznych. Donald Hebb opracował teorię poznania złożoną z komórek i zaproponował w szczególności ideę, że określone zmiany synaptyczne mogą leżeć u podstaw psychologicznych zasad uczenia się. Frank Rosenblatt w latach 50. sformułował reguły uczenia się dla sieci neuronowych w celu powiązania dowolnych wzorców poprzez dostosowanie wag (tj. idei perceptronu). Bernard Widrow zaproponował modele adaptacyjnych układów liniowych. Sieci neuronowe zostały przywrócone w 1980 roku w wyniku negatywnych reakcji na ówczesne symboliczne podejście w sztucznej inteligencji i naukach kognitywnych oraz jego postrzeganą porażkę. Ten ruch lat 80. był znany jako "rewolucja łącząca". Opierając się na modelach, które eliminują scentralizowane sekwencyjne manipulowanie symbolami i często wiążą się z przetwarzaniem rozproszonym (w architekturach masowo równoległych), łączność była często nazywana "równoległym przetwarzaniem rozproszonym". W tym ujęciu do poznania należy podchodzić bardziej w kategoriach mechanizmów satysfakcji z ograniczeń, rozpoznawania wzorców i dostosowania wagi, a nie jawnej manipulacji symbolami
Uczenie się łączności
Oto krótki przegląd głównych paradygmatów uczenia się w sieciach neuronowych. W szczególności przyjrzymy się następującym rodzajom uczenia się: nauczanie nadzorowane, uczenie się bez nadzoru i uczenie się wzmacniające. Chociaż tego rodzaju uczenie się można również przeprowadzić w innych typach modeli, są one szczególnie widoczne w sieciach neuronowych. Nadzorowane algorytmy uczenia się wymagają sygnału zwrotnego (ze źródeł zewnętrznych) dla każdego z węzłów wyjściowych sieci, aby rozpocząć naukę. Typowy przykład takiego uczenia się występuje w trójwarstwowej sieci neuronowej ze sprzężeniem zwrotnym (gdzie sieć ze sprzężeniem zwrotnym oznacza sieć bez połączeń zwrotnych między warstwami i bez połączeń bocznych w warstwie). W takiej sieci wzorce wejściowe są prezentowane na pierwszej warstwie (warstwa wejściowa), a każda kolejna warstwa (warstwa ukryta i warstwa wyjściowa) jest kolejno aktualizowana (poprzez propagację aktywacji), co powoduje powstanie wzoru wyjściowego na końcowym warstwa (wyjściowa). Ten wzorzec wyjściowy jest porównywany z pożądanym wzorcem wyjściowym, a zatem obliczany jest sygnał błędu. Sygnał błędu jest propagowany wstecz przez sieć w celu obliczenia aktualizacji wag między warstwami w celu zmniejszenia błędu. Słynny algorytm uczenia się propagacji wstecznej jest jedną klasą takich algorytmów uczenia się, która jest szeroko stosowana we wszystkich obszarach kognitywistyki i sztucznej inteligencji. W związku z tym uzyskano interesujące wyniki teoretyczne dotyczące obliczeń sieci neuronowej. Okazało się, że warstwowe sieci neuronowe ze sprzężeniem zwrotnym są uniwersalnymi aproksymatorami, to znaczy mogą reprezentować zasadniczo dowolną funkcję. Wykazano, że rekurencyjne sieci neuronowe (tj. sieci z połączeniami zwrotnymi) są równoważne z Turingiem (tj. równoważne z maszyną Turinga - ogólny model obliczeń) i mogą reprezentować dużą klasę nieliniowych układów dynamicznych. Uzyskano różnorodne wyniki dla nadzorowanego uczenia się w sieciach neuronowych. Na przykład do celów klasyfikacji wykazano, że algorytmy uczenia sieci neuronowej są zbieżne z prawdopodobieństwami tylnymi klas. Algorytmy te zostały wykorzystane zarówno w modelowaniu kognitywnym, jak i zastosowaniach praktycznych. Bayesowskie metody statystyczne zostały wykorzystane do analizy nadzorowanego uczenia się i projektowania nowych algorytmów uczenia się. Z drugiej strony, uczenie się bez nadzoru nie wymaga sygnałów błędów ani rozróżnienia między węzłami wejściowymi, ukrytymi (wewnętrznymi) i wyjściowymi. Ma to zatem zastosowanie do wielu ustawień, w których nadzorowane uczenie się nie jest. Na przykład sieci samoorganizujące się, forma uczenia się bez nadzoru, były szeroko badane i wykorzystywane w modelowaniu poznawczym, a także w zastosowaniach przemysłowych. Opierają się na samoorganizacji węzłów i łączy w odpowiedzi na dane ze środowiska. Innym podejściem do uczenia się bez nadzoru jest określenie modelu sposobu, w jaki środowisko generuje dane. Uczenie się bez nadzoru staje się zatem problemem statystycznym znalezienia najlepszego modelu pasującego do danych. Uczenie się przez wzmocnienie jest gdzieś pomiędzy uczeniem się nadzorowanym i bez nadzoru: nie wymaga dokładnego sygnału błędu, ale jedynie wskazanie, czy prąd wyjściowy jest dobry, czy zły (lub jak dobry czy zły), zwykle w postaci liczby. Dlatego ma szersze zastosowanie niż uczenie się pod nadzorem i często jest bardziej przydatne niż uczenie się bez nadzoru (ze względu na dostępność informacji zwrotnych). Uczenie się ze wzmocnieniem zastosowano w modelowaniu uczenia się zwierząt i uczenia się umiejętności ludzkich, a także w inżynierii sterowania i innych zastosowaniach przemysłowych. Uzyskano wiele wyników teoretycznych dotyczących różnych algorytmów uczenia się zbrojenia. Badano także modele sieci neuronowej oparte na teorii prawdopodobieństwa. Wykazano, że wiele modeli uczenia sieci neuronowych jest powiązanych z obliczeniami probabilistycznymi (tj. Odpowiadającymi teorii prawdopodobieństwa). Zapewnia to niejako matematycznie rygorystyczną podstawę do uczenia się w sieci neuronowej. W szczególności warto zauważyć, że niektóre algorytmy nauki bez nadzoru badane w literaturze dotyczącej sieci neuronowych można uzyskać z sieci bayesowskich (dla bayesowskich metod statystycznych
Przedstawienia związane z podłączeniem
Istnieją, ogólnie rzecz biorąc, dwie przybliżone kategorie reprezentacji łączących się: (1) reprezentacja lokalizująca, w której każdy węzeł reprezentuje indywidualną koncepcję; oraz (2) reprezentacja rozproszona, w której każda koncepcja jest reprezentowana przez wzorzec aktywacji na zbiorze węzłów, z których każdy może nie być interpretowalny (przenikalny poznawczo). Jednak poza tymi dwiema szorstkimi kategoriami istnieje całe spektrum różnych dostępnych technik reprezentacyjnych:
• Pełne przedstawicielstwo lokalne. Jak wspomniano wcześniej, charakteryzuje się to reprezentowaniem każdej koncepcji osobnym, dedykowanym węzłem w sieci. Innymi słowy, jest to jeden węzeł dla jednej koncepcji (tj. Istnieje mapowanie jeden-do-jednego między węzłami i koncepcjami).
• Rozproszona reprezentacja lokalna. Zamiast jednego węzła dla jednej koncepcji możliwe jest użycie zestawu węzłów dla jednej koncepcji, z których każdy wykonuje to samo przetwarzanie, tak że wybicie jednego węzła nie wpłynie drastycznie na wydajność systemu. Ten zestaw węzłów jest przeznaczony wyłącznie do reprezentowania tej konkretnej koncepcji i żaden z tych węzłów nie uczestniczy w reprezentacji żadnych innych koncepcji. Reprezentacja ta może być uważana za odmianę reprezentacji lokalizacji. Jest to zestaw węzłów dla jednej koncepcji (tzn. Istnieje mapowanie jeden na jeden między zestawami węzłów i pojęć).
• Przedstawiciel dystrybuowany lokalnie. Ta forma reprezentacji charakteryzuje się dzieleniem przestrzeni reprezentacyjnej (zbioru wszystkich dostępnych węzłów) na kilka podprzestrzeni (tj. podzbiory węzłów) oraz reprezentacja rozproszona jest używana dla każdej z tych podprzestrzeni. Oznacza to, że zestaw pojęć jest reprezentowany w sposób rozproszony w reprezentatywnej podprzestrzeni. Ale poza tą konkretną podprzestrzenią reprezentacyjną to, czy węzeł jest aktywny, czy nie, nie ma znaczenia dla reprezentacji pojęć w tym zbiorze. Reprezentacja jest zlokalizowana w odniesieniu do zestawu pojęć, ale jest rozproszona w zestawie. Można ją nazwać zestawem węzłów dla zestawu pojęć (tzn. Istnieje mapowanie jeden na jeden między zestawami węzłów i zestawy pojęć).
• W pełni rozproszona reprezentacja. Każdy węzeł uczestniczy w reprezentacja wszystkich zaangażowanych pojęć, a każda koncepcja jest reprezentowana przez wszystkie węzły używane w sieci.3 Można to nazwać wszystkimi węzłami dla wszystkich pojęć.
• Inne rodzaje reprezentacji rozproszonej. Ponadto istnieją inne typy reprezentacji rozproszonej, które nie pasują do żadnego z powyższych opisów
Każda z tych technik reprezentacyjnych ma swoje własne cechy oraz zalety i wady, a zatem każda z nich jest odpowiednia w określonych sytuacjach
Koneksjonizm i poznawanie
Następnie krótka ankieta jest uporządkowana według różnych obszarów modelowania łączników w odniesieniu do rozumienia poznania, zgodnie z przydatnymi właściwościami wspomnianych wcześniej modeli łączników. Podczas gdy neuronauka zajmuje się zjawiskami na poziomach często nie wyższych niż sieci komórkowe i lokalne, modele poznawcze muszą odnosić się do ludzkich zachowań na wyższych poziomach (np. badanych w psychologii). Pewne uproszczenie jest zatem uzasadnione. W ten sposób, chociaż do pewnego stopnia zagrożona jest biologiczna wiarygodność, możemy jednak założyć, że uproszczone modele mogą mieć takie samo ogólne podejście do obliczeń jak biologiczne układy neuronowe. Ze względu na ich charakterystyczne cechy modele łączące się oferują nowe teorie poznawcze i generują wyjaśnienia, które często są radykalnie różne od tych z poprzednich teorii. Przejrzę krótko kilka przykładów.
Pamięć. W modelach łączących pamięć jest często konstruktywnym procesem obejmującym interakcje prostych jednostek przetwarzania (węzłów). Na przykład, przywołanie może być procesem konstruowania wzorca aktywacji na zestawie jednostek, który jest podobny do niektórych wcześniej doświadczanych wzorców. Często podlega wpływom wynikającym z interakcji jednostek, które mogą uzupełniać brakujące szczegóły lub korygować nieścisłości. Jedną przydatną właściwością modeli łączących przeszkolonych na przykład z propagacją wsteczną jest to, że mogą dowiedzieć się, jakiej podstawy w reprezentacji rozproszonej użyć do wewnętrznego reprezentowania pojęć, tak aby procesy oparte na podobieństwie (np. uogólnienie) mogły opierać się na odpowiednich cechach. Do tej pory modele łączące były stosowane do zagadnień pamięci semantycznej, pamięci epizodycznej , uczenia się pojęć, kategoryzacji i tak dalej.
Uczenie się niejawne i wyraźne. Wykazano, że modele łączące są odpowiednie do zajęcia się psychologicznym rozróżnieniem między uczeniem się jawnym i niejawnym, opracowanym na podstawie empirycznych badań psychologicznych. Jak wykazali Sun i inni, rozróżnienie może być uwidocznione poprzez zastosowanie reprezentacji lokalizacji względem rozproszonej reprezentacji w sieciach łączących. W reprezentacjach lokalizacyjnych (lub symbolicznych) każda jednostka jest łatwa do interpretacji i ma jasne znaczenie pojęciowe. Ta cecha oddaje właściwość wyraźnej wiedzy, która jest bardziej dostępna i łatwiejsza do manipulacji. Natomiast jednostki reprezentacyjne w reprezentacji rozproszonej są razem zdolne do realizacji zadań, ale generalnie nie mają indywidualnego znaczenia. Sun i inni dokładnie wykazali, w jaki sposób można uchwycić efekty interakcji uczenia się ukrytego i jawnego w modelach opartych na tym rozróżnieniu. W związku z tym Cleeremans i McClelland, a także inni, zajmowali się modelowaniem danych psychologicznych czysto niejawnego uczenia się.
Pamięć niejawna i wyraźna. Modele podłączeniowe uwzględniły również rozróżnienie między pamięcią jawną a niejawną. (Pamięć niejawna odnosi się do efektu doświadczenia bez wyraźnego odniesienia do tego wcześniejszego doświadczenia - czasami nawet bez świadomego przypominania sobie tego doświadczenia). Jawna pamięć dla ostatnich doświadczeń może być zaburzona u niektórych pacjentów z uszkodzonym mózgiem, którzy mimo to wykazują dobrą pamięć niejawną, sugerując, że specjalny system mózgu może być wymagany do tworzenia nowych, wyraźnych wspomnień. Modele konekcjonistyczne generalnie uwzględniają pamięć niejawną na podstawie połączeń między dużą pulą jednostek w sieci z rozproszonymi reprezentacjami
Język. Modele konekcjonistyczne sugerują realne alternatywy dla idei, że procesy poznawcze dla języka muszą być reprezentowane jako system reguł. Konekcjoniści stworzyli modele morfologicznej fleksji, konwersji ortografii na dźwięk, przetwarzania zdań i rozumienia oraz wielu innych aspektów, które uwzględniają wiele ważnych zjawisk psycholingwistycznych, często pomijanych przez teorie oparte na regułach. Jednym z problemów jest wrażliwość wzorców językowych na częstotliwość i spójność. Podejścia oparte na regułach nie uwzględniały faktu, że wyjątki nie są arbitralne. Na przykład wyjątki od regularnego czasu przeszłego angielskich czasowników występują w grupach o wspólnych cechach fonologicznych. Model łączący wykazał, że taki model, który nauczył się wag połączeń w celu generowania czasu przeszłego słowa z czasu teraźniejszego, może uchwycić szereg psychologicznych aspektów nabycia czasu przeszłego. W modelach łączących przetwarzanie języka jest często procesem spełniania ograniczeń, podlegającym ograniczeniom semantycznym, kontekstowym, składniowym i innym. Ponadto prace łącznikowe nad uczeniem się struktur gramatycznych zdań przeprowadzono w nawracających sieciach neuronowych.
Rozumowanie. W rozwiązywaniu problemów poznawczych wyższego poziomu, takich jak rozumowanie i rozwiązywanie problemów, modele łączące (czystych form) są na wiele sposobów niewystarczające. Jednak w tej dziedzinie wykonano pewne istotne prace. Na przykład prace zostały wykonane w dziedzinie analogicznego rozumowania. Wykonano także inne prace w zakresie wnioskowania opartego na regułach, a nawet rozumowania logicznego. W związku z tym badacze często wybierają modele "hybrydowe". Modele hybrydowe (które zostaną omówione później) często obejmują w ten czy inny sposób tradycyjne metody symboliczne. Na przykład mogą przypisywać jednostki i połączenia za pomocą algorytmów symbolicznych, a następnie przeprowadzać procesy satysfakcji z ograniczeń lub uczenia się propagacji wstecznej w sposób łącznikowy. Lub mogą implementować rozumowanie symboliczne przy użyciu wag połączeń bezpośrednio.
Wiążący. Badacze często postrzegają tak zwany "problem wiążący" jako podstawowy problem w połączeniowych modelach rozumowania, a także w innych obszarach kognitywistyki. "Powiązanie" odnosi się do kombinacji wielu dowolnych elementów w przetwarzaniu lub reprezentacji, w tym, na przykład, przypisania dowolnego elementu do gniazda w uporządkowanym opisie (np. przypisanie "CPU-213" do gniazda "CPU" w uporządkowany opis "komputera" obejmujący gniazda na procesor, pamięć, dysk itd.). Aby rozwiązać ten problem, zaproponowano kilka (częściowych) rozwiązań (np. Shastri i Ajjanagadde 1993; Sun 1992, 1994). Jednak opracowanie sieci neuronowych, które uczą się tworzyć własne wiązania, w znanych lub nieznanych domenach, pozostaje trudnym problemem
Problem przetwarzania symbolicznego
Znaczenie przetwarzania symbolicznego
Rewolucja konekcjonistyczna wywołała ożywione debaty teoretyczne na temat natury poznania i różnych podejść do jego zrozumienia. Wśród nich debata między klasycznym łącznikiem a symboliką była jednym z najbardziej fundamentalnych prądów filozoficznych, który pobudził rozwój modeli łączących w ramach kognitywistyki, a także w pewnym stopniu w społecznościach AI. Postrzegane znaczenie przetwarzania symboli leży, przynajmniej częściowo, w podstawowym założeniu symbolicznej sztucznej inteligencji i symbolicznej kognitywistyki. Hipoteza fizycznego systemu symboli wprowadzona przez Newella i Simona jasno sformułowała tę zasadę. Zdefiniowali fizyczny system symboli w następujący sposób:
Fizyczny system symboli składa się z zestawu bytów, zwanych symbolami, które są wzorcami fizycznymi, które mogą występować jako składniki innego rodzaju bytu zwanego wyrażeniem (lub strukturą symbolu). Tak więc struktura symboli składa się z wielu instancji (lub tokenów) symboli powiązanych w jakiś fizyczny sposób (takich jak jeden token obok siebie).
Twierdzili ponadto, że symbole mogą oznaczać dowolnie: "Symbol może być użyty do oznaczenia dowolnego wyrażenia… nie jest z góry określone, jakie wyrażenia może oznaczać… Istnieją procesy tworzenia dowolnego wyrażenia i modyfikowania dowolnego wyrażenia w dowolny sposób". Na tej podstawie doszli do wniosku: "Fizyczny system symboli ma niezbędne i wystarczające środki do ogólnego inteligentnego działania", co jest dobrze znaną hipotezą fizycznego systemu symboli. Hipoteza fizycznego systemu symboli spowodowała ogromne wysiłki badawcze w tradycyjnej sztucznej inteligencji, a także w kognitywistyce. To podejście (klasyczna symbolika) zwykle wykorzystuje dyskretne symbole jako prymitywy i dokonuje manipulacji symbolami w sekwencyjny i celowy sposób. Główne idee w symbolicznej tradycji AI obejmują "wyszukiwanie" i "reprezentację wiedzy". Wyszukiwanie odnosi się do systematycznej eksploracji przestrzeni stanów problemowych, jako sposobu konceptualizacji lub przeprowadzania rozwiązywania problemów. Wśród różnych typów symbolicznych reprezentacji wiedzy, najbardziej znaczące są reprezentacje oparte na logice, reprezentacje strukturalne (takie jak skrypty, ramki i sieci semantyczne) oraz reguły produkcji.
Przykłady przetwarzania symbolicznego łączników
Biorąc pod uwagę znaczenie symboli w procesach poznawczych, modele łączące muszą być w stanie uchwycić symbole i przetwarzanie symboliczne, zwłaszcza wyszukiwanie i reprezentację wiedzy. Podjęto wiele prób umożliwienia modelom łączącym wykonywanie symbolicznego przetwarzania. Zaproponowano różne schematy, które łącznie można nazwać implementacjonizmem związkowym. Obejmują one modele o zmiennym wiązaniu, wdrożenia systemów produkcyjnych i logiki pierwszego rzędu, a następnie włączenie logiki modalnej i logiki rozmytej, wszystkie oparte na typowych modelach sieci łączących, takich jak wielowarstwowe sieci sprzężenia zwrotnego z propagacją wsteczną uczenie się. Techniki stosowane do implementacji przetwarzania symbolicznego w takich sieciach różnią się znacznie w zależności od modelu. Wczesnym przykładem implementacjonizmu konektoristycznego jest rozproszony system produkcji konektorów Touretzky'ego i Hintona, który wdrożył system produkcyjny przy użyciu modeli konektorów. W DCPS istniała pamięć robocza, w której przechowywane były fakty; istniały dwa składniki klauzuli, z których każdy wykorzystano do dopasowania jednego z dwóch warunków reguły (gdzie każda reguła była ograniczona do dwóch warunków); istniał również komponent reguły, który został użyty do wykonania akcji dopasowywania reguły, która zmieniła pamięć roboczą; ponadto komponent powiązania został wykorzystany do wymuszenia ograniczeń dotyczących zmiennych, które mogą istnieć w regule. Każdy z tych komponentów został zaimplementowany jako sieć łącząca.Podsumowując, był to złożony modułowy system łączący zaprojektowany specjalnie do implementacji ograniczonego systemu produkcyjnego, jako demonstracja możliwości wdrożenia złożonych systemów symbolicznych w klasycznych modelach łączących z reprezentacją rozproszoną. Oprócz tego podejścia istnieje wiele innych metod i technik, które zostały zaproponowane i zbadane w celu implementacji wnioskowania opartego na regułach i przetwarzania symbolicznego w sieciach neuronowych, w tym na przykład rekurencyjnej pamięci autoasocjacyjnej (RAAM), reprezentacji holograficznej i produktu tensorowego reprezentacja (ankiety, a także szczegółowe informacje ).
Awaryjne przetwarzanie symboliczne w modelach łączących
Zarówno od strony łączącej, jak i symbolicznej, niektórzy badacze uważają, że poznanie wysokiego poziomu, szczególnie to, które jest czasowo rozszerzone lub wymaga wyraźnego rozumowania werbalnego, często można lepiej uchwycić za pomocą bardziej symbolicznych ram (więcej na ten temat w następnym Sekcja). Jednak wielu związkowców uważa, słusznie lub niesłusznie, że procesy łącznikowe leżą u podstaw wszystkich aspektów ludzkiego poznania. Wierzą, że ludzkie rozumowanie i rozwiązywanie problemów często wynika z wglądu lub intuicji, lub bezpośrednio z percepcji, a zatem do uchwycenia wszystkich ich subtelności może być potrzebne podejście łączące, a nie symboliczne. Na przykład Elman pokazał, w jaki sposób mogą powstawać prawidłowości języka bez wyraźnego przedstawienia reguł językowych oraz w jaki sposób uczenie się może prowadzić do odkrycia wewnętrznych reprezentacji, które mogłyby uchwycić struktury językowe na podstawie współwystępowania słów. W prostych sieciach powtarzalnych Elmana (SRN), w kroku czasu t, wejście zostało przedstawione sieci i spowodowało wzorzec aktywacji na warstwach ukrytych i wyjściowych. Na etapie czasu t + 1 kolejna informacja wejściowa w sekwencji została przedstawiona sieci, a kopia aktywacji jednostek ukrytych na etapie czasu t jest również przekazywana z powrotem do jednostek ukrytych. Każde wejście do SRN było zatem przetwarzane w kontekście tego, co było wcześniej. W swoich eksperymentach Elman wyszkolił SRN do przewidywania następnego słowa w zdaniu. Podczas szkolenia wyniki sieci zbliżyły się do prawdopodobieństwa przejścia między słowami w zdaniach. Na przykład po pierwszym rzeczowniku jednostki czasownika byłyby bardziej aktywne jako możliwe następne słowo, a czasowniki, które zwykle kojarzyły się z tym konkretnym rzeczownikiem, byłyby bardziej aktywne niż te, które tego nie zrobiły. Elman zbadał strukturę wewnętrznych reprezentacji SRN i stwierdził, że wewnętrzne reprezentacje były wrażliwe na różnice składniowe, a także na szereg różnic semantycznych. SRN był zatem w stanie opracować reprezentacje bytów, które różniły się w zależności od kontekstu użycia, w przeciwieństwie do tradycyjnych reprezentacji symbolicznych, które utrzymywały swoją tożsamość niezależnie od kombinacji, w które zostały umieszczone. Podsumowując, praca Elmana wykazała, jak proste sieci mogą uczyć się prawidłowości statystycznych w sekwencjach czasowych oraz tego, jak mogą one wystarczyć do wytworzenia wielu zachowań przypisywanych przez językoznawców regułom gramatycznym. Na inny przykład Miikkulainen wykazał, co może osiągnąć zestaw wzajemnie połączonych wielowarstwowych sieci feedforward z algorytmem uczenia się propagacji wstecznej w zakresie rozumienia języka naturalnego. Zamiast implementować skrypty i ramki, jego modele pokazały, w jaki sposób te symboliczne reprezentacje (skrypty i ramki) mogą powstać poprzez uczenie się propagacji wstecznej na podstawie danych szkoleniowych. Ponieważ te reprezentacje wyłoniły się z sieci neuronowych poprzez naukę, były w stanie uogólnić na nowe sytuacje (przynajmniej w pewnym stopniu). W ten sposób praca poszerzyła zakres reprezentacji symbolicznej w modelach łączących.
Hybrydowe modele przyłączeniowe
Idea modelu hybrydowego
W przeciwieństwie do implementacjonizmu łącznikowego hybrydowe modele łączące można uznać za syntezę modeli łączących i tradycyjnych modeli symbolicznych. Modele takie mają zatem odciągnąć nas od starej debaty o łączeniu się z symboliką w kierunku nowej i produktywnej syntezy. W wyniku połączenia różnych reprezentacji i procesów, symbolicznych lub łączących, wydają się być bardziej wyraziste, mocniejsze, często bardziej wydajne, a przez to bardziej użyteczne, zarówno w modelowaniu poznawczym, jak i w zastosowaniach praktycznych (przemysłowych). Podstawowe uzasadnienie modeli hybrydowych można zwięźle streścić jako "przy użyciu odpowiedniego narzędzia do właściwej pracy". Mówiąc dokładniej, powinno być oczywiste, że procesy poznawcze nie są jednorodne; prawdopodobnie zastosowana zostanie różnorodność reprezentacji i procesów, odgrywających różne role i służących różnym celom. Niektóre procesy poznawcze i reprezentacje najlepiej uchwycić za pomocą modeli symbolicznych, inne za pomocą modeli łączących. Istnieje zatem potrzeba pluralizmu w modelowaniu ludzkiego poznania, co naturalnie prowadzi do rozwoju hybrydowych modeli łączących, aby zapewnić niezbędne narzędzia obliczeniowe i ramy koncepcyjne. Na przykład, aby uchwycić pełny zakres umiejętności uczenia się ludzi, architektura poznawcza musi uwzględniać zarówno wiedzę jawną, jak i jawną. Architektura obejmująca oba procesy może być zaimplementowana obliczeniowo przez połączenie modeli symbolicznych (które przechwytują jawną wiedzę) i modeli łączących (które przechwytują ukrytą wiedzę). Opracowanie inteligentnych systemów do różnych praktycznych zastosowań może również skorzystać z właściwego połączenia różnych technik, ponieważ żadna pojedyncza technika nie jest w stanie obecnie zrobić wszystkiego skutecznie i skutecznie. Względne zalety modeli łączących w porównaniu z modelami symbolicznymi były szeroko argumentowane . Zalety modeli łączących obejmują masywną równoległość, możliwości uczenia się i odporność na uszkodzenia, jak wyliczono wcześniej. Zalety modeli symbolicznych obejmują wyraźną reprezentację i przetwarzanie, łatwość określania etapów przetwarzania symbolicznego oraz wynikającą z tego precyzję przetwarzania. Mając na uwadze te względne zalety, połączenie modeli łączących i symbolicznych można stosunkowo łatwo uzasadnić. Niektóre istniejące dychotomie poznawcze są w tym względzie bardzo istotne. Psychologowie zaproponowali szereg dychotomii na podstawie danych empirycznych. Dychotomie te obejmują uczenie się niejawne vs. jawne, pamięć niejawna vs. jawna, przetwarzanie automatyczne vs. kontrolowane, uczenie się przypadkowe a celowe i tak dalej. Istnieje również dobrze znane rozróżnienie wiedzy proceduralnej od deklaratywnej. Dowody tych dychotomii leżą w danych eksperymentalnych, które wyjaśniają różne dysocjacje i różnice w wydajności w różnych warunkach. Chociaż nie ma konsensusu co do szczegółów dychotomii, istnieje konsensus co do jakościowej różnicy między różnymi rodzajami poznania. Co więcej, większość badaczy uważa, że konieczne jest włączenie obu stron dychotomii, ponieważ każda z nich pełni unikalną funkcję i dlatego jest niezbędna. Wokół niektórych z tych dychotomii ustrukturyzowano architektury kognitywne wykorzystujące zarówno techniki łączące, jak i symboliczne. W związku z powyższymi dychotomiami Smoleński zaproponował bardziej abstrakcyjne rozróżnienie przetwarzania pojęciowego i podkoncepcyjnego i powiązał to rozróżnienie z modelami łączącymi i symbolicznymi. Przetwarzanie pojęciowe obejmuje wiedzę, która ma następujące cechy: (1) publiczny dostęp, (2) niezawodność i (3) formalność. Jest to, co jego zdaniem ,ujmują modele symboliczne. Z drugiej strony istnieją inne rodzaje zdolności poznawczych, takie jak umiejętności i intuicja, które nie są wyrażane w formach językowych i nie są zgodne z powyższymi kryteriami. Według Smoleńskiego i wielu innych badaczy bezcelowe jest modelowanie takich zdolności w kategoriach symbolicznych i należy je postrzegać jako znajdujące się na innym poziomie poznawczym - poziom podkoncepcyjny. Z tym poziomem lepiej radzą sobie modele łączące, które rozwiązują niektóre poważne problemy, które napotykają modele symboliczne w modelowaniu przetwarzania podkoncepcyjnego. Tak więc połączenie tych dwóch rodzajów modeli może prowadzić do znaczących korzyści w przechwytywaniu pełnego zakresu zdolności poznawczych. Pomysły te stanowią podstawę do budowy hybrydowego połączenia symbolistycznego modeli
Przykłady modeli hybrydowych
Przykładem hybrydowych modeli symbolistycznych łączących jest CLARION, który składa się z dwóch poziomów: poziomu symbolicznego i poziomu łączącego. Oba poziomy działają raczej niezależnie, ale ich wyniki są połączone. Poziom łącznika składa się z sieci neuronowych, które działają poprzez rozpowszechnianie aktywacji i uczą się w oparciu o metody uczenia wzmacniającego. Poziom symboliczny działa zgodnie z regułami symbolicznymi. Dzięki integracji wyników dwóch rodzajów procesów model był w stanie uchwycić różnorodne umiejętności uczenia się ludzi, rozumowania i inne dane.
W szczególności CLARION jest architekturą integracyjną złożoną z wielu różnych podsystemów, z podwójną strukturą reprezentacyjną w każdym podsystemie. Jego podsystemy obejmują podsystem skoncentrowany na działaniu (ACS), podsystem nie skoncentrowany na działaniu (NACS), podsystem motywacyjny (MS) i podsystem metapoznawczy (MCS). Rolą podsystemu zorientowanego na działanie jest kontrolowanie działań, niezależnie od tego, czy są to działania fizyczne ruchu lub dla wewnętrznych operacji umysłowych. Rolą podsystemu nie skoncentrowanego na działaniu jest utrzymanie ogólnej wiedzy. Rolą podsystemu motywacyjnego jest zapewnienie podstawowych motywacji do percepcji, działania i poznania w zakresie dostarczania impetu i informacji zwrotnej. Rolą podsystemu metapoznawczego jest monitorowanie i modyfikowanie działania innych podsystemów. Każdy z tych współdziałających podsystemów składa się z dwóch poziomów reprezentacji. W każdym podsystemie górny (symboliczny) poziom koduje wiedzę jawną, a dolny (łącznikowy) koduje wiedzę niejawną. Rozróżnienie wiedzy niejawnej i jawnej oparto na danych psychologicznych. Podsystem zorientowany na działanie jest centralną częścią CLARION. W nim proces podejmowania decyzji dotyczących działania jest zasadniczo następujący: Obserwując obecny stan świata, dwa poziomy procesów (ukryte i jawne) podejmują osobne decyzje zgodnie z własną wiedzą, a ich wyniki są "zintegrowane. " W ten sposób dokonywany jest ostateczny wybór akcji, a następnie akcja jest wykonywana. Akcja w jakiś sposób zmienia świat. Porównując zmieniony stan świata z poprzednim stanem, system uczy się (np. zgodnie z uczeniem się przez wzmocnienie). Cykl następnie się powtarza. Na najniższym poziomie (łącznik) rozwija się wiedza niejawna (procedury reaktywne). Reaktywne procedury opracowane poprzez uczenie się przez wzmocnienie mogą wykazywać zachowania sekwencyjne bez wyraźnego (symbolicznego) planowania. Na najwyższym (symbolicznym) poziomie podsystemu skoncentrowanego na akcji wyraźna wiedza jest przechwytywana w postaci symbolicznych reguł. Istnieje wiele sposobów uczenia się wyraźnej wiedzy, w tym niezależna hipoteza testująca uczenie się i "uczenie oddolne" (szczegóły w Sun 2002). CLARION został wykorzystany do różnych celów, w tym na przykład do zrozumienia umiejętności ludzkich. Symulowano i wyjaśniono wiele dobrze znanych zadań w zakresie uczenia się, od prostych umiejętności reaktywnych po złożone umiejętności poznawcze. Ponadto wiele zadań związanych z rozumowaniem, metapoznawczych, motywacyjnych i interakcji społecznych zostało zamodelowanych i wyjaśnionych w CLARION. Uwzględniając różne dane psychologiczne, CLARION zapewnia szczegółowe wyjaśnienia danych ludzkich, które rzucają nowe światło na zjawiska poznawcze. Na przykład w rozliczaniu zadań związanych z uczeniem się umiejętności CLARION przypisał pewne różnice w wynikach różnym sposobom interakcji między procesami ukrytymi i jawnymi (odpowiednio na dwóch poziomach). Za pomocą tego prostego pojęcia CLARION wyjaśnił dużą różnorodność danych dotyczących umiejętności ludzkich, które nie zostały wcześniej wyjaśnione w jednolity sposób. Oprócz powyższych prac istnieje kilka innych podejść, które łączą metody łączące i symboliczne na różne sposoby
Zagadnienia dotyczące modeli hybrydowych
Przyjmując i rozwijając hybrydowe modele symboliczno-łącznikowe, należy odpowiedzieć na wiele pytań, aby wypracować podejścia oparte na zasadach. Główne z nich to:
• Jakie są względne zalety i wady każdego podejścia do opracowywania modeli hybrydowych?
• Jak prawdopodobne jest każde z tych podejść pod względem poznawczym?
Mówiąc dokładniej, powstaje szereg pytań dotyczących architektury modeli hybrydowych, a także uczenia się w tych modelach. Po pierwsze, modele hybrydowe zwykle obejmują wiele różnych rodzajów procesów i reprezentacji, a zatem wiele heterogenicznych mechanizmów oddziałujących w złożony sposób. Konieczne jest rozważenie sposobów strukturyzacji tych różnych komponentów lub, innymi słowy, rozważenie architektury. Niektóre problemy związane z architekturą obejmują:
• W jaki sposób decyduje się, czy reprezentacja określonej części architektury powinna być symboliczna, lokalna czy rozproszona?
• Jakie są odpowiednie i oparte na zasadach sposoby na wyeliminowanie prawdopodobnej heterogeniczności w modelach hybrydowych?
• W jaki sposób reprezentacja i uczenie się współdziałają w modelach hybrydowych (ponieważ w takich modelach oba aspekty mogą być bardziej złożone)?
• W jaki sposób buduje się różne części modelu hybrydowego, aby osiągnąć optymalne wyniki (w jakimkolwiek sensie właściwym dla danego zadania)?
Po drugie, chociaż wiadomo, że modele czysto konekcsjonistyczne, które stanowią część dowolnego modelu hybrydowego, wyróżniają się umiejętnościami uczenia się, hybrydyzacja utrudnia uczenie się. W pewnym sensie modele hybrydowe dziedziczą trudności w uczeniu się od strony symbolicznej i rezygnują w pewnym stopniu z przewagi, jaką mają w tym względzie wyłącznie modele czysto konektywistyczne. Niektóre z problemów związanych z uczeniem się obejmują:
• Jakie uczenie można przeprowadzić w każdym typie architektury hybrydowej?
• W jaki sposób można nauczyć się złożonych struktur symbolicznych, takich jak reguły, ramki i sieci semantyczne w modelach hybrydowych? (Jest to szczególnie problem w przypadku wysoce ustrukturyzowanych modeli hybrydowych, w których uczenie się jest szczególnie trudne.)
• Przy opracowywaniu modeli hybrydowych powinna istnieć relacja
symboliczne metody uczenia się, metody pozyskiwania / zdobywania wiedzy oraz algorytmy uczenia sieci neuronowej?
• W jaki sposób można tworzyć każdy rodzaj architektury za pomocą różnych kombinacji wyżej wymienionych metod?
Pomimo różnorodności, która istnieje w badaniach hybrydowych modeli łączących-symbolicznych, istnieje wyraźny, jednoczący temat: poszukiwanie modeli obliczeniowych, które łączą techniki symboliczne i łączące w celu osiągnięcia syntezy i synergii dwóch pozornie różnych paradygmatów. Różne proponowane metody, modele i architektury wyrażają powszechne przekonanie, że metody łączące i symboliczne mogą być użytecznie zintegrowane oraz że taka integracja może prowadzić do postępów w zrozumieniu poznania i inteligencji
Modele hybrydowe w modelowaniu poznawczym
Modele hybrydowe, takie jak CLARION, zostały wykorzystane do rozwiązania szerokiej gamy problemów w kognitywistyce i sztucznej inteligencji, w tym uczenia się ludzi, rozumowania, rozwiązywania problemów, kreatywności, dynamiki motywacyjnej, procesów metapoznawczych, a przede wszystkim ludzkiej świadomości. Omówiono już modelowanie i wyjaśnienie ludzkiej nauki. W odniesieniu do zrozumienia ludzkiego rozumowania, CLARION jest w stanie uchwycić zarówno dorozumiane, jak i jawne rozumowanie oraz ich interakcję. Poprzez szczegółowe modelowanie danych ludzkiego rozumowania, CLARION przedstawił interpretacje danych ludzkiego rozumowania na podstawie interakcji ukrytych i jawnych procesów, które doprowadziły do nowych spostrzeżeń na temat ludzkiego rozumowania, wykraczających poza te, które można uzyskać dzięki wdrożeniu ograniczonej formy systemu produkcji, jak w omówionej wcześniej pracy implementacjonistycznej łącznika. W odniesieniu do zrozumienia ludzkiej świadomości CLARION był użyteczny w generowaniu hipotez wyjaśniających. W szczególności hipotetyczna różnica między dwoma poziomami reprezentacji w CLARION została postawiona w hipotezie, aby uchwycić podstawową różnicę między świadomym a nieświadomym, której nie można by sobie wyobrazić bez dostępności narzędzi technicznych zarówno symbolicznych, jak i podejścia do związków. Podobnie, architektura ACT-R Johna Andersona została wykorzystana do zrozumienia i modelowania interakcji percepcji i poznania na różne sposoby
Uwagi końcowe
Tu omówione zostały trzy typy modeli łączących się: klasyczny łącznik, łącznikowe przetwarzanie symboliczne (implementista) i hybrydowy łącznik. Podczas gdy klasyczny łącznik przyniósł ciekawe i nowatorskie pomysły, jest on ograniczony swoją prostotą i jednolitością. Przetwarzanie symboliczne w takich modelach połączeniowych zostało szeroko zbadane, ale jak dotąd przyniosło ograniczone wyniki. Dlatego wydaje się konieczne, przynajmniej na krótką metę, aby opracować hybrydowe modele łączników zawierające metody symboliczne (i ewentualnie inne metody, takie jak logika bayesowska lub logika rozmyta). Patrząc w przyszłość tej dziedziny, można dostrzec niektóre trendy. Na przykład, podczas gdy istnieją specyficzne dla domeny aplikacje do modelowania różnych procesów poznawczych, takich jak przetwarzanie języka naturalnego, rozumowanie i podejmowanie decyzji, pamięć i uczenie się, wizja itd., Mogą istnieć również bardziej integracyjne modele łączące, przekraczające granice wąskich domeny i funkcjonalności. Inną prawdopodobną tendencją jest to, że modele łączące się mogą być coraz bardziej powiązane ze statystycznymi (bayesowskimi) podejściami do uczenia się i wnioskowania, które mogą zapewniać strategie oparte na zasadach (ale mogą również powodować wyższe koszty obliczeniowe). Innym powiązanym trendem jest rosnąca hybrydyzacja modeli łączących; więcej modeli łączących może zawierać elementy symboliczne, elementy logiki rozmytej i inne elementy, które są poza sferą klasycznych modeli łączących. W odwrotnym kierunku modele symboliczne mogą także w coraz większym stopniu uwzględniać techniki i podejścia łączące. Wreszcie modele łączników mogą być coraz bardziej powiązane z pracą nad biologicznymi układami neuronowymi, w tym z uwzględnieniem danych obrazowania mózgu. W szczególności w przyszłości więcej modeli może być inspirowanych biologicznymi sieciami neuronowymi, które są nie tylko wykonalne obliczeniowo, ale także biologicznie realistyczne i mogą w ten sposób pomóc w rozwoju pola.