https://aie24.pl/
Naturalne jest pytanie: „Którą z architektur agentów powinien używać agent?” Odpowiedź brzmi: „Wszystkie!” Reakcje odruchowe są potrzebne w sytuacjach, w których czas jest najważniejszy, podczas gdy deliberacja oparta na wiedzy pozwala agentowi planować z wyprzedzeniem. Nauka jest wygodna, gdy mamy dużo danych i niezbędna, gdy środowisko się zmienia lub gdy projektanci mają niewystarczającą wiedzę w tej dziedzinie. AI od dawna dzieli się na systemy symboliczne (oparte na wnioskowaniu logicznym i probabilistycznym) i systemy koneksjonistyczne (oparte na minimalizacji strat na dużej liczbie niezinterpretowanych parametrów). Nieustannym wyzwaniem dla sztucznej inteligencji jest połączenie tych dwóch elementów, aby uchwycić to, co najlepsze z obu. Systemy symboliczne pozwalają nam łączyć ze sobą długie łańcuchy rozumowania i wykorzystywać ekspresyjną moc ustrukturyzowanych reprezentacji, podczas gdy systemy koneksjonistyczne potrafią rozpoznawać wzorce nawet w obliczu zaszumionych danych. Jeden kierunek badań ma na celu połączenie programowania probabilistycznego z głębokim uczeniem się, chociaż jak dotąd różne propozycje są ograniczone pod względem rzeczywistego połączenia podejść. Agenci potrzebują również sposobów kontrolowania własnych obrad. Muszą umieć dobrze wykorzystać dostępny czas i przestać zastanawiać się, kiedy wymagane jest działanie. Na przykład kierowca taksówki, który widzi przed sobą wypadek, musi w ułamku sekundy zdecydować, czy ma hamować, czy skręcać. Powinien także poświęcić ten ułamek sekundy na zastanowienie się nad najważniejszymi pytaniami, takimi jak to, czy pasy po lewej i prawej stronie są wolne i czy tuż za nimi znajduje się duża ciężarówka, zamiast martwić się, gdzie odebrać następnego pasażera. Zagadnienia te są zwykle badane pod hasłem AI czasu rzeczywistego. Gdy systemy AI przeniosą się do bardziej złożonych dziedzin, wszystkie problemy zaczną się pojawiać w czasie rzeczywistym, ponieważ agent nigdy nie będzie miał wystarczająco dużo czasu, aby dokładnie rozwiązać problem decyzyjny. Wyraźnie widać, że istnieje pilna potrzeba ogólnych metod kontrolowania narady, a nie konkretnych recept na to, o czym należy myśleć w każdej sytuacji. Pierwszym użytecznym pomysłem są algorytmy w dowolnym momencie (Dean i Boddy, 1988; Horvitz, 1987): algorytm, którego jakość wyjściowa poprawia się stopniowo w czasie, dzięki czemu w przypadku przerwania może być gotowy do podjęcia rozsądnej decyzji. Przykłady algorytmów w dowolnym momencie obejmują iteracyjne pogłębianie w przeszukiwaniu drzewa gry i MCMC w sieciach bayesowskich. Drugą techniką kontrolowania deliberacji jest metarozumowanie oparte na teorii decyzji . Metoda ta, stosuje teorię wartości informacyjnej do wyboru poszczególnych obliczeń . Wartość obliczenia zależy zarówno od jego kosztu (pod względem opóźniania działania), jak i od korzyści (pod względem poprawy jakości decyzji). Techniki metarozumowania można wykorzystać do zaprojektowania lepszych algorytmów wyszukiwania i zagwarantowania, że algorytmy mają właściwość w dowolnym momencie. Jednym z przykładów jest przeszukiwanie drzewa metodą Monte Carlo: wybór węzła liścia, od którego rozpocznie się następna rozgrywka, jest dokonywany na podstawie w przybliżeniu racjonalnej decyzji na metapoziomie wywodzącej się z teorii bandytów. Metarozumowanie jest oczywiście droższe niż działanie odruchowe, ale można zastosować metody kompilacji, dzięki czemu koszty ogólne są niewielkie w porównaniu z kosztami kontrolowanych obliczeń. Uczenie się ze wzmocnieniem metapoziomu może zapewnić inny sposób na uzyskanie skutecznych zasad kontrolowania deliberacji: w istocie obliczenia, które prowadzą do lepszych decyzji, są wzmacniane, podczas gdy te, które okazują się nieskuteczne, są karane. Takie podejście pozwala uniknąć problemów z krótkowzrocznością związanych z prostym obliczaniem wartości informacji. Metarozumowanie jest jednym konkretnym przykładem architektury refleksyjnej — to znaczy architektury, która umożliwia rozważanie jednostek obliczeniowych i działań występujących w samej architekturze. Teoretyczną podstawę architektur refleksyjnych można zbudować, definiując wspólną przestrzeń stanów składającą się ze stanu środowiska i stanu obliczeniowego samego agenta. Można zaprojektować algorytmy podejmowania decyzji i uczenia się, które operują na tej wspólnej przestrzeni stanów, a tym samym służą do implementacji i ulepszania działań obliczeniowych agenta. W końcu spodziewamy się, że algorytmy specyficzne dla zadań, takie jak wyszukiwanie alfa-beta, planowanie regresji i eliminacja zmiennych, znikną z systemów AI i zostaną zastąpione ogólnymi metodami, które kierują obliczenia agenta w kierunku wydajnego generowania wysokiej jakości decyzji. Metarozumowanie i refleksja (oraz wiele innych rozwiązań architektonicznych i algorytmicznych związanych z wydajnością, omówionych w tej książce) są konieczne, ponieważ podejmowanie decyzji jest trudne. Odkąd wynaleziono komputery, ich oślepiająca szybkość doprowadziła ludzi do przeceniania ich zdolności do pokonywania złożoności lub, równoważnie, do niedoceniania tego, co naprawdę oznacza złożoność. Naprawdę gigantyczna moc dzisiejszych maszyn skłania do myślenia, że moglibyśmy ominąć wszystkie sprytne urządzenia i bardziej polegać na brutalnej sile. Spróbujmy więc przeciwdziałać tej tendencji. Zaczynamy od tego, co fizycy uważają za prędkość ostatecznego urządzenia obliczeniowego o wadze 1 kg: około 1051 operacji na sekundę, czyli miliard bilionów bilionów razy szybciej niż najszybszy superkomputer w 2020 r. Następnie proponujemy proste zadanie : wyliczanie ciągów angielskich słów, podobnie jak Borges zaproponował w Bibliotece Babel. Borges wymagał książek liczących 410 stron. Czy byłoby to wykonalne? Nie do końca. W rzeczywistości komputer działający przez rok mógł wyliczyć tylko ciągi 11 słów. Rozważmy teraz fakt, że szczegółowy plan ludzkiego życia składa się z (w przybliżeniu) dwudziestu bilionów potencjalnych pobudzeń mięśni i zaczynamy dostrzegać skalę problemu. Komputer, który jest miliard bilionów bilionów razy potężniejszy niż ludzki mózg, jest o wiele bardziej racjonalny niż ślimak od wyprzedzenia statku kosmicznego Enterprise lecącego z prędkością dziewiątą. Mając na uwadze powyższe rozważania, wydaje się, że cel budowania racjonalnych agentów jest być może nieco zbyt ambitny. Zamiast dążyć do czegoś, co nie może istnieć, powinniśmy rozważyć inny cel normatywny — taki, który koniecznie istnieje. Przypomnij sobie następujący prosty pomysł:
agent = architektura+program:
Teraz napraw architekturę agenta (podstawowe możliwości maszyny, być może ze stałą warstwą oprogramowania na wierzchu) i zezwól programowi agenta na różnicowanie wszystkich możliwych programów, które może obsługiwać architektura. W dowolnym środowisku zadaniowym jeden z tych programów (lub ich równoważna klasa) zapewnia najlepszą możliwą wydajność — być może nie zbliżoną do idealnej racjonalności, ale wciąż lepszą niż jakikolwiek inny program agenta. Mówimy, że program ten spełnia kryterium ograniczonej optymalności. Oczywiście istnieje i wyraźnie stanowi pożądany cel. Cała sztuka polega na znalezieniu go lub czegoś bliskiego. W przypadku niektórych elementarnych klas programów agentowych w prostych środowiskach czasu rzeczywistego można zidentyfikować ograniczone-optymalne programy agentowe . Sukces przeszukiwania drzewa metodą Monte Carlo ożywił zainteresowanie podejmowaniem decyzji na metapoziomach i istnieje powód, by mieć nadzieję, że ograniczoną optymalność w bardziej złożonych rodzinach programów agentowych można osiągnąć za pomocą technik, takich jak uczenie się ze wzmocnieniem na metapoziomie. Powinno być również możliwe opracowanie konstruktywnej teorii architektury, poczynając od twierdzeń o ograniczonej optymalności odpowiednich metod łączenia różnych ograniczonych optymalnych elementów, takich jak systemy odruchowe i działanie-wartość.