Poszukiwanie abstrakcyjnych rozwiązań – "Bądź człowiekiem … A.I. !"

Hierarchiczny algorytm wyszukiwania w poprzedniej sekcji doprecyzowuje HLA aż do pierwotnych sekwencji akcji, aby określić, czy plan jest wykonalny. Jest to sprzeczne ze zdrowym rozsądkiem: należy być w stanie określić, że plan wysokiego poziomu z dwoma HLA

dowozi go na lotnisko bez konieczności określania dokładnej trasy, wyboru miejsca parkingowego i tak dalej. Rozwiązaniem jest napisanie warunku wstępnego – opisów efektów HLA, tak jak robimy to dla prymitywnych działań. Z opisów powinno być łatwo wykazać, że plan wysokiego poziomu osiąga cel. To jest święty Graal, że tak powiem, planowania hierarchicznego, ponieważ jeśli wyprowadzimy plan wysokiego poziomu, który udowadnia, że osiąga cel, pracując w małej przestrzeni wyszukiwania działań na wysokim poziomie, możemy zaangażować się w ten plan i pracować na problem dopracowania każdego etapu planu. To daje nam wykładniczą redukcję, której szukamy. Aby to zadziałało, musi być tak, że każdy wysokopoziomowy plan, który „zapowiada” osiągnięcie celu (na mocy opisów jego kroków), w rzeczywistości osiąga cel w zdefiniowanym wcześniej sensie: musi mieć co najmniej jedna implementacja, która osiąga cel. Ta właściwość została nazwana właściwością doprecyzowania w dół opisów HLA.

Pisanie opisów HLA, które spełniają właściwość doprecyzowania w dół, jest w zasadzie łatwe: tak długo, jak opisy są prawdziwe, każdy plan wysokiego poziomu, który twierdzi, że osiąga cel, musi w rzeczywistości to zrobić – w przeciwnym razie opisy są fałszywe twierdzenie o tym, co robią HLA. Widzieliśmy już, jak pisać prawdziwe opisy dla HLA, które mają dokładnie jedną implementację; problem pojawia się, gdy HLA ma wiele implementacji. Jak opisać efekty działania, które można wdrożyć na wiele różnych sposobów? Jedną bezpieczną odpowiedzią (przynajmniej w przypadku problemów, w których wszystkie warunki wstępne i cele są pozytywne) jest uwzględnienie tylko pozytywnych efektów, które są osiągane przez każde wdrożenie HLA oraz negatywnych skutków każdego wdrożenia. Wtedy własność uszlachetniania w dół byłaby spełniona. Niestety ta semantyka dla HLA jest zbyt konserwatywna. Rozważmy ponownie HLA Go (Home, SFO), który ma dwa udoskonalenia i przypuśćmy, dla celów argumentacji, prosty świat, w którym zawsze można dojechać na lotnisko i zaparkować, ale wzięcie taksówki wymaga gotówki jako warunku wstępnego. W takim przypadku Go(Home,SFO) nie zawsze zabierze Cię na lotnisko. W szczególności nie powiedzie się, jeśli Cash jest fałszywy, a zatem nie możemy dochodzić At(Agent,SFO) jako skutek HLA. Nie ma to jednak sensu; gdyby agent nie miał gotówki, sam by się kierował. Wymaganie wstrzymania efektu dla każdej implementacji jest równoznaczne z założeniem, że ktoś inny – przeciwnik – wybierze implementację. Traktuje wiele wyników HLA dokładnie tak, jakby HLA było działaniem niedeterministycznym, jak w Sekcji 4.3. W naszym przypadku to agent sam wybierze wdrożenie. Społeczność języków programowania ukuła termin demoniczny niedeterminizm w przypadku, gdy przeciwnik dokonuje wyborów, przeciwstawiając to anielskiemu niedeterminizmowi, w którym sam agent dokonuje wyborów. Zapożyczamy ten termin, aby zdefiniować anielską semantykę opisów HLA. Podstawowym pojęciem wymaganym do zrozumienia semantyki anielskiej jest osiągalny zbiór HLA: przy danym stanie osiągalny zbiór dla HLA h , zapisany jako REACH(s,h), jest zbiorem stanów osiągalnych przez dowolną implementację HLA.

Kluczową ideą jest to, że agent może wybrać, do którego elementu osiągalnego zestawu trafi, gdy wykonuje HLA; w ten sposób HLA z wieloma udoskonaleniami jest bardziej „potężny” niż ten sam HLA z mniejszą liczbą udoskonaleń. Możemy również zdefiniować osiągalny zestaw sekwencji HLA. Na przykład, osiągalny zbiór sekwencji [h₁,h₂] jest sumą wszystkich osiągalnych zbiorów uzyskanych przez zastosowanie h₂ w każdym stanie w osiągalnym zbiorze h₁ :

Biorąc pod uwagę te definicje, plan wysokiego poziomu — sekwencja HLA — osiąga cel, jeśli jego osiągalny zestaw przecina zestaw stanów celu. (Porównaj to ze znacznie silniejszym warunkiem semantyki demonicznej, gdzie każdy element osiągalnego zbioru musi być stanem celu). I odwrotnie, jeśli osiągalny zbiór nie przecina się z celem, to plan zdecydowanie nie działa. Rysunek ilustruje te pomysły.

Pojęcie zestawów osiągalnych daje prosty algorytm: przeszukuj plany wysokopoziomowe, szukając takiego, którego zestaw osiągalny przecina cel; gdy to się stanie, algorytm może zobowiązać się do tego abstrakcyjnego planu, wiedząc, że to działa, i skupić się na dalszym udoskonalaniu planu. Do zagadnień algorytmicznych wrócimy później; na razie zastanów się, jak reprezentowane są efekty HLA – osiągalny zestaw dla każdego możliwego stanu początkowego. Prymitywne działanie może ustawić biegłość na prawdę lub fałsz lub pozostawić ją niezmienioną. (W przypadku efektów warunkowych istnieje czwarta możliwość: odwrócenie zmiennej na jej przeciwieństwo). na którym wdrożenie jest wybrane. Oznacza to, że HLA może mieć dziewięć różnych wpływów na biegłość: jeśli zmienna zaczyna się jako prawda, zawsze może ją zachować, zamienić ją w fałsz lub mieć wybór; jeśli biegły zaczyna się od fałszu, zawsze może go fałszować, zawsze urzeczywistniać lub mieć wybór; a trzy wybory dla obu przypadków można dowolnie łączyć, co daje dziewięć. Notacyjnie jest to trochę trudne. Będziemy używać języka dodawania list i usuwania list (zamiast prawdziwej/fałszywej biegłości) wraz z symbolem oznaczającym „prawdopodobnie, jeśli agent tak zdecyduje”. Tak więc efekt oznacza „ewentualnie dodać A ”, czyli pozostawić A bez zmian lub sprawić, by było prawdziwe. Podobnie oznacza „ewentualnie usuń A ” a oznacza „ewentualnie dodaj lub usuń A”. Na przykład HLA Go(Home,SFO) z dwoma udoskonaleniami prawdopodobnie usuwa Cash (jeśli agent zdecyduje się wziąć taksówkę), więc powinien mieć . Widzimy zatem, że opisy HLA można wyprowadzić z opisów ich udoskonaleń. Załóżmy teraz, że mamy następujące schematy dla HLA h₁i h₂:

Oznacza to, że h1 dodaje A i prawdopodobnie usuwa B , podczas gdy h2 prawdopodobnie dodaje A i ma pełną kontrolę nad C. . Teraz, jeśli tylko B jest prawdziwe w stanie początkowym, a celem jest AC, to ciąg [h1,h2] osiąga cel: wybieramy implementację h1, która sprawia, że B jest fałszywe, następnie wybieramy implementację h2, która pozostawia A prawdziwe i sprawia, że C jest prawdziwe.

W poprzedniej dyskusji założono, że efekty HLA — osiągalny zestaw dla dowolnego stanu początkowego — można dokładnie opisać, opisując wpływ na każdy płynny. Byłoby fajnie, gdyby tak było zawsze, ale w wielu przypadkach możemy jedynie przybliżyć efekty ponieważ HLA może mieć nieskończenie wiele implementacji i może generować arbitralnie osiągalne zbiory — podobnie jak problem z ruchomymi stanami przekonań. Powiedzieliśmy na przykład, że Go(Home,SFO) prawdopodobnie usuwa Cash; ewentualnie dodaje również At(Car,SFOlongTermParking); ale nie może zrobić obu — w rzeczywistości musi zrobić dokładnie jedno. Podobnie jak w przypadku stanów przekonań, być może będziemy musieli napisać przybliżone opisy. Użyjemy dwóch rodzajów przybliżeń: optymistyczny opis REACH⁺(s,h) HLA może zawyżać osiągalny zbiór, podczas gdy pesymistyczny opis REACH^–(s,h) może zaniżać osiągalny zbiór. Tak więc mamy

Na przykład optymistyczny opis Go(Home,SFO) mówi, że prawdopodobnie usuwa on Cash i prawdopodobnie dodaje At(Car,SFOlongTermParking). Inny dobry przykład pojawia się w łamigłówce 8, której połowa stanów jest nieosiągalna z dowolnego stanu: optymistyczny opis Act może równie dobrze obejmować całą przestrzeń stanów, ponieważ dokładny zbiór osiągalny jest dość chybotliwy.

Przy przybliżonych opisach test na to, czy plan osiąga cel, wymaga niewielkiej modyfikacji. Jeśli optymistyczny zestaw osiągalny dla planu nie przecina celu, plan nie działa; jeśli pesymistyczny zestaw osiągalny przecina cel, wtedy plan działa (rysunek (a) ). W przypadku dokładnych opisów plan albo działa, albo nie, ale w przypadku przybliżonych opisów istnieje środek pośredni: jeśli zestaw optymistyczny przecina cel, a zestaw pesymistyczny nie, wtedy nie możemy stwierdzić, czy plan działa (rysunek (b)). Kiedy ta okoliczność zaistnieje, niepewność można rozwiązać poprzez dopracowanie planu. To bardzo powszechna sytuacja w ludzkim rozumowaniu. Na przykład planując wspomniane dwutygodniowe wakacje na Hawajach, można by zaproponować spędzenie dwóch dni na każdej z siedmiu wysp. Roztropność wskazywałaby, że ten ambitny plan wymaga dopracowania poprzez dodanie szczegółów dotyczących transportu między wyspami.

Algorytm planowania hierarchicznego z przybliżonymi opisami anielskimi pokazano na rysunku wcześniejszym. Dla uproszczenia trzymaliśmy się tego samego ogólnego schematu, który zastosowano wcześniej na rysunku, to jest przeszukiwania wszerz w przestrzeni uściśleń. Jak właśnie wyjaśniono,

algorytm może wykryć plany, które zadziałają i nie będą działać, sprawdzając przecięcia optymistycznego i pesymistycznego osiągalnego zestawu z celem.

Po znalezieniu wykonalnego planu abstrakcyjnego algorytm rozkłada pierwotny problem na podproblemy, po jednym dla każdego etapu planu. Stan początkowy i cel dla każdego podproblemu uzyskuje się poprzez regresję stanu celu gwarantowanego do osiągnięcia poprzez schematy działania dla każdego etapu planu. Rysunek (b) ilustruje podstawową ideę: stan zakreślony po prawej stronie jest stanem gwarantowanym stan celu, a stan zakreślony po lewej stronie jest celem pośrednim uzyskanym przez cofnięcie celu poprzez ostatnią akcję. Zdolność do angażowania się lub odrzucania planów wysokiego poziomu może dać ANGELIC-SEARCH znaczną przewagę obliczeniową nad HIERARCHICZNYM WYSZUKIWANIEM, które z kolei może mieć dużą przewagę nad zwykłym starym PRZESZUKIWANIEM OD SZEROKOŚCI. Rozważmy na przykład posprzątanie wielkiego świata próżni składającego się z układu pomieszczeń połączonych wąskimi korytarzami, gdzie każdy pokój to prostokąt o szer. x wys. kwadratów. Rozsądne jest posiadanie HLA dla Navigate i jednego dla CleanWholeRoom. (Sprzątanie pomieszczenia może być realizowane z wielokrotnym zastosowaniem innego HLA w celu oczyszczenia każdego rzędu.) Ponieważ istnieje pięć podstawowych czynności, koszt PRZESZUKANIA-PIERWSZEGO-SZUKANIA wzrasta do 5d , gdzie d jest długością najkrótszego rozwiązania (w przybliżeniu dwukrotność całkowitej liczby kwadratów); algorytm nie potrafi zarządzać nawet dwoma pokojami 3×3. WYSZUKIWANIE HIERARCHICZNE jest bardziej wydajne, ale nadal cierpi na wzrost wykładniczy, ponieważ próbuje wszystkich sposobów czyszczenia zgodnych z hierarchią. ANGELIC-SEARCH skaluje się w przybliżeniu liniowo pod względem liczby kwadratów – zobowiązuje do dobrej sekwencji etapów sprzątania i nawigacji na wysokim poziomie oraz odcina inne opcje. Sprzątanie zestawu pomieszczeń przez sprzątanie każdego pokoju po kolei nie jest nauką o rakietach: jest łatwe dla ludzi ze względu na hierarchiczną strukturę zadania. Kiedy rozważymy, jak trudno ludziom rozwiązać małe łamigłówki, takie jak 8-puzzle, wydaje się prawdopodobne, że ludzka zdolność rozwiązywania złożonych problemów nie wynika z rozważania kombinatoryki, ale raczej z umiejętności abstrahowania i rozkładania problemów w celu wyeliminowania kombinatoryki.

Podejście anielskie można rozszerzyć, aby znaleźć najtańsze rozwiązania poprzez uogólnienie pojęcia osiągalnego zbioru. Zamiast stanu osiągalnego lub nie, każdy stan będzie miał koszt najskuteczniejszego sposobu dotarcia do niego. (W przypadku stanów nieosiągalnych koszt jest nieskończony). Optymistyczne i pesymistyczne opisy wiązały te koszty. W ten sposób wyszukiwanie anielskie może znaleźć optymalne do udowodnienia plany abstrakcyjne bez konieczności rozważania ich realizacji. To samo podejście można zastosować do uzyskania skutecznych algorytmów hierarchicznego wyprzedzenia wyszukiwania online, w stylu LRTA* .

Pod pewnymi względami takie algorytmy odzwierciedlają aspekty ludzkich rozważań w zadaniach, takich jak planowanie wakacji na Hawajach — rozważanie alternatyw odbywa się początkowo na abstrakcyjnym poziomie w długich skalach czasowych; niektóre części planu pozostają dość abstrakcyjne do czasu wykonania, takie jak spędzenie dwóch leniwych dni na Moloka’i, podczas gdy inne części są szczegółowo zaplanowane, takie jak loty do odbycia i zakwaterowanie do zarezerwowania – bez tych ostatnich udoskonaleń, nie ma gwarancji, że plan będzie wykonalny.

Post Views: 220

Dodaj komentarz Anuluj pisanie odpowiedzi