Świat Wumpusa

W tej części opisujemy środowisko, w którym agenci bazujący na wiedzy mogą pokazać swoją wartość. każdego, kto wejdzie do tych pomieszczeń (z wyjątkiem wumpusa, który jest zbyt duży, aby wpaść do niego). Jedyną zbawienną cechą tego ponurego środowiska jest możliwość znalezienia kupy złota. Świat Wumpusa to jaskinia składająca się z pomieszczeń połączonych przejściami. Gdzieś w jaskini czai się straszliwy wumpus, bestia, która pożera każdego, kto wejdzie do jej pokoju. Wumpus może zostać zastrzelony przez agenta, ale agent ma tylko jedną strzałę. Niektóre pokoje zawierają doły bez dna, które uwięzią Chociaż świat wumpusów jest raczej oswojony według współczesnych standardów gier komputerowych, ilustruje kilka ważnych punktów dotyczących inteligencji. Przykładowy świat wumpusa pokazano na rysunku

Dokładną definicję środowiska zadaniowego podaje opis PEAS:

WYNIKI: +1000 za wyjście z jaskini ze złotem, -1000 za wpadnięcie do dołu lub zjedzenie przez wumpusa, -1 za każdą wykonaną akcję i -10 za użycie strzały. Gra kończy się, gdy agent zginie lub gdy agent wydostanie się z jaskini.

ŚRODOWISKO: Siatka 4×4 pomieszczeń ze ścianami otaczającymi siatkę. Agent zawsze zaczyna na kwadracie oznaczonym [1,1] skierowanym na wschód. Lokalizacje złota i wumpusa są wybierane losowo, z równomiernym rozkładem, z pól innych niż pole startowe. Ponadto każde pole inne niż start może być dołem, z prawdopodobieństwem 0,2.

AKTUATORY: Agent może poruszyć się do przodu, skręcić w lewo o 90o lub skręcić w prawo o 90o . Agent umrze żałosną śmiercią, jeśli wejdzie na plac zawierający dół lub żywego wumpusa. (Bezpieczne, choć śmierdzące, jest wejście na plac z martwym wumpusem.) Jeśli agent próbuje iść do przodu i wpada na ścianę, agent się nie rusza. Akcja Chwyć może zostać użyta do podniesienia złota, jeśli znajduje się ono na tym samym polu, co agent. Akcja Shoot może być wykorzystana do wystrzelenia strzały w linii prostej w kierunku, w który zwrócony jest agent. Strzała kontynuuje, dopóki nie uderzy (a tym samym zabije) wumpusa lub uderzy w ścianę. Agent ma tylko jedną strzałę, więc tylko pierwsza akcja Strzału ma jakikolwiek efekt. Na koniec akcję Wspinacz można wykorzystać do wyjścia z jaskini, ale tylko z placu [1,1].

CZUJNIKI: Agent posiada pięć czujników, z których każdy podaje jeden bit informacji:

‐ W kwadratach bezpośrednio (nie po przekątnej) przylegających do wumpusa, agent wyczuje Smród.

‐ Na polach bezpośrednio przylegających do dołu agent dostrzeże bryzę.

‐ W kwadracie, gdzie znajduje się złoto, agent dostrzeże Brokat.

‐ Kiedy agent wejdzie na ścianę, dostrzeże Uderzenie.

‐ Kiedy wumpus zostaje zabity, emituje żałosny krzyk, który można wyczuć w dowolnym miejscu jaskini.

Percepty zostaną przekazane programowi agenta w postaci listy pięciu symboli; na przykład, jeśli jest smród i bryza, ale nie ma blasku, uderzenia lub krzyku, program agenta otrzyma [Stench,Breeze,None,None,None].

Możemy scharakteryzować środowisko wumpusa w różnych wymiarach podanych w rozdziale 2 . Oczywiście jest deterministyczny, dyskretny, statyczny i działa na zasadzie jednego agenta. (Na szczęście wumpus się nie porusza.) Jest to sekwencyjne, ponieważ nagrody mogą pojawić się dopiero po wykonaniu wielu działań. Jest to częściowo widoczne, ponieważ niektóre aspekty stanu nie są bezpośrednio dostrzegalne: lokalizacja agenta, stan zdrowia wumpusa i dostępność strzały. Co do lokalizacji zagłębień i wumpusa: moglibyśmy traktować je jako nieobserwowane części stanu – w takim przypadku model przejściowy dla środowiska jest całkowicie znany, a znalezienie lokalizacji zagłębień uzupełnia wiedzę agenta o stanie. Alternatywnie, moglibyśmy powiedzieć, że sam model przejścia jest nieznany, ponieważ agent nie wie, które działania Forward są fatalne – w takim przypadku odkrycie lokalizacji dołów i wumpusów uzupełnia wiedzę agenta o modelu przejścia. Dla agenta w środowisku głównym wyzwaniem jest jego początkowa nieznajomość konfiguracji środowiska; przezwyciężenie tej ignorancji wydaje się wymagać logicznego rozumowania. W większości przypadków w świecie Wumpus agent może bezpiecznie odzyskać złoto. Czasami agent musi wybrać między powrotem do domu z pustymi rękami a narażeniem się na śmierć, aby znaleźć złoto. Około 21% środowisk jest całkowicie niesprawiedliwych, ponieważ złoto znajduje się w dole lub jest otoczone dołami. Przyjrzyjmy się opartemu na wiedzy agentowi wumpus eksplorującemu środowisko pokazane na rysunku. Używamy nieformalnego języka reprezentacji wiedzy składającego się z zapisywania symboli w siatce

Początkowa baza wiedzy agenta zawiera opisane wcześniej reguły środowiska; w szczególności wie, że jest w [1,1] i że [1,1] jest bezpiecznym kwadratem; oznaczamy to odpowiednio przez „A” i „OK” w kwadracie [1,1]. Pierwsza percepta to [Brak,Brak,Brak,Brak,Brak], z której agent moe wywnioskować, e sąsiednie kwadraty [1,2] i [2,1] są wolne od niebezpieczeństw – są w porządku. Rysunek 7.3(a) pokazuje stan wiedzy agenta w tym momencie. Ostrożny agent wejdzie tylko na pole, o którym wie, że jest w porządku. Załóżmy, że agent zdecyduje się przejść do [2,1]. Agent dostrzega bryzę (oznaczoną literą „B”) w [2,1], więc na sąsiednim kwadracie musi być dziura. Zagłębienie nie może być w [1,1], zgodnie z zasadami gry, więc musi być zagłębienie w [2,2] lub [3,1] lub w obu. Notacja „P?” na Rysunku 7.3(b) wskazuje możliwy dół w tych kwadratach. W tym momencie jest tylko jeden znany plac, który jest w porządku i który nie został jeszcze odwiedzony. Więc rozważny agent odwróci się, wróć do [1,1], a następnie przejdź do [1,2]. Agent wyczuwa smród w [1,2], co skutkuje stanem wiedzy przedstawionym na rysunku (a). Smród w [1,2] oznacza, że ​​w pobliżu musi być wumpus. Ale wumpus nie może być w [1,1], zgodnie z regułami gry, i nie może być w [2,2] (albo agent wykryłby smród, gdy był w [2,1]). Dlatego agent może wywnioskować, że wumpus znajduje się w [1,3]. Notacja W! wskazuje ten wniosek. Co więcej, brak bryzy w [1,2] oznacza, że ​​w [2,2] nie ma dołu. Jednak agent już wywnioskował, że w [2,2] lub [3,1] musi być dół, co oznacza, że ​​musi być w [3,1]. Jest to dość trudne wnioskowanie, ponieważ łączy wiedzę zdobytą w różnym czasie w różnych miejscach i polega na braku percepcji, aby zrobić jeden kluczowy krok. Agent udowodnił sobie, że w [2,2] nie ma ani dołu, ani wumpusa, więc można się tam przenieść. Nie pokazujemy stanu wiedzy agenta w [2,2]; po prostu zakładamy, że agent obraca się i przesuwa do [2,3], co daje nam rysunek (b) . W [2,3] agent wykrywa brokat, więc powinien złapać złoto i wrócić do domu. Należy zauważyć, że w każdym przypadku, w którym agent wyciąga wniosek z dostępnych informacji, wniosek ten jest gwarantowany, jeśli dostępne informacje są prawidłowe. Jest to podstawowa właściwość logicznego rozumowania. W pozostałej części opisujemy, jak budować agentów logicznych, którzy mogą reprezentować informacje i wyciągać wnioski, takie jak te opisane w poprzednich akapitach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *