Wyszukiwanie w częściowo obserwowalnych środowiskach

Wielu problemów nie da się rozwiązać bez wykrywania. Na przykład bezczujnikowa 8-łamigłówka jest niemożliwa. Z drugiej strony, odrobina wyczuwania może zajść daleko: możemy rozwiązać 8-zagadek, jeśli widzimy tylko kwadrat w lewym górnym rogu. Rozwiązanie polega na przenoszeniu każdego kafelka po kolei na obserwowalny kwadrat i od tego momentu śledzeniu jego lokalizacji. W przypadku częściowo obserwowalnego problemu, specyfikacja problemu będzie określać funkcję Percept(s), która zwraca percept odebrany przez agenta w danym stanie. Jeśli wykrywanie jest niedeterministyczne, możemy użyć funkcji PERCEPTS, która zwraca zestaw możliwych perceptów. Dla problemów w pełni obserwowalnych Percept(s) = s lub każdy stan , a dla problemów bezczujnikowych percept(s) = null. Rozważmy świat próżni z wykrywaniem lokalnym, w którym agent ma czujnik położenia, który daje wynik L w lewym kwadracie i R w prawym kwadracie, oraz czujnik zanieczyszczenia, który pokazuje Brudny, gdy bieżący kwadrat jest brudny i Czysty, gdy jest brudny. to czyste. Zatem PERCEPT w stanie 1 to [L,Dirty]. Przy częściowej obserwowalności zwykle będzie tak, że kilka stanów wytwarza to samo postrzeganie; stan 3 również wygeneruje [L,Dirty]. Zatem, biorąc pod uwagę to początkowe spostrzeżenie, początkowy stan przekonań będzie {1,3} . Możemy myśleć, że model przejścia między stanami przekonań dla częściowo obserwowalnych problemów występuje w trzech etapach, jak pokazano na rysunku:

* Etap przewidywania oblicza stan przekonania wynikający z działania, RESULT(b,a) , dokładnie tak samo jak w przypadku problemów bezczujnikowych. Aby podkreślić, że jest to przewidywanie, używamy notacji

gdzie „kapelusz” oznacza „szacowany”, a także używamy PREDICT(b,a) jako synonimu RESULT(b,a).

* Etap możliwych percepcji oblicza zbiór percepcji, które można zaobserwować w przewidywanym stanie przekonań (używając litery do obserwacji):

* Etap aktualizacji oblicza, dla każdego możliwego spostrzeżenia, stan przekonania, który wynikałby z tego spostrzeżenia. Zaktualizowany stan przekonania b₀ jest zbiorem stanów, w których mógł powstać percepcja

Agent musi poradzić sobie z możliwymi spostrzeżeniami w czasie planowania, ponieważ nie będzie znał rzeczywistych percepcji, dopóki nie wykona planu. Zauważ, że niedeterminizm w środowisku fizycznym może powiększyć stan przekonania na etapie przewidywania, ale każdy zaktualizowany stan przekonania b₀ nie może być większy niż przewidywany stan przekonania ; obserwacje mogą jedynie pomóc w zmniejszeniu niepewności. Co więcej, w przypadku odczuwania deterministycznego stany przekonań dla różnych możliwych percepcji będą rozłączne, tworząc podział pierwotnego przewidywanego stanu przekonań. Łącząc te trzy etapy, otrzymujemy możliwe stany przekonań wynikające z danego działania oraz kolejne możliwe spostrzeżenia:

Post Views: 193

Dodaj komentarz Anuluj pisanie odpowiedzi