Środki odruchowe oparte na modelu

Najskuteczniejszym sposobem radzenia sobie z częściową obserwowalnością jest śledzenie przez agenta części świata, której teraz nie widzi. Oznacza to, że agent powinien utrzymywać pewien rodzaj stanu wewnętrznego, który zależy od historii percepcji, a tym samym odzwierciedla przynajmniej niektóre nieobserwowane aspekty obecnego stanu. Jeśli chodzi o problem z hamowaniem, stan wewnętrzny nie jest zbyt obszerny – tylko poprzednia klatka z kamery, pozwalająca agentowi wykryć, kiedy dwa czerwone światła na krawędzi pojazdu jednocześnie zapalają się lub gasną. W przypadku innych zadań związanych z prowadzeniem pojazdu, takich jak zmiana pasa, agent musi śledzić, gdzie znajdują się inne samochody, jeśli nie widzi ich wszystkich naraz. Aby każda jazda była możliwa, agent musi śledzić, gdzie znajdują się jego klucze.

Odruchy oparte na modelach

Najskuteczniejszym sposobem radzenia sobie z częściową obserwowalnością jest śledzenie przez agenta części świata, której teraz nie widzi. Oznacza to, że agent powinien utrzymywać pewien rodzaj stanu wewnętrznego, który zależy od historii percepcji, a tym samym odzwierciedla przynajmniej niektóre nieobserwowane aspekty obecnego stanu. Jeśli chodzi o problem z hamowaniem, stan wewnętrzny nie jest zbyt obszerny – tylko poprzednia klatka z kamery, pozwalająca agentowi wykryć, kiedy dwa czerwone światła na krawędzi pojazdu jednocześnie zapalają się lub gasną. W przypadku innych zadań związanych z prowadzeniem pojazdu, takich jak zmiana pasa, agent musi śledzić, gdzie znajdują się inne samochody, jeśli nie widzi ich wszystkich naraz. Aby każda jazda była możliwa, agent musi śledzić, gdzie znajdują się jego klucze. Po drugie, potrzebujemy informacji o tym, jak stan świata znajduje odzwierciedlenie w percepcjach sprawcy. Na przykład, gdy samochód jadący z przodu zaczyna hamować, na obrazie z kamery skierowanej do przodu pojawia się jeden lub więcej oświetlonych czerwonych obszarów, a gdy kamera się zamoczy, na obrazie pojawiają się obiekty w kształcie kropli, częściowo zasłaniające drogę. Ten rodzaj wiedzy nazywamy modelem czujnika. Razem model przejściowy i model czujnika pozwalają agentowi śledzić stan świata – w możliwym zakresie, biorąc pod uwagę ograniczenia czujników agenta. Agent korzystający z takich modeli nazywany jest agentem opartym na modelu. Rysunek przedstawia strukturę opartego na modelu czynnika odruchowego ze stanem wewnętrznym, pokazując, w jaki sposób obecny percept jest połączony ze starym stanem wewnętrznym w celu wygenerowania zaktualizowany opis obecnego stanu, oparty na modelu agenta działania świata.

Program agenta pokazano poniżej. Ciekawą częścią jest funkcja UPDATE-STATE, która odpowiada za stworzenie nowego opisu stanu wewnętrznego. Szczegóły dotyczące sposobu reprezentowania modeli i stanów różnią się znacznie w zależności od typu środowiska i konkretnej technologii użytej w projekcie agenta

Bez względu na rodzaj użytej reprezentacji, rzadko jest możliwe dokładne określenie przez agenta aktualnego stanu częściowo obserwowalnego środowiska. Zamiast tego ramka oznaczona „jaki świat jest teraz” przedstawia „najlepsze przypuszczenie” agenta (lub czasami najlepsze przypuszczenie, jeśli agent ma wiele możliwości). Na przykład zautomatyzowana taksówka może nie widzieć wokół dużej ciężarówki, która się przed nią zatrzymała i może jedynie zgadywać, co może być przyczyną zatrzymania. Zatem niepewność co do obecnego stanu może być nieunikniona, ale agent wciąż musi podjąć decyzję.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *