Pokazaliśmy, jak wykorzystać wiedzę o świecie do podejmowania decyzji, nawet jeśli wyniki działania są niepewne, a nagrody za działanie mogą nie zostać zebrane, dopóki nie minie wiele działań. Główne punkty są następujące:
- Sekwencyjne problemy decyzyjne w środowiskach stochastycznych, zwane również procesami decyzyjnymi Markowa lub MDP, są definiowane przez model przejściowy określający probabilistyczne wyniki działań oraz funkcję nagrody określającą nagrodę w każdym stanie.
- Użyteczność sekwencji stanów to suma wszystkich nagród w sekwencji, prawdopodobnie zdyskontowana w czasie. Rozwiązaniem MDP jest polityka, która wiąże decyzję z każdym stanem, do którego może dotrzeć agent. Optymalna polityka maksymalizuje użyteczność sekwencji stanów napotkanych podczas jej wykonywania.
- Użyteczność stanu to oczekiwana suma nagród, gdy optymalna polityka jest wykonywana z tego stanu. Algorytm iteracji wartości iteracyjnie rozwiązuje zestaw równań odnoszących użyteczność każdego stanu do użyteczności jego sąsiadów.
- Iteracja polityki naprzemiennie polega na obliczaniu mediów stanów w ramach obecnej polityki i ulepszaniu obecnej polityki w odniesieniu do obecnych mediów.
- Częściowo obserwowalne MDP lub POMDP są znacznie trudniejsze do rozwiązania niż MDP. Można je rozwiązać poprzez konwersję do MDP w ciągłej przestrzeni stanów przekonań; Opracowano zarówno algorytmy iteracji wartości, jak i iteracji polityki. Optymalne zachowanie w POMDP obejmuje gromadzenie informacji w celu zmniejszenia niepewności, a tym samym podejmowania lepszych decyzji w przyszłości.
- Dla środowisk POMDP można skonstruować agenta decyzyjno-teoretycznego. Agent wykorzystuje dynamiczną sieć decyzyjną do reprezentowania modeli przejścia i czujników, aktualizowania swojego stanu przekonań i przewidywania możliwych sekwencji działań.