Pokazaliśmy, jak zredukować POMDP do MDP, ale otrzymywane przez nas MDP mają ciągłą (i zwykle wielowymiarową) przestrzeń stanów. Oznacza to, że będziemy musieli przeprojektować algorytmy programowania dynamicznego , które zakładały skończoną przestrzeń stanów i skończoną liczbę akcji. W tym miejscu opisujemy algorytm iteracji wartości zaprojektowany specjalnie dla POMDP, a następnie algorytm podejmowania decyzji online podobny do algorytmu opracowanego dla gier.