Cofnijmy się o krok i upewnijmy się, że rozumiemy analogię między tym, co wydarzyło się do tej pory , a tym, czego nauczyliśmy się w sekcjachdotyczących wyszukiwania, MDP i wzmacniania uczenia się. W przypadku ruchu w robotyce tak naprawdę rozważamy podstawowy MDP, w którym stany są stanami dynamicznymi (konfiguracja i prędkość), a działania są wejściami sterującymi, zwykle w postaci momentów obrotowych. Jeśli ponownie przyjrzysz się naszym przepisom dotyczącym kontroli, są to zasady, a nie plany — informują one robota, jakie działania podjąć w dowolnym stanie, w jakim może on osiągnąć. Jednak zazwyczaj są one dalekie od optymalnych polityk. Ponieważ stan dynamiczny jest ciągły i wielowymiarowy (podobnie jak przestrzeń akcji), optymalne strategie są trudne do obliczeniowego wyodrębnienia. Zamiast tego zrobiliśmy tutaj, aby rozwiązać problem. Najpierw wymyślamy plan, w uproszczonym stanie i przestrzeni działania: używamy tylko stanu kinematycznego i zakładamy, że stany są osiągalne między sobą bez zwracania uwagi na leżącą u jego podstaw dynamikę. To jest planowanie ruchu i daje nam ścieżkę odniesienia. Gdybyśmy doskonale znali dynamikę, moglibyśmy przekształcić to w plan oryginalnej przestrzeni stanów i działań. Ale ponieważ nasz model dynamiki jest zazwyczaj błędny, zamiast tego przekształcamy go w politykę, która stara się podążać za planem – wracając do niego, gdy odpływa. Robiąc to, wprowadzamy suboptymalność na dwa sposoby: po pierwsze przez planowanie bez uwzględniania dynamiki, a po drugie przez założenie, że jeśli odejdziemy od planu, optymalną rzeczą do zrobienia jest powrót do pierwotnego planu. Poniżej opisujemy techniki, które obliczają polityki bezpośrednio w stanie dynamicznym, całkowicie unikając separacji.