Główną trudnością w doborze działań w prawdziwym świecie jest radzenie sobie z długoterminowymi planami – takimi jak ukończenie studiów za cztery lata – które składają się z miliardów prymitywnych kroków. Algorytmy wyszukiwania, które uwzględniają sekwencje prymitywnych działań, skalują się tylko do dziesiątek, a może nawet setek kroków. Tylko przez narzucenie hierarchicznej struktury na zachowanie my, ludzie, w ogóle sobie radzimy. Widzieliśmy, jak używać reprezentacji hierarchicznych do rozwiązywania problemów tej skali; co więcej, w pracy nad hierarchicznym uczeniem się ze wzmocnieniem udało się połączyć te idee z formalizmem MDP . Jak dotąd metody te nie zostały rozszerzone na przypadek częściowo obserwowalny (POMDP). Co więcej, algorytmy rozwiązywania POMDP zazwyczaj wykorzystują tę samą reprezentację stanu atomowego, której użyliśmy w algorytmach wyszukiwania z rozdziału 3. Jest tu oczywiście dużo pracy do wykonania, ale w dużej mierze istnieją już podstawy techniczne do robienia postępów. Głównym brakującym elementem jest skuteczna metoda konstruowania hierarchicznych reprezentacji stanu i zachowania, które są niezbędne do podejmowania decyzji w długich skalach czasowych.