Do tej pory rozważaliśmy zadania, w których robot ma dostęp do dynamicznego modelu świata. W wielu zadaniach bardzo trudno jest napisać taki model, co stawia nas w domenie uczenia się ze wzmocnieniem (RL). Jednym z wyzwań RL w robotyce jest ciągły charakter przestrzeni stanów i działań, z którymi radzimy sobie albo poprzez dyskretyzację, albo, częściej, przez aproksymację funkcji. Zasady lub funkcje wartości są reprezentowane jako kombinacje znanych przydatnych funkcji lub jako głębokie sieci neuronowe. Sieci neuronowe mogą mapować surowe dane wejściowe bezpośrednio do danych wyjściowych, dzięki czemu w dużej mierze unikają potrzeby inżynierii funkcji, ale wymagają więcej danych. Większym wyzwaniem jest to, że roboty działają w prawdziwym świecie. Widzieliśmy, jak uczenie się ze wzmocnieniem może być wykorzystane do nauki gry w szachy lub Go, grając w symulowane partie. Ale kiedy prawdziwy robot porusza się w prawdziwym świecie, musimy upewnić się, że jego działania są bezpieczne (rzeczy się psują!) i musimy zaakceptować, że postęp będzie wolniejszy niż w symulacji, ponieważ świat nie chce poruszać się szybciej niż jeden sekunda na sekundę. Wiele z tego, co jest interesujące w stosowaniu uczenia ze wzmacnianiem w robotyce, sprowadza się do tego, jak możemy zmniejszyć złożoność próbki w świecie rzeczywistym — liczbę interakcji ze światem fizycznym, których robot potrzebuje, zanim nauczy się, jak wykonać zadanie.