Agent biernego uczenia się ma ustaloną politykę, która określa jego zachowanie. Aktywny agent uczący się decyduje, jakie działania podjąć. Zacznijmy od agenta adaptacyjnego programowania dynamicznego (ADP) i zastanówmy się, jak można go zmodyfikować, aby wykorzystać tę nową wolność. Po pierwsze, agent będzie musiał nauczyć się pełnego modelu przejścia z prawdopodobieństwami wyniku dla wszystkich działań, a nie tylko modelu dla ustalonej polityki. Mechanizm uczenia się używany przez PASSIVE-ADP-AGENT wystarczy do tego. Następnie musimy wziąć pod uwagę fakt, że agent ma wybór działań. Narzędzia, których musi się nauczyć, to te określone przez optymalną politykę; przestrzegają równań Bellmana (które tutaj powtarzamy):
Równania te można rozwiązać w celu uzyskania funkcji użyteczności U przy użyciu algorytmów iteracji wartości lub iteracji polityki z rozdziału 16. Ostatnią kwestią jest to, co zrobić na każdym kroku. Po uzyskaniu funkcji użyteczności U, która jest optymalna dla wyuczonego modelu, agent może wyodrębnić optymalne działanie poprzez jednoetapowe wyprzedzenie, aby zmaksymalizować oczekiwaną użyteczność; alternatywnie, jeśli używa iteracji polityki, optymalna polityka jest już dostępna, więc może po prostu wykonać akcję zalecaną przez optymalną politykę. Ale czy powinno?