Zaczynamy od prostego przypadku w pełni obserwowalnego środowiska z niewielką liczbą akcji i stanów, w którym agent ma już ustaloną politykę (polityki), π(s) która określa jego działania. Agent próbuje poznać funkcję użyteczności Uπ(s) – oczekiwaną całkowitą zdyskontowaną nagrodę, jeśli polityka jest wykonywana począwszy od stanu s. Nazywamy to biernym agentem uczenia się. Zadanie uczenia pasywnego jest podobne do zadania oceny polityki, będącego częścią algorytmu iteracji polityki. Różnica polega na tym, że bierny agent uczący nie zna modelu przejścia P(s0’ | s,a), który określa prawdopodobieństwo osiągnięcia stanu s’ ze stanu s po wykonaniu akcji a; nie zna też funkcji nagrody R(s,a,s’), która określa nagrodę za każde przejście. Jako przykład użyjemy świata 4 3 przedstawionego wcześniej. Rysunek pokazuje optymalne zasady dla tego świata i odpowiadających mu narzędzi.
Agent wykonuje zestaw prób w środowisku przy użyciu swojej polityki π. W każdej próbie agent startuje w stanie (1,1) i doświadcza sekwencji przejść między stanami, aż osiągnie jeden ze stanów końcowych (4,2) lub (4,3). Jego percepcje dostarczają zarówno aktualnego stanu, jak i nagrody otrzymanej za przejście, które właśnie nastąpiło, aby osiągnąć ten stan. Typowe próby mogą wyglądać tak:
Pamiętaj, że każde przejście jest opatrzone adnotacjami z podjętym działaniem i nagrodą otrzymaną w następnym stanie. Celem jest wykorzystanie informacji o nagrodach do poznania oczekiwanej użyteczności Uπ(s) związanej z każdym stanem nieterminalowym s. Użyteczność definiuje się jako oczekiwaną sumę (zdyskontowanych) nagród uzyskanych w przypadku przestrzegania zasad π. Podobnie piszemy
gdzie R(St , (St);St+1) jest nagrodą otrzymaną, gdy działanie π(St) zostanie podjęte w stanie St i osiągnie stan St+1. Zauważ, że St jest zmienną losową oznaczającą stan osiągnięty w czasie t podczas wykonywania polityki , zaczynając od stanu S0=s. We wszystkich naszych równaniach uwzględnimy czynnik dyskontowy, ale dla świata 4 3 ustawimy γ =1, co oznacza brak dyskontowania.