Nie musimy traktować ludzi jako celowych, celowych agentów, aby roboty koordynowały z nami. Alternatywnym modelem jest to, że człowiek jest tylko jakimś agentem, którego polityka H „miesza” z dynamiką środowiska. Robot nie zna H, ale potrafi modelować problem jako konieczność działania w MDP o nieznanej dynamice. Widzieliśmy to już wcześnie. Robot może dopasować model polityki H do danych ludzkich i wykorzystać go do obliczenia optymalnej polityki dla siebie. Ze względu na niedostatek danych było to dotychczas najczęściej wykorzystywane na poziomie zadań. Na przykład roboty nauczyły się poprzez interakcję, jakie działania ludzie podejmują (w odpowiedzi na własne działania) w celu umieszczania i wiercenia śrub w zadaniu montażu przemysłowego. Istnieje również alternatywa uczenia się przez wzmacnianie bez modelu: robot może zacząć od jakiejś początkowej funkcji polityki lub wartości i z czasem ją ulepszać metodą prób i błędów.