Alternatywą jest ominięcie funkcji kosztów i bezpośrednie poznanie pożądanej polityki dotyczącej robotów. W naszym przykładzie z samochodem demonstracje człowieka tworzą wygodny zestaw danych stanów oznaczonych jako działanie, które robot powinien wykonać w każdym stanie: D = f{(xi ,ui)}. Robot może uruchomić nadzorowane uczenie się, aby dopasować się do polityki: π : x |-> u i realizuj tę politykę. Nazywa się to naśladownictwem lub klonowaniem behawioralnym. Wyzwaniem przy takim podejściu jest uogólnienie na nowe państwa. Robot nie wie, dlaczego działania w jego bazie zostały oznaczone jako optymalne. Nie ma reguły przyczynowej; wszystko, co może zrobić, to uruchomić nadzorowany algorytm uczenia się, aby spróbować nauczyć się polityki, która uogólni się na nieznane stany. Nie ma jednak gwarancji, że uogólnienie będzie poprawne. Projekt autonomicznego samochodu ALVINN wykorzystał to podejście i odkrył, że nawet podczas startu ze stanu w D, π popełni drobne błędy, które zepchną samochód z zademonstrowanej trajektorii. Tam π wystąpi większy błąd, który jeszcze bardziej zepchnie samochód z pożądanego kursu. Możemy rozwiązać ten problem w czasie szkolenia, jeśli przełożymy zbieranie etykiet i uczenie się: start z demonstracją, naucz się polityki, a następnie wprowadź tę politykę i zapytaj ludzi, jakie działania podjąć w każdym stanie po drodze, a następnie powtórz. Następnie robot uczy się, jak korygować swoje błędy, gdy odbiega od pożądanych działań człowieka. Alternatywnie możemy rozwiązać ten problem, wykorzystując uczenie się przez wzmacnianie. Robot może dopasować model dynamiki oparty na demonstracjach, a następnie wykorzystać optymalne sterowanie do wygenerowania polityki, która optymalizuje trzymanie się blisko demonstracji. Wersja tego została wykorzystana do wykonywania bardzo wymagających manewrów na poziomie eksperta w małym helikopterze sterowanym radiowo (patrz Rysunek 23.9(b)). System DAGGER (Agregacja danych) zaczyna się od demonstracji przez człowieka. Na tej podstawie uczy się polityki π1 i wykorzystuje ją do wygenerowania zbioru danych D. Następnie z D generuje nową politykę π2, która najlepiej imituje oryginalne dane ludzkie. To się powtarza i przy n-tej iteracji używa πn do wygenerowania większej ilości danych, które mają być dodane do D, które jest następnie używane do utworzenia πn+1. Innymi słowy, w każdej iteracji system zbiera nowe dane w ramach bieżącej polityki i trenuje następną politykę, korzystając ze wszystkich zebranych do tej pory danych. Powiązane najnowsze techniki wykorzystują trening kontradyktoryjny: naprzemiennie szkolą klasyfikatora w celu rozróżnienia między wyuczoną polityką robota a demonstracjami człowieka i szkolą nową politykę dotyczącą robotów poprzez uczenie się wzmacniające, aby oszukać klasyfikatora. Te postępy umożliwiają robotowi radzenie sobie ze stanami bliskimi demonstracji, ale uogólnienie na stany odległe lub na nową dynamikę jest w toku. Nauczanie interfejsów a problem korespondencji. Do tej pory wyobrażaliśmy sobie przypadek autonomicznego samochodu lub autonomicznego helikoptera, w których demonstracje ludzi wykorzystują te same czynności, które robot może wykonać sam: przyspieszanie, hamowanie i kierowanie. Ale co się stanie, jeśli zrobimy to do zadań takich jak sprzątanie stołu kuchennego? Mamy tu dwie możliwości: albo osoba demonstruje przy użyciu własnego ciała, gdy robot patrzy, albo osoba fizycznie kieruje efektorami robota. Pierwsze podejście jest atrakcyjne, ponieważ przychodzi naturalnie użytkownikom końcowym. Niestety, boryka się z problemem korespondencji: jak odwzorować ludzkie działania na działania robota. Ludzie mają inną kinematykę i dynamikę niż roboty. Nie tylko utrudnia to przełożenie lub ponowne ukierunkowanie ruchu człowieka na ruch robota (np. przekierowanie pięciopalcowego uchwytu człowieka na dwupalcowy uchwyt robota), ale często strategia wysokiego poziomu, której może użyć dana osoba, nie jest odpowiednia robot. Drugie podejście, w którym człowiek-nauczyciel ustawia efektory robota we właściwych pozycjach, nazywa się nauczaniem kinestetycznym. Ludziom nie jest łatwo uczyć w ten sposób, zwłaszcza robotów z wieloma stawami. Nauczyciel musi koordynować wszystkie stopnie swobody, prowadząc ramię przez zadanie. Naukowcy zbadali zatem alternatywy, jak demonstrowanie klatek kluczowych w przeciwieństwie do ciągłych trajektorii, a także użycie programowania wizualnego, aby umożliwić użytkownikom końcowym programowanie prymitywów dla zadania, zamiast demonstrowania programowania wizualnego od podstaw (rysunek 26.31). Czasami oba podejścia są połączone.