nagrody robota. Ramy racjonalnych agentów i związane z nimi algorytmy redukują problem generowania dobrego zachowania do określenia dobrej funkcji nagrody. Ale w przypadku robotów, podobnie jak w przypadku wielu innych agentów AI, ustalenie właściwych kosztów jest nadal trudne. Weźmy na przykład samochody autonomiczne: chcemy, aby dojechały do celu, były bezpieczne, jeździły wygodnie dla swoich pasażerów, przestrzegały przepisów ruchu drogowego itp. Projektant takiego systemu musi pogodzić się z tymi różnymi składnikami funkcji kosztowej. Zadanie projektanta jest trudne, ponieważ roboty budowane są z myślą o użytkownikach końcowych, a nie każdy użytkownik końcowy jest taki sam. Wszyscy mamy różne preferencje co do tego, jak agresywnie chcemy, aby nasz samochód jeździł itp. Poniżej zbadamy dwie alternatywy, aby spróbować dopasować zachowanie robota do tego, czego faktycznie chcemy, aby robot robił. Pierwszym z nich jest nauczenie się funkcji kosztu na podstawie danych wejściowych człowieka. Drugim jest ominięcie funkcji kosztów i naśladowanie ludzkich demonstracji zadania.