Modele są przydatne, ale możemy zrobić więcej, aby jeszcze bardziej zmniejszyć złożoność próbki. Konfigurując problem uczenia się przez wzmacnianie, musimy wybrać przestrzeń stanu i działania, reprezentację funkcji polityki lub wartości oraz funkcję nagrody, której używamy. Decyzje te mają duży wpływ na to, jak łatwo lub jak ciężko rozwiązujemy problem. Jednym z podejść jest użycie prymitywów ruchu wyższego poziomu zamiast czynności niskiego poziomu, takich jak polecenia momentu obrotowego. Prymityw ruchu to sparametryzowana umiejętność robota. Na przykład robo-piłkarz może mieć umiejętność „podania piłki do gracza w (x,y)”. Wszystko, co musi zrobić polityka, to wymyślić, jak je połączyć i ustawić ich parametry, zamiast wymyślać je na nowo. Takie podejście często uczy się znacznie szybciej niż podejścia niskopoziomowe, ale ogranicza przestrzeń możliwych zachowań, których robot może się nauczyć. Innym sposobem na zmniejszenie liczby próbek rzeczywistych wymaganych do uczenia się jest ponowne wykorzystanie informacji z poprzednich epizodów uczenia się w innych zadaniach, zamiast zaczynania od zera. Podlega to pod parasolem metalearningu lub transferu uczenia się. Wreszcie, ludzie są doskonałym źródłem informacji. W kolejnej części omówimy sposób interakcji z ludźmi, a częścią tego jest wykorzystanie ich działań do kierowania procesem uczenia się robota.