Wykorzystywanie modeli

https://aie24.pl/

Naturalnym sposobem na uniknięcie potrzeby posiadania wielu próbek z prawdziwego świata jest wykorzystanie jak największej wiedzy o dynamice świata. Na przykład możemy nie wiedzieć dokładnie, jaki jest współczynnik tarcia lub masa obiektu, ale możemy mieć równania opisujące dynamikę jako funkcję tych parametrów. W takim przypadku atrakcyjne jest uczenie się przez wzmacnianie w oparciu o model , w którym robot może naprzemiennie dopasowywać parametry dynamiki i obliczać lepszą politykę. Nawet jeśli równania są nieprawidłowe, ponieważ nie modelują każdego szczegółu fizyki, naukowcy eksperymentowali z uczeniem się terminu błędu, oprócz parametrów, które mogą zrekompensować niedokładność modelu fizycznego. Lub możemy porzucić równania i zamiast tego dopasować lokalnie liniowe modele świata, z których każdy przybliża dynamikę w regionie przestrzeni stanów, podejście, które odniosło sukces w zmuszaniu robotów do opanowania złożonych zadań dynamicznych, takich jak żonglerka. Model świata może być również przydatny w zmniejszeniu złożoności próbki metod uczenia się przez wzmacnianie bez modelu poprzez transfer z symulacji do rzeczywistości: przenoszenie zasad działających w symulacji do świata rzeczywistego. Pomysł polega na wykorzystaniu modelu jako symulatora do wyszukiwania polityki (sekcja 23.5). Aby nauczyć się polityki, która dobrze się przenosi, możemy dodać szum do modelu podczas szkolenia, dzięki czemu polityka będzie bardziej solidna. Możemy też wytrenować zasady, które będą działać z różnymi modelami, próbując w symulacjach różne parametry — czasami określane jako randomizacja domeny. Przykładem jest rysunek 26.26, gdzie zadanie zręcznej manipulacji jest ćwiczone w symulacji poprzez różne atrybuty wizualne, a także atrybuty fizyczne, takie jak tarcie lub tłumienie. Wreszcie, podejścia hybrydowe, które zapożyczają pomysły zarówno z algorytmów opartych na modelach, jak i algorytmów bezmodelowych, mają dać nam to, co najlepsze z obu. Podejście hybrydowe wywodzi się z architektury Dyna, w której ideą było iterowanie między działaniem a ulepszaniem polityki, ale ulepszenie polityki miałoby nastąpić na dwa uzupełniające się sposoby: 1) standardowy, pozbawiony modelu sposób wykorzystania doświadczenia do bezpośredniej aktualizacji polityki oraz 2) oparty na modelu sposób wykorzystania doświadczenia w celu dopasowania do modelu, a następnie zaplanuj wraz z nim wygenerowanie polityki. Nowsze techniki eksperymentowały z dopasowywaniem lokalnych modeli, łączeniem się z nimi w celu generowania działań i wykorzystywaniem tych działań jako nadzoru w celu dopasowania polityki, a następnie iteracji w celu uzyskania coraz lepszych modeli wokół obszarów, których polityka potrzebuje. Zostało to z powodzeniem zastosowane w uczeniu od końca do końca, gdzie polityka przyjmuje piksele jako dane wejściowe i bezpośrednio generuje momenty obrotowe jako działania — umożliwiło to pierwszą demonstrację głębokiego RL na robotach fizycznych. Modele można również wykorzystywać w celu zapewnienia bezpiecznej eksploracji. Uczenie się powoli, ale bezpiecznie może być lepsze niż uczenie się szybko, ale w połowie drogi. Tak więc prawdopodobnie ważniejsze niż zmniejszanie próbek ze świata rzeczywistego jest zmniejszanie próbek ze świata rzeczywistego w niebezpiecznych stanach — nie chcemy, aby roboty spadały z klifów i nie łamały naszych ulubionych kubków lub, co gorsza, zderzały się z przedmiotami i ludźmi . Przybliżony model, z powiązaną z nim niepewnością (na przykład poprzez uwzględnienie zakresu wartości jego parametrów), może kierować eksploracją i nakładać ograniczenia na działania, które robot może podjąć w celu uniknięcia tych niebezpiecznych stanów. Jest to aktywny obszar badań w dziedzinie robotyki i sterowania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *