Nauka przez wzmacnianie

https://aie24.pl/

W uczeniu się przez wzmacnianie (RL) podmiot podejmujący decyzje uczy się na podstawie sekwencji sygnałów nagrody, które dostarczają pewnych wskazówek co do jakości jego zachowania. Celem jest optymalizacja sumy przyszłych nagród. Można to zrobić na kilka sposobów: w terminologii z rozdziału 16 agent może nauczyć się funkcji wartości, funkcji Q, polityki i tak dalej. Z punktu widzenia deep learningu wszystkie te funkcje mogą być reprezentowane przez wykresy obliczeniowe. Na przykład funkcja wartości w Go przyjmuje pozycję na tablicy jako dane wejściowe i zwraca oszacowanie, jak korzystna jest ta pozycja dla agenta. Chociaż metody uczenia RL różnią się od metod uczenia nadzorowanego, zdolność wielowarstwowych grafów obliczeniowych do przedstawiania złożonych funkcji na dużych przestrzeniach wejściowych okazała się bardzo przydatna. Powstały obszar badań nazywa się głębokim uczeniem ze wzmacnianiem. W latach pięćdziesiątych Arthur Samuel eksperymentował z wielowarstwowymi reprezentacjami funkcji wartości w swojej pracy nad uczeniem się ze wzmocnieniem dla warcabów, ale odkrył, że w praktyce aproksymator funkcji liniowych sprawdza się najlepiej. (Mogło to być konsekwencją pracy z komputerem około 100 miliardów razy mniej wydajnym niż nowoczesna jednostka przetwarzająca tensor).  Różne kopie tego agenta zostały przeszkolone do grania w każdą z kilku różnych gier wideo na Atari i zademonstrowały umiejętności, takie jak strzelanie do obcych statków kosmicznych, odbijanie piłek za pomocą wioseł i prowadzenie symulowanych samochodów wyścigowych. W każdym przypadku agent nauczył się funkcji Q na podstawie nieprzetworzonych danych obrazu, a sygnałem nagrody był wynik gry. Kolejne prace przyniosły głębokie systemy RL, które grają na nadludzkim poziomie w większości z 57 różnych gier na Atari. System ALPHAGO firmy DeepMind również wykorzystywał głębokie RL, aby pokonać najlepszych ludzkich graczy w grze Go . Pomimo imponujących sukcesów, deep RL wciąż napotyka poważne przeszkody: często trudno jest uzyskać dobre wyniki, a wytrenowany system może zachowywać się bardzo nieprzewidywalnie, jeśli środowisko choć trochę różni się od danych treningowych (Irpan, 2018). W porównaniu z innymi aplikacjami głębokiego uczenia, głębokie RL jest rzadko stosowane w warunkach komercyjnych. Jest to jednak bardzo aktywny obszar badań.

Streszczenie

Opisaliśmy metody uczenia funkcji reprezentowanych przez głębokie grafy obliczeniowe. Główne punkty to:

  • Sieci neuronowe reprezentują złożone funkcje nieliniowe z siecią sparametryzowanych jednostek liniowych progów.
  • Algorytm propagacji wstecznej implementuje gradientowe opadanie w przestrzeni parametrów, aby zminimalizować funkcję strat.
  • Głębokie uczenie działa dobrze w przypadku rozpoznawania obiektów wizualnych, rozpoznawania mowy, przetwarzania języka naturalnego i uczenia się ze wzmocnieniem w złożonych środowiskach.
  • Sieci splotowe szczególnie dobrze nadają się do przetwarzania obrazów i innych zadań, w których dane mają topologię siatki.
  • Sieci rekurencyjne są skuteczne w zadaniach związanych z przetwarzaniem sekwencji, w tym modelowaniu języka i tłumaczeniu maszynowym.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *