https://aie24.pl/
W przypadku uczenia nadzorowanego agent uczy się, biernie obserwując przykładowe pary wejścia/wyjścia dostarczone przez „nauczyciela”. W tym rozdziale zobaczymy, jak agenci mogą aktywnie uczyć się na podstawie własnego doświadczenia bez nauczyciela, rozważając swój ostateczny sukces lub porażkę.
Uczenie się z nagród
Rozważ problem nauki gry w szachy. Funkcja agenta szachowego przyjmuje jako dane wejściowe pozycję na szachownicy i zwraca ruch, więc trenujemy tę funkcję, podając przykłady pozycji szachowych, każdy oznaczony poprawnym ruchem. Tak się składa, że mamy do dyspozycji bazy danych kilku milionów gier arcymistrzowskich, każda sekwencja pozycji i ruchów. Ruchy wykonane przez zwycięzcę są, z nielicznymi wyjątkami, uważane za dobre, jeśli nie zawsze doskonałe. Mamy więc obiecujący zestaw treningowy. Problem w tym, że jest stosunkowo mało przykładów (około 108) w porównaniu z przestrzenią wszystkich możliwych pozycji szachowych (około 1040). W nowej grze szybko napotyka się pozycje, które znacznie różnią się od tych w bazie danych, a wyszkolona funkcja agenta prawdopodobnie zawiedzie – nie tylko ponieważ nie ma pojęcia, co jego ruchy mają osiągnąć (mat), ani nawet jaki wpływ mają ruchy na pozycje bierek. I oczywiście szachy to maleńka część prawdziwego świata. W przypadku bardziej realistycznych problemów potrzebowalibyśmy znacznie większych baz danych arcymistrzów, a one po prostu nie istnieją. Alternatywą jest uczenie się ze wzmocnieniem (RL), w którym agent wchodzi w interakcję ze światem i okresowo otrzymuje nagrody (lub, w terminologii psychologii, wzmocnienia), które odzwierciedlają, jak dobrze sobie radzi. Na przykład w szachach nagroda wynosi 1 za wygraną, 0 za przegraną i 12 za remis. Koncepcję nagród widzieliśmy już w rozdziale 16 dla procesów decyzyjnych Markowa (MDP). Rzeczywiście, cel w uczeniu się przez wzmacnianie jest taki sam: zmaksymalizować oczekiwaną sumę nagród. Uczenie się przez wzmacnianie różni się od „tylko rozwiązania MDP”, ponieważ agent nie otrzymuje MDP jako problemu do rozwiązania; agent znajduje się w MDP. Może nie znać modelu przejścia lub funkcji nagrody i musi działać, aby dowiedzieć się więcej. Wyobraź sobie, że grasz w nową grę, której zasad nie znasz; po stu lub tak się porusza, sędzia mówi „przegrywasz”. To jest uczenie się przez wzmacnianie w pigułce. Z naszego punktu widzenia, jako projektantów systemów AI, zapewnienie agentowi sygnału nagrody jest zwykle znacznie łatwiejsze niż dostarczanie oznakowanych przykładów zachowania. Po pierwsze, funkcja nagrody jest często (jak widzieliśmy w przypadku szachów) bardzo zwięzła i łatwa do określenia: wymaga tylko kilku linijek kodu, aby powiedzieć agentowi szachowemu, czy wygrał lub przegrał grę, lub powiedzieć agentowi wyścigowemu że wygrał lub przegrał wyścig lub rozbił się. Po drugie, nie musimy być ekspertami, zdolnymi do podjęcia właściwych działań w każdej sytuacji, jak miałoby to miejsce, gdybyśmy próbowali zastosować uczenie nadzorowane. Okazuje się jednak, że odrobina wiedzy może przejść długą drogę w uczeniu się przez wzmacnianie. Dwa przykłady w poprzednim akapicie — nagrody za wygraną/przegraną w szachach i wyścigach — są tym, co nazywamy rzadkimi nagrodami, ponieważ w ogromnej większości stanów agent nie otrzymuje w ogóle żadnego informacyjnego sygnału nagrody. W grach takich jak tenis czy krykiet możemy łatwo zapewnić dodatkowe nagrody za każdy zdobyty punkt lub za każdy zdobyty bieg. W wyścigach samochodowych mogliśmy nagrodzić agenta za postępy na torze we właściwym kierunku. Podczas nauki raczkowania każdy ruch do przodu jest osiągnięciem. Te pośrednie nagrody znacznie ułatwiają naukę. Tak długo, jak możemy zapewnić agentowi prawidłowy sygnał nagrody, uczenie się przez wzmacnianie zapewnia bardzo ogólny sposób budowania systemów AI. Dotyczy to szczególnie symulowanych środowisk, w których nie brakuje możliwości zdobycia doświadczenia. Dodanie głębokiego uczenia jako narzędzia w systemach RL umożliwiło również nowe zastosowania, w tym naukę grania w gry wideo Atari z surowych danych wizualnych , kontrolowanie robotów oraz gra w pokera . Opracowano dosłownie setki różnych algorytmów uczenia się ze wzmocnieniem, a wiele z nich może wykorzystywać jako narzędzia w szerokim zakresie metod uczenia się. Omówimy podstawowe idee i na kilku przykładach przedstawimy w pewnym sensie różnorodność podejść. Klasyfikujemy podejścia w następujący sposób:
* Uczenie się przez wzmacnianie oparte na modelu: W tych podejściach agent wykorzystuje przejściowy model środowiska, aby pomóc w interpretacji sygnałów nagrody i podejmowaniu decyzji o tym, jak działać. Model może być początkowo nieznany, w którym to przypadku agent uczy się modelu obserwując efekty jego działań, lub może być już znany – np. program szachowy może znać zasady gry w szachy, nawet jeśli nie wie, jak to zrobić. wybierz dobre ruchy. W środowiskach częściowo obserwowalnych model przejścia jest również przydatny do estymacji stanu (patrz rozdział 14). Systemy uczenia się przez wzmacnianie oparte na modelach często uczą się funkcji użyteczności U(s), zdefiniowanej (jak w rozdziale 16) w kategoriach sumy nagród od stanu.
* Uczenie się przez wzmocnienie bez modelu: W tych podejściach agent nie zna ani nie uczy się modelu przejścia dla środowiska. Zamiast tego uczy się bardziej bezpośredniej reprezentacji tego, jak się zachowywać. Występuje w jednej z dwóch odmian:
* Nauka użyteczności działania: wprowadziliśmy funkcje użyteczności działania w rozdziale 16. Najpopularniejszą formą uczenia się użyteczności działania jest Q-learning, w którym agent uczy się funkcji Q lub funkcji jakości, Q(s;a) , oznaczający sumę nagród od stanu s dalej, jeśli zostanie podjęte działanie a. Mając funkcję Q, agent może wybrać, co zrobićw s poprzez znalezienie akcji o najwyższej wartości Q.
* Wyszukiwanie zasad: agent uczy się zasad, które bezpośrednio odwzorowują stany na działania. Zaczniemy od pasywnego uczenia się wzmacniającego, gdzie polityka agenta jest ustalona, a zadaniem jest poznanie użyteczności stanów (lub par stan-działanie); może to również obejmować poznanie modelu środowiska. (Zrozumienie decyzji Markowa)
Procesy, są niezbędne dla tej sekcji. Podstawowym zagadnieniem jest eksploracja: agent musi jak najwięcej doświadczyć swojego otoczenia aby nauczyć się w nim zachowywać. Omówimy, w jaki sposób agent może wykorzystać uczenie indukcyjne (w tym metody uczenia głębokiego), aby znacznie szybciej uczyć się na podstawie swoich doświadczeń. Omawiamy również inne podejścia, które mogą pomóc w skalowaniu RL w celu rozwiązania rzeczywistych problemów, w tym dostarczanie pośrednich pseudonagród, które prowadzą uczącego się i organizują zachowanie w hierarchię działań.