AI : Technologie, Aplikacje i Wyzwania : Przegląd literatury

https://aie24.pl/

Wykorzystanie uczenia się ze wzmocnieniem w grze w szachy było niezwykłym ulepszeniem w dziedzinie sztucznej inteligencji. Neumann, Turing i Shannon początkowo kwestionowali, czy maszyna może grać w szachy. Alan Turing pracował nad stworzeniem maszyny do gry w szachy z zamiarem, aby działała ona jak klin w atakowaniu innych problemów . Turochamp  to program szachowy opracowany przez Turinga i Champernowne w 1948 roku. Został stworzony w ramach badań pary w dziedzinie informatyki i uczenia maszynowego. Jest w stanie rozegrać całą partię szachów przeciwko ludzkiemu graczowi na niskim poziomie gry, obliczając w odpowiedzi wszystkie potencjalne ruchy i wszystkie potencjalne ruchy gracza, przypisując wartości punktowe do każdego stanu gry i wybierając ruch o najwyższej możliwej średniej wartości punktowej . Dobrze znaną historią sukcesu uczenia się ze wzmocnieniem jest TD-gammon, program do gry w tryktraka, który nauczył się całkowicie poprzez uczenie się ze wzmocnieniem i samodzielną grę, i osiągnął nadludzki poziom gry. SARSA, jako jeden z rodzajów metod uczenia się przez wzmocnienie, jest zintegrowany z głębokim uczeniem w celu rozwiązania problemów z kontrolą gier wideo. DeepMind zaprezentował pierwszy model głębokiego uczenia się, który skutecznie uczył się zasad kontroli bezpośrednio od wielowymiarowego wejścia sensorycznego z wykorzystaniem uczenia się przez wzmacnianie. Model jest splotową siecią neuronową, wytrenowaną za pomocą wariantu Q-learningu, której dane wejściowe to surowe piksele, a dane wyjściowe to funkcja wartości szacująca przyszłe nagrody. DeepMind zastosował tę metodę do siedmiu gier na Atari 2600 ze środowiska uczenia Arcade. W 2016 roku DeepMind stworzył agenta AI, Alpha Go , który otrzymał szansę gry przeciwko panującemu światowemu mistrzowi świata. AlphaGo wygrał mecz, 4-1, triumf, który wywołał falę podekscytowania w związku z RL. Wykorzystano sieć wartości i polityk oraz przeprowadzono symulacje przy użyciu podejścia bezmodelowego, takiego jak przeszukiwanie drzewa metodą Monte Carlo. Pomaga to w opracowaniu solidnego agenta, który sprawdza się w każdej sytuacji. Ta koncepcja została ekstrapolowana i wykorzystana do zbudowania agenta Alpha Zero, który był używany do gry w szachy. Ten agent pokonał Stockfisha, panującego mistrza szachów komputerowych. Alpha Zero wyeliminowała potrzebę korzystania z gier, w które grają eksperci-ludzie, przy tworzeniu swojego modelu sieci neuronowej. Przechodzi od zera do bohatera, tj. jest karmiony tylko regułami gry i rozwija swoją politykę poprzez samodzielną zabawę z wykorzystaniem uczenia się przez wzmacnianie. Wykorzystuje również tylko jedną sieć neuronową, która łączy rolę sieci wartości i polityki. Postaramy się zbadać metody zastosowane w Alpha Zero w celu opracowania agenta zdolnego rzucić wyzwanie amatorskim szachistom. W 2019 roku Arjan Groen stworzył bibliotekę Reinforcement Learning Chess, która działa w trzech środowiskach szachowych, a mianowicie Move Chess, Capture Chess i Real Chess. Agent używa przede wszystkim RL, aby nauczyć się grać w swoim otoczeniu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *