AI : Technologie, Aplikacje i Wyzwania : Elementy sieci SARSA

Stany: zbiór wszystkich stanów; tutaj jest to zestaw wszystkich pozycji figur szachowych na szachownicy.

Polityka: Jest to tabela stan-działanie z wartościami odpowiadającymi każdej parze.

Funkcja wartości: Funkcja wartości zastosowana w tym badaniu to tradycyjne równanie Bellmana.

Gdzie Q(S_t,A_t) – prawdopodobieństwo wygranej ze stanu St poprzez wykonanie akcji A_t, R_t – Nagroda przy S_t, α – szybkość uczenia się, a γ – współczynnik dyskontowy (znaczenie przyszłej nagrody)

Akcje: Zawiera wszystkie możliwe ruchy, które dana figura może wykonać z pozycji, biorąc pod uwagę wszystkie ograniczenia środowiskowe.

Agent: Agent jest organem decyzyjnym naszego systemu. Reprezentuje bota AI, który gra w szachy. Posiada zdolność postrzegania otoczenia i podejmowania działań wpływających na otoczenie

Otoczenie: Oto środowisko to szachownica. Zawiera wszystkie pionki wraz z zasadami rządzącymi ich ruchem. Zawiera ideę nagród, wartość każdego elementu. Odpowiada agentowi, zwracając agentowi nagrodę za każde jego działanie.

MCTS: Ta technika jest używana przez agenta, aby wyczekiwać gry poprzez zastosowanie symulacji pionów. Oczekiwanie odbywa się za pomocą tego MCTS. To drzewo zawiera:

Węzły: stan szachownicy.

Krawędzie: Akcje i odpowiadające im wartości łączące stan S z S’.

To drzewo jest budowane, gdy agent gra przeciwko ludzkiemu przeciwnikowi. Drzewo jest początkowo inicjowane z wartościami losowymi, ale w miarę rozgrywania większej liczby gier drzewo jest aktualizowane o ruchy wraz z wynikiem zaufania. To właśnie ten wynik ufności jest później wykorzystywany do ponownego zastosowania symulacji.

Polityka ekspercka: W MCTS, aby wykonać te symulacje, musi istnieć polityka, która jest używana do wybierania kolejnych stanów potomnych wymaganych do symulacji. Stosowana tutaj polityka ekspercka to gęsto warstwowa sieć neuronowa. Ten DNN jest trenowany jednocześnie z agentem, gdy agent gra w szachy. Stany przechowywane w MCTS są wykorzystywane jako trening dla tego modelu.

Pracujący:

Kiedy rozpoczyna się gra w szachy, agent działa jako ciało decyzyjne, które wchodzi w interakcję z szachownicą i „gra”.
Agent obserwuje stan tablicy, a następnie rozpoczyna proces wyszukiwania MCTS z bieżącym stanem jako węzłem głównym.
Drzewo MCTS przesuwa się w dół drzewa przez 1 sekundę. Po 1 sekundzie, niezależnie od tego, czy drzewo osiągnie stan terminala, proces wyszukiwania zatrzymuje się, a następnie następuje propagacja wsteczna.
Zwrot wygenerowany przez symulowany odcinek jest tworzony w celu zaktualizowania lub zainicjowania wartości akcji dołączonych do krawędzi drzewa, przez które przechodzi polityka drzewa w tej iteracji MCTS. Żadne wartości nie są zapisywane dla stanów i akcji odwiedzanych przez zasady wdrażania poza drzewem.
Teraz agent na podstawie symulacji decyduje o kolejnym ruchu.
Agent aktualizuje swoją politykę ekspercką DNN po każdych dziesięciu turach.
Po zakończeniu gry agent przestaje się uczyć, a następnie zapisuje model polityki eksperckiej.

Post Views: 90

Dodaj komentarz Anuluj pisanie odpowiedzi