Gry karciane

Gry karciane, takie jak brydż, wist, kiery i poker, cechują się stochastyczną częściową obserwowalnością, w której brakujące informacje są generowane przez losowe rozdanie kart. Na pierwszy rzut oka może się wydawać, że te gry karciane są jak gry w kości: karty są rozdawane losowo i określają ruchy dostępne dla każdego gracza, ale wszystkie „kostki” są rzucane na początku! Mimo że ta analogia okazuje się błędna, sugeruje algorytm: traktuj początek gry jako węzeł szansy z każdą możliwą transakcją jako wynikiem, a następnie użyj formuły EXPECTIMINIMAX, aby wybrać najlepszy ruch. Zauważ, że w tym podejściu jedynym węzłem szansy jest węzeł główny; po tym gra staje się w pełni obserwowalna. Takie podejście jest czasami nazywane uśrednianiem względem jasnowidzenia, ponieważ zakłada, że ​​po zawarciu faktycznego porozumienia gra staje się w pełni obserwowalna dla obu graczy. Pomimo intuicyjnego uroku strategia może sprowadzić na manowce. Rozważ następującą historię:

DZIEŃ 1: Droga A prowadzi do garnka ze złotem; Droga B prowadzi do rozwidlenia. Widać, że lewy widelec prowadzi do dwóch garnków złota, a prawy prowadzi do przejechania przez autobus.

DZIEŃ 2: Droga A prowadzi do garnka złota; Droga B prowadzi do rozwidlenia. Widać, że prawe rozwidlenie prowadzi do dwóch garnków złota, a lewe do najechania autobusem.

DZIEŃ 3: Droga A prowadzi do garnka złota; Droga B prowadzi do rozwidlenia. Powiedziano ci, że jeden widelec prowadzi do dwóch garnków złota, a jeden widelec prowadzi do przejechania przez autobus. Niestety nie wiesz, który widelec jest który.

Uśrednianie względem jasnowidzenia prowadzi do następującego rozumowania: w dniu 1 B jest właściwym wyborem; w dniu 2 B jest właściwym wyborem; w Dniu 3 sytuacja jest taka sama jak w Dniu 1 lub Dniu 2, więc B nadal musi być właściwym wyborem. Teraz możemy zobaczyć, jak zawodzi uśrednianie względem jasnowidzenia: nie uwzględnia ono stanu przekonania, w którym agent znajdzie się po działaniu. Stan wiary w całkowitą ignorancję nie jest pożądany, zwłaszcza gdy jedną z możliwości jest pewna śmierć. Ponieważ zakłada, że ​​każdy przyszły stan będzie automatycznie stanem doskonałej wiedzy, podejście jasnowidzenia nigdy nie wybiera działań, które zbierają informacje (jak pierwszy ruch na rysunku powyżej); nie wybierze też działań, które ukrywają informacje przed przeciwnikiem lub dostarczają informacji partnerowi, ponieważ zakłada, że ​​już zna te informacje; i nigdy nie blefuje w pokerze, ponieważ zakłada, że ​​przeciwnik widzi jego karty. W rozdziale 17 pokazujemy, jak konstruować algorytmy, które wykonują wszystkie te rzeczy dzięki rozwiązaniu prawdziwego, częściowo obserwowalnego problemu decyzyjnego, co skutkuje optymalną strategią równowagi. Pomimo wad, uśrednianie względem jasnowidzenia może być skuteczną strategią, z kilkoma sztuczkami, które sprawią, że będzie działać lepiej. W większości gier karcianych liczba możliwych rozdań jest dość duża. Na przykład w grze w brydża każdy gracz widzi tylko dwa z czterech rozdań; są dwie niewidoczne ręce po 13 kart każda, więc liczba rozdań wynosi 

Rozwiązanie nawet jednego rozdania jest dość trudne, więc rozwiązanie dziesięciu milionów nie wchodzi w rachubę. Jednym ze sposobów radzenia sobie z tą ogromną liczbą jest abstrakcja, czyli traktowanie podobnych rąk jako identycznych. Na przykład bardzo ważne jest, które asy i króle są w rozdaniu, ale to, czy w rozdaniu jest 4 czy 5, nie jest tak ważne i można je oddzielić.

Innym sposobem radzenia sobie z dużą liczbą jest przycinanie do przodu: rozważ tylko małą losową próbkę N transakcji i ponownie oblicz wynik EXPECTIMINIMAX. Nawet dla dość małego N – powiedzmy 100 do 1000 – ta metoda daje dobre przybliżenie. Można go również zastosować do gier deterministycznych, takich jak Kriegspiel, w których próbkujemy możliwe stany gry, a nie możliwe transakcje, o ile mamy jakiś sposób na oszacowanie prawdopodobieństwa każdego stanu. Pomocne może być również wyszukiwanie heurystyczne z odcięciem głębokości zamiast przeszukiwania całego drzewa gry. Do tej pory zakładaliśmy, że każda transakcja jest równie prawdopodobna. Ma to sens w przypadku gier takich jak wista i kiery. Ale w brydżu grę poprzedza faza licytacji, w której każda drużyna wskazuje, ile lew spodziewa się wygrać. Ponieważ gracze licytują na podstawie posiadanych kart, pozostali gracze dowiadują się czegoś o prawdopodobieństwie P(s) każdego rozdania. Wzięcie tego pod uwagę przy podejmowaniu decyzji, jak rozegrać rozdanie, jest trudne z powodów wymienionych w naszym opisie Kriegspiel: gracze mogą licytować w taki sposób, aby zminimalizować informacje przekazywane swoim przeciwnikom. Komputery osiągnęły w pokerze wydajność nadludzką. Program pokerowy Libratus pokonał czterech najlepszych pokerzystów na świecie w 20-dniowym meczu Texas Hold’em bez limitu i zdecydowanie pokonał ich wszystkich. Ponieważ w pokerze jest tak wiele możliwych stanów, Libratus używa abstrakcji, aby zredukować przestrzeń stanów: może uznać, że dwie ręce AAA72 i AAA64 są równoważne (oba są „trzema asami i kilkoma niskimi kartami”) i może rozważyć zakład w wysokości 200 dolarów będzie taki sam jak 201 dolarów. Ale Libratus monitoruje również innych graczy i jeśli wykryje, że wykorzystują abstrakcję, wykona dodatkowe obliczenia w nocy, aby zatkać tę dziurę. Łącznie zużył 25 milionów godzin pracy procesora na superkomputerze, aby odnieść zwycięstwo. Koszty obliczeniowe poniesione przez Libratus (i podobne koszty przez ALPHAZERO i inne systemy) sugerują, że gra o mistrza świata może nie być osiągalna dla naukowców z ograniczonymi budżetami. W pewnym stopniu jest to prawdą: tak jak nie powinieneś oczekiwać, że będziesz w stanie złożyć mistrzowski samochód wyścigowy Formuły 1 z części zamiennych w swoim garażu, zaletą jest dostęp do superkomputerów lub specjalistycznego sprzętu, takiego jak Tensor Processing Units. Jest to szczególnie prawdziwe w przypadku szkolenia systemu, ale szkolenie można również przeprowadzić za pośrednictwem crowdsourcingu. Na przykład system LEELAZERO o otwartym kodzie źródłowym jest reimplementacją ALPHAZERO, która trenuje poprzez samodzielną zabawę na komputerach uczestników-wolontariuszy. Po przeszkoleniu wymagania obliczeniowe dla rzeczywistej gry turniejowej są skromne. ALPHASTAR wygrał gry StarCraft II działające na zwykłym komputerze stacjonarnym z pojedynczym procesorem graficznym, a ALPHAZERO mogło działać w tym trybie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *