Równowagi obliczeniowe

Rozważmy teraz kluczowe pytania obliczeniowe związane z pojęciami omówionymi powyżej. Najpierw rozważymy czyste strategie, w których randomizacja nie jest dozwolona. Jeśli gracze mają tylko skończoną liczbę możliwych wyborów, do znalezienia równowagi można użyć wyczerpującego wyszukiwania: iteruj przez każdy możliwy profil strategii i sprawdź, czy jakikolwiek gracz ma korzystne odchylenie od tego profilu; jeśli nie, to jest to równowaga Nasha w czystych strategiach. Strategie dominujące i równowagi strategii dominującej można obliczyć za pomocą podobnych algorytmów. Niestety, liczba możliwych profili strategii dla n graczy, z których każdy ma m możliwych działań, jest mn, co oznacza, że ​​jest niewykonalna dla wyczerpujących poszukiwań. Alternatywnym podejściem, które sprawdza się w niektórych grach, jest najlepsza odpowiedź krótkowzroczna (znana również jako najlepsza odpowiedź iterowana): zacznij od losowego wyboru profilu strategii; następnie, jeśli jakiś gracz nie rozgrywa swojego optymalnego wyboru, biorąc pod uwagę wybory innych, odwróć jego wybór na optymalny i powtórz proces. Proces będzie zbieżny, jeśli doprowadzi do profilu strategii, w którym każdy gracz dokonuje optymalnego wyboru, biorąc pod uwagę wybory innych – innymi słowy, równowagi Nasha. W przypadku niektórych gier najlepsza odpowiedź krótkowzroczności nie jest zbieżna, ale w przypadku niektórych ważnych klas gier jest gwarantowana. Obliczanie równowag strategii mieszanej jest algorytmicznie znacznie bardziej skomplikowane. Aby uprościć sprawę, skupimy się na metodach dla gier o sumie zerowej i krótko skomentujemy ich rozszerzenie na inne gry na końcu tej sekcji. W 1928 roku von Neumann opracował metodę znajdowania optymalnej strategii mieszanej dla dwóch graczy o sumie zerowej – gier, w których wypłaty zawsze sumują się do zera. Oczywiście Morra jest taką grą. Dla dwóch graczy, suma zerowa .W grach wiemy, że wypłaty są równe i przeciwne, więc musimy wziąć pod uwagę wypłaty tylko jednego gracza, który będzie maksymalizatorem (tak jak w rozdziale 6). Dla Morry wybieramy parzystego gracza E jako maksymalizatora, więc możemy zdefiniować macierz wypłat wartościami UE(e,o) – wypłata dla E, jeśli E robi e, a O robi o. (Dla wygody nazywamy gracza E „jej”, a O „nim”). Metoda von Neumanna nazywana jest techniką maksyminową i działa w następujący sposób:

  • Załóżmy, że zmieniamy zasady w następujący sposób: najpierw E wybiera swoją strategię i ujawnia ją O. Następnie O wybiera swoją strategię, znając strategię E. Na koniec oceniamy oczekiwaną wypłatę gry na podstawie wybranych strategii. W ten sposób otrzymujemy grę polegającą na składaniu tur, do której możemy zastosować standardowy algorytm minimaksów. Załóżmy, że daje to wynikUE,O. Najwyraźniej ta gra faworyzuje O, więc prawdziwa użyteczność U oryginalnej gry (z punktu widzenia E) to przynajmniej UE,O. Na przykład, jeśli przyjrzymy się czystym strategiom, drzewo gry minimax ma pierwiastek równy -3 (patrz rysunek (a)),

więc wiemy, że U ≥ -3.

  • Załóżmy teraz, że zmieniamy zasady, aby zmusić O do ujawnienia swojej strategii jako pierwszego, a następnie E. Następnie minimalną wartością tej gry jest UO,E, a ponieważ ta gra faworyzuje E, wiemy, że U jest co najwyżej UO,E. W przypadku czystych strategii wartość wynosi +2 , więc wiemy, że U ≤ +2.

Łącząc te dwa argumenty, widzimy, że prawdziwa użyteczność U rozwiązania oryginalnej gry musi spełniać UE,O ≤ U ≤  UO,E lub w tym przypadku -3 ≤ U ≤ +2.

Aby określić wartość U, musimy skierować naszą analizę do strategii mieszanych. Po pierwsze, zwróć uwagę na następujące: gdy pierwszy gracz ujawni strategię, drugi gracz może równie dobrze J wybrać czystą strategię. Powód jest prosty: jeśli drugi gracz gra mieszaną strategią, [p:one; (1- p):two], jego oczekiwana użyteczność jest kombinacją liniową (p · Uone +(1- p) · Utwo) użyteczności czystych strategii Uone i Utwo. Ta liniowa kombinacja nigdy nie może być lepsza niż lepsza Uone i Utwo, więc drugi gracz może po prostu wybrać lepszą. Mając to na uwadze, drzewa minimaksowe mogą być traktowane jako mające nieskończenie wiele gałęzi u nasady, co odpowiada nieskończenie wielu mieszanym strategiom, które może wybrać pierwszy gracz. Każda z nich prowadzi do węzła z dwiema gałęziami odpowiadającymi czystym strategiom dla drugiego gracza. Możemy zobrazować te nieskończone drzewa w sposób skończony, mając jeden „sparametryzowany” wybór u nasady:

• Jeśli E wybierze pierwszy, sytuacja jest taka, jak pokazano na rysunku (c).

E wybiera strategię [p:one; (1- p):two] na początku, a następnie O wybiera czystą strategię (a więc ruch) o wartości p. Jeśli O wybierze jeden, oczekiwana wypłata (do E) wynosi 2p-3(1-p)=5p-3; jeśli O wybierze dwa, oczekiwana wypłata wynosi -3p+4(1-p)=4-7p. Możemy narysować te dwie korzyści jako linie proste na wykresie, gdzie p waha się od 0 do 1 na osi x, jak pokazano na rysunku (e).

O, minimalizator zawsze wybierze dolną z dwóch linii, jak pokazano grubymi liniami na rysunku. Dlatego najlepsze, co E może zrobić u podstawy, to wybrać p tak, aby znajdował się w punkcie przecięcia, czyli gdzie

5p-3 = 4-7p => p = 7/12:

Użyteczność dla E w tym momencie to UE,O= -1/12.

• Jeśli O porusza się jako pierwszy, sytuacja jest taka jak na rysunku (d)

O wybiera strategię [q:one; (1-q):two] na początku, a następnie E wybiera ruch mający wartość q. Wypłaty wynoszą 2q-3(1-q)=5q-3 i -3q+4(1-q)=4-7q.2 Ponownie, rysunek (f) pokazuje, że najlepsze O może zrobić u nasady wybierz punkt przecięcia: 5q-3 = 4-7q => q = 7/12:

Użyteczność dla E w tym momencie wynosi UO,E = -1/12.

Teraz wiemy, że prawdziwa użyteczność oryginalnej gry leży między -1/12 a -1/12; czyli dokładnie -1/12! (Konkluzja jest taka, że ​​lepiej być O niż E, jeśli grasz w tę grę.) Co więcej, prawdziwą użyteczność osiąga się dzięki strategii mieszanej [7/12:one;5/12:dwa], którą należy grać przez obu graczy. Ta strategia nazywa się maksymalną równowagą gry i jest równowagą Nasha. Należy zauważyć, że każda strategia składowa w mieszanej strategii równowagowej ma taką samą oczekiwaną użyteczność. W tym przypadku zarówno jedna, jak i dwie mają taką samą oczekiwaną użyteczność, -1/12, jak sama strategia mieszana. Nasz wynik dla Morry z dwoma palcami jest przykładem ogólnego wyniku von Neumanna: każda dwuosobowa gra o sumie zerowej ma maksymalną równowagę, gdy dopuszczasz strategie mieszane. J Co więcej, każda równowaga Nasha w grze o sumie zerowej jest maksymą dla obu graczy. Gracz, który przyjmuje strategię maksyminową, ma dwie gwarancje: po pierwsze, żadna inna strategia nie poradzi sobie lepiej z przeciwnikiem, który gra dobrze (chociaż niektóre inne strategie mogą być lepsze w wykorzystywaniu przeciwnika, który popełnia irracjonalne błędy). Po drugie, gracz nadal radzi sobie równie dobrze, nawet jeśli strategia zostanie ujawniona przeciwnikowi. Ogólny algorytm znajdowania równowag maksyminowych w grach o sumie zerowej jest nieco bardziej skomplikowany niż mogłyby sugerować rysunki 17.2 (e) i (f). Gdy istnieje n możliwych działań, strategia mieszana to punkt w przestrzeni n-wymiarowej, a linie stają się hiperpłaszczyznami. Możliwe jest również, że niektóre czyste strategie dla drugiego gracza będą zdominowane przez innych, tak że nie będą one optymalne w stosunku do żadnej strategii dla pierwszego gracza. Po usunięciu wszystkich takich strategii (co może być konieczne wielokrotnie), optymalnym wyborem u podstawy jest najwyższy (lub najniższy) punkt przecięcia pozostałych hiperpłaszczyzn. Znalezienie tego wyboru jest przykładem problemu programowania liniowego: maksymalizacji funkcji celu podlegającej ograniczeniom liniowym. Takie problemy można rozwiązać standardowymi technikami w wielomianu czasu w liczbie akcji (i liczbie bitów użytych do określenia funkcji nagrody, jeśli chcesz uzyskać informacje techniczne). Pozostaje pytanie, co właściwie powinien zrobić racjonalny agent, grając w pojedynczą grę w Morrę? Racjonalny podmiot wyprowadzi fakt, że [7/12:one;5/12:two] jest strategią maksymalnej równowagi i założy, że jest to wzajemna wiedza z racjonalnym przeciwnikiem. Agent może użyć 12-ściennej kości lub generatora liczb losowych, aby wybrać losowo zgodnie z tą mieszaną strategią, w którym to przypadku oczekiwana wypłata wyniesie -1/12 dla E. Albo agent może po prostu zdecydować się na zagranie jednego lub dwóch . W obu przypadkach oczekiwana wypłata pozostaje -1/12 dla E. Co ciekawe, jednostronne wybranie konkretnego działania nie szkodzi oczekiwanej wypłacie, ale umożliwienie drugiemu agentowi poznania, że ​​podjął taką jednostronną decyzję, ma wpływ na oczekiwaną wypłatę. ponieważ wtedy przeciwnik może odpowiednio dostosować strategię. Znalezienie równowagi w grach o sumie niezerowej jest nieco bardziej skomplikowane. Ogólne podejście składa się z dwóch kroków: (1) Wymień wszystkie możliwe podzbiory działań, które mogą tworzyć mieszane strategie. Na przykład najpierw wypróbuj wszystkie profile strategii, w których każdy gracz używa jednej akcji, następnie te, w których każdy gracz używa jednej lub dwóch akcji i tak dalej. Jest to wykładnicza liczba akcji, a więc dotyczy tylko stosunkowo małych gier. (2) Dla każdego profilu strategii wymienionego w (1) sprawdź, czy jest to równowaga. Odbywa się to poprzez rozwiązanie zestawu równań i nierówności, które są podobne do tych używanych w przypadku o sumie zerowej. Dla dwóch graczy równania te są liniowe i można je rozwiązać za pomocą podstawowych technik programowania liniowego, ale dla trzech lub więcej graczy są one nieliniowe i mogą być bardzo trudne do rozwiązania.

100 Pytań o A.I.: Czy sztuczna inteligencja może pomóc w odległych miejscach, takich jak Afryka Subsaharyjska?

Najbliższe lata będą bardzo ekscytujące, ponieważ centra startupowe będą nadal rozwijać się w USA, Chinach i Europie, gdzie przedsiębiorcy opracowują zadziwiające aplikacje AI rozwiązania. Chociaż wiele z tych postępów będzie miało bezpośredni wpływ na kraje Pierwszego Świata, istnieje również wiele zastosowań dla krajów słabiej rozwiniętych, takich jak kraje Afryki Subsaharyjskiej. W rozdziale o tym, jak sztuczna inteligencja zmienia różne branże, omawiamy sposoby transformacji rolnictwa ze względu na możliwości narzędzi AI. Narzędzia te mogą również pomóc ulżyć niektórym biedniejszym, bardziej odległym lokalizacjom na całym świecie. Drony zasilane sztuczną inteligencją zapewnią również rozwiązania nie tylko do monitorowania upraw, ale także problemów takich jak kłusownictwo. Tradycyjnie trudno było ustalić, skąd działali kłusownicy, ale drony pomogą to znacznie ułatwić. Istnieją również nowe przedsięwzięcia AI mające pomóc ludziom w odległych lokalizacjach. Jednym z przykładów jest chatbot o nazwie Kudi AI, który pozwala ludziom używać wiadomości do wysyłania pieniędzy do przyjaciół w odległych miejscach, takich jak Nigeria. Może także pomóc użytkownikom w śledzeniu własnych nawyków związanych z wydatkami i chronić ich przed oszustwami. Innym przykładem jest aplikacja AI opracowana przez nigeryjski startup Aajoh. To narzędzie umożliwia pacjentom bez bezpośredniego dostępu do opieki medycznej wysokiej jakości wprowadzanie objawów za pomocą tekstu, dźwięku lub zdjęć, a następnie uzyskanie diagnozy medycznej na podstawie dostarczonych informacji. To tylko kilka przykładów sposobów, w jakie technologie AI mogą zapewnić pozytywne rozwiązania globalnych problemów, w tym ubóstwa, głodu i braku opieki medycznej, nawet w najbardziej odległych lokalizacjach.

Opieka społeczna

Główną perspektywą w teorii gier jest perspektywa graczy w grze, próbujących uzyskać dla siebie najlepsze wyniki, jakie mogą. Czasami jednak pouczające jest przyjęcie innej perspektywy. Załóżmy, że jesteś życzliwą, wszechwiedzącą istotą, która patrzy z góry na grę i potrafisz wybrać wynik. Będąc życzliwym, chcesz wybrać najlepszy ogólny wynik – wynik, który byłby najlepszy dla społeczeństwa jako całości, że tak powiem. Jak wybrać? Jakie kryteria możesz zastosować? Tu właśnie pojawia się pojęcie opieki społecznej. Prawdopodobnie najważniejszym i najmniej kontrowersyjnym kryterium opieki społecznej jest unikanie wyników marnujących użyteczność. Wymóg ten jest ujęty w koncepcji optymalności Pareto, której nazwa pochodzi od włoskiego ekonomisty Vilfredo Pareto (1848–1923). Wynik jest optymalny w sensie Pareto, jeśli nie ma innego wyniku, który poprawiłby sytuację jednego gracza bez pogorszenia sytuacji drugiego. Jeśli wybierzesz wynik, który nie jest optymalny w sensie Pareto, marnuje to użyteczność w tym sensie, że mógłbyś nadać większą użyteczność przynajmniej jednemu agentowi, nie odbierając żadnej od innych agentów. Utylitarny dobrobyt społeczny jest miarą tego, jak dobry jest ogólny wynik. Utylitarny dobrobyt społeczny wyniku to po prostu suma użyteczności, jaką ten wynik daje graczom. Z utylitarną opieką społeczną wiążą się dwie kluczowe trudności. Po pierwsze, to uwzględnia sumę, ale nie dystrybucję mediów między graczy, więc może to prowadzić do bardzo nierównego rozkładu, jeśli tak się stanie, aby zmaksymalizować sumę. Druga trudność polega na tym, że zakłada wspólną skalę dla mediów. Wielu ekonomistów twierdzi, że jest to niemożliwe do ustalenia, ponieważ użyteczność (mało prawdopodobne pieniądze) jest wielkością subiektywną. Jeśli próbujemy zdecydować, jak podzielić partię ciasteczek, czy powinniśmy dać je wszystkie użytkowemu potworowi, który mówi:

„Kocham ciasteczka tysiąc razy bardziej niż ktokolwiek inny?” To zmaksymalizowałoby całkowitą zgłoszoną przez siebie użyteczność, ale nie wydaje się właściwe. Kwestia dystrybucji użyteczności wśród graczy jest przedmiotem badań nad egalitarną opieką społeczną. Na przykład jedna z propozycji sugeruje, że powinniśmy maksymalizować oczekiwaną użyteczność najbiedniejszego członka społeczeństwa – podejście maksyminalne. Możliwe są inne wskaźniki, w tym współczynnik Giniego, który podsumowuje, jak równomiernie rozkłada się użyteczność wśród graczy. Główne trudności z takimi propozycjami polegają na tym, że mogą poświęcić dużo całkowitego dobrobytu na rzecz niewielkich zysków dystrybucyjnych i, podobnie jak zwykły utylitaryzm, nadal są na łasce potwora użyteczności.

Zastosowanie tych pojęć do przedstawionej powyżej gry w dylematy więźnia wyjaśnia, dlaczego nazywa się to dylematem. Przypomnijmy, że (zeznaj; zeznaj) jest dominującą równowagą strategii i jedyną równowagą Nasha. Jest to jednak jedyny wynik, który nie jest optymalny w sensie Pareto. Wynik (odmowa; odmowa) maksymalizuje zarówno utylitarny, jak i egalitarny dobrobyt społeczny. Dylemat dylematu więźnia powstaje zatem, ponieważ bardzo silna koncepcja rozwiązania (równowaga strategii dominującej) prowadzi do wyniku, który w zasadzie nie przechodzi każdego testu tego, co z punktu widzenia „społeczeństwa” uważa się za wynik rozsądny. Jednak nie ma jasnego sposobu na poszczególnych graczy, aby znaleźć lepsze rozwiązanie.

100 Pytań o A.I. : Czy sztuczna inteligencja może pomóc w walce z ubóstwem?

Zwykle, gdy czytamy o zaletach sztucznej inteligencji w wiadomościach, dotyczy to sposobów, w jakie firmy mogą zostać ulepszone lub stać się bardziej wydajne. Jednak sztuczna inteligencja może być rzeczywiście odpowiednia, aby stawić czoła jeszcze większemu, globalnemu wyzwaniu, takie jak ubóstwo. Jednym ze sposobów wykorzystania sztucznej inteligencji do walki z ubóstwem jest połączenie zdjęć satelitarnych i technologii uczenia maszynowego. Zespół naukowców z Uniwersytetu Stanforda używa obecnie tych narzędzi, aby określić, które obszary charakteryzują się największym stężeniem ubóstwa i jakiego rodzaju pomocy mogą potrzebować w Afryce Subsaharyjskiej. Jednym ze wskaźników ubóstwa, które można zaobserwować za pomocą tych narzędzi, jest niska intensywność światła w nocy. Duże miasta często mają obfite źródła światła, nawet w nocy. W przeciwieństwie do biedniejszych, więcej obszarów wiejskich może mieć mniejsze natężenie światła, nawet w godzinach wieczornych. Te systemy sztucznej inteligencji mogą również porównywać zdjęcia jakości oświetlenia w nocy z tymi wykonanymi w ciągu dnia w celu oddzielenia dróg, pól uprawnych i innych obszarów, aby dodatkowo wskazać lokalizacje o najwyższym stężeniu ubóstwa. Podstawowym celem tych badań jest stworzenie szczegółowych map miejsc, w których ubóstwo może być najbardziej dotkliwe, które można następnie udostępnić publicznie, aby zacząć zwiększać świadomość i pomoc dla tych obszarów. Według Banku Światowego, organizacji, która dąży do położenia kresu skrajnemu ubóstwu do 2030 r., “Skrajne ubóstwo” charakteryzuje się utrzymaniem 1,90 USD lub mniej dziennie. Opisane powyżej badania to tylko jeden z przykładów projektów, nad którymi obecnie pracujemy, przy użyciu narzędzi AI, aby pomóc tym na całym świecie, którzy najbardziej potrzebują pomocy, i spróbować położyć kres ubóstwu.

Gry z jednym ruchem: gry w normalnej formie

Pierwszy model gry, któremu przyjrzymy się, to taki, w którym wszyscy gracze podejmują działania jednocześnie, a wynik gry opiera się na profilu działań wybranych w ten sposób. (Właściwie nie jest istotne, aby akcje odbywały się w tym samym czasie; ważne jest to, że żaden gracz nie ma wiedzy o wyborach innych graczy.) Te gry nazywane są grami w normalnej formie. Gra w normalnej formie jest zdefiniowana przez trzy elementy:

  • Gracze lub agenci, którzy będą podejmować decyzje. Najwięcej uwagi poświęcono grom dla dwóch graczy, chociaż gry dla n-osoby dla n > 2 są również powszechne. Graczom podajemy nazwiska pisane wielkimi literami, takie jak Ali i Bo lub O i E.
  • Akcje, które gracze mogą wybrać. Podamy akcje małymi nazwami, takimi jak jeden lub zeznaj. Gracze mogą, ale nie muszą mieć dostępnego tego samego zestawu akcji.
  • Funkcja wypłaty, która daje każdemu graczowi użyteczność dla każdej kombinacji działań wszystkich graczy. W grach dwuosobowych funkcję wypłat dla gracza można przedstawić za pomocą macierzy, w której znajduje się wiersz dla każdej możliwej akcji jednego gracza oraz kolumna dla każdego możliwego wyboru drugiego gracza: wybrany wiersz i wybrany kolumna definiuje komórkę macierzy, która jest oznaczona wypłatą dla odpowiedniego gracza. W przypadku dwóch graczy konwencjonalnie łączy się dwie macierze w jedną macierz wypłat, w której każda komórka jest oznaczona wypłatami dla obu graczy.

Aby zilustrować te pomysły, spójrzmy na przykładową grę o nazwie Morra z dwoma palcami. W tej grze dwóch graczy, O i E, pokazuje jednocześnie jeden lub dwa palce. Niech łączna liczba wyświetlanych palców wynosi f . Jeśli f jest nieparzyste, O pobiera f dolarów od E; a jeśli f jest parzyste, E pobiera f dolarów od O.1 Macierz wypłat dla dwupalcowej Morry wygląda następująco:

Mówimy, że E jest odtwarzaczem wierszy, a O jest odtwarzaczem kolumn. Na przykład prawy dolny róg pokazuje, że gdy gracz O wybiera akcję drugą, a E również wybiera dwie, wypłata wynosi +4 dla E i 􀀀4 dla O. Przed analizą dwupalcowej Morry warto zastanowić się, dlaczego gra -idee teoretyczne są w ogóle potrzebne: dlaczego nie możemy sprostać wyzwaniu stojącemu przed (powiedzmy) graczem E, korzystając z aparatu teorii decyzji i maksymalizacji użyteczności, z którego korzystaliśmy w innych miejscach książki? Aby zobaczyć, dlaczego potrzebne jest coś innego, załóżmy, że E próbuje znaleźć najlepszą akcję do wykonania. Alternatywy to jedna lub dwie. Jeśli E wybierze jeden, wypłata wyniesie +2 lub -3. Która wypłata faktycznie otrzyma E, będzie jednak zależeć od wyboru dokonanego przez O: jedyne, co E może zrobić jako gracz w rzędzie, to wymusić, aby wynik gry znajdował się w określonym rzędzie. Podobnie O wybiera tylko kolumnę. Aby optymalnie wybrać pomiędzy tymi możliwościami, E musi wziąć pod uwagę, jak O będzie działać jako racjonalny decydent. Ale O z kolei powinien wziąć pod uwagę fakt, że E jest racjonalnym decydentem. Tak więc podejmowanie decyzji w ustawieniach wieloagentowych ma zupełnie inny charakter niż podejmowanie decyzji w ustawieniach z jednym agentem, ponieważ gracze muszą brać pod uwagę tok rozumowania innych graczy. Rolą koncepcji rozwiązań w teorii gier jest próba doprecyzowania tego rodzaju rozumowania. Termin strategia jest używany w teorii gier na określenie tego, co wcześniej nazywaliśmy polityką. Czysta strategia to polityka deterministyczna; w grze z jednym ruchem czysta strategia to tylko jedno działanie. Jak zobaczymy poniżej, w wielu grach agent może lepiej radzić sobie ze strategią mieszaną, która jest losową polityką, która wybiera działania zgodnie z prawdopodobieństwem dystrybucji. Strategia mieszana, która wybiera działanie a z prawdopodobieństwem p i działanie b w przeciwnym razie jest napisana [p:a; (1-p):b]. Na przykład strategia mieszana dla Morry z dwoma palcami może mieć postać [0:5:jeden;0:5:dwa]. Profil strategii to przypisanie strategii każdemu graczowi; biorąc pod uwagę profil strategii, wynik gry jest wartością liczbową dla każdego gracza – jeśli gracze używają strategii mieszanych, musimy użyć oczekiwanej użyteczności. Jak więc agenci powinni decydować o działaniu w grach takich jak Morra? Teoria gier dostarcza szeregu koncepcji rozwiązań, które próbują zdefiniować racjonalne działanie w odniesieniu do przekonań agenta na temat przekonań drugiego agenta. Niestety nie ma jednej koncepcji idealnego rozwiązania: problematyczne jest zdefiniowanie, co oznacza „racjonalny”, gdy każdy agent wybiera tylko część profilu strategii, która determinuje wynik. Przedstawiamy naszą pierwszą koncepcję rozwiązania poprzez prawdopodobnie najsłynniejszą grę w kanonie teorii gier — dylemat więźnia. Motywem tej gry jest następująca historia: Dwóch domniemanych włamywaczy, Ali i Bo, zostaje złapanych na gorącym uczynku w pobliżu miejsca włamania i przesłuchiwanych oddzielnie. Prokurator oferuje każdemu układ: jeśli złożysz zeznania przeciwko swojemu partnerowi jako przywódcy szajki z włamaniami, wyjdziesz wolny za bycie współpracownikiem, podczas gdy twój partner będzie skazany na 10 lat więzienia. Jeśli jednak oboje zeznacie przeciwko sobie, oboje dostaniecie 5 lat. Ali i Bo wiedzą również, że jeśli oboje odmówią złożenia zeznań, każdy z nich będzie służył tylko 1 rok za mniejszy zarzut posiadania skradzionej własności. Teraz Ali i Bo stają przed tak zwanym dylematem więźnia: czy zeznawać, czy odmówić? Będąc racjonalnymi agentami, Ali i Bo chcą zmaksymalizować swoją oczekiwaną użyteczność, co oznacza zminimalizowanie liczby lat więzienia – każdy jest obojętny na dobro drugiego gracza. Dylemat więźnia ujmuje następująca macierz wypłat:

Teraz postaw się na miejscu Ali. Potrafi przeanalizować macierz wypłat w następujący sposób:

  • Załóżmy, że Bo gra zeznaje. Potem dostaję 5 lat, jeśli zeznaję i 10 lat, jeśli nie, więc w takim przypadku zeznawanie jest lepsze.
  • Z drugiej strony, jeśli Bo gra w odmowę, wtedy wychodzę na wolność, jeśli zeznam, i dostaję 1 rok, jeśli odmówię, więc zeznawanie jest również lepsze w tym przypadku.
  • Więc bez względu na to, co Bo zdecyduje się zrobić, byłoby lepiej, gdybym zeznawał. Ali odkrył, że zeznawanie jest dominującą strategią w grze.

Mówimy, że strategia s dla gracza p silnie dominuje w strategii s0, jeśli wynik dla s jest lepszy dla p niż wynik silnej dominacji dla s’, dla każdego wyboru strategii przez drugiego gracza. Strategia s słabo dominuje nad s’, jeśli s jest lepsze niż s’  w co najmniej jednym profilu strategii i nie gorsze w żadnym innym. Strategia dominująca to strategia, która dominuje nad wszystkimi innymi. Powszechnym założeniem w teorii gier jest to, że racjonalny gracz zawsze wybiera strategię dominującą i unika zdominowanej strategii J. Będąc racjonalnym – a przynajmniej nie chcąc być uważanym za irracjonalne – Ali wybiera dominującą strategię. Nietrudno zauważyć, że rozumowanie Bo będzie identyczne: dojdzie również do wniosku, że zeznawanie jest dla niego strategią dominującą i zdecyduje się nią grać. Rozwiązaniem gry, zgodnie z dominującą analizą strategii, będzie to, że obaj gracze wybiorą zeznania, a w konsekwencji obaj będą odsiedzieć 5 lat więzienia. W sytuacji takiej jak ta, gdy wszyscy gracze wybierają strategię dominującą, rezultatem jest równowaga strategii dominującej. Jest to „równowaga”, ponieważ żaden gracz nie ma motywacji, aby odejść od swojej części: z definicji, gdyby to zrobił, nie mógłby postąpić lepiej, a może postąpić gorzej. W tym sensie dominująca równowaga strategii jest bardzo silną koncepcją rozwiązania. Wracając do dylematu więźnia, widzimy, że dylemat polega na tym, że dominujący wynik równowagi strategii, w której obaj gracze zeznają, jest gorszy dla obu graczy niż wynik, który uzyskaliby, gdyby obaj odmówili zeznań. Wynik (odmowa; odmowa) dałby obu graczom tylko jeden rok więzienia, co byłoby lepsze dla nich obu niż 5 lat, które każdy z nich odsiedział, gdyby wybrali dominującą równowagę strategiczną. Czy jest jakiś sposób, aby Ali i Bo doszli do wyniku (odmowa; odmowa)? Z pewnością oboje mogą odmówić składania zeznań, ale trudno jest wyobrazić sobie, jak racjonalni agenci mogli dokonać takiego wyboru, biorąc pod uwagę sposób, w jaki gra jest ustawiona. Pamiętaj, że jest to gra bez współpracy: nie mogą ze sobą rozmawiać, więc nie mogą zawrzeć wiążącej umowy o odmowę. Możliwe jest jednak dotarcie do rozwiązania (odrzuć; odrzuć), jeśli zmienimy grę. Moglibyśmy to zmienić w grę kooperacyjną, w której agenci mogą zawrzeć wiążące porozumienie. Albo możemy przejść na grę powtórną, w której gracze wiedzą, że spotkają się ponownie – zobaczymy, jak to działa poniżej. Alternatywnie gracze mogą mieć przekonania moralne, które zachęcają do współpracy i uczciwości. Ale to by oznaczało, że mają różne funkcje użytkowe i znowu grają w inną grę. Obecność dominującej strategii dla konkretnego gracza znacznie upraszcza proces podejmowania decyzji dla tego gracza. Kiedy Ali zda sobie sprawę, że składanie zeznań jest dominującą strategią, nie musi inwestować żadnego wysiłku, próbując dowiedzieć się, co zrobi Bo, ponieważ wie, że bez względu na to, co zrobi Bo, zeznanie będzie jej najlepszą odpowiedzią. Jednak większość gier nie ma ani dominujących strategii, ani dominującej równowagi strategii. Rzadko zdarza się, że pojedyncza strategia jest najlepszą odpowiedzią na wszystkie możliwe strategie odpowiedników. Kolejna koncepcja rozwiązania, którą rozważamy, jest słabsza niż równowaga strategii dominującej, ale ma znacznie szersze zastosowanie. Nazywa się równowagą Nasha i nosi imię Johna Forbesa Nasha, Jr. (1928-2015), który studiował ją w 1950 r. praca dyplomowa – praca, za którą otrzymał Nagrodę Nobla w 1994 roku. Profil strategii jest równowagą Nasha, jeśli żaden gracz nie mógł jednostronnie zmienić swojej strategii i w konsekwencji otrzymać wyższą wypłatę, przy założeniu, że pozostali gracze pozostali przy swoich wyborach strategicznych . Tak więc w równowadze Nasha każdy gracz gra jednocześnie w najlepszą odpowiedź na wybory swoich odpowiedników. Równowaga Nasha reprezentuje stabilny punkt w grze: stabilny w tym sensie, że żaden gracz nie ma racjonalnej motywacji do odstępstwa. Równowagi Nasha są jednak lokalnymi punktami stabilnymi: jak zobaczymy, gra może zawierać wiele równowag Nasha. Ponieważ strategia dominująca jest najlepszą odpowiedzią na wszystkie strategie odpowiadające, wynika z tego, że jakakolwiek równowaga strategii dominującej musi być również równowagą Nasha (Ćwiczenie 17.EQIB). W dylematach więźnia istnieje zatem unikalna dominująca równowaga strategii, która jest jednocześnie unikalną równowagą Nasha. Poniższa przykładowa gra pokazuje, po pierwsze, że czasami gry nie mają dominujących strategii, a po drugie, że niektóre gry mają wiele równowag Nasha.

Łatwo jest zweryfikować, czy w tej grze nie ma strategii dominujących dla żadnego z graczy, a zatem nie ma równowagi strategii dominującej. Jednak profile strategii (t; l) i (b; r) są równowagami Nasha. Oczywiście w interesie obu agentów jest dążenie do tej samej równowagi Nasha – albo (t; l) albo (b; r) – ale ponieważ jesteśmy w domenie teorii gier niekooperacyjnych, gracze muszą osiągnąć dokonywanie wyborów samodzielnie, bez wiedzy o wyborach innych i bez możliwości zawarcia z nimi porozumienia. Jest to przykład problemu z koordynacją: gracze chcą koordynować swoje działania globalnie, tak aby obaj wybierali działania prowadzące do tej samej równowagi, ale muszą to robić wyłącznie przy użyciu lokalnego procesu decyzyjnego. Zaproponowano szereg podejść do rozwiązywania problemów z koordynacją. Jednym z pomysłów są punkty centralne. Centralnym punktem w grze jest wynik, który w pewien sposób wyróżnia się dla graczy jako „oczywisty” wynik, na podstawie którego można koordynować ich wybory. Nie jest to oczywiście dokładna definicja — jej znaczenie będzie zależeć od rozgrywanej gry. Jednak w powyższym przykładzie jest jeden oczywisty punkt centralny: wynik (t; l) dałby obu graczom znacznie wyższą użyteczność niż uzyskaliby, gdyby skoordynowali się na (b; r). Z punktu widzenia teorii gier oba wyniki są równowagą Nasha — ale rzeczywiście byłby to perwersyjny gracz, który spodziewał się koordynować (b; r). Niektóre gry nie mają równowagi Nasha w czystych strategiach, co ilustruje następująca gra, zwana dopasowywaniem groszy. W tej grze Ali i Bo jednocześnie wybierają jedną stronę monety, albo orzełków: jeśli dokonają tych samych wyborów, Bo daje Ali 1 USD, natomiast jeśli dokonają innych wyborów, Ali daje Bo 1 USD:

Zachęcamy czytelnika do sprawdzenia, czy gra nie zawiera dominujących strategii i że żaden wynik nie jest równowagą Nasha w czystych strategiach: w każdym wyniku jeden gracz żałuje swojego wyboru i wolałby wybrać inaczej, biorąc pod uwagę wybór drugiego gracza . Aby znaleźć równowagę Nasha, sztuczka polega na użyciu strategii mieszanych – aby umożliwić graczom losowe dokonywanie wyborów. Nash udowodnił, że każda gra ma przynajmniej jedną równowagę Nasha w strategiach mieszanych J. To wyjaśnia, dlaczego równowaga Nasha jest tak ważną koncepcją rozwiązania: inne koncepcje rozwiązań, takie jak równowaga strategii dominującej, nie gwarantują istnienia w każdej grze, ale zawsze otrzymujemy rozwiązanie, jeśli szukamy równowagi Nasha ze strategiami mieszanymi. W przypadku dopasowywania groszy mamy równowagę Nasha w strategiach mieszanych, jeśli obaj gracze wybierają orła i reszka z równym prawdopodobieństwem. Aby zobaczyć, że ten wynik jest rzeczywiście równowagą Nasha, załóżmy, że jeden z graczy wybrał wynik z prawdopodobieństwem innym niż 0:5. Wtedy drugi gracz mógłby to wykorzystać, wkładając całą swoją wagę w konkretną strategię. Załóżmy na przykład, że Bo grał orła z prawdopodobieństwem 0:6 (a więc reszką z prawdopodobieństwem 0:4). Wtedy Ali zrobiłby wszystko, żeby grać głową z pewnością. Łatwo więc zauważyć, że Bo grający głową z prawdopodobieństwem 0:6 nie może stanowić części żadnej równowagi Nasha.

100 Pytań o A.I.:Czy kraje powinny mieć ministra sztucznej inteligencji?

Tradycyjnie kraje przydzielają ministrów lub sekretarzy do nadzorować różne sektory lub branże, takie jak rolnictwo, edukacja, lub handel. W najbliższej przyszłości rządy będą musiały również rozważyć możliwość ustanowienia stanowiska, takiego jak “sekretarz technologii”, który byłby odpowiedzialny za obsługę ważnych problemów i wyzwania związane ze sztuczną inteligencją i robotyką. W rzeczywistości niektóre z najbardziej podstawowych pytań, na które kraje będą musiały odpowiedzieć, obejmują sposoby zapewnienia, że sztuczna inteligencja jest wykorzystywana etycznie, oraz jak zagwarantować, że jego korzyści zostaną rozłożone na wszystkie warstwy społeczeństwa, a nie tylko w firmach technologicznych lub tylko bogatych. W październiku 2017 r. Zjednoczone Emiraty Arabskie stały się pierwszym krajem na świecie, który stworzył stanowisko dla ministra sztucznej inteligencji, mianując Omara Bin Sultana Al Olamę ministrem stanu ds. Sztucznej Inteligencji. Podjęcie tego ważnego kroku wyraźnie pokazuje, że Zjednoczone Emiraty Arabskie aktywnie przygotowują się do przyszłości AI, i mam nadzieję, że będzie to stanowić przykład dla innych rządów, aby uczynić to samo. W lutym 2017 r. Dania stała się pierwszym krajem, który wyznaczył ambasadora technologicznego z siedzibą w Dolinie Krzemowej. Czołowa pozycja w tym względzie pokazuje, że kraj podejmuje inicjatywę w realistycznym planowaniu na przyszłość. Minister spraw zagranicznych Danii Anders Samuelsen skomentował potrzebę tej roli, mówiąc:

“Ambasador technologii będzie przewodził naszym wysiłkom, aby stworzyć coś więcej niż wszechstronny dialog z szeroką gamą podmiotów technologicznych – firmami, instytucjami badawczymi, krajami, miastami, władzami i organizacjami “.

Mamy nadzieję, że inne kraje pójdą za przykładem Zjednoczonych Emiratów Arabskich i Danii, tworząc wyspecjalizowaną rolę lidera w dziedzinie technologii w rządzie. Pomoże to innym liderom w nadążaniu za najnowszymi osiągnięciami technologicznymi, jednocześnie podejmując kluczowe kwestie, takie jak prywatność, etyczne wykorzystanie i korzyści publiczne.

100 Pytań o A.I. : Jaka jest opinia opinii publicznej na temat sztucznej inteligencji?

Ostatnio słyszałem różnego rodzaju komentarze opinii publicznej dotyczące sztucznej inteligencji. Niektórzy naprawdę się boją, dzięki przerażającym obrazom portretowanym przez Hollywood. Inni są podekscytowani doświadczeniem postępów w ochronie zdrowia dzięki technologiom sztucznej inteligencji. Jeszcze inni są niezainteresowani i wydaje się, że nie rozumieją, jak szybko i głęboko AI wpłynie na ich życie. W przeważającej części opinia publiczna nie zdaje sobie sprawy z postępu w sztucznej inteligencji i odpowiednich technologiach, zwłaszcza jeśli chodzi o sposoby, w jakie narzędzia te zmienią społeczeństwo. To jeden z powodów, dla których czułem się zmuszony do napisania tej książki. Jedno z ostatnich badań przeprowadzonych w Wielkiej Brytanii przez Royal Society miało na celu poznanie opinii publicznej na temat uczenia maszynowego. Spośród pytanych większość respondentów była przynajmniej świadoma tego terminu. Badanie wykazało, że największą obawą ogółu społeczeństwa związaną z uczeniem maszynowym jest posiadanie tych narzędzi w domach i samochodach. Ponieważ są to miejsca, w których większość ludzi odczuwa obecnie wysoki poziom prywatności, łatwo zrozumieć, skąd się bierze ta obawa. Ponieważ zaawansowane technologie AI stają się coraz bardziej obecne w domach i samochodach, ludzie zaczynają zadawać pytania o to, co by się stało, gdyby hakerzy uzyskali dostęp do tych systemów lub gdyby rządy były w stanie monitorować swoje prywatne rozmowy. Tego rodzaju obawy najprawdopodobniej spowodują, że niektóre osoby będą odporne na dodawanie aplikacji opartych na sztucznej inteligencji do ich domów i samochodów, gdy zostaną wydane po raz pierwszy. Badanie wykazało również, że większość społeczeństwa uważa, że przemysł opieki zdrowotnej ma największy potencjał pozytywnych zmian w wyniku postępów w technologii AI. Magazyn Vanity Fair współpracował z programem telewizyjnym CBS 60 minut, aby wziąć udział w ankiecie na ten temat. Wyniki pokazały, że dwie trzecie badanych uważa, że ludzka inteligencja stanowi większe zagrożenie dla ludzkości niż sztuczna inteligencja. Uczestnicy tej ankiety zostali również zapytani, które decyzje najprawdopodobniej przekażą najpierw komputerom. Spośród pytanych 33 procent odpowiedziało, że decyzje dotyczące przejścia na emeryturę będą pierwszymi, które czują się na tyle wygodnie, by przypisać je do komputera. Raport Royal Society podkreślił znaczenie stworzenia środowiska “ostrożnego zarządzania”, aby zapewnić, że korzyści z tych wszystkich nowych technologii sztucznej inteligencji będą szeroko odczuwalne w społeczeństwie. Ogólnie uważam, że jest to solidna inicjatywa, którą należy promować publicznie.

Planowanie z wieloma agentami: Współpraca i koordynacja

Rozważmy teraz prawdziwe ustawienie wieloagentowe, w którym każdy agent tworzy swój własny plan. Na początek załóżmy, że cele i baza wiedzy są wspólne. Można by pomyśleć, że sprowadza się to do przypadku wieloobiektowego — każdy agent po prostu oblicza wspólne rozwiązanie i wykonuje własną część tego rozwiązania. Niestety, „to” we „wspólnym rozwiązaniu” jest mylące. Oto drugi plan, który również osiąga cel:

Jeśli obaj agenci zgodzą się na plan 1 lub plan 2, cel zostanie osiągnięty. Ale jeśli A wybierze plan 2, a B wybierze plan 1, nikt nie odda piłki. I odwrotnie, jeśli A wybierze 1, a B wybierze 2, oboje spróbują uderzyć piłkę i to również się nie powiedzie. Agenci o tym wiedzą, ale jak mogą koordynować, aby upewnić się, że zgadzają się na plan? Jedną z opcji jest przyjęcie konwencji przed podjęciem wspólnej działalności. Konwencja to jakiekolwiek ograniczenie wyboru wspólnych planów. Na przykład konwencja „trzymaj się swojej strony boiska” wykluczałaby plan 1, powodując, że oboje partnerzy wybrali plan 2. Kierowcy na drodze napotykają problem braku kolizji ze sobą; jest to (częściowo) rozwiązane poprzez przyjęcie konwencji „pozostań po prawej stronie drogi” w większości krajów; alternatywa „pozostań po lewej stronie” działa równie dobrze, o ile wszyscy agenci w środowisku się zgadzają. Podobne rozważania odnoszą się do rozwoju ludzkiego języka, gdzie ważne jest nie to, jakim językiem powinna mówić każda jednostka, ale fakt, że cała społeczność mówi tym samym językiem. Kiedy konwencje są szeroko rozpowszechnione, nazywa się je prawami społecznymi. W przypadku braku konwencji agenci mogą wykorzystywać komunikację do osiągania wspólnej znajomości wykonalnego wspólnego planu. Na przykład tenisista może krzyknąć „Moje!” lub „Pozdrawiam!” wskazać preferowany wspólny plan. Komunikacja niekoniecznie wiąże się z wymianą werbalną. Na przykład jeden gracz może przekazać drugiemu preferowany wspólny plan, po prostu wykonując jego pierwszą część. Jeśli agent A kieruje się do siatki, agent B jest zobowiązany do powrotu do linii bazowej, aby uderzyć piłkę, ponieważ plan 2 jest jedynym wspólnym planem, który zaczyna się od tego, że A zmierza do siatki. Takie podejście do koordynacji, czasami nazywane rozpoznawaniem planu, sprawdza się, gdy pojedyncze działanie (lub krótka sekwencja działań) jednego agenta wystarcza, aby drugi jednoznacznie określił wspólny plan.

100 Pytań o A.I.: Czy sztuczna inteligencja może nam pomóc osiągnąć pokój na świecie?

Ze wszystkich zastosowań, w których można zastosować technologie sztucznej inteligencji, być może jedną z najbardziej skomplikowanych i ważnych jest osiągnięcie pokoju na świecie. Przez ostatnie 30 lat fiński profesor Timo Honkela badał sztuczną inteligencję i uczenie maszynowe, koncentrując się na sposobach, w jakie AI może służyć ludzkości i pomóc nam osiągnąć bardziej pokojowy świat. W szczególności pracował nad stworzeniem opartej na sztucznej inteligencji “maszyny pokoju”, która byłaby wykorzystywana do zapewnienia harmonii i zrozumienia pośród konfliktów międzynarodowych. Niedawno zacytowano Honkela:

“Maszyny i sztuczna inteligencja nie mogą zastąpić ludzi, ale mogą zapewnić wiedzę, możliwości i wsparcie procesów pokojowych. Procesy te często polegają na zrozumieniu języka, kultury i marginalizacji “.

Honkela podkreśla, że prawdziwe rozumienie języka i kultury opiera się na dwóch pytaniach:

1. Jak możemy lepiej zrozumieć innych? Nawet gdy mówimy tym samym językiem, jedno słowo może mieć różne znaczenie lub konotacje w rozmowie między dwojgiem ludzi. Pomyśl na przykład, co dla ciebie oznacza słowo “sprawiedliwość” lub “sprawiedliwość”. Jakie uprzedzenia wprowadzasz do języka na podstawie swoich doświadczeń? Sztuczna inteligencja może pomóc nam przezwyciężyć przeszkody w komunikacji, oferując rekomendacje lub wskazówki, gdy mówimy coś, co można potencjalnie zrozumieć na wiele sposobów.

2. Jak możemy rozwiązać konflikty o bardzo emocjonalnym charakterze? W wielu przypadkach nasze wcześniejsze doświadczenia emocjonalne mogą wpływać na sposób, w jaki możemy zareagować na określoną sytuację. Często jesteśmy całkowicie nieświadomi bagażu emocjonalnego, który wnosimy do naszych rozmów i relacji, co utrudnia nam rozpoznanie, kiedy nie komunikujemy się odpowiednio. W takich przypadkach narzędzia AI mogą oferować zalecenia dotyczące sposobów rozpoznawania i radzenia sobie z naszymi emocjami, co pozwala nam skuteczniej reagować. Chociaż Honkela zdaje sobie sprawę, że nigdy nie będzie idealnego narzędzia napędzanego sztuczną inteligencją, zdolnego do magicznego rozwiązania wszystkich ludzkich konfliktów, nadal ma nadzieję, że jego praca nad stworzeniem “maszyny pokoju” będzie krokiem we właściwym kierunku