Problemy z bandytami były częściowo motywowane zadaniem testowania nowych metod leczenia na ciężko chorych pacjentach. W tym zadaniu cel, jakim jest maksymalizacja całkowitej liczby sukcesów w czasie, ma wyraźnie sens: każdy pomyślny test oznacza uratowane życie, każda porażka to stracone życie. Jeśli jednak nieco zmienimy założenia, pojawia się inny problem. Załóżmy, że zamiast określać najlepszą terapię dla każdego nowego pacjenta, testujemy różne leki na próbkach bakterii, aby zdecydować, który lek jest najlepszy. Następnie wprowadzimy ten lek do produkcji i zrezygnujemy z pozostałych. W tym scenariuszu nie ma dodatkowych kosztów, jeśli bakterie umrą – każdy test ma stały koszt, ale nie musimy minimalizować niepowodzeń testu; raczej staramy się jak najszybciej podjąć dobrą decyzję. Zadanie wyboru najlepszej opcji w tych warunkach nazywa się problemem wyboru. Problemy z selekcją są wszechobecne w kontekście przemysłowym i osobistym. Często trzeba zdecydować, którego dostawcy użyć do procesu; lub jakich kandydatów zatrudnić. Problemy selekcji są powierzchownie podobne do problemu bandytów, ale mają inne właściwości matematyczne. W szczególności nie istnieje funkcja indeksowania dla problemów z selekcją. Dowód tego wymaga pokazania dowolnego scenariusza, w którym optymalna polityka zmienia swoje preferencje dla dwóch ramion M1 i M2 po dodaniu trzeciego ramienia M3.
Pprzedstawiono koncepcję problemów decyzyjnych na metapoziomie, takich jak podejmowanie decyzji, jakie obliczenia należy wykonać podczas przeszukiwania drzewa gry przed wykonaniem ruchu. Tego rodzaju decyzja na metapoziomie jest również problemem selekcji, a nie problemem bandytów. Oczywiście rozbudowa lub ocena węzła kosztuje tyle samo czasu, niezależnie od tego, czy generuje wysoką, czy niską wartość wyjściową. Być może jest więc zaskakujące, że algorytm przeszukiwania drzewa Monte Carlo okazał się tak skuteczny, biorąc pod uwagę, że próbuje rozwiązać problemy z selekcją za pomocą heurystyki UCB, która została zaprojektowana z myślą o problemach bandytów. Ogólnie rzecz biorąc, oczekuje się, że optymalne algorytmy bandytów zbadają znacznie mniej niż optymalne algorytmy selekcji, ponieważ algorytm bandytów zakłada, że nieudana próba kosztuje prawdziwe pieniądze. Ważnym uogólnieniem procesu bandytów jest superproces bandytów lub BSP, w którym każde ramię jest pełnym procesem decyzyjnym Markowa, a nie procesem nagradzania Markowa z tylko jednym możliwym działaniem. Wszystkie inne właściwości pozostają takie same: ramiona są niezależne, można pracować tylko nad jedną (lub ograniczoną liczbą) na raz i istnieje jeden czynnik dyskontowy. Przykłady BSP obejmują życie codzienne, w którym można zająć się jednym zadaniem na raz, nawet jeśli kilka zadań może wymagać uwagi; zarządzanie projektami z wieloma projektami; nauczanie z wieloma uczniami wymagającymi indywidualnego doradztwa; i tak dalej. Powszechnym określeniem jest wielozadaniowość. Jest tak wszechobecny, że ledwo zauważalny: formułując rzeczywisty problem decyzyjny, analitycy decyzyjni rzadko pytają, czy ich klient ma inne, niezwiązane problemy.
Można rozumować w następujący sposób: „Jeżeli istnieje n rozłącznych MDP, to jest oczywiste, że optymalna ogólna polityka jest budowana z optymalnych rozwiązań poszczególnych MDP. Biorąc pod uwagę swoją optymalną politykę πi, każdy MDP staje się procesem nagrody Markowa, w którym w każdym stanie s występuje tylko jedno działanie πi(s). Dlatego sprowadziliśmy superproces n-uzbrojonych bandytów do procesu zbrojnych bandytów”. Na przykład, jeśli deweloper ma do wybudowania jedną ekipę budowlaną i kilka centrów handlowych, to wydaje się po prostu zdrowym rozsądkiem, że należy opracować optymalny plan budowy dla każdego centrum handlowego, a następnie rozwiązać problem bandytów, aby zdecydować, dokąd wysłać załogi każdego dnia. Choć brzmi to bardzo wiarygodnie, jest niepoprawne. W rzeczywistości globalnie optymalna polityka dla BSP może obejmować działania, które są lokalnie suboptymalne z punktu widzenia składowej MDP, w której są podejmowane. Powodem tego jest to, że dostępność innych MDP, w których można działać, zmienia równowagę między krótkoterminowymi i długoterminowymi nagrodami w komponencie MDP. W rzeczywistości prowadzi to do bardziej chciwego zachowania w każdym MDP (poszukiwanie krótkoterminowych nagród) ponieważ dążenie do długoterminowej nagrody w jednym MDP opóźniłoby nagrody we wszystkich innych MDP. Załóżmy na przykład, że w lokalnie optymalnym harmonogramie budowy jednego centrum handlowego pierwszy sklep będzie dostępny do wynajęcia do 15 tygodnia, podczas gdy harmonogram nieoptymalny kosztuje więcej, ale pierwszy sklep będzie dostępny do 5 tygodnia. lepiej zastosować lokalnie nieoptymalny harmonogram w każdym z nich, aby czynsze zaczęły przychodzić w tygodniach 5, 10, 15 i 20, a nie w tygodniach 15, 30, 45 i 60. Innymi słowy, co byłoby tylko 10 -tygodniowe opóźnienie dla pojedynczego MDP zamienia się w 40-tygodniowe opóźnienie dla czwartego MDP. Ogólnie rzecz biorąc, globalnie i lokalnie optymalne polityki z konieczności pokrywają się tylko wtedy, gdy współczynnik dyskontowy wynosi 1; w takim przypadku nie ma żadnych kosztów opóźnienia nagród w jakimkolwiek MDP. Kolejne pytanie brzmi, jak rozwiązywać BSP. Oczywiście, globalnie optymalne rozwiązanie dla BSP można obliczyć, przekształcając je w globalny MDP w przestrzeni stanów produktu kartezjańskiego. Liczba stanów byłaby wykładnicza w liczbie ramion BSP, więc byłoby to horrendalnie niepraktyczne. Zamiast tego możemy wykorzystać luźny charakter interakcji między ramionami. Ta interakcja wynika tylko z ograniczonej zdolności agenta do jednoczesnego zajmowania się ramionami. Do pewnego stopnia interakcję można modelować za pomocą pojęcia kosztu alternatywnego: ile użyteczności traci się na krok czasowy, nie poświęcając tego kroku czasowego innej gałęzi. Im wyższy koszt alternatywny, tym bardziej konieczne jest generowanie wczesnych nagród w danej odmianie. W niektórych przypadkach koszt alternatywny nie ma wpływu na optymalną politykę w danej gałęzi. (Zwykle jest to prawdą w procesie nagradzania Markowa, ponieważ istnieje tylko jedna polityka.) W takim przypadku można zastosować optymalną politykę, przekształcając to ramię w proces nagradzania Markowa. Taka optymalna polityka, jeśli istnieje, nazywana jest polityką dominującą. Okazuje się, że dodając akcje do stanów, zawsze można stworzyć rozluźnioną wersję MDP (patrz rozdział 3.6.2), aby miała dominującą politykę, co w ten sposób daje górną granicę wartości działania w ramię. Dolną granicę można obliczyć, rozwiązując każdą odmianę osobno (co może dać ogólnie nieoptymalną politykę), a następnie obliczając indeksy Gittinsa. Jeśli dolna granica działania w jednym ramieniu jest wyższa niż górna granica dla wszystkich innych działań, problem jest rozwiązany; jeśli nie, to połączenie wyszukiwania z wyprzedzeniem i ponownego obliczania granic gwarantuje ostatecznie zidentyfikowanie optymalnej polityki dla BSP. Dzięki takiemu podejściu stosunkowo duże BSP (1040 stanów lub więcej) można rozwiązać w kilka sekund.