Zastanów się ponownie nad planem dojazdu na lotnisko A90. Załóżmy, że daje nam to 97% szans na złapanie naszego lotu. Czy to oznacza, że jest to racjonalny wybór? Niekoniecznie: mogą istnieć inne plany, takie jak A180, z wyższym prawdopodobieństwem. Jeśli ważne jest, aby nie spóźnić się na lot, warto zaryzykować dłuższe oczekiwanie na lotnisku. A co z A1440, planem, który zakłada opuszczenie domu z 24-godzinnym wyprzedzeniem? W większości przypadków nie jest to dobry wybór, bo choć niemal gwarantuje dotarcie na czas, wiąże się z niemożliwym do zniesienia oczekiwaniem – nie mówiąc już o prawdopodobnie nieprzyjemnej diecie w postaci jedzenia na lotnisku. Aby dokonać takich wyborów, agent musi najpierw mieć preferencje wśród różnych możliwych wyników różnych planów. Efektem jest całkowicie określony stan, uwzględniający takie czynniki jak przybycie agenta na czas oraz długość oczekiwania na lotnisku. Używamy teorii użyteczności do reprezentowania preferencji i rozumowania za ich pomocą ilościowo. (Termin użyteczność jest tutaj używany w znaczeniu „jakość bycia użytecznym”, a nie w znaczeniu przedsiębiorstwa elektrycznego lub wodociągowego). Teoria użyteczności mówi, że każdy stan (lub sekwencja stanów) ma pewien stopień użyteczności lub użyteczności dla agenta i że agent będzie preferował stany o wyższej użyteczności. Użyteczność państwa zależy od agenta. Na przykład użyteczność stanu, w którym biały zamatował czarnego w grze w szachy, jest oczywiście wysoka dla agenta grającego białymi, ale niska dla agenta grającego czarnymi. Ale nie możemy kierować się wyłącznie wynikami 1, 1/2 i 0, które są podyktowane zasadami turniejowych szachów – niektórzy gracze (w tym autorzy) mogą być zachwyceni remisem z mistrzem świata, podczas gdy inni ( w tym byłego mistrza świata) może nie. Nie bierze się pod uwagę gustu ani preferencji: można by pomyśleć, że agent, który woli lody z gumą do żucia jalapeño od kawałka czekolady, jest dziwny, ale nie można powiedzieć, że agent jest irracjonalny. Funkcja użyteczności może odpowiadać za dowolny zestaw preferencji — dziwacznych lub typowych, szlachetnych lub perwersyjnych. Zwróć uwagę, że przedsiębiorstwa użyteczności publicznej mogą wyjaśniać altruizm, po prostu włączając dobro innych jako jeden z czynników. Preferencje, wyrażone przez użyteczności, są połączone z prawdopodobieństwami w ogólnej teorii racjonalnych decyzji zwanej teorią decyzji:
Fundamentalną ideą teorii decyzji jest to, że podmiot jest racjonalny wtedy i tylko wtedy, gdy wybiera działanie, które daje najwyższą oczekiwaną użyteczność, uśrednioną względem wszystkich możliwych skutków działania. Nazywa się to zasadą maksymalnej oczekiwanej użyteczności (MEU). W tym przypadku „oczekiwany” oznacza „średnią” lub „średnią statystyczną” użyteczności wyniku, ważoną prawdopodobieństwem wyniku. Widzieliśmy tę zasadę w działaniu, kiedy pokrótce poruszyliśmy temat optymalnych decyzji w tryktraku; jest to w rzeczywistości całkowicie ogólna zasada podejmowania decyzji przez jednego agenta. Rysunek przedstawia strukturę agenta, który wykorzystuje teorię decyzji do wybierania działań.
Agent jest identyczny, na abstrakcyjnym poziomie, z agetami które utrzymują stan przekonań odzwierciedlający dotychczasową historię percepcji. Podstawowa różnica polega na tym, że stan przekonań podmiotu podejmującego teorię decyzji reprezentuje nie tylko możliwości stanów świata, ale także ich prawdopodobieństwa. Biorąc pod uwagę stan przekonania i pewną wiedzę o skutkach działań, agent może dokonać probabilistycznych przewidywań wyników działania, a tym samym wybrać działanie o najwyższej oczekiwanej użyteczności.
Skoncentrujemy się na ogólnym zadaniu przedstawiania i obliczania z wykorzystaniem informacji probabilistycznych. Zajmiemy się metodami wykonywania konkretnych zadań przedstawiania i aktualizowania stanu przekonań w czasie oraz przewidywania wyników. Przyjrzymy się sposobom łączenia teorii prawdopodobieństwa z ekspresyjnymi językami formalnymi, takimi jak logika pierwszego rzędu i języki programowania ogólnego przeznaczenia. Bardziej szczegółowo omówmiy teorię użyteczności, i rozwiiemy algorytmy planowania sekwencji działań w środowiskach stochastycznych. Obejmiemy rozszerzenie tych pomysłów na środowiska wieloagentowe.