Ludzie jako w przybliżeniu racjonalni agenci

https://aie24.pl/

Jednym ze sposobów sformułowania koordynacji z człowiekiem jest modelowanie jej jako gry między robotem a człowiekiem. Dzięki takiemu podejściu wyraźnie zakładamy, że ludzie są podmiotami motywowanymi przez cele. Nie oznacza to automatycznie, że są całkowicie racjonalnymi agentami (tj. znajdują optymalne rozwiązania w grze), ale oznacza to, że robot może ustrukturyzować sposób, w jaki rozumuje o człowieku, poprzez pojęcie możliwych celów, które człowiek może mieć. W tej grze:

  • stan środowiska rejestruje konfiguracje zarówno robota, jak i ludzkich agentów; nazwijmy to x = (xR;,xH);
  • każdy agent może podejmować działania, odpowiednio uR i uH;
  • każdy agent ma cel, który można przedstawić jako koszt, JR i JH: każdy agent chce bezpiecznie i skutecznie dotrzeć do celu;
  • i, jak w każdej grze, każdy cel zależy od stanu i działań obu agentów: JR(x,uR,uH) i JH(x,uH,uR). Pomyśl o interakcji samochód-pieszy – samochód powinien się zatrzymać, gdy pieszy przechodzi, i powinien jechać do przodu, jeśli pieszy czeka.

Trzy ważne aspekty komplikują tę grę. Po pierwsze, człowiek i robot niekoniecznie znają swoje cele. To sprawia, że ​​jest to niepełna gra informacyjna. Po drugie, przestrzenie stanów i akcji są ciągłe, tak jak było w tym rozdziale. W rozdziale 6 dowiedzieliśmy się, jak przeszukiwać drzewa, aby poradzić sobie z dyskretnymi grami, ale jak radzić sobie z ciągłymi przestrzeniami? Po trzecie, nawet jeśli na wysokim poziomie model gry ma sens – ludzie się poruszają i mają cele – ludzkie zachowanie nie zawsze może być dobrze scharakteryzowane jako rozwiązanie w grze. Gra zawiera wyzwanie obliczeniowe nie tylko dla robota, ale także dla nas, ludzi. Wymaga zastanowienia się nad tym, co zrobi robot w odpowiedzi na to, co robi dana osoba, co zależy od tego, co według robota ta osoba zrobi, i wkrótce dochodzimy do „co myślisz, myślę, że myślisz, że myślę” – są to żółwie aż do samego dołu! Ludzie nie potrafią sobie z tym wszystkim poradzić i wykazują pewne suboptymalności. Oznacza to, że robot powinien uwzględniać te suboptymalności. Co zatem ma zrobić samochód autonomiczny, gdy problem z koordynacją jest tak trudny? Zrobimy coś podobnego do tego, co robiliśmy wcześniej w tym rozdziale. Do planowania i sterowania ruchem wzięliśmy MDP i podzieliliśmy go na planowanie trajektorii, a następnie śledzenie jej za pomocą kontrolera. Tutaj również weźmiemy grę i podzielimy ją na przewidywania dotyczące ludzkich działań i decydowanie, co robot powinien zrobić, biorąc pod uwagę te przewidywania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *