Prognozy ludzkie dotyczące robota

https://aie24.pl/

Niepełne informacje są często dwustronne: robot nie zna celu człowieka, a człowiek z kolei nie zna celu robota — ludzie muszą przewidywać roboty. Jako projektanci robotów nie jesteśmy odpowiedzialni za to, jak człowiek dokonuje przewidywań; możemy jedynie kontrolować to, co robi robot. Jednak robot może działać w taki sposób, aby ułatwić człowiekowi dokonywanie poprawnych prognoz. Robot może założyć, że człowiek używa czegoś z grubsza analogicznego do równania (26.8) do oszacowania celu JR robota, a zatem robot będzie działał tak, aby jego prawdziwy cel można było łatwo wywnioskować. Szczególnym przypadkiem w grze jest sytuacja, w której człowiek i robot są w tej samej drużynie, pracując nad tym samym celem lub zamierzeniem: JH = JR. Wyobraź sobie osobistego robota domowego, który pomaga przygotować obiad lub posprzątać – to przykłady współpracy. Możemy teraz zdefiniować wspólnego agenta, którego działania są krotkami działań człowieka i robota (uH;uR) i który optymalizuje dla JH(x,uH,uR) = JR(x,uR,uH) i rozwiązujemy regularny problem z planowaniem. Obliczamy optymalny plan lub politykę dla wspólnego agenta i voila, teraz wiemy, co powinien zrobić robot i człowiek. To działałoby naprawdę dobrze, gdyby ludzie byli idealnie optymalni. Robot wykonałby swoją część wspólnego planu, a człowiek swoją. Niestety w praktyce wydaje się, że ludzie nie stosują się do perfekcyjnie opracowanego planu wspólnego agenta; mają własny umysł! Nauczyliśmy się już jednak jednego sposobu radzenia sobie z tym, w sekcji 26.6. Nazywaliśmy to sterowaniem predykcyjnym modelu (MPC): chodziło o opracowanie planu, wykonanie pierwszego działania, a następnie ponowne zaplanowanie. W ten sposób robot zawsze dostosowuje swój plan do tego, co faktycznie robi człowiek. Przeanalizujmy przykład. Załóżmy, że ty i robot jesteście w kuchni i zdecydowaliście się zrobić gofry. Jesteś nieco bliżej lodówki, więc optymalny plan połączenia polegałby na tym, że zabierasz jajka i mleko z lodówki, podczas gdy robot pobiera mąkę z szafki. Robot wie o tym, ponieważ może dość dokładnie zmierzyć, gdzie wszyscy się znajdują. Ale przypuśćmy, że zaczniesz iść do szafki z mąką. Sprzeciwiasz się optymalnemu wspólnemu planowi. Zamiast trzymać się tego i uparcie sięgać po mąkę, robot MPC przelicza optymalny plan, a teraz, gdy jesteś wystarczająco blisko mąki, najlepiej, aby robot zamiast tego chwycił gofrownicę. Jeśli wiemy, że ludzie mogą odejść od optymalności, możemy to rozliczyć z wyprzedzeniem. W naszym przykładzie robot może spróbować przewidzieć, że idziesz po mąkę w momencie, gdy zrobisz pierwszy krok (powiedzmy, używając powyższej techniki przewidywania). Nawet jeśli technicznie optymalne jest dla Ciebie odwrócenie się i udanie się do lodówki, robot nie powinien zakładać, że tak się stanie. Zamiast tego robot może obliczyć plan, w którym nadal robisz to, czego chcesz.

Przewidywanie ludzkich działań

https://aie24.pl/

Przewidywanie ludzkich działań jest trudne, ponieważ zależą one od działań robota i odwrotnie. Jedną ze sztuczek stosowanych przez roboty jest udawanie, że osoba ignoruje robota. Robot zakłada, że ludzie są hałaśliwie optymalni w stosunku do celu, który jest dla robota nieznany i jest modelowany jako niezależność od działań robota: JH(x;uH). W szczególności, im wyższa wartość działania dla celu (im niższy koszt do wykonania), tym większe prawdopodobieństwo, że człowiek je podejmie. Robot może stworzyć model dla P(uH | x,JH), na przykład za pomocą funkcji softmax :

z Q(x,uH , JH) funkcja wartości Q odpowiadająca JH (znak ujemny jest obecny, ponieważ w robotyce lubimy minimalizować koszty, a nie maksymalizować nagrodę). Zwróć uwagę, że robot nie zakłada idealnie optymalnych działań ani nie zakłada, że działania są wybierane na podstawie rozumowania na temat robota. Uzbrojony w ten model robot wykorzystuje bieżące działania człowieka jako dowód istnienia JH. Jeśli mamy model obserwacji, w jaki sposób ludzkie działania zależą od celu człowieka, każde ludzkie działanie można włączyć, aby zaktualizować przekonanie robota o tym, jaki cel ma dana osoba:

Przykład znajduje się na rysunku

: robot śledzi lokalizację człowieka, a gdy człowiek się porusza, robot aktualizuje swoje przekonanie o ludzkich celach. Gdy człowiek kieruje się w stronę okien, robot zwiększa prawdopodobieństwo, że celem jest wyjrzenie przez okno, a zmniejsza prawdopodobieństwo, że cel idzie do kuchni, która jest w przeciwnym kierunku. W ten sposób przeszłe działania człowieka informują robota o tym, co człowiek zrobi w przyszłości. Przekonanie o celu człowieka pomaga robotowi przewidzieć, jakie następne działania podejmie człowiek. Mapa cieplna na rysunku pokazuje przyszłe przewidywania robota: kolor czerwony jest najbardziej prawdopodobny; niebieski najmniej prawdopodobne.

To samo może się zdarzyć podczas jazdy. Możemy nie wiedzieć, jak bardzo inny kierowca ceni efektywność, ale jeśli widzimy, jak przyspiesza, gdy ktoś próbuje się przed nim połączyć, teraz wiemy o nim nieco więcej. A kiedy już o tym wiemy, możemy lepiej przewidzieć, co zrobią w przyszłości — ten sam kierowca prawdopodobnie podjedzie bliżej lub przemykać przez ruch uliczny, aby wyprzedzić. Gdy robot może przewidywać przyszłe działania człowieka, zredukował swój problem do rozwiązania MDP. Działania człowieka komplikują funkcję przejścia, ale dopóki robot może przewidzieć, jakie działanie odejmie dana osoba z dowolnego przyszłego stanu, robot może obliczyć P(x’ | x ,uR): może obliczyć P(uH | x) z P(uH | x,JH) przez marginalizację nad JH i połącz ją z P(x’ | x,uR,uH), funkcją przejścia (dynamiki) dla tego, jak świat aktualizuje się w oparciu o działania zarówno robota, jak i człowieka.  Oddzielenie przewidywania od działania ułatwia robotowi obsługę interakcji, ale poświęca wydajność w takim stopniu, jak oddzielenie oceny od ruchu lub oddzielenie planowania od kontroli. Robot z takim podziałem nie rozumie już, że jego działania mogą wpływać na to, co ludzie robią. W przeciwieństwie do tego robot na rysunku powyżej przewiduje, dokąd pójdą ludzie, a następnie optymalizuje, aby osiągnąć swój cel i uniknąć kolizji z nimi. Na rysunku

mamy autonomiczny samochód łączący się na autostradzie. Jeśli planował tylko w odpowiedzi na inne samochody, być może będzie musiał długo czekać, podczas gdy inne samochody zajmą jego docelowy pas. W przeciwieństwie do tego, samochód, który uzasadnia przewidywanie i działanie, wie, że różne działania, które może podjąć, spowodują różne reakcje człowieka. Jeśli zacznie się umacniać, inne samochody prawdopodobnie nieco zwolnią i zrobią miejsce. Robotycy pracują nad skoordynowanymi interakcjami w ten sposób, aby roboty mogły lepiej współpracować z ludźmi.

Ludzie jako w przybliżeniu racjonalni agenci

https://aie24.pl/

Jednym ze sposobów sformułowania koordynacji z człowiekiem jest modelowanie jej jako gry między robotem a człowiekiem. Dzięki takiemu podejściu wyraźnie zakładamy, że ludzie są podmiotami motywowanymi przez cele. Nie oznacza to automatycznie, że są całkowicie racjonalnymi agentami (tj. znajdują optymalne rozwiązania w grze), ale oznacza to, że robot może ustrukturyzować sposób, w jaki rozumuje o człowieku, poprzez pojęcie możliwych celów, które człowiek może mieć. W tej grze:

  • stan środowiska rejestruje konfiguracje zarówno robota, jak i ludzkich agentów; nazwijmy to x = (xR;,xH);
  • każdy agent może podejmować działania, odpowiednio uR i uH;
  • każdy agent ma cel, który można przedstawić jako koszt, JR i JH: każdy agent chce bezpiecznie i skutecznie dotrzeć do celu;
  • i, jak w każdej grze, każdy cel zależy od stanu i działań obu agentów: JR(x,uR,uH) i JH(x,uH,uR). Pomyśl o interakcji samochód-pieszy – samochód powinien się zatrzymać, gdy pieszy przechodzi, i powinien jechać do przodu, jeśli pieszy czeka.

Trzy ważne aspekty komplikują tę grę. Po pierwsze, człowiek i robot niekoniecznie znają swoje cele. To sprawia, że ​​jest to niepełna gra informacyjna. Po drugie, przestrzenie stanów i akcji są ciągłe, tak jak było w tym rozdziale. W rozdziale 6 dowiedzieliśmy się, jak przeszukiwać drzewa, aby poradzić sobie z dyskretnymi grami, ale jak radzić sobie z ciągłymi przestrzeniami? Po trzecie, nawet jeśli na wysokim poziomie model gry ma sens – ludzie się poruszają i mają cele – ludzkie zachowanie nie zawsze może być dobrze scharakteryzowane jako rozwiązanie w grze. Gra zawiera wyzwanie obliczeniowe nie tylko dla robota, ale także dla nas, ludzi. Wymaga zastanowienia się nad tym, co zrobi robot w odpowiedzi na to, co robi dana osoba, co zależy od tego, co według robota ta osoba zrobi, i wkrótce dochodzimy do „co myślisz, myślę, że myślisz, że myślę” – są to żółwie aż do samego dołu! Ludzie nie potrafią sobie z tym wszystkim poradzić i wykazują pewne suboptymalności. Oznacza to, że robot powinien uwzględniać te suboptymalności. Co zatem ma zrobić samochód autonomiczny, gdy problem z koordynacją jest tak trudny? Zrobimy coś podobnego do tego, co robiliśmy wcześniej w tym rozdziale. Do planowania i sterowania ruchem wzięliśmy MDP i podzieliliśmy go na planowanie trajektorii, a następnie śledzenie jej za pomocą kontrolera. Tutaj również weźmiemy grę i podzielimy ją na przewidywania dotyczące ludzkich działań i decydowanie, co robot powinien zrobić, biorąc pod uwagę te przewidywania.

Koordynacja

https://aie24.pl/

Załóżmy na razie, tak jak do tej pory, że robot ma dostęp do jasno określonej funkcji nagrody. Ale zamiast optymalizować go w izolacji, teraz robot musi zoptymalizować go wokół człowieka, który również działa. Na przykład, gdy samochód autonomiczny wjeżdża na autostradę, musi negocjować manewr z kierowcą jadącym na docelowym pasie – czy powinien przyspieszać i łączyć się z przodu, czy zwalniać i łączyć się z tyłu? Później, jak ciągnie do znaku stopu, szykując się do skręcenia w prawo, musi uważać na rowerzystę na ścieżce rowerowej i pieszego, który ma wejść na przejście dla pieszych. Albo rozważ robota mobilnego w korytarzu. Ktoś zmierzający prosto w stronę robota podchodzi lekko w prawo, wskazując, po której stronie robota chce przejść. Robot musi odpowiedzieć, wyjaśniając swoje zamiary.

Ludzie i Roboty

https://aie24.pl/

Do tej pory skupialiśmy się na planowaniu robota i uczeniu się, jak działać w odosobnieniu. Jest to przydatne w przypadku niektórych robotów, takich jak łaziki, które wysyłamy, aby w naszym imieniu badały odległe planety. Ale w większości nie budujemy robotów do pracy w izolacji. Budujemy je, aby nam pomagały, oraz do pracy w środowisku ludzkim, wokół nas i z nami. Rodzi to dwa uzupełniające się wyzwania. Pierwszym z nich jest optymalizacja nagrody, gdy są ludzie działający w tym samym środowisku co robot. Nazywamy to problemem koordynacji . Kiedy nagroda robota zależy nie tylko od jego własnych działań, ale także od działań podejmowanych przez ludzi, robot musi wybrać swoje działania w sposób, który dobrze współgra z ich działaniami. Kiedy człowiek i robot są w tym samym zespole, zamienia się to we współpracę. Po drugie, wyzwanie polega na optymalizacji pod kątem tego, czego ludzie naprawdę chcą. Jeśli robot ma pomagać ludziom, jego funkcja nagradzania musi zachęcać do działań, które ludzie chcą, aby robot wykonywał. Ustalenie właściwej funkcji (lub polityki) nagrody dla robota samo w sobie jest problemem interakcji. Po kolei zbadamy te dwa wyzwania.

Wykorzystywanie innych informacji

https://aie24.pl/

Modele są przydatne, ale możemy zrobić więcej, aby jeszcze bardziej zmniejszyć złożoność próbki. Konfigurując problem uczenia się przez wzmacnianie, musimy wybrać przestrzeń stanu i działania, reprezentację funkcji polityki lub wartości oraz funkcję nagrody, której używamy. Decyzje te mają duży wpływ na to, jak łatwo lub jak ciężko rozwiązujemy problem. Jednym z podejść jest użycie prymitywów ruchu wyższego poziomu zamiast czynności niskiego poziomu, takich jak polecenia momentu obrotowego. Prymityw ruchu to sparametryzowana umiejętność robota. Na przykład robo-piłkarz może mieć umiejętność „podania piłki do gracza w (x,y)”. Wszystko, co musi zrobić polityka, to wymyślić, jak je połączyć i ustawić ich parametry, zamiast wymyślać je na nowo. Takie podejście często uczy się znacznie szybciej niż podejścia niskopoziomowe, ale ogranicza przestrzeń możliwych zachowań, których robot może się nauczyć. Innym sposobem na zmniejszenie liczby próbek rzeczywistych wymaganych do uczenia się jest ponowne wykorzystanie informacji z poprzednich epizodów uczenia się w innych zadaniach, zamiast zaczynania od zera. Podlega to pod parasolem metalearningu lub transferu uczenia się. Wreszcie, ludzie są doskonałym źródłem informacji. W kolejnej części omówimy sposób interakcji z ludźmi, a częścią tego jest wykorzystanie ich działań do kierowania procesem uczenia się robota.

Wykorzystywanie modeli

https://aie24.pl/

Naturalnym sposobem na uniknięcie potrzeby posiadania wielu próbek z prawdziwego świata jest wykorzystanie jak największej wiedzy o dynamice świata. Na przykład możemy nie wiedzieć dokładnie, jaki jest współczynnik tarcia lub masa obiektu, ale możemy mieć równania opisujące dynamikę jako funkcję tych parametrów. W takim przypadku atrakcyjne jest uczenie się przez wzmacnianie w oparciu o model , w którym robot może naprzemiennie dopasowywać parametry dynamiki i obliczać lepszą politykę. Nawet jeśli równania są nieprawidłowe, ponieważ nie modelują każdego szczegółu fizyki, naukowcy eksperymentowali z uczeniem się terminu błędu, oprócz parametrów, które mogą zrekompensować niedokładność modelu fizycznego. Lub możemy porzucić równania i zamiast tego dopasować lokalnie liniowe modele świata, z których każdy przybliża dynamikę w regionie przestrzeni stanów, podejście, które odniosło sukces w zmuszaniu robotów do opanowania złożonych zadań dynamicznych, takich jak żonglerka. Model świata może być również przydatny w zmniejszeniu złożoności próbki metod uczenia się przez wzmacnianie bez modelu poprzez transfer z symulacji do rzeczywistości: przenoszenie zasad działających w symulacji do świata rzeczywistego. Pomysł polega na wykorzystaniu modelu jako symulatora do wyszukiwania polityki (sekcja 23.5). Aby nauczyć się polityki, która dobrze się przenosi, możemy dodać szum do modelu podczas szkolenia, dzięki czemu polityka będzie bardziej solidna. Możemy też wytrenować zasady, które będą działać z różnymi modelami, próbując w symulacjach różne parametry — czasami określane jako randomizacja domeny. Przykładem jest rysunek 26.26, gdzie zadanie zręcznej manipulacji jest ćwiczone w symulacji poprzez różne atrybuty wizualne, a także atrybuty fizyczne, takie jak tarcie lub tłumienie. Wreszcie, podejścia hybrydowe, które zapożyczają pomysły zarówno z algorytmów opartych na modelach, jak i algorytmów bezmodelowych, mają dać nam to, co najlepsze z obu. Podejście hybrydowe wywodzi się z architektury Dyna, w której ideą było iterowanie między działaniem a ulepszaniem polityki, ale ulepszenie polityki miałoby nastąpić na dwa uzupełniające się sposoby: 1) standardowy, pozbawiony modelu sposób wykorzystania doświadczenia do bezpośredniej aktualizacji polityki oraz 2) oparty na modelu sposób wykorzystania doświadczenia w celu dopasowania do modelu, a następnie zaplanuj wraz z nim wygenerowanie polityki. Nowsze techniki eksperymentowały z dopasowywaniem lokalnych modeli, łączeniem się z nimi w celu generowania działań i wykorzystywaniem tych działań jako nadzoru w celu dopasowania polityki, a następnie iteracji w celu uzyskania coraz lepszych modeli wokół obszarów, których polityka potrzebuje. Zostało to z powodzeniem zastosowane w uczeniu od końca do końca, gdzie polityka przyjmuje piksele jako dane wejściowe i bezpośrednio generuje momenty obrotowe jako działania — umożliwiło to pierwszą demonstrację głębokiego RL na robotach fizycznych. Modele można również wykorzystywać w celu zapewnienia bezpiecznej eksploracji. Uczenie się powoli, ale bezpiecznie może być lepsze niż uczenie się szybko, ale w połowie drogi. Tak więc prawdopodobnie ważniejsze niż zmniejszanie próbek ze świata rzeczywistego jest zmniejszanie próbek ze świata rzeczywistego w niebezpiecznych stanach — nie chcemy, aby roboty spadały z klifów i nie łamały naszych ulubionych kubków lub, co gorsza, zderzały się z przedmiotami i ludźmi . Przybliżony model, z powiązaną z nim niepewnością (na przykład poprzez uwzględnienie zakresu wartości jego parametrów), może kierować eksploracją i nakładać ograniczenia na działania, które robot może podjąć w celu uniknięcia tych niebezpiecznych stanów. Jest to aktywny obszar badań w dziedzinie robotyki i sterowania.

Uczenie się przez wzmacnianie w robotyce

https://aie24.pl/

Do tej pory rozważaliśmy zadania, w których robot ma dostęp do dynamicznego modelu świata. W wielu zadaniach bardzo trudno jest napisać taki model, co stawia nas w domenie uczenia się ze wzmocnieniem (RL). Jednym z wyzwań RL w robotyce jest ciągły charakter przestrzeni stanów i działań, z którymi radzimy sobie albo poprzez dyskretyzację, albo, częściej, przez aproksymację funkcji. Zasady lub funkcje wartości są reprezentowane jako kombinacje znanych przydatnych funkcji lub jako głębokie sieci neuronowe. Sieci neuronowe mogą mapować surowe dane wejściowe bezpośrednio do danych wyjściowych, dzięki czemu w dużej mierze unikają potrzeby inżynierii funkcji, ale wymagają więcej danych. Większym wyzwaniem jest to, że roboty działają w prawdziwym świecie. Widzieliśmy, jak uczenie się ze wzmocnieniem może być wykorzystane do nauki gry w szachy lub Go, grając w symulowane partie. Ale kiedy prawdziwy robot porusza się w prawdziwym świecie, musimy upewnić się, że jego działania są bezpieczne (rzeczy się psują!) i musimy zaakceptować, że postęp będzie wolniejszy niż w symulacji, ponieważ świat nie chce poruszać się szybciej niż jeden sekunda na sekundę. Wiele z tego, co jest interesujące w stosowaniu uczenia ze wzmacnianiem w robotyce, sprowadza się do tego, jak możemy zmniejszyć złożoność próbki w świecie rzeczywistym — liczbę interakcji ze światem fizycznym, których robot potrzebuje, zanim nauczy się, jak wykonać zadanie.

AI : Technologie, Aplikacje i Wyzwania : Streszczenie

https://aie24.pl/

Zapotrzebowanie na sztuczną inteligencję rośnie w społeczeństwie i biznesie. Sztuczna inteligencja jest bardzo ważna i przydatna w dzisiejszym świecie ze względu na kilka możliwości. Rozszerzenie ML, DL może rozwiązywać złożone problemy i pracować na ogromnym zbiorze danych, aby stworzyć kilka nowych scenariuszy biznesowych. Wykładniczy wzrost generowania danych przez urządzenia IoT, możliwości przechowywania w chmurze, wysoka moc obliczeniowa i postępy w uczeniu maszynowym przyczyniły się do wzrostu zapotrzebowania na sztuczną inteligencję. Sztuczna inteligencja zwróciła uwagę branż i organizacji, ale technologia wciąż znajduje się na wczesnym etapie wdrażania. Oczekuje się, że wraz z 5G i IoT sztuczna inteligencja będzie rosła w wielu dziedzinach. W wielkim stopniu zmieni świat, poprawi wydajność wielu sektorów i stworzy usługi o wyższej wartości, które mogą prowadzić do ogólnego rozwoju gospodarczego. W przyszłości technologia sztucznej inteligencji w większym stopniu przyczyni się do wzrostu gospodarczego . Dzisiejszy świat jest całkowicie napędzany przez technologie, takie jak samochody bez kierowcy, automatyzacja, algorytmy odpowiadające na zapytania klientów, zautomatyzowana analiza biznesowa za jednym dotknięciem . Robotyka to jeden z najbardziej obiecujących obszarów sztucznej inteligencji, który w przyszłości dokona rewolucji. Wiadomości o utracie miejsc pracy z powodu wprowadzenia robotów nie są prawdziwe (Sahún i Riocerezo, 2018). Trwają badania w robotyce, aby stworzyć takie roboty, które mogą zachowywać się dokładnie jak ludzie, wchodzić w interakcje jak ludzie i myśleć jak ludzie. Samojezdne samochody nie dają jeszcze 100% zaufania swoim użytkownikom. Technologia sztucznej inteligencji ewoluuje codziennie i oczekuje się, że będzie kształtować przyszłość różnych branż, takich jak transport i logistyka, cyfrowa opieka zdrowotna, finanse i ubezpieczenia. Wykorzystanie DL w sztucznej inteligencji nie zostało jeszcze w pełni zbadane. Sugeruje się zastosowanie technologii w przedsiębiorstwach, automatyzację procesów, skupienie się na doskonaleniu procesów i zadowoleniu klientów. Przyszłość sztucznej inteligencji jest zatem niezwykle obiecująca i wymaga wyszkolonej siły roboczej, która ma kreatywne myślenie i rozumowanie. Głównym celem AI jest zapewnienie wspierają ludzi, zwiększając produktywność i czyniąc pracę szybszą i dokładniejszą. W przyszłości sztuczna inteligencja będzie dla ciebie lepszym przyjacielem i partnerem niż jakikolwiek inny człowiek

Planowanie ruchów niepewnych

https://aie24.pl/

W robotyce niepewność wynika z częściowej obserwowalności otoczenia oraz ze stochastycznych (lub niemodelowanych) skutków działań robota. Błędy mogą również wynikać ze stosowania algorytmów aproksymacyjnych, takich jak filtrowanie cząstek, które nie dają robotowi dokładnego stanu przekonania, nawet jeśli środowisko jest idealnie modelowane. Większość dzisiejszych robotów wykorzystuje do podejmowania decyzji algorytmy deterministyczne, takie jak algorytmy planowania ścieżki z poprzedniej sekcji lub algorytmy wyszukiwania, które zostały wprowadzone w rozdziale 3. Te deterministyczne algorytmy są adaptowane na dwa sposoby: po pierwsze, zajmują się ciągła przestrzeń stanów poprzez przekształcenie jej w przestrzeń dyskretną (na przykład za pomocą wykresów widoczności lub rozkładu komórek). Po drugie, zajmują się niepewnością w nurcie stan, wybierając najbardziej prawdopodobny stan z rozkładu prawdopodobieństwa wygenerowanego przez algorytm estymacji stanu. Takie podejście przyspiesza obliczenia i czyni lepszym nadające się do deterministycznych algorytmów wyszukiwania. W tej sekcji omówimy metody radzenia sobie z niepewnością, które są analogiczne do bardziej złożonych algorytmów wyszukiwania omówionych w rozdziale 4. Po pierwsze, niepewność wymaga polityki, a nie planów deterministycznych. Omówiliśmy już, w jaki sposób kontrola śledzenia trajektorii zamienia plan w politykę kompensującą błędy w dynamice. Czasami jednak, jeśli najbardziej prawdopodobna hipoteza zmienia się wystarczająco, śledzenie planu zaprojektowanego dla innej hipotezy jest zbyt nieoptymalne. W tym miejscu pojawia się ponowne planowanie online: możemy przeliczyć nowy plan w oparciu o nowe przekonanie. Obecnie wiele robotów wykorzystuje technikę zwaną modelową kontrolą predykcyjną (MPC), w której planują krótsze horyzonty czasowe, ale zmieniają plan w każdym kroku czasowym. (W związku z tym MPC jest ściśle powiązany z algorytmami wyszukiwania w czasie rzeczywistym i grania w gry). To skutecznie skutkuje polityką: na każdym kroku uruchamiamy planer i podejmujemy działania pierwsze działanie w planie; jeśli pojawią się nowe informacje lub skończymy nie tam, gdzie się spodziewaliśmy, to w porządku, ponieważ i tak zamierzamy zmienić plan, a to powie nam, co robić dalej. Po drugie, niepewność wymaga działań w zakresie gromadzenia informacji. Gdy weźmiemy pod uwagę tylko posiadane przez nas informacje i na ich podstawie sporządzamy plan (nazywa się to oddzieleniem estymacji od kontroli), skutecznie rozwiązujemy (w przybliżeniu) nowy MDP na każdym kroku, odpowiadający naszemu obecnemu przekonaniu o tym, gdzie jesteśmy i jak działa świat. Ale w rzeczywistości niepewność lepiej oddaje struktura POMDP: jest coś, czego nie obserwujemy bezpośrednio, czy to lokalizacja robota lub konfiguracja, położenie obiektów na świecie, czy parametry samego modelu dynamiki — na przykład gdzie dokładnie jest środek masy ogniwa drugiego na tym ramieniu? To, co tracimy, gdy nie rozwiązujemy POMDP, to zdolność wnioskowania o przyszłych informacjach, które robot otrzyma: w MDP planujemy tylko z tym, co wiemy, a nie z tym, co możemy ostatecznie wiedzieć. Pamiętasz wartość informacji? Cóż, roboty, które planują wykorzystać swoje obecne przekonania tak, jakby nigdy więcej się nie dowiedziały, nie uwzględniają wartości Informacji. Nigdy nie podejmą działań, które według tego, co wiedzą, wydają się obecnie nieoptymalne, ale w rzeczywistości przyniosą one wiele informacji i pozwolą robotowi dobrze sobie radzić. Jak wygląda taka akcja dla robota nawigacyjnego? Robot może zbliżyć się do punktu orientacyjnego, aby lepiej oszacować, gdzie się znajduje, nawet jeśli ten punkt orientacyjny jest na uboczu zgodnie z tym, co obecnie wie. To działanie jest optymalne tylko wtedy, gdy robot bierze pod uwagę nowe obserwacje, które otrzyma, w przeciwieństwie do patrzenia tylko na informacje, które już posiada. Aby obejść ten problem, techniki robotyki czasami wyraźnie definiują działania związane z gromadzeniem informacji — takie jak poruszanie ręką, aż dotknie powierzchni (tzw. ruchy chronione) — i upewnij się, że robot robi to, zanim wymyśli plan osiągnięcia swojego rzeczywistego celu. Każdy strzeżony ruch składa się z (1) polecenia ruchu i (2) warunku zakończenia, który jest predykatem wartości czujników robota mówiącym, kiedy się zatrzymać. Czasami sam cel można osiągnąć za pomocą sekwencji strzeżonych ruchów, które gwarantują sukces bez względu na niepewność. Jako przykład, Rysunek  przedstawia dwuwymiarową przestrzeń konfiguracyjną z wąskim pionowym otworem.

Może to być przestrzeń konfiguracyjna do wkładania prostokątnego kołka w otwór lub kluczyka samochodowego do stacyjki. Polecenia ruchu to stałe prędkości. Warunkiem zakończenia jest kontakt z powierzchnią. Aby modelować niepewność kontroli, zakładamy, że zamiast poruszać się w zadanym kierunku, rzeczywisty ruch robota leży w stożku Cv wokół niego. Rysunek pokazuje, co by się stało, gdyby robot próbował ruszyć w dół z początkowej konfiguracji. Ze względu na niepewność prędkości robot może poruszać się w dowolnym miejscu w stożkowej kopercie, prawdopodobnie wchodząc do otworu, ale bardziej prawdopodobne jest, że wyląduje z jednej strony. Ponieważ robot nie wiedziałby wtedy, po której stronie otworu się znajduje, nie wiedziałby, w którą stronę się poruszać. Bardziej sensowną strategię przedstawiono na wykresach poniższych 

Na rysunku pierwszym robot celowo przesuwa się na jedną stronę otworu. Polecenie ruchu pokazano na rysunku, a test zakończenia polega na kontakcie z dowolną powierzchnią. Na rysunku drugim  podano polecenie ruchu, które powoduje, że robot ślizga się po powierzchni i do otworu. Ponieważ wszystkie możliwe prędkości w obwiedni ruchu są w prawo, robot przesunie się w prawo za każdym razem, gdy zetknie się z poziomą powierzchnią. Gdy go dotknie, zsunie się po prawej pionowej krawędzi otworu, ponieważ wszystkie możliwe prędkości spadają w stosunku do pionowej powierzchni. Będzie się poruszał, aż dotrze do dna otworu, ponieważ jest to warunek jego zakończenia. Pomimo niepewności sterowania, wszystkie możliwe trajektorie robota kończą się w kontakcie z dnem otworu – to znaczy, o ile nierówności powierzchni nie spowodują, że robot przyklei się w jednym miejscu. Inne techniki poza strzeżonymi ruchami zmieniają funkcję kosztów, aby zachęcić do działań, o których wiemy, że doprowadzą do uzyskania informacji — takich jak heurystyka nawigacji przybrzeżnej, która wymaga, aby robot pozostawał w pobliżu znanych punktów orientacyjnych. Mówiąc bardziej ogólnie, techniki mogą uwzględniać oczekiwany zysk informacyjny (redukcja entropii przekonania) jako termin w funkcji kosztu, co prowadzi do tego, że robot wyraźnie rozumuje, ile informacji może przynieść każde działanie przy podejmowaniu decyzji, co zrobić. Chociaż trudniejsze obliczeniowo, takie podejścia mają tę zaletę, że robot wymyśla własne działania w zakresie gromadzenia informacji, zamiast polegać na heurystyce dostarczanej przez człowieka i strategiach skryptowych, którym często brakuje elastyczności.