Jaki problem rozwiązuje robotyka?

https://aie24.pl/

Teraz, gdy wiemy, jaki może być sprzęt robota, jesteśmy gotowi rozważyć oprogramowanie agenta, które napędza sprzęt, aby osiągnąć nasze cele. Najpierw musimy określić ramy obliczeniowe dla tego agenta. Mówiliśmy o wyszukiwaniu w środowiskach deterministycznych, MDP dla środowisk stochastycznych, ale w pełni obserwowalnych, POMDP dla częściowej obserwowalności oraz grach dla sytuacji, w których agent nie działa w odosobnieniu. Biorąc pod uwagę ramy obliczeniowe, musimy skonkretyzować jego składniki: funkcje nagrody lub użyteczności, stany, działania, przestrzenie obserwacji itp. Zauważyliśmy już, że problemy robotyki są niedeterministyczne, częściowo obserwowalne i wieloagentowe. Korzystając z pojęć teorii gier , widzimy, że czasami agenci współpracują, a czasami rywalizują. W wąskim korytarzu, gdzie tylko jeden agent może przejść pierwszy, robot i osoba współpracują ze sobą, ponieważ oboje chcą mieć pewność, że nie wpadną na siebie. Ale w niektórych przypadkach mogą trochę konkurować, aby szybko dotrzeć do celu. Jeśli robot jest zbyt uprzejmy i zawsze robi miejsce, może utknąć w zatłoczonych sytuacjach i nigdy nie osiągnąć swojego celu. Dlatego, gdy roboty działają w izolacji i znają swoje środowisko, problem, który rozwiązują, można sformułować jako MDP; gdy brakuje im informacji, staje się POMDP; a kiedy działają wokół ludzi, często można to sformułować jako grę. Jaka jest funkcja nagrody robota w tym sformułowaniu? Zwykle robot działa w służbie człowiekowi – na przykład dostarcza posiłek pacjentowi szpitala za nagrodę dla pacjenta, a nie własną. W przypadku większości ustawień robotyki, nawet jeśli projektanci robotów mogą próbować określić wystarczająco dobrą funkcję nagrody proxy, prawdziwa funkcja nagrody należy do użytkownika, któremu robot ma pomóc. Robot będzie musiał albo rozszyfrować pragnienia użytkownika, albo polegać na inżynierze, który określi przybliżone pragnienia użytkownika. Jeśli chodzi o przestrzeń działania, stan i obserwację robota, najbardziej ogólną formą jest to, że obserwacje są nieprzetworzonymi sygnałami z czujników (np. obrazy pochodzące z kamer lub trafienia lasera pochodzące z lidaru); działania to surowe prądy elektryczne przesyłane do silników; i stan jest tym, co robot musi wiedzieć, aby podejmować decyzje. Oznacza to, że istnieje ogromna luka między postrzeganiem niskiego poziomu i sterowaniem silnika, a planami wysokiego poziomu, które robot musi wykonać. Aby wypełnić tę lukę, robotycy oddzielają aspekty problemu, aby go uprościć. Na przykład wiemy, że kiedy prawidłowo rozwiązujemy POMDP, percepcja i działanie wchodzą w interakcję: percepcja informuje, które działania mają sens, ale działanie również informuje o percepcji, a agenci podejmują działania w celu zebrania informacji, gdy ta informacja ma wartość w późniejszych krokach czasowych. Jednak roboty często oddzielają percepcję od działania, konsumując wyniki percepcji i udając, że nie otrzymają więcej informacji w przyszłości. Co więcej, potrzebne jest planowanie hierarchiczne, ponieważ cel wysokiego poziomu, taki jak „dostać się do stołówki”, jest daleko od nakazu motorycznego, takiego jak „obróć główną oś 1 ”. W robotyce często posługujemy się trójpoziomową hierarchią. Poziom planowania zadań decyduje o planie lub polityce dla działań wysokiego poziomu, czasami nazywanych prymitywami działań lub celami podrzędnymi: przejdź do drzwi, otwórz je, idź do windy, naciśnij przycisk itp. Następnie planowanie ruchu odpowiada za znalezienie ścieżka, która prowadzi robota z jednego punktu do drugiego, osiągając każdy podcel. Wreszcie sterowanie służy do osiągnięcia zaplanowanego ruchu za pomocą siłowników robota. Ponieważ poziom planowania zadań jest zwykle definiowany na podstawie dyskretnych stanów i działań, w tym rozdziale skupimy się przede wszystkim na planowaniu i sterowaniu ruchem. Osobno uczenie preferencji odpowiada za szacowanie celu użytkownika końcowego, a przewidywanie ludzi służy do prognozowania działań innych osób w środowisku robota. Wszystko to łączy się, aby określić zachowanie robota. Ilekroć dzielimy problem na oddzielne części, zmniejszamy złożoność, ale rezygnujemy z możliwości wzajemnej pomocy. Działanie może pomóc poprawić percepcję, a także określić, jaki rodzaj percepcji jest przydatny. Podobnie decyzje na poziomie ruchu mogą nie być najlepsze, jeśli chodzi o uwzględnianie sposobu śledzenia ruchu; lub decyzje na poziomie zadania mogą sprawić, że plan zadania na poziomie ruchu stanie się niemożliwy do zrealizowania. Tak więc wraz z postępem w tych oddzielnych obszarach pojawia się nacisk na ich reintegrację: wspólne planowanie i sterowanie ruchem, wspólne planowanie zadań i ruchu oraz reintegrację percepcji, przewidywania i działania – zamknięcie pętli sprzężenia zwrotnego. Dzisiejsza robotyka polega na ciągłym postępie w każdej dziedzinie, a jednocześnie opiera się na tym postępie w celu osiągnięcia lepszej integracji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *