Streszczenie

https://aie24.pl/

Robotyka dotyczy fizycznie ucieleśnionych agentów, które mogą zmieniać stan fizycznego świata. Dowiedzieliśmy się, co następuje:

  • Najczęstsze typy robotów to manipulatory (ramiona robota) i roboty mobilne. Mają czujniki do postrzegania świata i aktuatory, które wytwarzają ruch, który następnie wpływa na świat za pomocą efektorów.
  • Ogólny problem robotyki obejmuje stochastyczność (z którą mogą sobie poradzić MDP), częściową obserwowalność (z którą mogą sobie poradzić POMDP) ​​oraz działanie z innymi agentami i wokół nich (z czym można sobie poradzić za pomocą teorii gier). Problem jest tym trudniejszy, że większość robotów pracuje w ciągłych i wielowymiarowych przestrzeniach stanów i akcji. Działają również w prawdziwym świecie, który nie działa szybciej niż w czasie rzeczywistym i w którym awarie prowadzą do uszkodzenia rzeczywistych rzeczy, bez możliwości „cofnięcia”.
  • W idealnym przypadku robot rozwiązałby cały problem za jednym razem: obserwacje w postaci surowych sygnałów z czujników wchodzą i wychodzą działania w postaci momentów obrotowych lub prądów do silników. W praktyce jest to jednak zbyt zniechęcające, a robotycy zazwyczaj oddzielają różne aspekty problemu i traktują je niezależnie.
  • Zazwyczaj oddzielamy percepcję (ocenę) od działania (generowanie ruchu). Percepcja w robotyce obejmuje widzenie komputerowe w celu rozpoznawania otoczenia za pomocą kamer, ale także lokalizację i mapowanie.
  • Percepcja robotów zajmuje się szacowaniem wielkości istotnych dla decyzji na podstawie danych z czujników. Aby to zrobić, potrzebujemy wewnętrznej reprezentacji i metody aktualizowania tej wewnętrznej reprezentacji w czasie.
  • Probabilistyczne algorytmy filtrowania, takie jak filtry cząstek i filtry Kalmana, są przydatne do percepcji robota. Techniki te utrzymują stan przekonania, rozkład a posteriori na zmiennych stanu.
  • Do generowania ruchu używamy przestrzeni konfiguracyjnych, w których punkt określa wszystko, co musimy wiedzieć, aby zlokalizować każdy punkt ciała robota. Na przykład w przypadku ramienia robota z dwoma przegubami konfiguracja składa się z dwóch kątów przegubu.
  • Zazwyczaj rozdzielamy problem generowania ruchu na planowanie ruchu, związane z tworzeniem planu, i sterowanie śledzeniem trajektorii, związane z tworzeniem zasad dla wejść sterujących (polecenia siłownika), które skutkują wykonaniem planu.
  • Planowanie ruchu można rozwiązać za pomocą przeszukiwania wykresów z wykorzystaniem rozkładu komórek; wykorzystanie algorytmów losowego planowania ruchu, które próbują kamienie milowe w przestrzeni konfiguracji ciągłej; lub za pomocą optymalizacji trajektorii, która może iteracyjnie wypchnąć linię prostą z kolizji, wykorzystując pole ze znakiem odległości.
  • Ścieżka znaleziona przez algorytm wyszukiwania może być wykonana przy użyciu ścieżki jako trajektorii odniesienia dla regulatora PID, który stale koryguje błędy między miejscem, w którym znajduje się robot, a miejscem, w którym powinien się znajdować, lub za pomocą obliczonego sterowania momentem, który dodaje termin sprzężenia do przodu, który wykorzystuje dynamikę odwrotną do obliczenia z grubsza, jaki moment należy wysłać, aby posunąć się naprzód wzdłuż trajektorii.
  • Optymalne sterowanie łączy planowanie ruchu i śledzenie trajektorii poprzez obliczanie optymalnej trajektorii bezpośrednio na wejściach sterujących. Jest to szczególnie łatwe, gdy mamy koszty kwadratowe i dynamikę liniową, co skutkuje liniowym regulatorem kwadratowym (LQR). Popularne metody wykorzystują to poprzez linearyzację dynamiki i obliczanie aproksymacji kosztu drugiego rzędu (ILQR).
  • Planowanie w warunkach niepewności łączy percepcję i działanie poprzez ponowne planowanie online (takie jak kontrola predykcyjna modelu) oraz działania związane z gromadzeniem informacji, które wspomagają percepcję.
  • Uczenie ze wzmacnianiem jest stosowane w robotyce, przy użyciu technik dążących do zmniejszenia wymaganej liczby interakcji ze światem rzeczywistym. Takie techniki mają tendencję do wykorzystywania modeli, czy to szacowania modeli i wykorzystywania ich do planowania, czy też strategii szkoleniowych, które są niezawodne w odniesieniu do różnych możliwych parametrów modelu.
  • Interakcja z ludźmi wymaga umiejętności koordynowania działań robota z ich działaniami, co można sformułować jako grę. Zwykle rozkładamy rozwiązanie na przewidywanie, w którym wykorzystujemy bieżące działania danej osoby, aby oszacować, co zrobi w przyszłości, oraz działanie, w którym wykorzystujemy przewidywania do obliczenia optymalnego ruch robota.

• Pomaganie ludziom wymaga również umiejętności uczenia się lub wnioskowania, czego chcą. Roboty mogą podejść do tego, ucząc się pożądanej funkcji kosztów, którą powinny zoptymalizować na podstawie danych wejściowych człowieka, takich jak demonstracje, poprawki lub instrukcje w języku naturalnym. Alternatywnie roboty mogą naśladować ludzkie zachowanie i wykorzystywać uczenie się przez wzmacnianie, aby pomóc w sprostaniu wyzwaniu uogólniania do nowych stanów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *