https://aie24.pl/
Jednym z głównych zastosowań wzroku jest dostarczanie informacji zarówno do manipulowania przedmiotami – podnoszenia ich, chwytania, obracania itd. – jak i do nawigacji z unikaniem przeszkód. Umiejętność wykorzystania wzroku do tych celów jest obecna w najbardziej prymitywnych systemach wzrokowych zwierząt. W wielu przypadkach system wzrokowy jest minimalny, w tym sensie, że wydobywa z dostępnego pola światła tylko te informacje, których zwierzę potrzebuje, aby poinformować o jego zachowaniu. Całkiem prawdopodobne, że współczesne systemy wizyjne wyewoluowały z wczesnych, prymitywnych organizmów, które wykorzystywały światłoczuły punkt na jednym końcu, aby orientować się w kierunku (lub od) światła. Widzieliśmy, że muchy używają bardzo prostego systemu optycznego wykrywania przepływu do lądowania na ścianach. Załóżmy, że zamiast lądować na ścianach, chcemy zbudować autonomiczny samochód. To projekt, który stawia znacznie większe wymagania systemowi percepcyjnemu. Percepcja w samojezdnym samochodzie ma wspierać następujące zadania:
* Kontrola boczna: Upewnij się, że pojazd pozostaje bezpiecznie na swoim pasie lub płynnie zmienia pas w razie potrzeby.
* Sterowanie wzdłużne: Upewnij się, że jest bezpieczna odległość od pojazdu z przodu.
* Unikanie przeszkód: monitoruj pojazdy na sąsiednich pasach i bądź przygotowany na manewry wymijające. Wykrywaj pieszych i pozwól im bezpiecznie przejść.
* Przestrzegaj sygnałów drogowych: obejmują one sygnalizację świetlną, znaki stopu, znaki ograniczenia prędkości i sygnały ręczne policji.
Problemem dla kierowcy (człowieka lub komputera) jest generowanie odpowiednich działań związanych z kierowaniem, przyspieszaniem i hamowaniem, aby jak najlepiej wykonać te zadania. Aby podejmować dobre decyzje, kierowca powinien skonstruować model świata i znajdujących się w nim obiektów. Rysunek pokazuje niektóre wizualne wnioski, które są niezbędne do zbudowania tego modelu.

Aby uzyskać kontrolę boczną, kierowca musi zachować reprezentację pozycji i orientacji samochodu względem pasa ruchu. Aby zapewnić kontrolę wzdłużną, kierowca musi zachować bezpieczną odległość od poprzedzającego pojazdu (co może być trudne do zidentyfikowania na przykład na krętych drogach wielopasmowych). Unikanie przeszkód i podążanie za sygnalizacją świetlną wymaga dodatkowych wniosków. Drogi zostały zaprojektowane z myślą o ludziach, którzy poruszają się za pomocą wzroku, więc w zasadzie powinno być możliwe prowadzenie pojazdu za pomocą samego wzroku. Jednak w praktyce komercyjne samochody samojezdne wykorzystują różne czujniki, w tym kamery, lidary, radary i mikrofony. Lidar lub radar umożliwia bezpośredni pomiar głębokości, który może być dokładniejszy niż metody wizyjne opisane we wcześniejszej części . Posiadanie wielu czujników ogólnie zwiększa wydajność i jest szczególnie ważne w warunkach słabej widoczności; na przykład radar może przebić się przez mgłę, która blokuje kamery i lidary. Mikrofony mogą wykrywać zbliżające się pojazdy (zwłaszcza te z syrenami), zanim staną się widoczne. Przeprowadzono również wiele badań nad robotami mobilnymi poruszającymi się w środowiskach wewnętrznych i zewnętrznych. Zastosowania są liczne, takie jak ostatnia mila paczki lub dostawa pizzy. Tradycyjne podejścia dzielą to zadanie na dwa etapy, jak pokazano na rysunku :

* Tworzenie mapy: Symultaniczna lokalizacja i mapowanie lub SLAM (patrz strona 942) to zadanie polegające na konstruowaniu modelu 3D świata, w tym lokalizacji robota na świecie (a dokładniej, lokalizacji każdej z kamer robota) . Model ten (zwykle przedstawiany jako chmura punktów przeszkód) może być zbudowany z serii obrazów z różnych pozycji kamery.
* Planowanie ścieżki: gdy robot ma dostęp do tej mapy 3D i może się na niej zlokalizować, celem staje się znalezienie bezkolizyjnej trajektorii od aktualnej pozycji do lokalizacji celu.
Zbadano wiele wariantów tego ogólnego podejścia. Na przykład w podejściu do mapowania kognitywnego i planowania dwa etapy tworzenia mapy i planowania ścieżki to dwa moduły w sieci neuronowej, która jest trenowana od końca do końca, aby zminimalizować funkcję straty. Taki system nie musi budować kompletnej mapy – która często jest zbędna i niepotrzebna – jeśli wszystko czego potrzebujesz to wystarczająco dużo informacji, aby nawigować z punktu A do punktu B bez kolizji z przeszkodami.