Widzenie jest kanałem percepcyjnym, który przyjmuje bodziec i przekazuje jakąś reprezentację świata. Większość agentów, którzy używają wzroku, korzysta z pasywnego wykrywania — nie muszą wysyłać światła, aby widzieć. W przeciwieństwie do tego, aktywne wykrywanie polega na wysyłaniu sygnału, takiego jak radar lub ultradźwięk, i wykrywaniu odbicia. Przykłady środków wykorzystujących aktywne wykrywanie obejmują nietoperze (ultradźwięki), delfiny (dźwięk), ryby głębinowe (światło) i niektóre roboty (światło, dźwięk, radar). Aby zrozumieć kanał percepcyjny, należy przestudiować zarówno fizyczne, jak i statystyczne zjawiska, które występują podczas wyczuwania oraz to, co proces percepcyjny powinien wytworzyć. W tym rozdziale koncentrujemy się na wizji, ale roboty w świecie rzeczywistym wykorzystują różne czujniki do odbierania dźwięku, dotyku, odległości, temperatury, pozycji globalnej i przyspieszenia. Cecha to liczba uzyskana przez zastosowanie prostych obliczeń do obrazu. Bardzo przydatne informacje można uzyskać bezpośrednio z funkcji. Agent wumpusa miał pięć czujników, z których każdy pobierał jeden bit informacji. Te bity, które są cechami, mogą być interpretowane bezpośrednio przez program. Jako inny przykład, wiele latających zwierząt oblicza prostą cechę, która daje dobre oszacowanie czasu na kontakt z pobliskim obiektem; ta cecha może być przekazywana bezpośrednio do mięśni kontrolujących sterowanie lub skrzydła, co pozwala na bardzo szybkie zmiany kierunku. To podejście do wyodrębniania cech kładzie nacisk na proste, bezpośrednie obliczenia stosowane do odpowiedzi czujników. Podejście do wizji oparte na modelach wykorzystuje dwa rodzaje modeli. Model obiektowy może być rodzajem precyzyjnego modelu geometrycznego wytwarzanego przez systemy komputerowego wspomagania projektowania. Może to być również niejasne stwierdzenie dotyczące ogólnych właściwości obiektów, na przykład twierdzenie, że wszystkie twarze oglądane w niskiej rozdzielczości wyglądają mniej więcej tak samo. Model renderowania opisuje procesy fizyczne, geometryczne i statystyczne, które wytwarzają bodziec ze świata. Chociaż modele renderowania są teraz wyrafinowane i dokładne, bodziec jest zwykle niejednoznaczny. W słabym świetle biały obiekt może wyglądać jak czarny obiekt w intensywnym świetle. Mały, pobliski obiekt może wyglądać tak samo jak duży, odległy obiekt. Bez dodatkowych dowodów nie możemy stwierdzić, czy to, co widzimy, to zabawkowa Godzilla rozrywająca zabawkowy budynek, czy prawdziwy potwór który niszczy prawdziwy budynek. Istnieją dwa główne sposoby radzenia sobie z tymi niejasnościami. Po pierwsze, niektóre interpretacje są bardziej prawdopodobne niż inne. Na przykład możemy być pewni, że zdjęcie nie pokazuje prawdziwej Godzilli niszczącej prawdziwy budynek, ponieważ nie ma prawdziwych Godzilli. Po drugie, niektóre niejasności są nieistotne. Na przykład odległą scenerią mogą być drzewa lub płaska pomalowana powierzchnia. W przypadku większości aplikacji różnica jest nieistotna, ponieważ obiekty są daleko, więc nie wpadniemy na nie ani nie wejdziemy z nimi w interakcję. Dwa podstawowe problemy wizji komputerowej to rekonstrukcja, w której agent buduje model świata z obrazu lub zestawu obrazów, oraz rozpoznawanie, w którym agent rozróżnia napotykane obiekty na podstawie informacji wizualnych i innych. Oba problemy należy interpretować bardzo szeroko. Budowanie modelu geometrycznego z obrazów to oczywiście rekonstrukcja (a rozwiązania są bardzo cenne), ale czasami musimy zbudować mapę różnych tekstur na powierzchni i to też jest rekonstrukcja. Dołączanie nazw do obiektów pojawiających się na obrazie jest wyraźnym rozpoznaniem. Czasami musimy odpowiedzieć na pytania typu: Czy to śpi? Czy je mięso? Który koniec ma zęby? Odpowiadanie na te pytania to także uznanie. Ostatnie trzydzieści lat badań przyniosło potężne narzędzia i metody rozwiązywania tych podstawowych problemów. Zrozumienie tych metod wymaga zrozumienia procesów, w których powstają obrazy.