Argument z niepełnosprawności

https://aie24.pl/

„Argument niepełnosprawności” stanowi twierdzenie, że „maszyna nigdy nie może zrobić X”. Jako przykłady X, Turing wymienia następujące:

Bądź miły, zaradny, piękny, przyjacielski, miej inicjatywę, miej poczucie humoru, odróżnij dobro od zła, popełniaj błędy, zakochaj się, delektuj się truskawkami i śmietaną, spraw, by ktoś się w niej zakochał, ucz się z doświadczenia, właściwie używaj słów , być podmiotem własnej myśli, mieć tyle różnorodności zachowań, co człowiek, robić coś naprawdę nowego.

Z perspektywy czasu niektóre z nich są dość łatwe – wszyscy znamy komputery, które „popełniają błędy”. Komputery z możliwością metarozumowania mogą analizować własne obliczenia, stając się w ten sposób przedmiotem własnego rozumowania. Stuletnia technologia ma udowodnioną zdolność „sprawienia, by ktoś się w niej zakochał” — pluszowego misia. Ekspert od szachów komputerowych David Levy przewiduje, że do 2050 roku ludzie zakochują się w humanoidalnych robotach. Jeśli chodzi o zakochiwanie się robota, jest to powszechny temat w powieściach, ale spekulacje akademickie na ten temat są ograniczone. Komputery dokonały rzeczy, które są „naprawdę nowe”, dokonując znaczących odkryć w astronomii, matematyce, chemii, mineralogii, biologii, informatyce i innych dziedzinach oraz tworząc nowe formy sztuki poprzez transfer stylu . Ogólnie rzecz biorąc, programy przekraczają możliwości człowieka w niektórych zadaniach i pozostają w tyle za innymi. Jedyną rzeczą, której jest jasne, że nie mogą zrobić, to być dokładnie człowiekiem.

Argument z nieformalności

https://aie24.pl/

„Argument Turinga z nieformalności zachowania” mówi, że ludzkie zachowanie jest zbyt skomplikowane, aby można je było uchwycić przez jakikolwiek formalny zestaw reguł – ludzie muszą używać pewnych nieformalnych wytycznych, których (jak twierdzi argument) nigdy nie można by uchwycić w formalnym zestawie zasad i w ten sposób nigdy nie mógł być skodyfikowany w programie komputerowym. Głównym zwolennikiem tego poglądu był Hubert Dreyfus, który stworzył serię wpływowych krytyków sztucznej inteligencji: Czego komputery nie mogą zrobić (1972), sequel Czego komputery jeszcze nie potrafią (1992) oraz wraz ze swoim bratem Stuartem , Umysł nad maszyną (1986). Podobnie filozof Kenneth Sayre (1993) powiedział: „Sztuczna inteligencja uprawiana w ramach kultu komputeryzacji nie ma nawet cienia szansy na uzyskanie trwałych rezultatów”. Technologia, którą skrytykowali, została nazwana dobrą staromodną sztuczną inteligencją (GOFAI). GOFAI odpowiada najprostszemu projektowi agenta logicznego opisanemu w rozdziale 7 i widzieliśmy tam, że rzeczywiście trudno jest uchwycić każdą ewentualność odpowiedniego zachowania w zestawie niezbędnych i wystarczających reguł logicznych; nazwaliśmy to problemem kwalifikacji. Jednak, jak widzieliśmy , systemy rozumowania probabilistycznego są bardziej odpowiednie dla dziedzin otwartych, a jak widzieliśmy również, systemy głębokiego uczenia dobrze radzą sobie z różnymi „nieformalnymi” zadaniami. Tak więc krytyka nie jest skierowana przeciwko komputerom per se, ale raczej przeciwko jednemu szczególnemu stylowi programowania ich za pomocą logicznych reguł – stylowi, który był popularny w latach 80., ale został przyćmiony przez nowe podejścia. Jednym z najsilniejszych argumentów Dreyfusa jest przemawianie za agentami usytuowanymi, a nie bezcielesnymi silnikami wnioskowania logicznego. Agent, którego rozumienie słowa „pies” pochodzi tylko z ograniczonego zestawu zdań logicznych, takich jak „Pies(x) ) Mammal(x)” jest w gorszej sytuacji niż agent, który obserwował biegające psy, bawił się z nimi w aportowanie, i został wylizany przez jednego. Jak mówi filozof Andy Clark (1998), „Mózgi biologiczne są przede wszystkim systemami kontroli ciał biologicznych. Ciała biologiczne poruszają się i działają w bogatym, rzeczywistym otoczeniu”. Według Clarka jesteśmy „dobrzy we frisbee, źli w logice”. Podejście ucieleśnionego poznania twierdzi, że nie ma sensu rozpatrywać mózgu oddzielnie: poznanie odbywa się w ciele, które jest osadzone w środowisku. Musimy zbadać system jako całość; funkcjonowanie mózgu wykorzystuje prawidłowości w jego środowisku, w tym w reszcie ciała. W podejściu ucieleśnionego poznania robotyka, wzrok i inne czujniki stają się centralne, a nie peryferyjne. Ogólnie Dreyfus zauważył obszary, w których sztuczna inteligencja nie miała pełnych odpowiedzi i powiedział, że sztuczna inteligencja jest w związku z tym niemożliwa; obecnie widzimy, że wiele z tych samych obszarów podlega ciągłym badaniom i rozwojowi, co prowadzi do zwiększenia możliwości, a nie do niemożliwości.

Granice AI

https://aie24.pl/

W 1980 roku filozof John Searle wprowadził rozróżnienie między słabą sztuczną inteligencją – ideą, że maszyny mogą zachowywać się tak, jakby były inteligentne – a silną sztuczną inteligencją – twierdzeniem, że maszyny, które to robią, faktycznie myślą świadomie (nie tylko symulują myślenie). Z biegiem czasu definicja silnej sztucznej inteligencji została zmieniona w odniesieniu do tak zwanej „sztucznej sztucznej inteligencji na poziomie człowieka” lub „ogólnej sztucznej inteligencji” – programów, które mogą rozwiązywać dowolnie różnorodne zadania, w tym te nowatorskie, i robią to równie dobrze jak człowiek.

Krytycy słabej sztucznej inteligencji, którzy sprzeciwiali się samej możliwości inteligentnego zachowania w maszynach, wydają się teraz równie krótkowzroczni, jak Simon Newcomb, który w październiku 1903 r. napisał „loty lotnicze to jeden z wielkiej klasy problemów, z którymi człowiek nigdy nie może sobie poradzić” – zaledwie dwa miesiące przed lotem braci Wright w Kitty Hawk. Gwałtowny postęp w ostatnich latach nie dowodzi jednak, że sztuczna inteligencja nie może mieć granic. Alan Turing (1950), który jako pierwszy zdefiniował sztuczną inteligencję, był również pierwszym, który zgłosił ewentualne zastrzeżenia do sztucznej inteligencji, przewidując prawie wszystkie te, które następnie podnieśli inni.

FILOZOFIA, ETYKA I BEZPIECZEŃSTWO AI

https://aie24.pl/

Filozofowie od dawna zadają wielkie pytania: Jak działają umysły? Czy maszyny mogą działać inteligentnie tak, jak robią to ludzie? Czy takie maszyny miałyby prawdziwe, świadome umysły? Do tego dodajemy nowe: Jakie są etyczne implikacje inteligentnych maszyn w codziennym użytkowaniu? Czy maszyny powinny mieć prawo decydować o zabijaniu ludzi? Czy algorytmy mogą być uczciwe i bezstronne? Co zrobią ludzie, jeśli maszyny będą mogły wykonywać wszelkiego rodzaju prace? A jak kontrolujemy maszyny, które mogą stać się bardziej inteligentne od nas?

Streszczenie

https://aie24.pl/

Chociaż percepcja wydaje się być czynnością bez wysiłku dla ludzi, wymaga ona znacznej ilości wyrafinowanych obliczeń. Celem widzenia jest wydobycie informacji potrzebnych do zadań takich jak manipulacja, nawigacja i rozpoznawanie obiektów.

  • Dobrze rozumiana jest geometria i optyka tworzenia obrazu. Mając opis sceny 3D, możemy łatwo stworzyć jej obraz z dowolnej pozycji kamery – to jest problem z grafiką. Problem odwrotny, problem wizji komputerowej – zrobienie zdjęcia i przekształcenie go w opis 3D – jest trudniejszy.
  • Reprezentacje obrazów przechwytują krawędzie, teksturę, przepływ optyczny i regiony. Dają one wskazówki co do granic obiektów i korespondencji między obrazami.
  • Splotowe sieci neuronowe tworzą dokładne klasyfikatory obrazów, które wykorzystują wyuczone cechy. Raczej z grubsza, cechy są wzorami wzorów wzorów. . . . Trudno jest przewidzieć, kiedy te klasyfikatory będą działać dobrze, ponieważ dane testowe mogą w jakiś istotny sposób różnić się od danych uczących. Doświadczenie uczy, że często są one wystarczająco dokładne, aby można je było wykorzystać w praktyce.
  • Klasyfikatory obrazu można przekształcić w detektory obiektów. Jeden klasyfikator ocenia pola na obrazie za obiektywność; inny następnie decyduje, czy przedmiot znajduje się w pudełku i jaki to przedmiot. Metody wykrywania obiektów nie są doskonałe, ale można je wykorzystać w wielu różnych zastosowaniach.
  • W przypadku więcej niż jednego widoku sceny możliwe jest odzyskanie struktury 3D sceny oraz relacji między widokami. W wielu przypadkach możliwe jest odzyskanie geometrii 3D z jednego widoku.
  • Metody widzenia komputerowego są bardzo szeroko stosowane.

Kontrolowanie ruchu za pomocą widzenia

https://aie24.pl/

Jednym z głównych zastosowań wzroku jest dostarczanie informacji zarówno do manipulowania przedmiotami – podnoszenia ich, chwytania, obracania itd. – jak i do nawigacji z unikaniem przeszkód. Umiejętność wykorzystania wzroku do tych celów jest obecna w najbardziej prymitywnych systemach wzrokowych zwierząt. W wielu przypadkach system wzrokowy jest minimalny, w tym sensie, że wydobywa z dostępnego pola światła tylko te informacje, których zwierzę potrzebuje, aby poinformować o jego zachowaniu. Całkiem prawdopodobne, że współczesne systemy wizyjne wyewoluowały z wczesnych, prymitywnych organizmów, które wykorzystywały światłoczuły punkt na jednym końcu, aby orientować się w kierunku (lub od) światła. Widzieliśmy, że muchy używają bardzo prostego systemu optycznego wykrywania przepływu do lądowania na ścianach. Załóżmy, że zamiast lądować na ścianach, chcemy zbudować autonomiczny samochód. To projekt, który stawia znacznie większe wymagania systemowi percepcyjnemu. Percepcja w samojezdnym samochodzie ma wspierać następujące zadania:

* Kontrola boczna: Upewnij się, że pojazd pozostaje bezpiecznie na swoim pasie lub płynnie zmienia pas w razie potrzeby.

* Sterowanie wzdłużne: Upewnij się, że jest bezpieczna odległość od pojazdu z przodu.

* Unikanie przeszkód: monitoruj pojazdy na sąsiednich pasach i bądź przygotowany na manewry wymijające. Wykrywaj pieszych i pozwól im bezpiecznie przejść.

* Przestrzegaj sygnałów drogowych: obejmują one sygnalizację świetlną, znaki stopu, znaki ograniczenia prędkości i sygnały ręczne policji.

Problemem dla kierowcy (człowieka lub komputera) jest generowanie odpowiednich działań związanych z kierowaniem, przyspieszaniem i hamowaniem, aby jak najlepiej wykonać te zadania. Aby podejmować dobre decyzje, kierowca powinien skonstruować model świata i znajdujących się w nim obiektów. Rysunek pokazuje niektóre wizualne wnioski, które są niezbędne do zbudowania tego modelu.

Aby uzyskać kontrolę boczną, kierowca musi zachować reprezentację pozycji i orientacji samochodu względem pasa ruchu. Aby zapewnić kontrolę wzdłużną, kierowca musi zachować bezpieczną odległość od poprzedzającego pojazdu (co może być trudne do zidentyfikowania na przykład na krętych drogach wielopasmowych). Unikanie przeszkód i podążanie za sygnalizacją świetlną wymaga dodatkowych wniosków. Drogi zostały zaprojektowane z myślą o ludziach, którzy poruszają się za pomocą wzroku, więc w zasadzie powinno być możliwe prowadzenie pojazdu za pomocą samego wzroku. Jednak w praktyce komercyjne samochody samojezdne wykorzystują różne czujniki, w tym kamery, lidary, radary i mikrofony. Lidar lub radar umożliwia bezpośredni pomiar głębokości, który może być dokładniejszy niż metody wizyjne opisane we wcześniejszej części . Posiadanie wielu czujników ogólnie zwiększa wydajność i jest szczególnie ważne w warunkach słabej widoczności; na przykład radar może przebić się przez mgłę, która blokuje kamery i lidary. Mikrofony mogą wykrywać zbliżające się pojazdy (zwłaszcza te z syrenami), zanim staną się widoczne. Przeprowadzono również wiele badań nad robotami mobilnymi poruszającymi się w środowiskach wewnętrznych i zewnętrznych. Zastosowania są liczne, takie jak ostatnia mila paczki lub dostawa pizzy. Tradycyjne podejścia dzielą to zadanie na dwa etapy, jak pokazano na rysunku :

* Tworzenie mapy: Symultaniczna lokalizacja i mapowanie lub SLAM (patrz strona 942) to zadanie polegające na konstruowaniu modelu 3D świata, w tym lokalizacji robota na świecie (a dokładniej, lokalizacji każdej z kamer robota) . Model ten (zwykle przedstawiany jako chmura punktów przeszkód) może być zbudowany z serii obrazów z różnych pozycji kamery.

* Planowanie ścieżki: gdy robot ma dostęp do tej mapy 3D i może się na niej zlokalizować, celem staje się znalezienie bezkolizyjnej trajektorii od aktualnej pozycji do lokalizacji celu.

Zbadano wiele wariantów tego ogólnego podejścia. Na przykład w podejściu do mapowania kognitywnego i planowania dwa etapy tworzenia mapy i planowania ścieżki to dwa moduły w sieci neuronowej, która jest trenowana od końca do końca, aby zminimalizować funkcję straty. Taki system nie musi budować kompletnej mapy – która często jest zbędna i niepotrzebna – jeśli wszystko czego potrzebujesz to wystarczająco dużo informacji, aby nawigować z punktu A do punktu B bez kolizji z przeszkodami.

Robienie zdjęć

https://aie24.pl/

Obecnie powszechne jest umieszczanie modeli grafiki komputerowej na zdjęciach w przekonujący sposób, jak na rysunku , gdzie posąg został umieszczony na zdjęciu pokoju.

Najpierw oszacuj mapę głębi i albedo zdjęcia. Następnie oszacuj oświetlenie na obrazie, dopasowując je do innych obrazów o znanym oświetleniu. Umieść obiekt na mapie głębi obrazu i wyrenderuj powstały świat za pomocą programu do renderowania fizycznego — standardowego narzędzia w grafice komputerowej. Na koniec połącz zmodyfikowany obraz z oryginalnym obrazem. Sieci neuronowe można również wytrenować w zakresie transformacji obrazu: mapowania obrazów typu X – na przykład rozmazanego obrazu; zdjęcie lotnicze miasta; lub rysunek nowego produktu – do zdjęć typu Y – na przykład rozmyta wersja zdjęcia; mapa drogowa; lub zdjęcie produktu. Jest to najłatwiejsze, gdy dane treningowe składają się z (X, Y) par obrazów – na rysunku

każda przykładowa para ma zdjęcie lotnicze i odpowiadający mu fragment mapy drogowej. Utrata uczenia porównuje dane wyjściowe sieci z żądanymi danymi wyjściowymi, a także zawiera składnik strat z generatywnej sieci kontradyktoryjnej (GAN), która zapewnia, że ​​dane wyjściowe mają odpowiednie rodzaje funkcji dla obrazów typu Y. Jak widać w część testowa z rysunku 27.24, systemy tego rodzaju działają bardzo dobrze. Czasami nie mamy sparowanych ze sobą obrazów, ale mamy dużą kolekcję obrazów typu X (np. zdjęcia koni) i oddzielną kolekcję typu Y (np. zdjęcia zebr). Wyobraź sobie artystę, którego zadaniem jest stworzenie wizerunku zebry biegnącej po polu. Artysta doceniłby możliwość wybrania odpowiedniego obrazu konia, a następnie automatycznego przekształcenia go przez komputer w zebrę .

Aby to osiągnąć, możemy wytrenować dwie sieci transformacji z dodatkowym ograniczeniem zwanym ograniczeniem cyklu. Pierwsza sieć mapuje konie na zebry; druga sieć mapuje zebry na konie; a ograniczenie cyklu wymaga, aby mapując X na Y na X (lub Y na X na Y), uzyskać to, od czego zacząłeś. Ponownie, straty GAN zapewniają, że obrazy koni (lub zebr), które są wyświetlane w sieci, są „jak” prawdziwe zdjęcia koni (lub zebr). Inny efekt artystyczny nazywa się transferem stylu: na dane wejściowe składają się dwa obrazy – treść (na przykład zdjęcie kota); i styl (na przykład obraz abstrakcyjny). Wynikiem jest wersja kota renderowana w stylu abstrakcyjnym .

Kluczowym wglądem w rozwiązanie tego problemu jest to, że jeśli zbadamy głęboką splotową sieć neuronową (CNN), która została wytrenowana do rozpoznawania obiektów (powiedzmy, w ImageNet), odkryjemy, że wczesne warstwy mają tendencję do reprezentowania stylu obrazu, a późne warstwy reprezentują treść. Niech p będzie obrazem treści, a s obrazem stylu, oraz niech E(x) będzie wektorem aktywacji wczesnej warstwy na obrazie x, a L(x) będzie wektorem aktywacji późnej warstwy na obrazie x. Następnie chcemy wygenerować jakiś obraz x, który ma podobną treść do zdjęcia domu, czyli minimalizuje |L(x)-L(p)|, a także ma podobny styl do malarstwa impresjonistycznego, czyli minimalizuje |E(x)-E(s)|. Używamy gradientu z funkcją straty, która jest liniową kombinacją tych dwóch czynników, aby znaleźć obraz x, który minimalizuje straty. Sieci generatywnych przeciwników (GAN) mogą tworzyć nowe fotorealistyczne obrazy, oszukując większość ludzi przez większość czasu. Jednym z rodzajów obrazu jest deepfake — obraz lub film, który wygląda jak konkretna osoba, ale jest generowany na podstawie modelu. Na przykład, gdy Carrie Fisher miała 60 lat, wygenerowana replika jej 19-letniej twarzy została nałożona na ciało innego aktora, aby stworzyć Rogue One. Przemysł filmowy tworzy coraz lepsze deepfake do celów artystycznych, a badacze pracują nad środkami zaradczymi do wykrywania deepfake, aby złagodzić destrukcyjne skutki fałszywych wiadomości. Wygenerowane obrazy mogą również służyć do zachowania prywatności. Na przykład w gabinetach radiologicznych istnieją zestawy danych obrazowych, które byłyby przydatne dla badaczy, ale nie można ich opublikować ze względu na poufność pacjenta. Generacyjne modele obrazów mogą pobierać prywatny zestaw danych obrazów i tworzyć syntetyczny zestaw danych, który można udostępniać naukowcom. Ten zestaw danych powinien być (a) podobny do zestawu danych uczących; b) różne; oraz (c) kontrolowane. Rozważ prześwietlenie klatki piersiowej. Zestaw danych syntetycznych powinien być podobny do zestawu danych treningowych w tym sensie, że każdy obraz z osobna oszukałby radiologa, a częstotliwości każdego efektu powinny być prawidłowe, aby radiolog nie był zaskoczony, jak często (powiedzmy) pojawia się zapalenie płuc. Nowy zestaw danych powinien być inny w tym sensie, że nie ujawnia informacji umożliwiających identyfikację osoby. Nowy zestaw danych powinien być możliwy do kontrolowania, tak aby częstotliwość efektów można było dostosować w celu odzwierciedlenia społeczności zainteresowania. Na przykład zapalenie płuc występuje częściej u osób starszych niż u młodych dorosłych. Każdy z tych celów jest technicznie trudny do osiągnięcia, ale stworzono zestawy danych obrazowych, które czasami wprowadzają w błąd praktykujących radiologów.

Geometria z jednego widoku

https://aie24.pl/

Reprezentacje geometryczne są szczególnie przydatne, jeśli chcesz się poruszać, ponieważ mogą ujawnić, gdzie jesteś, dokąd możesz się udać i na co prawdopodobnie wpadniesz. Jednak nie zawsze wygodnie jest używać wielu widoków do tworzenia modelu geometrycznego. Na przykład, kiedy otwierasz drzwi i wchodzisz do pokoju, twoje oczy są zbyt blisko siebie, aby dobrze odwzorować głębię w odległych obiektach w całym pokoju. Możesz poruszać głową w przód iw tył, ale jest to czasochłonne i niewygodne. Alternatywą jest przewidywanie mapy głębi — tablicy podającej głębię każdemu pikselowi na obrazie, nominalnie z kamery — na podstawie pojedynczego obrazu. W przypadku wielu rodzajów scen jest to zaskakująco łatwe do wykonania, ponieważ mapa głębi ma dość prostą strukturę. Dotyczy to w szczególności pomieszczeń i scen wewnętrznych. Mechanika jest prosta. Pozyskuje się zestaw danych obrazów i map głębi, a następnie trenuje sieć do przewidywania map głębi na podstawie obrazów. Można rozwiązać wiele interesujących wariacji tego problemu. Problem z mapą głębi polega na tym, że nie mówi ona nic o tyłach obiektów ani przestrzeni za obiektami. Istnieją jednak metody, które mogą przewidzieć, jakie woksele (piksele 3D) są zajmowane przez znane obiekty (znana jest geometria obiektu) i jak wyglądałaby mapa głębi, gdyby obiekt został usunięty (a więc gdzie można ukryć obiekty). Te metody działają, ponieważ kształty obiektów są dość mocno stylizowane. Jak widzieliśmy , odzyskanie pozycji znanego obiektu przy użyciu modelu 3D jest proste. Teraz wyobraź sobie, że widzisz pojedynczy obraz, powiedzmy, wróbla. Jeśli w przeszłości widziałeś wiele obrazów ptaków podobnych do wróbli, możesz zrekonstruować rozsądne oszacowanie zarówno pozycji wróbla, jak i jego modelu geometrycznego na podstawie tego pojedynczego obrazu. Korzystając z wcześniejszych obrazów, budujesz małą, parametryczną rodzinę modeli geometrycznych dla ptaków podobnych do wróbli; następnie stosuje się procedurę optymalizacji, aby znaleźć najlepszy zestaw parametrów i punktów widzenia, aby wyjaśnić obraz, który widzisz. Ten argument działa, aby dostarczyć teksturę również dla tego modelu, nawet dla części, których nie można zobaczyć.

Rekonstrukcja z wielu widoków

https://aie24.pl/

Rekonstrukcja zestawu punktów z wielu widoków — które mogą pochodzić z wideo lub agregacji zdjęć turystycznych — jest podobna do rekonstrukcji punktów z dwóch widoków, ale istnieją pewne istotne różnice. Należy wykonać znacznie więcej pracy, aby ustalić zgodność między punktami w różnych poglądach, a punkty mogą pojawiać się i znikać, utrudniając proces dopasowywania i rekonstrukcji. Ale więcej widoków oznacza więcej ograniczeń w rekonstrukcji i odzyskanych parametrach oglądania, więc zwykle możliwe jest uzyskanie niezwykle dokładnych szacunków zarówno położenia punktów, jak i parametrów oglądania. Raczej z grubsza, rekonstrukcja przebiega przez dopasowanie punktów na parach obrazów, rozszerzenie tych dopasowań na grupy obrazów, znalezienie przybliżonego rozwiązania zarówno dla geometrii, jak i parametrów oglądania, a następnie dopracowanie tego rozwiązania. Polerowanie oznacza minimalizację błędu pomiędzy punktami przewidzianymi przez model (geometrii i parametrów oglądania) a położeniem cech obrazu. Szczegółowe procedury są zbyt skomplikowane, aby je w pełni objąć, ale są teraz bardzo dobrze zrozumiane i dość wiarygodne. Wszystkie ograniczenia geometryczne dotyczące powiązań są znane dla każdej potencjalnie użytecznej formy aparatu fotograficznego. Procedury można uogólnić, aby radzić sobie z poglądami, które nie są ortograficzne; radzić sobie z punktami, które są obserwowane tylko w niektórych widokach; radzić sobie z nieznanymi parametrami aparatu (np. ogniskowa); oraz wykorzystywać różne wyrafinowane wyszukiwania w celu znalezienia odpowiedniej korespondencji. Praktyczne jest dokładne zrekonstruowanie modelu całego miasta ze zdjęć. Niektóre aplikacje to:

  • Budowanie modeli: Na przykład można zbudować system modelowania, który pobiera wiele widoków przedstawiających obiekt i tworzy bardzo szczegółową siatkę 3D teksturowanych wielokątów do wykorzystania w grafice komputerowej i aplikacjach rzeczywistości wirtualnej. Budowanie takich modeli z wideo jest rutyną, ale takie modele można teraz budować z pozornie losowych zestawów zdjęć. Na przykład możesz zbudować model 3D Statuy Wolności ze zdjęć znalezionych w Internecie.
  • Mieszaj animację z żywymi aktorami w wideo: Aby umieścić postacie z grafiki komputerowej w prawdziwym wideo, musimy wiedzieć, jak poruszała się kamera dla rzeczywistego wideo, abyśmy mogli poprawnie renderować postać, zmieniając widok w miarę poruszania się kamery.
  • Rekonstrukcja ścieżki: Roboty mobilne muszą wiedzieć, gdzie były. Jeśli robot ma kamerę, możemy zbudować model drogi kamery przez świat; które będą służyć jako reprezentacja ścieżki robota.

• Zarządzanie budową: Budynki są niezwykle skomplikowanymi artefaktami, a śledzenie tego, co dzieje się podczas budowy, jest trudne i kosztowne. Jednym ze sposobów śledzenia jest latanie dronami przez plac budowy raz w tygodniu, filmowanie obecnego stanu. Następnie zbuduj model 3D stanu obecnego i zbadaj różnicę między planami a rekonstrukcją za pomocą technik wizualizacji.

Łączenie obrazów i słów

https://aie24.pl/

Wiele osób tworzy i udostępnia zdjęcia i filmy w Internecie. Trudność polega na znalezieniu tego, czego chcesz. Zazwyczaj ludzie chcą wyszukiwać za pomocą słów (zamiast, powiedzmy, przykładowych szkiców). Ponieważ większość zdjęć nie ma dołączonych słów, naturalnym jest próba stworzenia systemów tagowania, które oznaczają obrazy odpowiednimi słowami. Mechanizm leżący u podstaw jest prosty – stosujemy metody klasyfikacji obrazów i wykrywania obiektów oraz oznaczamy obraz słowami wyjściowymi. Ale tagi nie są wyczerpującym opisem tego, co dzieje się na obrazie. Ma znaczenie, kto co robi, a tagi tego nie rejestrują. Na przykład oznaczenie zdjęcia kota na ulicy kategoriami obiektów „kot”, „ulica”, „kosz na śmieci” i „rybie ości” pomija informację, że kot wyciąga rybie ości z otwartego kosza może na ulicy. Jako alternatywę dla tagowania możemy zbudować systemy napisów – systemy, które piszą podpis jednego lub więcej zdań opisujących obraz. Podstawowa maszyneria jest znowu prosta – połącz sieć splotową (aby reprezentować obraz) z rekurencyjną siecią neuronową lub siecią transformatorową (aby generować zdania) i trenuj wynik za pomocą zestawu danych z obrazami z napisami. W Internecie dostępnych jest wiele zdjęć z podpisami; Wyselekcjonowane zestawy danych wykorzystują ludzką pracę, aby uzupełnić każdy obraz o dodatkowe podpisy, aby uchwycić różnice w języku naturalnym. Na przykład zestaw danych COCO (Common Objects in Context) to obszerny zbiór ponad 200 000 obrazów oznaczonych pięcioma podpisami na obraz. Obecne metody tworzenia napisów wykorzystują detektory do znalezienia zestawu słów opisujących obraz i dostarczenia tych słów do modelu sekwencji, który jest wytrenowany w celu wygenerowania zdania. Najdokładniejsze metody przeszukują zdania, które model może wygenerować, aby znaleźć najlepsze, a silne metody wydają się wymagać powolnego wyszukiwania. Zdania są oceniane za pomocą zestawu punktów, które sprawdzają, czy wygenerowane zdanie (a) używa fraz wspólnych w adnotacjach prawdy podstawowej i (b) nie używa innych fraz. Te wyniki są trudne do wykorzystania bezpośrednio jako funkcja straty, ale metody uczenia się przez wzmacnianie można wykorzystać do trenowania sieci, które uzyskują bardzo dobre wyniki. Często w zbiorze uczącym znajdzie się obrazek, którego opis zawiera ten sam zestaw słów, co obrazek w zbiorze testowym; w takim przypadku system napisów może po prostu pobrać poprawny napis, zamiast tworzyć nowy. Systemy pisania podpisów dają mieszankę doskonałych wyników i kłopotliwych błędów.

Systemy napisów mogą ukryć swoją ignorancję, nie wspominając o szczegółach, których nie potrafią poprawnie określić, lub używając kontekstowych wskazówek do odgadnięcia. Na przykład systemy napisów zwykle słabo identyfikują płeć osób na obrazach i często zgadują na podstawie statystyk danych treningowych. To może prowadzić do błędów – mężczyźni też lubią zakupy, a kobiety snowboard. Jednym ze sposobów ustalenia, czy system ma dobrą reprezentację tego, co dzieje się na obrazie, jest zmuszenie go do odpowiedzi na pytania dotyczące obrazu. Jest to wizualna odpowiedź na pytania lub system VQA. Alternatywą jest wizualny system dialogowy, który otrzymuje obrazek, jego podpis oraz wizualne okno dialogowe. System musi wtedy odpowiedzieć na ostatnie pytanie w oknie dialogowym. Jak pokazuje Rysunek , widzenie pozostaje niezwykle trudne, a systemy VQA często popełniają błędy.