Opisaliśmy jak agenci mogą się uczyć. Obecne algorytmy radzą sobie z dość dużymi problemami, sięgając lub przekraczając ludzkie możliwości w wielu zadaniach – o ile mamy wystarczającą ilość przykładów szkoleniowych i mamy do czynienia z predefiniowanym słownikiem cech i pojęć. Jednak nauka może się zatrzymać, gdy dane są rzadkie, nienadzorowane lub gdy mamy do czynienia ze złożonymi reprezentacjami. Wiele z niedawnego odrodzenia się sztucznej inteligencji w prasie popularnej i przemyśle wynika z sukcesu głębokiego uczenia się . Z jednej strony można to postrzegać jako stopniowe dojrzewanie podpola sieci neuronowych. Z drugiej strony możemy to postrzegać jako rewolucyjny skok w możliwościach wywołany splotem czynników: dostępności większej ilości danych treningowych dzięki Internetowi, zwiększonej mocy obliczeniowej ze specjalistycznego sprzętu oraz kilku sztuczek algorytmicznych, takich jak generatywna kontradyktoryjność. sieci (GAN), normalizacja wsadowa, przerwanie i funkcja aktywacji rektyfikowanego liniowego (ReLU). W przyszłości należy kłaść ciągły nacisk na doskonalenie głębokiego uczenia się w zakresie zadań, w których się wyróżnia, a także rozszerzanie go na inne zadania. Nazwa marki „głębokie uczenie się” okazała się tak popularna, że powinniśmy spodziewać się jej kontynuacji, nawet jeśli zestaw technik, które ją napędzają, znacznie się zmieni. Widzieliśmy pojawienie się dziedziny nauki o danych jako zbiegu statystyk, programowania i ekspertyz dziedzinowych. Chociaż możemy spodziewać się ciągłego rozwoju narzędzi i technik niezbędnych do pozyskiwania, zarządzania i utrzymywania dużych zbiorów danych, będziemy również potrzebować postępów w nauce transferu, abyśmy mogli wykorzystać dane w jednej domenie do poprawy wydajności w powiązanej domenie . Zdecydowana większość badań nad uczeniem maszynowym zakłada dziś reprezentację faktorową, uczenie funkcji h : n -> R dla regresji i h : Rn -> {0,1} dla klasyfikacji. Uczenie maszynowe było mniej skuteczne w przypadku problemów, które zawierają tylko niewielką ilość danych, lub problemów, które wymagają skonstruowania nowych uporządkowanych, hierarchicznych reprezentacji. Głębokie uczenie, zwłaszcza z sieciami splotowymi stosowanymi do problemów z widzeniem komputerowym, wykazało pewne sukcesy w przechodzeniu od pikseli niskiego poziomu do pojęć poziomu pośredniego, takich jak oko i usta, następnie twarz, a na końcu osoba lub kot. Wyzwaniem na przyszłość jest płynniejsze łączenie nauki i wcześniejszej wiedzy. Jeśli damy komputerowi problem, którego wcześniej nie napotkał — powiedzmy, rozpoznawanie różnych modeli samochodów — nie chcemy, aby system był bezsilny, dopóki nie zostanie nakarmiony milionami oznaczonych przykładów. Idealny system powinien być w stanie czerpać z tego, co już wie: powinien już mieć model działania wizji oraz ogólnego działania projektowania i brandingu produktów; teraz powinien wykorzystać uczenie transferowe, aby zastosować to do nowego problemu modeli samochodów. Powinna umieć samodzielnie odnajdywać informacje o modelach samochodów, czerpiąc z tekstu, zdjęć i filmów dostępnych w Internecie. Powinna być w stanie nauczyć się czeladnika: prowadzić rozmowę z nauczycielem, a nie tylko pytać „czy mogę mieć tysiąc obrazów korony”, ale raczej być w stanie zrozumieć porady typu „Wgląd jest podobny do Priusa, ale Insight ma większą kratkę.” Warto wiedzieć, że każdy model występuje w niewielkiej gamie możliwych kolorów, ale samochód można przemalować, więc jest szansa, że zobaczy samochód w kolorze, którego nie było w zestawie treningowym. (Gdyby tego nie wiedział, powinien być w stanie się tego nauczyć lub otrzymać o tym informacje.) Wszystko to wymaga języka komunikacji i reprezentacji, którym ludzie i komputery mogą się dzielić; nie możemy oczekiwać, że ludzki analityk bezpośrednio zmodyfikuje model z milionami wag. Modele probabilistyczne (w tym probabilistyczne języki programowania) dają ludziom pewną zdolność opisywania tego, co wiemy, ale modele te nie są jeszcze dobrze zintegrowane z innymi mechanizmami uczenia się. Praca Bengio i LeCun (2007) jest krokiem w kierunku tej integracji. Niedawno Yann LeCun zasugerował, że termin „głębokie uczenie się” należy zastąpić bardziej ogólnym programowaniem różniczkowalnym (Siskind i Pearlmutter, 2016; Li i in., 2018); sugeruje to, że nasze ogólne języki programowania i nasze modele uczenia maszynowego mogłyby zostać połączone. Obecnie często buduje się model głębokiego uczenia, który jest różniczkowy, a zatem można go przeszkolić w celu zminimalizowania strat i przeszkolić ponownie, gdy zmienią się okoliczności. Ale ten model uczenia głębokiego jest tylko częścią większego systemu oprogramowania, który pobiera dane, masuje je, przekazuje je do modelu i zastanawia się, co zrobić z danymi wyjściowymi modelu. Wszystkie te inne części większego systemu zostały napisane ręcznie przez programistę, a zatem są nierozróżnialne, co oznacza, że gdy okoliczności się zmienią, to od programisty zależy, czy rozpozna problemy i naprawi je ręcznie.
Przy programowaniu różniczkowym istnieje nadzieja, że cały system zostanie poddany automatycznej optymalizacji. Ostatecznym celem jest możliwość wyrażenia tego, co wiemy, w dowolnej dogodnej dla nas formie: nieformalne porady udzielone w języku naturalnym, silne prawo matematyczne, takie jak F =ma, model statystyczny wraz z danymi lub program probabilistyczny o nieznanych parametrach które mogą być automatycznie optymalizowane poprzez opadanie gradientu. Nasze modele komputerowe będą uczyć się z rozmów z ludzkimi ekspertami, a także wykorzystując wszystkie dostępne dane. Yann LeCun, Geoffrey Hinton i inni sugerowali, że obecny nacisk na uczenie nadzorowane (i w mniejszym stopniu uczenie ze wzmacnianiem) jest nie do utrzymania – modele komputerowe będą musiały opierać się na uczeniu się słabo nadzorowanym, w którym pewien nadzór jest sprawowany z niewielka liczba oznaczonych przykładów i/lub niewielka liczba nagród, ale większość uczenia się odbywa się bez nadzoru, ponieważ dane bez adnotacji są o wiele bardziej obfite. LeCun używa terminu uczenie predyktywne dla nienadzorowanego systemu uczenia się, który może modelować świat i uczyć się przewidywać aspekty przyszłych stanów świata — nie tylko przewidywać etykiety dla danych wejściowych, które są niezależne i identycznie rozłożone w odniesieniu do danych z przeszłości, a nie tylko przewidywać funkcja wartości nad stanami. Sugeruje, że sieci GAN (generatywne sieci adwersarzy) można wykorzystać do nauki minimalizowania różnicy między przewidywaniami a rzeczywistością. Geoffrey Hinton stwierdził w 2017 r., że „moim zdaniem wyrzuć to wszystko i zacznij od nowa”, co oznacza, że ogólna idea uczenia się poprzez dostosowywanie parametrów w sieci jest trwała, ale specyfika architektury sieci i technika propagację należy przemyśleć na nowo. Smolensky (1988) miał receptę na to, jak myśleć o modelach koneksjonistycznych; jego myśli pozostają aktualne do dziś.