Głębokie uczenie to szeroka rodzina technik uczenia maszynowego, w której hipoteza przyjmuje postać złożonych obwodów algebraicznych z przestrajalną siłą połączenia. Słowo „głęboki” odnosi się do faktu, że obwody są zwykle zorganizowane w wiele warstw, co oznacza, że ścieżki obliczeniowe od wejść do wyjść mają wiele kroków. Głębokie uczenie jest obecnie najczęściej stosowanym podejściem do zastosowań takich jak rozpoznawanie obiektów wizualnych, tłumaczenie maszynowe, rozpoznawanie mowy, synteza mowy i synteza obrazów; odgrywa również znaczącą rolę w zastosowaniach uczenia się przez wzmacnianie . Głębokie uczenie ma swoje początki we wczesnych pracach, w których próbowano modelować sieci neuronów w mózgu (McCulloch i Pitts, 1943) za pomocą obwodów obliczeniowych. Z tego powodu sieci wytrenowane metodami głębokiego uczenia są często nazywane sieciami neuronowymi, nawet jeśli podobieństwo do prawdziwych komórek i struktur nerwowych jest powierzchowne. Chociaż prawdziwe przyczyny sukcesu uczenia głębokiego nie zostały jeszcze w pełni wyjaśnione, ma ono oczywistą przewagę nad niektórymi metodami opisanymi wcześniej – szczególnie w przypadku danych wielowymiarowych, takich jak obrazy. Na przykład, chociaż metody takie jak regresja liniowa i logistyczna mogą obsługiwać dużą liczbę zmiennych wejściowych, ścieżka obliczeniowa od każdego wejścia do wyjścia jest bardzo krótka: mnożenie przez pojedynczą wagę, a następnie dodawanie do zagregowanego wyniku. Co więcej, różne zmienne wejściowe wpływają niezależnie na wynik, bez wzajemnego oddziaływania . To znacznie ogranicza moc wyrazu takich modeli. Mogą one reprezentować tylko funkcje liniowe i granice w przestrzeni wejściowej, podczas gdy większość koncepcji świata rzeczywistego jest znacznie bardziej złożona. Z drugiej strony listy decyzyjne i drzewa decyzyjne pozwalają na długie ścieżki obliczeniowe, które mogą zależeć od wielu zmiennych wejściowych – ale tylko dla stosunkowo niewielkiej części możliwych wektorów wejściowych . Jeśli drzewo decyzyjne ma długie ścieżki obliczeniowe dla znacznej części możliwych danych wejściowych, liczba zmiennych wejściowych musi być wykładniczo duża. Podstawową ideą uczenia głębokiego jest trenowanie obwodów w taki sposób, aby ścieżki obliczeniowe były długie, pozwalając wszystkim zmiennym wejściowym na interakcję w złożony sposób . Te modele obwodów okazują się wystarczająco wyraziste, aby uchwycić złożoność danych ze świata rzeczywistego dla wielu ważnych problemów związanych z uczeniem się.