Model autoregresyjny (lub model AR) to taki, w którym każdy element xi wektora danych x jest przewidywany na podstawie innych elementów wektora. Taki model nie posiada zmiennych ukrytych. Jeśli x ma stały rozmiar, model AR można traktować jako w pełni obserwowalną i możliwie w pełni połączoną sieć Bayesa. Oznacza to, że obliczenie prawdopodobieństwa danego wektora danych zgodnie z modelem AR jest trywialne; to samo dotyczy przewidywania wartości pojedynczej brakującej zmiennej biorąc pod uwagę wszystkie inne, oraz do próbkowania wektora danych z modelu. Najczęstszym zastosowaniem modeli autoregresyjnych jest analiza danych szeregów czasowych, gdzie model AR rzędu k przewiduje xt przy danym xt-k,…,xt-1. W terminologii model AR jest nieukrytym modelem Markowa. W terminologii rozdziału 24 n-gramowy model ciągu liter lub słów jest modelem AR rzędu n-1. W klasycznych modelach AR, w których zmienne są wartościami rzeczywistymi, rozkład warunkowy P(xt|jxt-k,…,xt-1) jest modelem liniowo-gaussowskim ze stałą wariancją, którego średnia jest ważoną kombinacją liniową xt-k,…,xt-1 – innymi słowy standardowy model regresji liniowej. Rozwiązanie maksymalnego prawdopodobieństwa jest podane przez równania Yule’a-Walkera, które są ściśle związane z równaniami normalnymi . Głęboki model autoregresyjny to taki, w którym model liniowy-Gaussowski jest zastąpiony dowolną głęboką siecią z odpowiednią warstwą wyjściową w zależności od tego, czy xt jest dyskretny czy ciągły. Najnowsze zastosowania tego autoregresyjnego podejścia obejmują model WaveNet firmy DeepMind do generowania mowy. WaveNet jest szkolony na surowych sygnałach akustycznych, próbkowanych 16 000 razy na sekundę i implementuje nieliniowy model AR rzędu 4800 z wielowarstwową strukturą splotową. W testach okazuje się, że jest znacznie bardziej realistyczny niż poprzednie, najnowocześniejsze systemy generowania mowy.