Ponieważ zmienne ciągłe są wszechobecne w rzeczywistych zastosowaniach, ważne jest, aby wiedzieć, jak uczyć się parametrów modeli ciągłych z danych. Zasady uczenia się z maksymalnym prawdopodobieństwem są identyczne w przypadkach ciągłych i dyskretnych. Zacznijmy od bardzo prostego przypadku: poznania parametrów funkcji gęstości Gaussa na pojedynczej zmiennej. Oznacza to, że zakładamy, że dane są generowane w następujący sposób:
Parametrami tego modelu są średnia μ i odchylenie standardowe σ. (Zauważ, że normalizująca „stała” zależy od , więc nie możemy jej zignorować.) Niech obserwowane wartości będą równe x1,…,xN. Wtedy prawdopodobieństwo logarytmu wynosi
Ustawiając pochodne na zero jak zwykle otrzymujemy
Oznacza to, że maksymalna wartość prawdopodobieństwa średniej jest średnią próbki, a maksymalna wartość prawdopodobieństwa odchylenia standardowego jest pierwiastkiem kwadratowym wariancji próbki. Ponownie, są to pocieszające wyniki, które potwierdzają „zdroworozsądkową” praktykę. Rozważmy teraz model liniowo-gaussowski z jednym ciągłym rodzicem X i ciągłym dzieckiem Y. Jak wyjaśniono na stronie 440, Y ma rozkład Gaussa, którego średnia zależy liniowo od wartości X i którego odchylenie standardowe jest stałe. Aby poznać rozkład warunkowy P(Y jX), możemy zmaksymalizować wiarogodność warunkową
Tutaj parametry to Θ1, Θ2 i σ . Dane są zbiorem par (xj;yj), jak pokazano na rysunku 21.4. Używając zwykłych metod (Zadanie 21.LINR), możemy znaleźć maksymalne wartości prawdopodobieństwa parametrów. Sprawa jest tu inna. Jeśli weźmiemy pod uwagę tylko
parametrów 1 i 2, które definiują liniową zależność między x i y, staje się jasne, że maksymalizacja logarytmu wiarygodności względem tych parametrów jest tym samym, co minimalizacja licznika (y -( 1x+ 2))2 w wykładniku równania. Jest to strata L2, kwadrat błędu między rzeczywistą wartością y a przewidywaniem 1x+2. Jest to ilość minimalizowana przez standardową procedurę regresji liniowej. Teraz możemy zrozumieć dlaczego: minimalizacja sumy kwadratów błędów daje model prostoliniowy maksymalnego prawdopodobieństwa, pod warunkiem, że dane są generowane z szumem gaussowskim o stałej wariancji.