Ogólne zadanie uczenia się modelu prawdopodobieństwa na podstawie danych, które zakłada się, że są generowane z tego modelu, nazywa się estymacją gęstości. (Termin stosowany pierwotnie do funkcji gęstości prawdopodobieństwa dla zmiennych ciągłych, ale obecnie jest używany również dla rozkładów dyskretnych). Estymacja gęstości jest formą uczenia się bez nadzoru. W tej sekcji omówiono najprostszy przypadek, w którym mamy pełne dane. Dane są kompletne, gdy każdy punkt danych zawiera wartości dla każdej zmiennej w uczonym modelu prawdopodobieństwa. Skupiamy się na uczeniu parametrów – znajdowaniu parametrów numerycznych dla modelu prawdopodobieństwa, którego struktura jest ustalona. Na przykład możemy być zainteresowani poznaniem prawdopodobieństw warunkowych w sieci bayesowskiej o określonej strukturze. Przyjrzymy się również pokrótce problemowi struktury uczenia się oraz nieparametrycznej estymacji gęstości.