Wiele rzeczywistych problemów wiąże się z ciągłymi wielkościami, takimi jak wysokość, masa, temperatura i pieniądze. Z definicji zmienne ciągłe mają nieskończoną liczbę możliwych wartości, więc niemożliwe jest jednoznaczne określenie prawdopodobieństw warunkowych dla każdej wartości. Jednym ze sposobów obsługi zmiennych ciągłych jest dyskretyzacja — czyli dzielenie możliwych wartości na ustalony zestaw przedziałów. Na przykład temperatury można podzielić na trzy kategorie: (< 0oC), (0oC – 100oC ) i (>100oC ). Przy wyborze liczby kategorii istnieje kompromis między utratą dokładności a dużymi CPT, co może prowadzić do spowolnienia czasu działania.
Innym podejściem jest zdefiniowanie zmiennej ciągłej przy użyciu jednej ze standardowych rodzin funkcji gęstości prawdopodobieństwa. Na przykład rozkład Gaussa (lub normalny) N(x,μ ,σ2)jest określony przez zaledwie dwa parametry, średnią mikro i wariancję rho2.d. Jeszcze inne rozwiązanie – czasami nazywane reprezentacją nieparametryczną – s, aby zdefiniować rozkład warunkowy niejawnie za pomocą zbioru wystąpień, z których każdy zawierające określone wartości zmiennych nadrzędnych i podrzędnych. Omówimy to podejście w dalszej części. Sieć ze zmiennymi dyskretnymi i ciągłymi nazywana jest hybrydową siecią bayesowską. Aby określić sieć hybrydową, musimy określić dwa nowe rodzaje rozkładów: rozkład warunkowy dla zmiennej ciągłej o danych rodzicielskich dyskretnych lub ciągłych; oraz rozkład warunkowy dla zmiennej dyskretnej przy danych rodzicach ciągłych. Rozważmy prosty przykład na rysunku, w którym klient kupuje owoce w zależności od ich kosztu, który z kolei zależy od wielkości zbiorów i tego, czy działa rządowy program dotacji.
Zmienna Koszt jest ciągła i ma stałych i dyskretnych rodziców; zmienna Buys jest dyskretna i ma ciągłego rodzica. Dla zmiennej Cost musimy określić P(Cost | Harvest , Subsidy). Dyskretny element nadrzędny jest obsługiwany przez wyliczenie – czyli przez określenie zarówno P(Cost | Harvest , subsidy) , jak i P(Cost | Harvest , ¬subsidy) . Aby obsłużyć Harvest , określamy, w jaki sposób rozkład kosztów zależy od ciągłej wartości h Harvest. Innymi słowy, określamy parametry rozkładu kosztów w funkcji h. Najpopularniejszym wyborem jest liniowo-gaussowski rozkład warunkowy, w którym dziecko ma rozkład Gaussa, którego średnia μ zmienia się liniowo wraz z wartością rodzica i którego odchylenie standardowe σ jest stałe. Potrzebujemy dwóch rozkładów, jednego dla subsidy i jednego dla ¬susbidy, o różnych parametrach:
W tym przykładzie rozkład warunkowy dla Kosztu jest określany przez nazwanie rozkładu liniowo-Gaussowskiego i podanie parametrów at , bt , sigmat , af , bf i sigmaf . Rysunki (a) i (b) pokazują te dwie zależności. Zauważ, że w każdym przypadku nachylenie versus jest ujemne, ponieważ koszt maleje wraz ze wzrostem wielkości zbiorów. (Oczywiście założenie liniowości oznacza, że koszt w pewnym momencie staje się ujemny; model liniowy jest rozsądny tylko wtedy, gdy wielkość zbiorów jest ograniczona do wąskiego zakresu.) Rysunek (c) pokazuje rozkład P(c|h), uśredniając dwie możliwe wartości subsydium i zakładając, że każda ma prawdopodobieństwo a priori 0,5. To pokazuje, że nawet przy bardzo prostych modelach można przedstawić całkiem interesujące rozkłady.
Liniowy — rozkład warunkowy Gaussa ma pewne specjalne właściwości. Sieć zawierająca tylko zmienne ciągłe z rozkładami liniowymi — Gaussa ma łączny rozkład, który jest wielowymiarowym rozkładem Gaussa dla wszystkich zmiennych. Co więcej, rozkład a posteriori przedstawiony jakimkolwiek dowodom również ma tę właściwość. Gdy zmienne dyskretne są dodawane jako nadrzędne (nie jako dzieci) zmiennych ciągłych, sieć definiuje warunkowy rozkład gaussowski lub CG: przy dowolnym przypisaniu do zmiennych dyskretnych rozkład nad zmiennymi ciągłymi jest wielowymiarowym rozkładem gaussowskim. Teraz przejdziemy do rozkładów dla zmiennych dyskretnych o ciągłych rodzicach. Rozważmy na przykład węzeł Buys na rysunku powyżej. Rozsądne wydaje się założenie, że klient kupi, jeśli koszt jest niski, a nie kupi, jeśli jest wysoki, a prawdopodobieństwo zakupu płynnie zmienia się w jakimś regionie pośrednim. Innymi słowy, rozkład warunkowy jest jak „miękka” funkcja progowa. Jednym ze sposobów tworzenia progów miękkich jest użycie całki ze standardowego rozkładu normalnego:
Φ(x) jest rosnącą funkcją , podczas gdy prawdopodobieństwo zakupu maleje wraz z kosztem, więc tutaj odwracamy tę funkcję:
co oznacza, że próg kosztowy występuje w okolicach , szerokość obszaru progowego jest proporcjonalna do sigma , a prawdopodobieństwo zakupu maleje wraz ze wzrostem kosztów. Ten model probitowy (wymawiany „pro-bit” i skrót od „jednostka prawdopodobieństwa”) jest przedstawiony na rysunku, co oznacza, że próg kosztów występuje w okolicach , szerokość obszaru progowego jest proporcjonalna do , a prawdopodobieństwo zakupu maleje wraz ze wzrostem kosztów . Ten model probitowy (wymawiany „pro-bitowy” i skrót od „jednostka prawdopodobieństwa”) jest przedstawiony na rysunku
Alternatywą dla modelu probitowego jest model expit lub inverse logit. Wykorzystuje funkcję logistyczną 1/(1 + e-x) do utworzenia miękkiego progu — odwzorowuje dowolny na x wartość z zakresu od 0 do 1. Ponownie, dla naszego przykładu, odwracamy to, aby utworzyć funkcję malejącą; skalujemy również wykładnik przez 4/√2π, aby dopasować nachylenie probitu do średniej:
Jest to zilustrowane na rysunku (b). Te dwie dystrybucje wyglądają podobnie, ale logit ma w rzeczywistości znacznie dłuższe „ogony”. Probit jest często lepiej dopasowany do rzeczywistych sytuacji, ale czasami łatwiej jest poradzić sobie z funkcją logistyczną matematycznie. Jest szeroko stosowany w uczeniu maszynowym. Oba modele można uogólnić do obsługi wielu ciągłych rodziców, przyjmując liniową kombinację wartości rodziców. Działa to również w przypadku dyskretnych rodziców, jeśli ich wartości są liczbami całkowitymi; na przykład, z rodzicami boolowskimi, z których każdy jest postrzegany jako mający wartości 0 lub 1, dane wejściowe do rozkładu exit lub probit byłyby ważoną kombinacją liniową z parametrami, dając model bardzo podobny do omawianego wcześniej modelu zaszumionego OR.