Zobaczmy, jak naiwny model Bayesa można wykorzystać do zadania klasyfikacji tekstu: mając dany tekst, zdecyduj, do którego z predefiniowanego zestawu klas lub kategorii należy. Tutaj „przyczyną” jest zmienna Kategoria, a zmiennymi „skutek” jest obecność lub brak pewnych słów kluczowych, HasWordi. Rozważ te dwa przykładowe zdania, zaczerpnięte z artykułów prasowych:
- Akcje rosły w poniedziałek, a główne indeksy zyskały 1%, ponieważ optymizm utrzymywał się w sezonie wyników za pierwszy kwartał.
- Ulewne deszcze nadal uderzały w większość wschodniego wybrzeża w poniedziałek, a ostrzeżenia o powodziach wydano w Nowym Jorku i innych miejscach.
Zadanie polega na zaklasyfikowaniu każdego zdania do Kategorii — głównych działów gazety: wiadomości, sportu, biznesu, pogody lub rozrywki. Naiwny model Bayesa składa się z prawdopodobieństw wcześniejszych P(Kategoria) i prawdopodobieństw warunkowych P(HasWordi | Kategoria).
Dla każdej kategorii c , P(Categry = c) jest szacowane jako ułamek wszystkich wcześniej widzianych dokumentów należących do kategorii c . Na przykład, jeśli 9% artykułów dotyczy pogody, ustawiamy P(Category = wetaher) = 0,09 . Podobnie, P(HasWordi | Kategoria) jest szacowane jako ułamek dokumentów z każdej kategorii, które zawierają słowo i ; być może 37% artykułów o biznesie zawiera słowo , „akcje”, więc P(HawWord=prawda | Kategoria -=biznes) jest ustawione na 0,37.
Aby skategoryzować nowy dokument, sprawdzamy, które słowa kluczowe pojawiają się w dokumencie, a następnie stosujemy równanie , aby uzyskać rozkład prawdopodobieństwa a posteriori dla kategorii. Jeśli musimy przewidzieć tylko jedną kategorię, bierzemy tę o najwyższym prawdopodobieństwie a posteriori. Zauważ, że w tym zadaniu obserwowana jest każda zmienna efektu, ponieważ zawsze możemy stwierdzić, czy dane słowo pojawia się w dokumencie. Naiwny model Bayesa zakłada, że słowa występują w dokumentach niezależnie, z częstotliwością określoną przez kategorię dokumentu. To założenie niezależności jest w praktyce wyraźnie naruszane. Na przykład wyrażenie „pierwszy kwartał” pojawia się częściej w artykułach biznesowych (lub sportowych), niż wynikałoby to z pomnożenia prawdopodobieństw „pierwszego” i „kwartalnego”. Naruszenie niezależności zwykle oznacza, że ostateczny a posteriori prawdopodobieństwa będą znacznie bliższe 1 lub 0 niż powinny; innymi słowy, model jest zbyt pewny swoich przewidywań. Z drugiej strony, nawet przy tych błędach, ranking możliwych kategorii jest często dość dokładny. Modele Naive Bayes są szeroko stosowane do określania języka, wyszukiwania dokumentów, filtrowania spamu i innych zadań klasyfikacyjnych. W przypadku zadań takich jak diagnostyka medyczna, w których rzeczywiste wartości prawdopodobieństw a posteriori mają znaczenie – na przykład przy podejmowaniu decyzji o wykonaniu wyrostka robaczkowego – zazwyczaj woli się używać bardziej wyrafinowanych modeli.