W opisie procesów decyzyjnych Markowa przyjęto, że środowisko jest w pełni obserwowalne. Przy takim założeniu agent zawsze wie, w jakim jest stanie. To, w połączeniu z założeniem Markowa dla modelu przejściowego, oznacza, że optymalna polityka zależy tylko od aktualnego stanu.
Gdy otoczenie jest tylko częściowo obserwowalne, sytuacja jest, można powiedzieć, znacznie mniej jasna. Agent niekoniecznie wie, w jakim stanie się znajduje, więc nie może wykonać akcji (akcji) zalecanych dla tego stanu. Co więcej, użyteczność stanu s i optymalne działanie w s zależą nie tylko od s, ale także od tego, ile agent wie, kiedy jest w s. Z tych powodów częściowo obserwowalne MDP (lub POMDP – wymawiane „pom-dee-pees”) są zwykle postrzegane jako znacznie trudniejsze niż zwykłe MDP. Nie możemy jednak uniknąć POMDP, ponieważ świat rzeczywisty jest taki sam.