Wcześniejsze wpisy dotyczyły problemów w pełni obserwowalnych, deterministycznych, statycznych, znanych środowiskach, gdzie rozwiązaniem jest sekwencja działań. Tu rozluźniamy te ograniczenia. Zaczynamy od problemu znalezienia dobrego stanu bez martwienia się o ścieżkę do niego, obejmującego zarówno stany dyskretne , jak i ciągłe . Następnie rozluźniamy założenia determinizmu i obserwowalności .W niedeterministycznym świecie agent będzie potrzebował planu warunkowego i może wykonywać różne działania w zależności od tego, co obserwuje — na przykład zatrzymywanie, jeśli światło jest czerwone i wyłączanie, jeśli jest zielone. W przypadku częściowej obserwowalności agent będzie musiał również śledzić możliwe stany, w których może się znajdować. Na koniec, sekcja prowadzi agenta przez nieznaną przestrzeń, którą musi poznać w trakcie pracy, korzystając z wyszukiwania online.