- Zarządzanie zasobami w klastrach komputerowych: Projektowanie algorytmów przydzielających ograniczone zasoby do różnych zadań jest trudne i wymaga heurystyki tworzonej przez człowieka. RL może być używany do automatycznego uczenia się przydzielania i planowania zasobów komputera do zadań oczekujących w celu zminimalizowania średniego spowolnienia zadania.
- Sterowanie sygnalizacją świetlną: Naukowcy próbowali zaprojektować sterownik sygnalizacji świetlnej, aby rozwiązać problem zatorów.
- Gry: RL jest obecnie tak dobrze znany, ponieważ jest głównym algorytmem używanym do rozwiązywania różnych gier i czasami osiągania nadludzkiej wydajności. Najbardziej znane to Alpha Go i Alpha Go Zero. Alpha Go, wyszkolony w niezliczonych grach z ludźmi, osiągnął już nadludzką wydajność, korzystając z sieci wartości i wyszukiwania drzewa Monte Carlo.
- Spersonalizowane zalecenia: Guanjie iinni, zastosowali RL w systemie rekomendacji wiadomości w artykule zatytułowanym „DRN: A Deep Reinforcement Learning Framework for News Recommendation”