Wykres na rysunku pokazuje nagrodę, jaką każdy ruch wyprodukował podczas gry.
Wznoszący się wzór wskazuje, że agent nauczył się wykonywać znacznie lepsze ruchy, gdy gra więcej gier. Rysunek pokazuje, że w miarę postępów w rozgrywkach bilans materiałowy poprawiał się po każdej grze.
Oznacza to, że liczba bierek pozostałych po każdym meczu poprawia się. Oznacza to poprawę wydajności modelu. Rysunek przedstawia przykładowy interfejs użytkownika gry w szachy wraz z wynikami.