Przedstawiliśmy kilka ustalonych strategii wyszukiwania — od szerokości do pierwszego, A* itd. — które zostały starannie zaprojektowane i zaprogramowane przez informatyków. Czy agent mógłby nauczyć się lepiej wyszukiwać? Odpowiedź brzmi tak, a metoda opiera się na ważnej koncepcji zwanej przestrzenią stanów metapoziomu. Każdy stan w metapoziomowej przestrzeni stanów przechwytuje wewnętrzny (obliczeniowy) stan programu, który przeszukuje zwykłą przestrzeń stanów, taką jak mapa Rumunii. (Aby oddzielić te dwa pojęcia, mapę Rumunii nazywamy przestrzenią stanów na poziomie obiektu). Na przykład stan wewnętrzny algorytmu A* składa się z bieżącego drzewa poszukiwań. Każda akcja w przestrzeni stanów metapoziomu jest krokiem obliczeniowym, który zmienia stan wewnętrzny; na przykład każdy krok obliczeń w A* rozwija węzeł liścia i dodaje jego następniki do drzewa. Tak więc Rysunek 3.18, który pokazuje sekwencję coraz większych drzew wyszukiwania, może być postrzegany jako obraz przedstawiający ścieżkę w przestrzeni stanów metapoziomu, gdzie każdy stan na ścieżce jest drzewem wyszukiwania na poziomie obiektu. W przypadku trudniejszych problemów będzie wiele takich błędnych kroków, a algorytm uczenia się na metapoziomie może uczyć się na tych doświadczeniach, aby uniknąć odkrywania mało obiecujących poddrzew. Techniki stosowane do tego rodzaju uczenia się zostały opisane w rozdziale później. Celem nauki jest zminimalizowanie całkowitego kosztu rozwiązywania problemów, kompensowanie kosztów obliczeniowych i kosztów ścieżki.