Kruchość systemów eksperckich doprowadziła do nowego, bardziej naukowego podejścia obejmującego prawdopodobieństwo zamiast logiki Boole’a, uczenie maszynowe zamiast ręcznego kodowania oraz wyniki eksperymentalne zamiast twierdzeń filozoficznych. Coraz powszechniejsze stało się budowanie na istniejących teoriach niż proponowanie zupełnie nowych, opieranie twierdzeń na rygorystycznych twierdzeniach lub solidnej metodologii eksperymentalnej, a nie na intuicji, oraz wykazywanie związku z zastosowaniami w świecie rzeczywistym, a nie przykładami z zabawek. Niektórzy scharakteryzowali tę zmianę jako zwycięstwo fajnych – tych, którzy uważają, że teorie AI powinny być ugruntowane w matematycznym rygorze – nad drobiazgami – tych, którzy woleliby wypróbować wiele pomysłów, napisać kilka programów, a następnie ocenić, co wydaje się być pracujący. Oba podejścia są ważne. Przejście w kierunku schludności oznacza, że pole osiągnęło poziom stabilności i dojrzałości. Obecny nacisk na głębokie uczenie się może oznaczać odrodzenie się niechlujności. Wspólne zestawy zadań porównawczych stały się normą w demonstrowaniu postępów, w tym repozytorium UC Irvine dla zestawów danych uczenia maszynowego, International Planning Competition na algorytmy planowania, korpus LibriSpeech do rozpoznawania mowy, zestaw danych MNIST do rozpoznawania odręcznych cyfr, ImageNet i COCO do rozpoznawania obiektów obrazu, SQUAD na odpowiadanie na pytania w języku naturalnym, konkurs WMT na tłumaczenie maszynowe oraz Międzynarodowe Konkursy SAT na rozwiązywanie problemów logicznych. Sztuczna inteligencja powstała częściowo jako bunt przeciwko ograniczeniom istniejących dziedzin, takich jak teoria kontroli i statystyka, ale w tym okresie obejmowała pozytywne wyniki tych dziedzin. Jak ujął to David McAllester (1998):
We wczesnym okresie sztucznej inteligencji wydawało się prawdopodobne, że nowe formy obliczeń symbolicznych, np. ramy i sieci semantyczne, sprawiły, że większość teorii klasycznej stała się przestarzała. Doprowadziło to do formy izolacjonizmu, w której sztuczna inteligencja została w dużej mierze oddzielona od reszty informatyki. Ten izolacjonizm jest obecnie porzucany. Uznaje się, że uczenie maszynowe nie powinno być izolowane od teorii informacji, niepewne rozumowanie nie powinno być izolowane od modelowania stochastycznego, wyszukiwanie nie powinno być izolowane od klasycznej optymalizacji i kontroli, a wnioskowanie automatyczne nie powinno być izolowane od metod formalnych i analiza statyczna.
Dziedzina rozpoznawania mowy ilustruje ten wzorzec. W latach 70. wypróbowano wiele różnych architektur i podejść. Wiele z nich było raczej doraźnych i kruchych i pracowało tylko na kilku starannie dobranych przykładach. W latach 80. XX wieku dominowały na tym obszarze podejścia wykorzystujące ukryte modele Markowa (HMM). Istotne są dwa aspekty HMM. Po pierwsze, opierają się na rygorystycznej teorii matematycznej. Umożliwiło to badaczom mowy oparcie się na kilku dekadach wyników matematycznych opracowanych w innych dziedzinach. Po drugie, są generowane w procesie uczenia się na dużym zbiorze rzeczywistych danych mowy. Gwarantuje to, że wydajność jest solidna, a w rygorystycznych ślepych testach HMM stale poprawiały swoje wyniki. W rezultacie technologia mowy i związana z nią dziedzina rozpoznawania pisma odręcznego przeszła do powszechnych zastosowań przemysłowych i konsumenckich. Zauważ, że nie było naukowego twierdzenia, że ludzie używają HMM do rozpoznawania mowy; raczej HMM dostarczyły matematycznych ram do zrozumienia i rozwiązania problemu. Rok 1988 był ważnym rokiem dla połączenia sztucznej inteligencji z innymi dziedzinami, w tym statystyką, badaniami operacyjnymi, teorią decyzji i teorią sterowania. Judea Pearl (1988) Probabilistic Reasoning in Intelligent Systems doprowadziła do nowej akceptacji teorii prawdopodobieństwa i decyzji w AI. Rozwój sieci bayesowskich Pearla zaowocował rygorystycznym i wydajnym formalizmem przedstawiania niepewnej wiedzy, a także praktycznymi algorytmami wnioskowania probabilistycznego. Rozdziały od 12 do 16 obejmują ten obszar, oprócz nowszych osiągnięć, które znacznie zwiększyły wyrazistą moc formalizmów probabilistycznych; Rozdział 20 opisuje metody uczenia sieci bayesowskich i powiązanych modeli z danych. Drugim ważnym wkładem w 1988 r. była praca Richa Suttona łącząca uczenie się ze wzmacnianiem – które zostało użyte w programie gry w szachownicę Arthura Samuela w latach pięćdziesiątych – z teorią procesów decyzyjnych Markowa (MDP) rozwiniętą w dziedzinie badań operacyjnych. Zalew prac nastąpił po połączeniu badań nad planowaniem sztucznej inteligencji z programami MDP, a dziedzina uczenia się przez wzmacnianie znalazła zastosowanie w robotyce i kontroli procesów, a także pozyskała głębokie podstawy teoretyczne. Jedną z konsekwencji nowego uznania AI dla danych, modelowania statystycznego, optymalizacji i uczenia maszynowego było stopniowe ponowne zjednoczenie poddziedzin, takich jak wizja komputerowa, robotyka, rozpoznawanie mowy, systemy wieloagentowe i przetwarzanie języka naturalnego, które stały się nieco oddzielone od podstawowej sztucznej inteligencji. Proces reintegracji przyniósł znaczne korzyści zarówno pod względem zastosowań – na przykład rozmieszczenie praktycznych robotów znacznie rozszerzyło się w tym okresie – jak i lepszego teoretycznego zrozumienia podstawowych problemów sztucznej inteligencji.