Niezwykłe postępy w zakresie mocy obliczeniowej i tworzenie sieci WWW ułatwiły tworzenie bardzo dużych zbiorów danych – zjawisko zwane czasem big data. Te zestawy danych obejmują biliony słów tekstu, miliardy obrazów i miliardy godzin mowy i wideo, a także ogromne ilości danych genomowych, dane śledzenia pojazdów, dane dotyczące kliknięć, dane z sieci społecznościowych i tak dalej. Doprowadziło to do opracowania algorytmów uczenia się specjalnie zaprojektowanych do korzystania z bardzo dużych zbiorów danych. Często zdecydowana większość przykładów w takich zestawach danych jest nieoznakowana; na przykład we wpływowej pracy Yarowsky’ego (1995) na temat ujednoznacznienia w sensie słownym, wystąpienia słowa takiego jak „roślina” nie są oznaczone w zbiorze danych, aby wskazać, czy odnoszą się do flory czy fabryki. Jednak przy wystarczająco dużych zbiorach danych odpowiednie algorytmy uczenia mogą osiągnąć dokładność ponad 96% w zadaniu identyfikacji sensu zamierzonego w zdaniu. Ponadto Banko i Brill (2001) stwierdzili, że poprawa wyników uzyskana ze zwiększenia rozmiaru zbioru danych o dwa lub trzy rzędy wielkości przewyższają wszelkie ulepszenia, które można uzyskać dzięki dopracowaniu algorytmu. Wydaje się, że podobne zjawisko występuje w zadaniach widzenia komputerowego, takich jak wypełnianie dziur w fotografiach – dziur spowodowanych uszkodzeniem lub usunięciem byłych przyjaciół. Hays i Efros (2007) opracowali sprytną metodę, aby to zrobić, łącząc piksele z podobnych obrazów; odkryli, że technika ta słabo działała z bazą danych zawierającą tylko tysiące obrazów, ale przekroczyła próg jakości z milionami obrazów. Niedługo potem dostępność dziesiątek milionów obrazów w bazie ImageNet wywołała rewolucję w dziedzinie widzenia komputerowego. Dostępność dużych zbiorów danych i przejście na uczenie maszynowe pomogły AI odzyskać atrakcyjność komercyjną. Big data była kluczowym czynnikiem w zwycięstwie systemu IBM Watson w 2011 roku nad ludzkimi mistrzami w Jeopardy! quiz, wydarzenie, które miało duży wpływ na postrzeganie sztucznej inteligencji przez społeczeństwo.