System sztucznej inteligencji wymaga dużych zbiorów danych szkoleniowych i będzie się uczył na podstawie dostępnych informacji w podobny sposób, jak robią to ludzie. Ogólnie obserwuje się, że firmy nadal napotykają trudności w pozyskiwaniu dużych zbiorów danych, które są wprowadzane do analizy dużych zbiorów danych sztucznej inteligencji. Typy danych wymagane przez algorytm mogą normalnie nie być dostępne; niektórych może brakować, niektóre trzeba zebrać lub zdobyć, a uzyskanie niektórych danych może być nadal dość uciążliwe, np. dane kliniczne. W takich przypadkach można tworzyć dane syntetyczne w celu trenowania modelu opartego na sztucznej inteligencji lub wykorzystywać otwarte dane lub zestaw danych Google do trenowania modelu pod kątem prognoz. Jakość wyników z dowolnego systemu AI zależy od ilości i jakości danych, które są do niego wprowadzane. Potrzebuje jednak znacznie więcej danych niż ludzie mogą potrzebować do interpretacji, a także do identyfikacji dokładnych wzorców. Im więcej wysokiej jakości danych jest dostępnych dla systemu AI, tym lepsze wyniki może on zapewnić. Aby wyszkolić algorytmy ML, wymagane są duże i wysokiej jakości zestawy danych z minimalnymi odchyleniami. Większość tych danych może nie być łatwo dostępna do natychmiastowego użycia, ponieważ są albo dostępne w nieustrukturyzowanej formie, albo w niewystarczającej ilości, albo są przechowywane w innym formacie. W rezultacie wiele firm musi więcej inwestować w tworzenie infrastruktury umożliwiającej skuteczne gromadzenie i przechowywanie ogromnych ilości danych oraz rekrutację wyszkolonej siły roboczej do przetwarzania danych i uczynienia ich użytecznymi i produktywnymi. Możliwości sztucznej inteligencji i jej niezawodność dla konkretnego zastosowania zależałyby bezpośrednio od dokładności nadzorowanych i oznakowanych danych wejściowych wykorzystywanych do szkolenia i uczenia się algorytmu . Oznaczone dane, choć ich brakuje, są uporządkowane w taki sposób, aby były zrozumiałe dla maszyn do uczenia się. Opracowywane są podejścia, dzięki którym modele sztucznej inteligencji uczą się same, pomimo niedoboru danych o wysokiej jakości, wykorzystując uczenie transferowe, uczenie aktywne, uczenie głębokie i uczenie bez nadzoru.