Uzyskanie wystarczającej ilości danych do zbudowania solidnego modelu może być wyzwaniem. W wizji komputerowej wyzwanie to rozwiązano poprzez zgromadzenie dużych kolekcji obrazów (takich jak ImageNet) i ręczne ich etykietowanie. W przypadku języka naturalnego częściej pracuje się z tekstem bez etykiet. Różnica wynika po części z trudności w etykietowaniu: niewykwalifikowany pracownik może łatwo oznaczyć obrazek jako „kot” lub „zachód słońca”, ale wymaga to intensywnego szkolenia, aby przypisywać do zdania znaczniki części mowy lub analizować drzewa. Różnica wynika również z obfitości tekstu: Internet dodaje codziennie ponad 100 miliardów słów tekstu, w tym zdigitalizowane książki, wyselekcjonowane zasoby, takie jak Wikipedia, oraz niewyselekcjonowane posty w mediach społecznościowych. Projekty takie jak Common Crawl zapewniają łatwy dostęp do tych danych. Do zbudowania modeli osadzania n-gramów lub słów można użyć dowolnego bieżącego tekstu, a niektóre teksty mają strukturę, która może być pomocna w różnych zadaniach — na przykład istnieje wiele witryn z często zadawanymi pytaniami z parami pytań i odpowiedzi, które można wykorzystać do trenowania system odpowiedzi na pytania. Podobnie wiele witryn sieci Web publikuje obok siebie tłumaczenia tekstów, które można wykorzystać do uczenia systemów tłumaczenia maszynowego. Niektóre teksty zawierają nawet pewnego rodzaju etykiety, takie jak witryny z recenzjami, w których użytkownicy dodają adnotacje do swoich recenzji tekstowych za pomocą pięciogwiazdkowego systemu ocen. Wolelibyśmy nie zadawać sobie trudu tworzenia nowego zestawu danych za każdym razem, gdy chcemy mieć nowy model NLP. W tej sekcji przedstawiamy ideę szkolenia wstępnego: formę uczenia się transferowego , w której używamy dużej ilości wspólnych danych języka domeny ogólnej do trenowania początkowej wersji modelu NLP. Stamtąd możemy użyć mniejszej ilości danych specyficznych dla domeny (być może w tym niektórych danych oznaczonych etykietą), aby udoskonalić model. Udoskonalony model może uczyć się słownictwa, idiomów, struktur składniowych i innych zjawisk językowych, które są specyficzne dla nowej dziedziny.