Kluczowe punkty tej sekcji są następujące:
- Ciągłe reprezentacje słów z osadzonymi słowami są bardziej niezawodne niż dyskretne reprezentacje atomowe i mogą być wstępnie wytrenowane przy użyciu nieoznakowanych danych tekstowych.
- Rekurencyjne sieci neuronowe mogą skutecznie modelować kontekst lokalny i dalekosiężny, zachowując istotne informacje w ich wektorach stanu ukrytego.
- Modele sekwencja-do-sekwencji mogą być wykorzystywane do rozwiązywania problemów z tłumaczeniem maszynowym i generowaniem tekstu.
- Modele transformatorów wykorzystują samouważność i mogą modelować kontekst długodystansowy, jak również kontekst lokalny. Potrafią efektywnie wykorzystać sprzętowe mnożenie macierzy.
- Uczenie transferowe, które obejmuje wstępnie wytrenowane kontekstowe osadzanie słów, umożliwia tworzenie modeli z bardzo dużych, nieoznakowanych korpusów i zastosowanie do szeregu zadań. Modele, które są wstępnie wytrenowane do przewidywania brakujących słów, mogą obsługiwać inne zadania, takie jak odpowiadanie na pytania i pociąganie za sobą tekstu, po dostosowaniu do domeny docelowej.