Słabością standardowych modeli językowych, takich jak modele n-gramowe, jest to, że kontekstualizacja każdego słowa opiera się tylko na poprzednich słowach zdania. Prognozy są tworzone od lewej do prawej. Czasami jednak kontekst z późniejszego zdania — na przykład stopy w zdaniu uniósł się o pięć stóp — pomaga wyjaśnić wcześniejsze słowa. Jednym z prostych obejść jest wytrenowanie oddzielnego modelu języka pisanego od prawej do lewej, który kontekstualizuje każde słowo na podstawie kolejnych słów w zdaniu, a następnie łączy reprezentacje od lewej do prawej i od prawej do lewej. Jednak taki model nie łączy dowodów z obu kierunków. Zamiast tego możemy użyć modelu języka maskowanego (MLM). MLM są szkolone przez maskowanie (ukrywanie) poszczególnych słów w danych wejściowych i prosząc model o przewidzenie zamaskowanych słów. Do tego zadania można użyć głębokiego dwukierunkowego RNN lub transformatora na górze zdania maskowanego. Na przykład, mając zdanie wejściowe „Rzeka wzrosła o pięć stóp”, możemy zamaskować środkowe słowo, aby uzyskać „Rzeka pięć stóp” i poprosić modelkę o wypełnienie pustego miejsca. Ostateczne ukryte wektory odpowiadające zamaskowanym tokenom są następnie używane do przewidywania zamaskowanych słów — w tym przykładzie róża. Podczas treningu jedno zdanie może być użyte wiele razy z zamaskowanymi różnymi słowami. Piękno tego podejścia polega na tym, że nie wymaga ono oznakowanych danych; zdanie stanowi własną etykietę dla słowa maskowanego. Jeśli ten model jest wytrenowany na dużym korpusie tekstu, generuje wytrenowane reprezentacje, które dobrze sprawdzają się w wielu różnych zadaniach NLP (tłumaczenie maszynowe, odpowiadanie na pytania, podsumowania, oceny gramatyczne i inne).