W czasie uczenia model sekwencja-do-sekwencji próbuje zmaksymalizować prawdopodobieństwo wystąpienia każdego słowa w docelowym zdaniu uczącym, w zależności od źródła i wszystkich poprzednich słów docelowych. Po zakończeniu treningu otrzymujemy zdanie źródłowe, a naszym celem jest wygenerowanie odpowiedniego zdania docelowego. Możemy generować słowo docelowe po jednym słowie na raz, a następnie przesyłać zwrotne w słowie, które wygenerowaliśmy w następnym kroku czasowym. Ta procedura nazywa się dekodowaniem. Najprostszą formą dekodowania jest wybranie słowa o największym prawdopodobieństwie w każdym kroku czasowym, a następnie podanie tego słowa jako danych wejściowych do następnego kroku czasowego. Nazywa się to dekodowaniem zachłannym, ponieważ po wygenerowaniu każdego słowa docelowego system w pełni zgadza się z hipotezą, którą do tej pory stworzył. Problem polega na tym, że celem dekodowania jest maksymalizacja prawdopodobieństwa całej sekwencji docelowej, której dekodowanie zachłanne może nie osiągnąć. Na przykład rozważ użycie zachłannego dekodera do przetłumaczenia na hiszpański angielskiego zdania, które widzieliśmy wcześniej, drzwi frontowe są czerwone. Prawidłowe tłumaczenie to „La puerta de entrada es roja” – dosłownie „Drzwi wejściowe są czerwone”. Załóżmy, że docelowy RNN poprawnie generuje pierwsze słowo La dla The. Następnie chciwy dekoder może zaproponować entrada na front. Ale jest to błąd – hiszpański szyk wyrazów powinien umieścić rzeczownik puerta przed modyfikatorem. Dekodowanie zachłanne jest szybkie – uwzględnia tylko jeden wybór na każdym kroku i może to zrobić szybko – ale model nie ma mechanizmu poprawiania błędów. Moglibyśmy spróbować ulepszyć mechanizm uwagi, aby zawsze zwracał uwagę na właściwe słowo i za każdym razem poprawnie odgadywał. Ale w przypadku wielu zdań niewykonalne jest poprawne odgadnięcie wszystkich słów na początku zdania, dopóki nie zobaczysz, co jest na końcu. Lepszym podejściem jest poszukiwanie optymalnego dekodowania (lub przynajmniej dobrego) przy użyciu jednego z algorytmów wyszukiwania z Rozdziału 3. Powszechnym wyborem jest przeszukiwanie wiązki . W kontekście dekodowania MT, przeszukiwanie wiązki zwykle utrzymuje k najwyższych hipotez na każdym etapie, rozszerzając każdą o jedno słowo przy użyciu k najlepszych wyborów słów, a następnie wybiera najlepsze k z wynikowych k2 nowych hipotez. Gdy wszystkie hipotezy w belce generują specjalny token <end>, algorytm wyprowadza hipotezę o najwyższej punktacji. Ponieważ modele uczenia głębokiego stają się coraz dokładniejsze, zwykle możemy sobie pozwolić na użycie wiązki o mniejszym rozmiarze. Obecne najnowocześniejsze neuronowe modele MT wykorzystują wiązkę o rozmiarze od 4 do 8, podczas gdy starsza generacja statystycznych modeli MT wykorzystywałaby wiązkę o rozmiarze 100 lub większym.
Architektura transformatora
Wpływowy artykuł „Uwaga jest wszystkim, czego potrzebujesz” przedstawił architekturę transformatora, która wykorzystuje mechanizm samouważności, który może modelować kontekst długodystansowy bez zależności sekwencyjnej