Od samouważności do transformatora

https://aie24.pl/

Samouważność jest tylko jednym z elementów modelu transformatora. Każda warstwa transformatora składa się z kilku podwarstw. Na każdej warstwie transformatora najpierw przykładana jest uwaga. Sygnał wyjściowy modułu uwagi jest podawany przez warstwy ze sprzężeniem do przodu, gdzie te same macierze masy ze sprzężeniem do przodu są nakładane niezależnie w każdej pozycji. Nieliniowa funkcja aktywacji, zazwyczaj ReLU, jest stosowana po pierwszej warstwie ze sprzężeniem do przodu. Aby rozwiązać problem potencjalnego znikającego gradientu, do warstwy transformatora dodaje się dwa połączenia resztkowe.  W praktyce modele transformatorów mają zwykle sześć lub więcej warstw. Podobnie jak w przypadku innych modeli, o których się dowiedzieliśmy, dane wyjściowe warstwy i są używane jako dane wejściowe warstwy i+1. Architektura transformatora nie wychwytuje wprost kolejności słów w sekwencji, ponieważ kontekst jest modelowany tylko przez samouważność, która jest agnostyczna w stosunku do kolejności słów. Aby uchwycić kolejność słów, transformator wykorzystuje technikę zwaną osadzaniem pozycyjnym. Jeśli nasza sekwencja wejściowa ma maksymalną długość n, wtedy uczymy się n nowych wektorów osadzania — po jednym dla każdej pozycji słowa. Sygnał wejściowy do pierwszej warstwy transformatora jest sumą osadzania słowa w pozycji t plus osadzanie pozycyjne odpowiadające pozycji t.  Na dole słowa osadzenie i osadzenia pozycyjne są sumowane, tworząc wejście dla trójwarstwowego transformatora. Transformator generuje jeden wektor na słowo, tak jak w przypadku tagowania POS opartego na RNN. Każdy wektor jest podawany do końcowej warstwy wyjściowej i warstwy softmax, aby uzyskać rozkład prawdopodobieństwa na znacznikach. W tej sekcji opowiedzieliśmy tylko połowę historii transformatora: model, który tutaj opisaliśmy, nazywa się koderem transformatora. Przydaje się do zadań klasyfikacji tekstu. Pełna architektura transformatora została pierwotnie zaprojektowana jako model sekwencja-sekwencja do tłumaczenia maszynowego. Dlatego oprócz enkodera zawiera również dekoder transformatorowy. Koder i dekoder są prawie identyczne, z wyjątkiem tego, że dekoder używa wersji samouważności, w której każde słowo może zająć się tylko słowami przed nim, ponieważ tekst jest generowany od lewej do prawej. Dekoder ma również drugi moduł uwagi w każdej warstwie transformatora, który obsługuje wyjście kodera transformatora.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *