Samouważność

https://aie24.pl/

Wcześniej w modelach sekwencja-sekwencja zwracano uwagę z docelowej RNN na źródłową RNN. Samouważność rozszerza ten mechanizm tak, że każda sekwencja ukrytych stanów dotyczy również siebie – źródło do źródła i cel do celu. Pozwala to modelowi dodatkowo uchwycić kontekst dalekiego zasięgu (i bliskiego) w każdej sekwencji. Najprostszym sposobem zastosowania samouwagi jest sytuacja, w której macierz uwagi jest bezpośrednio tworzona przez iloczyn skalarny wektorów wejściowych. Jest to jednak problematyczne. Iloczyn skalarny między wektorem a nim zawsze będzie wysoki, więc każdy stan ukryty będzie skłaniał się ku sobie. Transformator rozwiązuje ten problem, najpierw rzutując dane wejściowe na trzy różne reprezentacje przy użyciu trzech różnych macierzy wag:

  • Wektor zapytania qi= Wqxi jest tym, z którego jest obserwowany, podobnie jak cel w standardowym mechanizmie uwagi.
  • Kluczowy wektor ki=Wkxi jest tym, którym się zajmujemy, podobnie jak źródło w podstawowym mechanizmie uwagi.
  • Wektor wartości vi=Wvxi to generowany kontekst.

W standardowym mechanizmie uwagi sieci klucza i wartości są identyczne, ale intuicyjnie ma sens, aby były to oddzielne reprezentacje. Wyniki kodowania i-tego słowa, ci, można obliczyć, stosując mechanizm uwagi do rzutowanych wektorów:

Wcześniej w modelach sekwencja-sekwencja zwracano uwagę z docelowej RNN na źródłową RNN. Samouważność rozszerza ten mechanizm tak, że każda sekwencja ukrytych stanów dotyczy również siebie – źródło do źródła i cel do celu. Pozwala to modelowi dodatkowo uchwycić kontekst dalekiego zasięgu (i bliskiego) w każdej sekwencji. Najprostszym sposobem zastosowania samouwagi jest sytuacja, w której macierz uwagi jest bezpośrednio tworzona przez iloczyn skalarny wektorów wejściowych. Jest to jednak problematyczne. Iloczyn skalarny między wektorem a nim zawsze będzie wysoki, więc każdy stan ukryty będzie skłaniał się ku sobie. Transformator rozwiązuje ten problem, najpierw rzutując dane wejściowe na trzy różne reprezentacje przy użyciu trzech różnych macierzy wag:

  • Wektor zapytania qi= Wqxi jest tym, z którego jest obserwowany, podobnie jak cel w standardowym mechanizmie uwagi.
  • Kluczowy wektor ki=Wkxi jest tym, którym się zajmujemy, podobnie jak źródło w podstawowym mechanizmie uwagi.
  • Wektor wartości vi=Wvxi to generowany kontekst.

W standardowym mechanizmie uwagi sieci klucza i wartości są identyczne, ale intuicyjnie ma sens, aby były to oddzielne reprezentacje. Wyniki kodowania i-tego słowa, ci, można obliczyć, stosując mechanizm uwagi do rzutowanych wektorów:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *