LSTM dla zadań NLP

https://aie24.pl/

Powiedzieliśmy, że RNN czasami rozwiązują problem ograniczonego kontekstu. Teoretycznie każda informacja może być przekazywana z jednej ukrytej warstwy do drugiej w dowolnej liczbie przedziałów czasowych. Ale w praktyce informacje mogą się zagubić lub zniekształcić, tak jak w grze telefonicznej, w której gracze stoją w kolejce, a pierwszy gracz szepcze wiadomość drugiemu, a ten powtarza ją trzeciemu i tak dalej. . Zwykle wiadomość, która pojawia się na końcu, jest dość uszkodzona w stosunku do oryginalnej wiadomości. Ten problem dla RNN jest podobny do problemu znikającego gradientu, , z tą różnicą, że teraz mamy do czynienia z warstwami w czasie, a nie z głębokimi warstwami. W sekcji 22.6.2 wprowadziliśmy model pamięci długoterminowej krótkoterminowej (LSTM). Jest to rodzaj RNN z bramkami, które nie borykają się z problemem niedoskonałego odtwarzania wiadomości z jednego kroku do następnego. Zamiast tego LSTM może wybrać zapamiętanie niektórych części danych wejściowych, skopiowanie ich do następnego kroku czasowego i zapomnienie innych części. Zastanówmy się nad modelem językowym obsługującym tekst, takim jak Sportowcy, którzy wszyscy wygrali swoje lokalne kwalifikacje i awansowali do finału w Tokio, teraz… W tym momencie, gdybyśmy zapytali modela, które następne słowo jest bardziej prawdopodobne, „konkurować” lub „ konkuruje”, spodziewalibyśmy się, że wybierze „konkurować”, ponieważ zgadza się z tematem „Sportowcy”. LSTM może nauczyć się tworzyć ukrytą cechę dla danej osoby i numeru oraz kopiować tę cechę do przodu bez zmian, dopóki nie będzie to konieczne do dokonania takiego wyboru. Zwykła RNN (lub model n-gramowy) często myli się w długich zdaniach z wieloma słowami wtrącającymi się między podmiotem a czasownikiem.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *