Wstępnie wytrenowane reprezentacje kontekstowe – "Bądź człowiekiem … A.I. !"

https://aie24.pl/

Osadzanie słów jest lepszą reprezentacją niż atomowe tokeny słów, ale istnieje ważny problem ze słowami polisemicznymi. Na przykład słowo róża może odnosić się do kwiatu lub czasu przeszłego wzrostu. Spodziewamy się zatem, że znajdziemy co najmniej dwa całkowicie odrębne skupiska kontekstów słów dla róży: jeden podobny do nazw kwiatów, takich jak dalia, i jeden podobny do wzrostu. Żaden pojedynczy wektor osadzania nie może uchwycić obu tych elementów jednocześnie. Róża jest wyraźnym przykładem słowa o (co najmniej) dwóch różnych znaczeniach, ale inne słowa mają subtelne odcienie znaczenia, które zależą od kontekstu, takie jak słowo potrzeba, aby zobaczyć ten film, a ludzie potrzebują tlenu, aby przetrwać. Niektóre zwroty idiomatyczne, takie jak rozbić bank, są lepiej analizowane jako całość niż jako słowa składowe. Dlatego zamiast po prostu uczyć się tabeli ze słowami do osadzania, chcemy wytrenować model, aby generował kontekstowe reprezentacje każdego słowa w zdaniu. Reprezentacja kontekstowa odwzorowuje zarówno słowo, jak i otaczający kontekst słów na wektor osadzania słowa. Innymi słowy, jeśli nakarmimy ten model słowem róża i kontekstem, w którym ogrodnik zasadził krzak róży, powinno to spowodować osadzenie kontekstowe, które jest podobne (ale niekoniecznie identyczne) do reprezentacji, jaką otrzymujemy w kontekście, w którym róża kapuściana miała niezwykły zapach i bardzo różny od przedstawienia róży w kontekście rzeki wznosi się na pięć stóp. Zakładamy, że zbudowaliśmy już kolekcję niekontekstowych osadzeń słów. Podajemy jedno słowo na raz i prosimy model, aby przewidział następne słowo. Na przykład na rysunku w punkcie, w którym dotarliśmy do słowa „samochód”, węzeł RNN w tym kroku czasu otrzyma dwa dane wejściowe: niekontekstowe osadzenie słowa „samochód” oraz kontekst, który koduje informacje z poprzedniego słowa „Czerwony”. Węzeł RNN wygeneruje następnie kontekstową reprezentację dla „samochodu”. Sieć jako całość następnie wyprowadza predykcję dla następnego słowa „jest”. Następnie aktualizujemy wagi sieci, aby zminimalizować błąd między przewidywaniem a rzeczywistym następnym słowem.

Post Views: 69

Dodaj komentarz Anuluj pisanie odpowiedzi