Pokrótce wprowadziliśmy osadzanie słów. Zobaczyliśmy, że podobne słowa, takie jak banan i jabłko, kończą się podobnymi wektorami i widzieliśmy, że możemy rozwiązać problemy z analogią za pomocą odejmowania wektorów. Oznacza to, że osadzenia słów są przechwytywane istotne informacje o słowach. W tej sekcji zagłębimy się w szczegóły tworzenia osadzonych słów przy użyciu całkowicie nienadzorowanego procesu na dużym korpusie tekstu. Jest to w przeciwieństwie do osadzeń, które zostały zbudowane podczas procesu nadzorowanej części znakowania mowy, a tym samym wymagały tagów POS, które pochodzą z drogich adnotacji ręcznych. Skoncentrujemy się na jednym konkretnym modelu osadzania słów, modelu GloVe (Global Vectors). Model rozpoczyna się od zebrania liczby, ile razy każde słowo pojawia się w oknie innego słowa, podobnie jak w modelu pomijania gramów. Najpierw wybierz rozmiar okna (może 5 słów) i niech Xij będzie liczbą współwystępowania słów i oraz j w oknie, a Xi niech będzie liczbą współwystępowania słowa i z dowolnym innym słowem. Niech Pij=Xi /Xi będzie prawdopodobieństwem pojawienia się słowa j w kontekście słowa i. Tak jak poprzednio, niech Ei będzie słowem osadzającym dla słowa i. Częścią intuicji modelu GloVe jest to, że związek między dwoma słowami można najlepiej uchwycić, porównując je z innymi słowami. Rozważ słowa lód i para. Rozważmy teraz stosunek ich prawdopodobieństw współwystępowania z innym słowem w, czyli:
Pw,lód / Pw,para
Gdy w jest słowem stałym, stosunek będzie wysoki (co oznacza, że ciało stałe stosuje się bardziej do lodu), a gdy w jest słowem gaz, będzie niski (co oznacza, że gaz stosuje się bardziej do pary). A kiedy w jest słowem bez treści, takim jak słowo, takim jak woda, które jest równie istotne dla obu, lub równie nieistotnym słowem, jak moda, stosunek będzie bliski 1. Model GloVe zaczyna się od tej intuicji i przechodzi przez pewne rozumowanie matematyczne , które przekształca stosunki prawdopodobieństw na różnice wektorowe i iloczyny skalarne, ostatecznie osiągając ograniczenie
Ei ∙ E’k= log(Pij) :
Innymi słowy, iloczyn skalarny dwóch wektorów słownych jest równy logarytmicznemu prawdopodobieństwu ich współwystępowania. Ma to intuicyjny sens: dwa prawie ortogonalne wektory mają iloczyn skalarny bliski 0, a dwa prawie identyczne znormalizowane wektory mają iloczyn skalarny bliski 1. Istnieje techniczna komplikacja polegająca na tym, że model GloVe tworzy dwa wektory osadzające dla każdego słowa , Ei i E’i ; obliczenie tych dwóch, a następnie dodanie ich razem na końcu pomaga w ograniczeniu nadmiernego dopasowania. Trenowanie modelu takiego jak GloVe jest zazwyczaj znacznie tańsze niż trenowanie standardowej sieci neuronowej: nowy model można wytrenować z miliardów słów tekstu w ciągu kilku godzin przy użyciu standardowego procesora komputera stacjonarnego. Możliwe jest nauczenie osadzania słów w określonej domenie i odzyskanie wiedzy w tej domenie. Na przykład Tshitoyan i inni wykorzystali 3,3 miliona abstraktów naukowych na temat materiałoznawstwa, aby wyszkolić model osadzania słów. Odkryli, że tak jak widzieliśmy, że ogólny model osadzania słów może odpowiedzieć „Ateny są dla Grecji jak Oslo dla czego?” z „Norwegią”, ich model materiałoznawstwa może odpowiedzieć: „NiFe jest tak ferromagnetyczny jak IrMn do czego?” z „antyferromagnetykiem”. Ich model nie opiera się wyłącznie na współwystępowaniu słów; wydaje się, że przechwytuje bardziej złożoną wiedzę naukową. Na pytanie, jakie związki chemiczne można sklasyfikować jako „termoelektryczny” lub „izolator topologiczny”, ich model jest w stanie poprawnie odpowiedzieć. Na przykład, CsAgGa2Se4 nigdy nie pojawia się w pobliżu „termoelektryka” w korpusie, ale pojawia się w pobliżu „chalkogenu”, „przerwy wzbronionej” i „optoelektryka”, które są wskazówkami umożliwiającymi sklasyfikowanie go jako podobnego do „termoelektryka”. Co więcej, po przeszkoleniu tylko ze streszczeń do 2008 r. i poproszeniu o wybranie związków, które są „termoelektryczne”, ale jeszcze nie pojawiły się w streszczeniu, trzy z pięciu najlepszych modeli modelu zostały odkryte jako termoelektryczne w artykułach opublikowanych między 2009 a 2019 r.