Najnowocześniejszy

https://aie24.pl/

Głębokie uczenie się i uczenie transferowe znacznie przyspieszyło stan wiedzy w zakresie NLP – tak bardzo, że jeden z komentatorów w 2018 r. zadeklarował, że „nadszedł moment ImageNet NLP”. Wynika z tego, że tak jak punkt zwrotny nastąpił w 2012 roku dla wizji komputerowej, kiedy systemy głębokiego uczenia przyniosły zaskakująco dobre wyniki w konkursie ImageNet, tak punkt zwrotny nastąpił w 2018 roku dla NLP. Głównym impulsem do osiągnięcia tego punktu zwrotnego było odkrycie, że uczenie transferowe sprawdza się dobrze w przypadku problemów związanych z językiem naturalnym: ogólny model języka można pobrać i dostosować do konkretnego zadania. Zaczęło się od prostych osadzania słów z systemów takich jak WORD2VEC w 2013 roku i GloVe w 2014 roku. Naukowcy mogą pobrać taki model lub stosunkowo szybko wyszkolić własne bez dostępu do superkomputerów. Z drugiej strony, wytrenowane reprezentacje kontekstowe są o rząd wielkości droższe do nauczenia. Modele te stały się możliwe do zrealizowania dopiero po upowszechnieniu się postępów sprzętowych (GPU i TPU) i w tym przypadku badacze byli wdzięczni, że mogą pobierać modele zamiast wydawać zasoby na szkolenie własnych. Model transformatora pozwolił na efektywne trenowanie znacznie większych i głębszych sieci neuronowych niż było to możliwe wcześniej (tym razem ze względu na postęp oprogramowania, a nie sprzętu). Od 2018 r. nowe projekty NLP zwykle rozpoczynają się od wstępnie przeszkolonego modelu transformatora. Chociaż te modele transformatorów zostały wytrenowane do przewidywania następnego słowa w tekście, wykonują zaskakująco dobrą robotę w innych zadaniach językowych. Model ROBERTA z pewnym dopracowaniem osiąga najnowocześniejsze wyniki w testach odpowiedzi na pytania i czytania ze zrozumieniem . GPT-2, transformatorowy model językowy z 1,5 miliarda parametrów wytrenowanych na 40 GB tekstu internetowego, osiąga dobre wyniki w tak różnorodnych zadaniach, jak tłumaczenie między francuskim i angielskim, znajdowanie referentów w zależnościach na duże odległości i odpowiadanie na pytania z zakresu wiedzy ogólnej, wszystko bez dostrajania do konkretnego zadania.  GPT-2 może generować dość przekonujący tekst, podając tylko kilka słów jako podpowiedź. Jako przykład najnowocześniejszego systemu NLP, ARISTO uzyskał wynik 91,6% na egzaminie wielokrotnego wyboru w 8. klasie. ARISTO składa się z zespołu solwerów: niektóre wykorzystują wyszukiwanie informacji (podobnie jak wyszukiwarka internetowa), niektóre pociągają za sobą tekst i wnioskowanie jakościowe, a niektóre używają modeli języka dużych transformatorów. Okazuje się, że sama ROBERTA osiąga w teście 88,2%. ARISTO uzyskuje również wynik 83% z bardziej zaawansowanego egzaminu 12-klasisty. (Wynik 65% to „spełnienie standardów”, a 85% to „spełnienie standardów z wyróżnieniem”.) Istnieją ograniczenia firmy ARISTO. Zajmuje się tylko pytaniami wielokrotnego wyboru, a nie pytaniami opisowymi, i nie może ani czytać, ani generować diagramów.1 T5 (Transformator transferu tekstu na tekst) jest przeznaczony do generowania odpowiedzi tekstowych na różne rodzaje danych wejściowych. Zawiera standardowy model transformatora koder-dekoder, wstępnie wytrenowany na 35 miliardach słów z 750 GB Colossal Clean Crawled Corpus (C4). To nieoznaczone szkolenie ma na celu przekazanie uogólnionej wiedzy językowej modelu, która będzie przydatna do wielu określonych zadań. T5 jest następnie szkolony dla każdego zadania z danymi wejściowymi składającymi się z nazwy zadania, po której następuje dwukropek i treść. Na przykład, gdy zostanie podane „przetłumacz z angielskiego na niemiecki: To jest dobre”, w wyniku pojawi się „Das ist gut”. W przypadku niektórych zadań dane wejściowe są oznaczone; na przykład w Winograd Schema Challenge dane wejściowe podkreślają zaimek z niejednoznacznym desygnatem. Biorąc pod uwagę informację „odnośnik: radni miejscy odmówili demonstrantom zezwolenia, ponieważ obawiali się przemocy”, poprawną odpowiedzią jest „radni miejscy” (nie „demonstranci”). Wiele pozostaje do zrobienia, aby ulepszyć systemy NLP. Jednym z problemów jest ten transformator modelue opierają się tylko na wąskim kontekście, ograniczonym do kilkuset słów. Niektóre podejścia eksperymentalne próbują rozszerzyć ten kontekst; system Reformer  może obsłużyć kontekst do miliona słów. Ostatnie wyniki pokazały, że użycie większej ilości danych uczących skutkuje lepszymi modelami – na przykład ROBERTA osiągnęła najnowocześniejsze wyniki po uczeniu 2,2 biliona słów. Jeśli użycie większej ilości danych tekstowych jest lepsze, co by się stało, gdybyśmy uwzględnili inne rodzaje danych: ustrukturyzowane bazy danych, dane liczbowe, obrazy i wideo? Potrzebowalibyśmy przełomu w szybkości przetwarzania sprzętowego, aby trenować na dużym korpusie wideo, a także możemy potrzebować kilku przełomów w sztucznej inteligencji. Ciekawy czytelnik może się zastanawiać, dlaczego w poprzednim rozdziale dowiedzieliśmy się o gramatykach, analizowaniu składniowym i interpretacji semantycznej tylko po to, by w tym rozdziale odrzucić te pojęcia na rzecz modeli opartych wyłącznie na danych? Obecnie odpowiedzią jest po prostu, że modele oparte na danych są łatwiejsze do opracowania i utrzymania oraz uzyskują lepsze wyniki w standardowych testach porównawczych w porównaniu z ręcznie budowanymi systemami, które można zbudować przy rozsądnym nakładzie ludzkiego wysiłku. Może być tak, że modele transformatorów i ich krewni uczą się ukrytych reprezentacji, które przechwytują te same podstawowe idee, co gramatyki i informacje semantyczne, albo może być tak, że w tych ogromnych modelach dzieje się coś zupełnie innego; po prostu nie wiemy. Wiemy, że system, który jest wytrenowany za pomocą danych tekstowych, jest łatwiejszy w utrzymaniu i przystosowaniu do nowych domen i nowych języków naturalnych niż system, który opiera się na ręcznie stworzonych funkcjach. Może się również zdarzyć, że przyszłe przełomy w jawnym modelowaniu gramatycznym i semantycznym spowodują cofnięcie się wahadła. Być może bardziej prawdopodobne jest pojawienie się podejść hybrydowych. Na przykład Kitaev i Klein (2018) wykorzystali mechanizm uwagi do ulepszenia tradycyjnego parsera okręgów wyborczych, osiągając najlepszy wynik, jaki kiedykolwiek zarejestrowano w zestawie testowym Penn Treebank. Podobnie Ringgaard i inni pokazują, w jaki sposób można ulepszyć parser zależności za pomocą osadzania słów i rekurencyjnej sieci neuronowej. Ich system, SLING, analizuje bezpośrednio reprezentację ramki semantycznej, łagodząc problem błędów narastających w tradycyjnym systemie potokowym. Z pewnością jest miejsce na ulepszenia: nie tylko systemy NLP wciąż opóźniają ludzką wydajność w wielu zadaniach, ale robią to po przetworzeniu tysięcy razy większej ilości tekstu, niż jakikolwiek człowiek mógłby przeczytać w ciągu życia. Sugeruje to, że istnieje wiele możliwości dla nowych spostrzeżeń ze strony lingwistów, psychologów i badaczy NLP.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *