GŁĘBOKIE UCZENIE SIĘ DO PRZETWARZANIA JĘZYKA NATURALNEGO

https://aie24.pl/

Wyjaśniliśmy kluczowe elementy języka naturalnego, w tym gramatykę i semantykę. Systemy oparte na parsowaniu i analizie semantycznej okazały się skuteczne w wielu zadaniach, ale ich wydajność jest ograniczona nieskończoną złożonością zjawisk językowych w prawdziwym tekście. Biorąc pod uwagę ogromną ilość tekstu dostępnego w formie do odczytu maszynowego, warto rozważyć, czy podejścia oparte na uczeniu maszynowym opartym na danych mogą być bardziej skuteczne. Badamy tę hipotezę za pomocą narzędzi dostarczanych przez systemy głębokiego uczenia się . Zaczniemy , pokazując, jak można poprawić uczenie się, przedstawiając słowa jako punkty w przestrzeni wielowymiarowej, a nie jako wartości atomowe. Druga  dotyczy wykorzystania rekurencyjnych sieci neuronowych do uchwycenia znaczenia i dalekosiężnego kontekstu, gdy tekst jest przetwarzany sekwencyjnie. Skupimy się przede wszystkim na tłumaczeniu maszynowym, jednym z największych sukcesów głębokiego uczenia stosowanego w NLP. Mamy też modele, które można wytrenować z dużej ilości tekstu nieoznaczonego etykietami, a następnie zastosować do określonych zadań, często osiągając wydajność na najwyższym poziomie.

AI : Technologie, Aplikacje i Wyzwania : Algorytm uczenia maszynowego

https://aie24.pl/

Wiele właściwości BCI opiera się na działającym algorytmie uczenia maszynowego, który umożliwia określoną dokładność i szybkość komunikacji. P300 i inne systemy BCI zwykle wykorzystują algorytm FLDA, gdy liczne cechy nie zależą zbytnio od liczby klientów poddawanych ćwiczeniom. Wydajność systemu BCI określa wiele czynników, takich jak mierzone znaki mózgowe, procedury przetwarzania znaków stosowane do wyodrębniania charakterystycznych wyników znaków, algorytm, który tłumaczy takie polecenia, urządzenia wyjściowe, które realizują takie instrukcje, informacja zwrotna oferowana użytkownikowi i specyficzna dla użytkownika cechy. Przyszły postęp wymaga systematycznych, odpowiednio uregulowanych badań oceny i porównania alternatywnych znaków i kombinacji znaków, metod ekstrakcji alternatywnych cech i algorytmów tłumaczenia, a także alternatywnych zastosowań korespondencji i nadzoru w różnych populacjach klientów. System BCI 2000 został opracowany w celu zapewnienia kompleksowej platformy, która zapewnia ocenę, porównanie i połączenie alternatywnych objawów mózgowych, procedur leczenia, wdrożeń i protokołów pracy w celu zmniejszenia czasu, kosztów i wysiłku podczas badania obecnych projektów, przy użyciu znormalizowanego przetwarzanie danych w trybie offline, co pozwala na zwiększenie efektywności badań i zastosowań klinicznych . System BCI oparty na EEF do rozwoju i badania przesiewowego EEG oraz ustalenia nadrzędnej metody jego translacji na sterownik urządzenia jest głównym celem współczesnych badań. Istotnym elementem systemu jest identyfikacja i zastosowanie danych EEG, na co ma wpływ sprawna komunikacja pomiędzy dwoma regulowanymi regulatorami, użytkownikiem wykonującym kontrolę EEG oraz systemem BCI przetwarzającym te informacje na regulację urządzenia. System eksperymentalny ma swoje własne cechy topograficzne, widmowe i czasowe. U praktykujących klientów reakcja na polecenie w ciągu 0,5 s jest związana z rytmami 18–26 Hz. Lokalizacja i częstotliwość, które umożliwiają optymalną kontrolę, mogą zmieniać się codziennie lub pozostawać takie same przez kilka dni. Kolejne ulepszenie dotyczy algorytmu, który zamienia regulację EEG na regulację urządzenia za pomocą filtrów 3D odpowiadających częstotliwości przestrzennej rytmu konsumenta. Osiąga się to dzięki autoregresyjnej analizie częstotliwości, która umożliwia lepszą rozdzielczość niż FTIR w krótkich okresach czasu i lepsze praktyczne adaptacje algorytmów, które przekształcają dane EEG w regulację urządzenia. Topograficznie różne rytmy mogą być kontrolowane w tym samym czasie, jeśli jeden z nich wzrasta, a drugi maleje. EEG nie zależy od aktywności mięśni. Możliwe jest również sterowanie dziedziną czasu charakterystyki EEF. Regulacja rytmu może być związana ze zmniejszoną aktywnością potencjału korowego.

Streszczenie

https://aie24.pl/

Główne punkty są następujące:

  • Probabilistyczne modele językowe oparte na n-gramach odzyskują zaskakującą ilość informacji o języku. Mogą dobrze wykonywać tak różnorodne zadania, jak identyfikacja języka, korekta pisowni, analiza sentymentów, klasyfikacja gatunkowa i rozpoznawanie tożsamości.
  • Te modele językowe mogą mieć miliony funkcji, dlatego ważne jest ponowne przetwarzanie i wygładzanie danych w celu zmniejszenia szumu.
  • Budując system języka statystycznego, najlepiej jest opracować model, który potrafi dobrze wykorzystać dostępne dane, nawet jeśli model wydaje się zbyt uproszczony.
  • Osadzanie słów może dać bogatszą reprezentację słów i ich podobieństw.
  • Aby uchwycić hierarchiczną strukturę języka, przydatne są gramatyki struktury fraz (w szczególności gramatyki bezkontekstowe). Probabilistyczny formalizm gramatyki bezkontekstowej (PCFG) jest szeroko stosowany, podobnie jak formalizm gramatyki zależnościowej.
  • Zdania w języku bezkontekstowym mogą być analizowane w czasie O(n3) za pomocą parsera wykresów, takiego jak algorytm CYK, który wymaga, aby reguły gramatyczne były w postaci normalnej Chomsky’ego. Przy niewielkiej utracie dokładności języki naturalne mogą być analizowane w czasie O(n) przy użyciu wyszukiwania wiązki lub parsera z redukcją przesunięcia.
  • Bank drzew może być zasobem do nauki gramatyki PCFG z parametrami.
  • Wygodnie jest poszerzyć gramatykę, aby poradzić sobie z takimi kwestiami, jak zgodność podmiotu z orzeczeniem i przypadkiem zaimków, a także przedstawiać informacje na poziomie słów, a nie tylko na poziomie kategorii.
  • Interpretacja semantyczna może być również obsługiwana przez gramatykę rozszerzoną. Możemy nauczyć się gramatyki semantycznej z zestawu pytań połączonych albo z logiczną formą pytania, albo z odpowiedzią.
  • Język naturalny jest złożony i trudny do uchwycenia w gramatyce formalnej.

AI : Technologie, Aplikacje i Wyzwania : Pętla zamknięta Visual P300 i BCI

https://aie24.pl/

P300 ma dodatnie maksimum w EPR (potencjał związany ze zdarzeniem) w zakresie 5–19 mV, które jest opóźnione między 220 a 500 ms po zdarzeniu. EPR określa się jako średni wzrost amplitudy rzędów chronologicznych najważniejszych znaków mózgowych na liniach środkowych. Jeśli przerwa między bodźcami jest mniejsza niż 250–300 ms, wówczas sygnał może nakładać się na następny sygnał, który powstaje w tym czasie. Wizualny P300 ma wysoki stopień dokładności i można go skalibrować w ciągu kilku minut, umożliwiając użytkownikom łatwe i szybkie korzystanie z systemu zarządzania urządzeniem. Wadą jest zmęczenie wynikające z konieczności dużego stopnia skupienia uwagi oraz niemożność korzystania z tego systemu przez osoby słabowidzące ze względu na konieczność silnego skupienia podczas użytkowania, chociaż zastosowanie tej metody znacznie skraca czas treningu. Eksperyment wymaga dużej uwagi, ponieważ amplituda P300 zależy od liczby wystąpień celu, czasu trwania między próbami, ciężkości eksperymentu, stanu pacjenta podczas uwagi i typowych nawyków behawioralnych. Ta metafora pokazuje zwiększoną wydajność poznawczą uwagi i szybkie odpowiedzi pamięciowe. Najczęstsze zastosowanie związane jest z rozwojem klawiatur protetycznych w celu zapewnienia ścieżek komunikacji dla pacjentów niepełnosprawnych [16, 17]. Zwykle narzędzia do sprawdzania pisowni w BCI zawierają macierz liter, cyfr i symboli. Wiersze i kolumny tej matrycy znajdują się w rzędzie, a uwaga pacjenta skupiona jest na zaprojektowanych znakach, a następnie ortograf edytuje je zgodnie ze swoją pozycją w danym wierszu i kolumnie. Urządzenia te wykorzystują model statystyczny oparty na P300 do identyfikacji prawidłowego symbolu podczas migania. Metoda ta jest przydatna dla osób z ALS i udarem mózgu, a także do sterowania robotami humanoidalnymi i nawigacją na wózku inwalidzkim, sterowania kursorem komputera w przestrzeni 2D przez osoby sparaliżowane oraz sterowania sztuczną ręką w stanie wirtualnym w inteligentnej rzeczywistości [18]. Badania BCI pokazują znaczący postęp w technologii neurorehabilitacji i sprzętu pomocniczego, wykazując zdolność do zarządzania zewnętrznymi urządzeniami protetycznymi w przypadku uszkodzeń rdzenia kręgowego i innych rodzajów chorób komunikacyjnych, takich jak stwardnienie zanikowe boczne (ALS) i stwardnienie rozsiane (SM).

Jedną z najważniejszych prowokacji BCI jest niezbędny czas ćwiczeń, aby pacjent osiągnął godną pozazdroszczenia umiejętność korzystania z takich systemów. Większości pacjentów zajmuje to dużo czasu, co powoduje zmęczenie pacjenta. Aby dokładniej zbadać to zjawisko, badacze badają, w jaki sposób badani odzwierciedlają zmienność behawioralną między sesjami, aby zebrać odpowiednie dane do kalibracji zachowań pacjentów na początku każdej sesji. Aby do pewnego stopnia uniknąć tego problemu, zastosowano metodę transferu wiedzy w celu ustanowienia treningu zerowego jako ogólnej metody BCI, którą można zastosować u większości pacjentów. Liczne metody dekodowania, przetwarzania sygnału i algorytmy klasyfikacji zostały ostatnio szczegółowo zbadane, ponieważ dowody pochodzące z sygnału EEG wskazują, że stosunek sygnału do szumu jest niewystarczający do skutecznego sterowania urządzeniem, takim jak np. ramię neuroprotetyczne. Wymaga to bardziej niezawodnych, dokładnych i szybszych algorytmów sieciowych. Aby poprawić tę wydajność, niektórzy badacze zalecają stosowanie metod uczenia wstępnego i głębokiego uczenia maszynowego, podczas gdy inni proponują adaptowalne klasyfikatory i dekodery w celu skorygowania niestacjonarnego charakteru sygnału EEG . Zamknięta pętla BCI to system adaptacji i wzajemnego uczenia się, w którym człowiek i komputer uczą się od siebie nawzajem, a jednocześnie zachodzi proces adaptacji algorytmów matematycznych i obwodów neuronowych. Nazywa się to kontrolą współdzieloną lub hybrydową. Wspólny BCI zakłada zarówno systemy kontroli niskiego, jak i wysokiego poziomu. Mózg generuje polecenia wysokiego poziomu, a konwencjonalne systemy monitorowania są odpowiedzialne za niezadowalające funkcje monitorowania poleceń. Pożądanym systemem BCI jest system ze wzajemną komunikacją, w którym system regulacji wykonawczej jest głównym (w sterowaniu wysokiego poziomu), podczas gdy inne części systemu BCI są wykorzystywane jako jego inteligentne wsparcie (w sterowaniu niskiego poziomu). Dzięki nadzorowi poznawczemu konsument działa jako nadzorca zewnętrznego niezależnego systemu, zamiast stale komunikować się z instrukcjami kontrolnymi. EEG skóry głowy jest tanią technologią monitorowania, dlatego ma duży potencjał komercjalizacji. Niektóre badania szacują modyfikacje behawioralne w reakcji na znaki dźwiękowe w otoczeniu rysunku i identyfikują korelacje między falami mózgowymi a innymi bodźcami sensorycznymi, takimi jak reakcja wątroby [20]. Opracowanie suchych czujników nie wymaga przygotowania skóry ani aplikacji żelu, co ułatwia aplikację BCI, umożliwiając np. lepszą jakość snu i lepszą skuteczność aplikacji leków przeciwdepresyjnych u pacjenta. Jednym z przyszłych kierunków zastosowania BCI będzie neuro-sprzężenie zwrotne jako proces samoregulacji fal mózgowych w celu wzmocnienia różnych aspektów kontroli poznawczej, zmniejszania negatywnych skutków ubocznych leków, takich jak bóle głowy. Ta metoda może pomóc w leczeniu pacjentów z uzależnieniami, otyłością, autyzmem i astmą. Najnowsze metody poznawcze koncentrują się na przezwyciężaniu neurorehabilitacyjnych defektów poznawczych, takich jak zespół nadpobudliwości psychoruchowej z deficytem uwagi, lęk, padaczka, choroba Alzheimera, urazowe uszkodzenie mózgu i zespół stresu pourazowego.

Zadania języka naturalnego

https://aie24.pl/

Przetwarzanie języka naturalnego to duża dziedzina, która zasługuje na cały podręcznik lub dwa osobne  W tej sekcji krótko opisujemy niektóre z głównych zadań; możesz skorzystać z referencji, aby uzyskać więcej szczegółów. Rozpoznawanie mowy to zadanie polegające na przekształceniu mówionego dźwięku na tekst. Możemy wtedy wykonaćj dalsze zadania (np. odpowiadanie na pytania) na otrzymanym tekście. Obecne systemy mają wskaźnik błędu słowa około 3% do 5% (w zależności od szczegółów zestawu testowego), podobny do transkrypcji człowieka. Wyzwaniem dla systemu wykorzystującego rozpoznawanie mowy jest odpowiedź odpowiednio, nawet jeśli występują błędy w poszczególnych słowach. Obecnie najlepsze systemy wykorzystują kombinację powtarzalnych sieci neuronowych i ukrytych modeli Markowa . Wprowadzenie głębokich sieci neuronowych dla mowy w 2011 roku doprowadziło do natychmiastowej i radykalnej poprawy wskaźnika błędów o około 30% — w dziedzinie, która wydawała się dojrzała i wcześniej rozwijała się w tempie zaledwie kilku procent rocznie. Głębokie sieci neuronowe są dobrym rozwiązaniem, ponieważ problem rozpoznawania mowy ma naturalne załamanie kompozycyjne: fale do fonemów do słów do zdań. Zostaną one omówione w następnym rozdziale. Synteza tekstu na mowę to proces odwrotny — przejście od tekstu do dźwięku. Taylor przedstawia przegląd całej książki. Wyzwaniem jest poprawne wymówienie każdego słowa i sprawienie, by przebieg każdego zdania wydawał się naturalny, z odpowiednimi pauzami i naciskiem. Innym obszarem rozwoju jest synteza różnych głosów – zaczynając od wyboru między ogólnym męskim lub żeńskim głosem, a następnie pozwalając na regionalne dialekty, a nawet naśladując głosy celebrytów. Podobnie jak w przypadku rozpoznawania mowy, wprowadzenie głębokich, rekurencyjnych sieci neuronowych doprowadziło do znacznej poprawy, przy czym około 2/3 słuchaczy twierdzi, że System WaveNet  brzmiał bardziej naturalnie niż poprzedni system nieneuronalny. Tłumaczenie maszynowe przekształca tekst z jednego języka na inny. Systemy są zwykle szkolone przy użyciu dwujęzycznego korpusu: zestawu sparowanych dokumentów, w których jeden członek pary mówi na przykład po angielsku, a drugi po francusku. Dokumenty nie muszą być w żaden sposób opatrzone adnotacjami; system tłumaczenia maszynowego uczy się dopasowywać zdania i frazy, a następnie po przedstawieniu nowego zdania w jednym języku może wygenerować tłumaczenie na drugi. Systemy z początku XXI wieku wykorzystywały modele n-gramowe i osiągały wyniki, które zwykle były wystarczająco dobre, aby zrozumieć znaczenie tekstu, ale zawierały błędy składniowe w większości zdań. Jednym z problemów był limit długości n-gramów: nawet przy dużym limicie 7, trudno było przepływać informacji z jednego końca zdania do drugiego. Innym problemem było to, że wszystkie informacje w modelu n-gramowym znajdują się na poziomie pojedynczych słów. Taki system mógłby nauczyć się, że „czarny kot” tłumaczy się jako „chat noir”, ale nie mógł nauczyć się zasady, że przymiotniki zwykle pojawiają się przed rzeczownikiem w języku angielskim i po rzeczowniku we francuskim. Rekurencyjne modele neuronowe sekwencja-sekwencja  rozwiązały ten problem. Mogli lepiej uogólniać (ponieważ mogliby używać osadzania słów zamiast liczby n-gramów poszczególnych słów) i mogli tworzyć modele kompozycyjne na różnych poziomach głębokiej sieci, aby skutecznie przekazywać informacje. Późniejsze prace wykorzystujące mechanizm skupiania uwagi modelu transformatora  jeszcze bardziej zwiększyły wydajność, a model hybrydowy obejmujący aspekty obu tych modeli radzi sobie jeszcze lepiej, zbliżając się do wydajności na poziomie człowieka w niektórych parach językowych. Ekstrakcja informacji to proces zdobywania wiedzy poprzez przeglądanie tekstu i szukanie wystąpień poszczególnych klas obiektów i relacji między nimi. Typowym zadaniem jest wyodrębnienie wystąpień adresów ze stron internetowych z polami bazy danych na ulicę, miasto, stan i kod pocztowy; lub przypadki burz z raportów pogodowych, z polami dotyczącymi temperatury, prędkości wiatru i opadów. Jeśli tekst źródłowy jest dobrze ustrukturyzowany (na przykład w formie tabeli), informacje można wydobyć za pomocą prostych technik, takich jak wyrażenia regularne . Trudniej jest, jeśli próbujemy wyodrębnić wszystkie fakty, a nie konkretny typ (np. prognozy pogody); Banko i inni opisują system TEXTRUNNER, który dokonuje ekstrakcji nad otwartym, rozszerzającym się zbiorem relacji. W przypadku tekstu o dowolnej formie techniki obejmują ukryte modele Markowa i systemy uczenia się oparte na regułach (takie jak stosowane w TEXTRUNNER i NELL (Never-Ending Language Learning))). Nowsze systemy wykorzystują rekurencyjne sieci neuronowe, wykorzystując elastyczność osadzania słów.

Wyszukiwanie informacji to zadanie odnalezienia dokumentów, które są istotne i ważne dla danego zapytania. Wyszukiwarki internetowe, takie jak Google i Baidu, wykonują to zadanie miliardy razy dziennie. Odpowiadanie na pytania to inne zadanie, w którym pytanie tak naprawdę jest pytaniem, takim jak „Kto założył U.S. Coast Guard?” a odpowiedź nie jest uszeregowaną listą dokumentów, ale raczej rzeczywistą odpowiedzią: „Alexander Hamilton”. Od lat 60. XX wieku istnieją systemy odpowiadania na pytania, które opierają się na analizowaniu składniowym, o czym mowa w tym rozdziale, ale dopiero od 2001 r. takie systemy wykorzystywały wyszukiwanie informacji z sieci do radykalnego zwiększenia zasięgu. Katz (1997) opisuje parser START i odpowiedź na pytania. Banko i in. (2002) opisują ASKMSR, który był mniej wyrafinowany pod względem możliwości analizowania składniowego, ale bardziej agresywny w używaniu wyszukiwania w sieci i sortowaniu wyników. Na przykład, aby odpowiedzieć „Kto założył amerykańską straż przybrzeżną?” wyszukiwałby zapytania, takie jak [* założył U.S. Coast Guard] i [U.S. Coast Guard został założony przez *], a następnie przeanalizował wiele wynikowych stron internetowych, aby wybrać prawdopodobną odpowiedź, wiedząc, że słowo zapytania „kto” sugeruje, że odpowiedzią powinna być osoba. Konferencja Text REtrieval Conference (TREC) gromadzi badania na ten temat i od 1991 roku organizuje coroczne konkursy . Ostatnio widzieliśmy inne zestawy testowe, takie jak zestaw testowy AI2 ARC zawierający podstawowe pytania naukowe .