LSTM dla zadań NLP

https://aie24.pl/

Powiedzieliśmy, że RNN czasami rozwiązują problem ograniczonego kontekstu. Teoretycznie każda informacja może być przekazywana z jednej ukrytej warstwy do drugiej w dowolnej liczbie przedziałów czasowych. Ale w praktyce informacje mogą się zagubić lub zniekształcić, tak jak w grze telefonicznej, w której gracze stoją w kolejce, a pierwszy gracz szepcze wiadomość drugiemu, a ten powtarza ją trzeciemu i tak dalej. . Zwykle wiadomość, która pojawia się na końcu, jest dość uszkodzona w stosunku do oryginalnej wiadomości. Ten problem dla RNN jest podobny do problemu znikającego gradientu, , z tą różnicą, że teraz mamy do czynienia z warstwami w czasie, a nie z głębokimi warstwami. W sekcji 22.6.2 wprowadziliśmy model pamięci długoterminowej krótkoterminowej (LSTM). Jest to rodzaj RNN z bramkami, które nie borykają się z problemem niedoskonałego odtwarzania wiadomości z jednego kroku do następnego. Zamiast tego LSTM może wybrać zapamiętanie niektórych części danych wejściowych, skopiowanie ich do następnego kroku czasowego i zapomnienie innych części. Zastanówmy się nad modelem językowym obsługującym tekst, takim jak Sportowcy, którzy wszyscy wygrali swoje lokalne kwalifikacje i awansowali do finału w Tokio, teraz… W tym momencie, gdybyśmy zapytali modela, które następne słowo jest bardziej prawdopodobne, „konkurować” lub „ konkuruje”, spodziewalibyśmy się, że wybierze „konkurować”, ponieważ zgadza się z tematem „Sportowcy”. LSTM może nauczyć się tworzyć ukrytą cechę dla danej osoby i numeru oraz kopiować tę cechę do przodu bez zmian, dopóki nie będzie to konieczne do dokonania takiego wyboru. Zwykła RNN (lub model n-gramowy) często myli się w długich zdaniach z wieloma słowami wtrącającymi się między podmiotem a czasownikiem.

AI : Technologie, Aplikacje i Wyzwania : Specyfika architektury naszego mózgu i inteligentnych działań mózgu

https://aie24.pl/

Nasze mózgi składają się z wielu neuronów, pojedynczych komórek nerwowych połączonych w dendryty i aksony. A my jesteśmy tylko świadkami doskonałej symfonii, w której za każdym razem ten tajemniczy świat neuronów budzi się i kieruje swoją uwagę przez nieopisanie złożony świat wyborów, z którego mają szansę wyrwać się tylko te bodźce, które niosą w sobie największą energię. w świat ciemności i wyjść w świat jasnego wglądu, aby poczuć, jak coś nas porusza, gdy wracamy z nastawieniem lub radością do naszych wspomnień i nie śniąc, że wszystko to wydarzyło się dzięki aktywacji naszych neuronów za pomocą małych sygnałów elektrycznych przesyłanych z neuronów do neuronów, z prędkością około 250 m/h, przy czym te same sygnały są generowane z powodu różnic w potencjale elektrycznym jonów zawartych w błonach nerwowych. I choć szlaki tych sygnałów są uwięzione w osłonce mielinowej, niektóre z nich giną po drodze, dając naukowcom ogromną możliwość zarejestrowania, przeanalizowania, a następnie skierowania ich do urządzenia, które pozwala na zajście podobnego procesu w przeciwny kierunek. W przenośni oznacza to, że kiedy naukowcy zrozumieją, jakie komunikaty są wysyłane z nerwu wzrokowego do mózgu, gdy ktoś widzi czerwień, bez wątpienia będą w stanie wyposażyć aparat, który będzie wysyłał te same sygnały do ​​mózgu za każdym razem, gdy aparat „ widzi” na czerwono, ostrzegając osobę niewidomą i pomagając jej widzieć bez użycia oczu . Należy zauważyć, że jednym z głównych wyzwań dla badaczy BCI jest zaprojektowanie samego interfejsu. Najłatwiejszą i najmniej inwazyjną metodą byłoby użycie zestawu elektrod, takich jak elektroencefalografy (EEG), które byłyby połączone w celu umożliwienia odczytu sygnałów mózgowych. Ponieważ czaszka blokuje większość sygnałów elektrycznych i zniekształca te, które jeszcze zdołają się przebić, aby uzyskać sygnał o lepszej rozdzielczości, konieczne jest wszczepienie elektrod bezpośrednio w istotę szarą, wewnątrz lub na jej powierzchni, pod czaszką, w celu zapewnienia najskuteczniejszego kierowanego odbioru sygnałów elektrycznych i dostępu do elektrod w określonym obszarze mózgu, z którego pochodzą. Takie podejście, choć pozornie obiecujące, wymaga inwazyjnej operacji wszczepienia elektrod, co jest bardzo niekorzystne, ponieważ urządzenia pozostające w mózgu przez długi czas najczęściej powodują uszkodzenie mózgu, które coraz bardziej blokuje sygnały, niezależnie od położenia elektrod, mierząc różnice w napięciu między neuronami. A gdy już sygnał zostanie odebrany, stosunkowo łatwo go wzmocnić i wyselekcjonować, a następnie poprzez interfejs mózg–komputer zostanie on zinterpretowany za pomocą odpowiednich programów komputerowych. Jeśli czujnik wysyła sygnał do mózgu za pośrednictwem interfejsu wejściowego komputer-mózg, zasadniczo dzieje się to samo, tylko w przeciwnym kierunku, tak że komputer przekształca sygnał z kamery wideo w napięcie, aby aktywować neurony. Sygnały są następnie kierowane w prawidłowy sposób do implantu umocowanego w odpowiedniej części mózgu i jeśli wszystko działa prawidłowo, neurony zapalają się, po czym uzyskuje się wizualny obraz obiektu, który odpowiada obrazowi z kamery . Obrazowanie metodą rezonansu magnetycznego nadaje się również do pomiaru aktywności mózgu, którego obrazy przedstawiające aktywność mózgu w wysokiej rozdzielczości można zastosować jako część stałego lub tymczasowego BCI w celu lepszego zdefiniowania niektórych funkcji mózgu lub mapowania miejsc. W związku z tym, jeśli badacze próbowaliby wszczepić elektrodę, która pozwoliłaby sterować robotem ramienia pacjenta za pomocą jego własnych myśli, musieliby najpierw zarejestrować taką rękę za pomocą rezonansu magnetycznego i określić, w jakim stopniu przypomina ona pacjentowi jego rzeczywiste ruchy rąk. Sam rezonans magnetyczny pokaże, która część mózgu jest aktywna podczas takich ruchów ręką, dając dokładniejszy obraz tego, gdzie powinna znajdować się elektroda . Przez lata ludzki mózg był postrzegany jako narząd statyczny. Od niedawna powszechnie wiadomo, że od najwcześniejszego dzieciństwa, wraz z naszym wzrostem i dojrzewaniem, nasz mózg zmienia się i kształtuje zgodnie z naszymi nowymi doświadczeniami, dlatego ostatnie badania wykazały, że taki proces, choć powolny, zachodzi nawet u starszych wieku, świadcząc o tym, że dzięki swojej plastyczności korowej mózg w niewiarygodny sposób dostosowuje się do nowych okoliczności przez całe życie. W ten sposób uczenie się czegoś nowego lub uczestnictwo w nowych zajęciach tworzy nowe połączenia między neuronami i zmniejsza występowanie problemów neurologicznych związanych ze starzeniem się. To fascynujące odkrycie, że jeśli dorosły dozna urazu mózgu, to automatycznie inne jego części przejmują funkcje uszkodzonej części, co oznacza, że ​​nawet dorosły może nauczyć się obsługi interfejsu mózg-komputer, ponieważ mózg jest zawsze w stanie tworzyć nowe połączenia i dostosowywać się do nowych zastosowań neuronów. Dzięki temu dorosły pacjent może traktować wszczepioną część mózgu jako swoją naturalną część, co otwiera możliwość sterowania inteligentnymi maszynami własnymi myślami. To boski dar dla osób ze znacznym stopniem niepełnosprawności, ponieważ umożliwia im normalne funkcjonowanie. Dla osób z porażeniem czterokończynowym sterowanie kursorami komputera za pomocą poleceń mentalnych byłoby rewolucyjną poprawą jakości ich życia . Bez względu na to, jak imponujący może się wydawać taki postęp, o wiele trudniej jest zinterpretować sygnały mózgowe uruchamiające ruchy rąk u osoby, która nie może nią ruszać, ponieważ aby móc to zrobić samodzielnie, osoba musi być przeszkoleni w korzystaniu z tego rodzaju pomocy. Do tego niezbędna jest wizualizacja ruchu rąk przez pacjenta, aby ostatecznie po licznych eksperymentach oprogramowanie związane z robotyczną ręką mogło przezwyciężyć tę trudność i zinterpretować sygnały związane z myślami związanymi z ruchami rąk. Mówiąc najprościej, w momencie, gdy myśli badanego są kierowane na dany ruch ręki, do ręki robota wysyłane są sygnały, po czym reaguje na nie zgodnie z wydaną instrukcją.

Klasyfikacja z rekurencyjnymi sieciami neuronowymi

https://aie24.pl/

Możliwe jest również użycie RNN do innych zadań językowych, takich jak znakowanie mowy lub rozwiązywanie koferencji. W obu przypadkach warstwa wejściowa i warstwa ukryta będą takie same, ale w przypadku taggera POS wyjściem będzie rozkład softmax na znaczniki POS, a dla rozdzielczości współreferencyjnej będzie to rozkład softmax na możliwych poprzednikach. Na przykład, gdy sieć dotrze do niego w „Eduardo powiedział mi, że Miguel jest bardzo chory, więc zabrałem go do szpitala”, powinno wyświetlić duże prawdopodobieństwo dla „Miguel”. rzucanie RNN na taką klasyfikację odbywa się w taki sam sposób, jak w przypadku modelu językowego. Jedyna różnica polega na tym, że dane treningowe będą wymagały etykiet — części znaczników mowy lub wskazań referencyjnych. To sprawia, że ​​gromadzenie danych jest znacznie trudniejsze niż w przypadku modelu językowego, w którym potrzebujemy tylko tekstu bez etykiety. W modelu językowym chcemy przewidzieć n-te słowo na podstawie poprzednich słów. Ale dla klasyfikacji nie ma powodu, abyśmy ograniczali się do patrzenia tylko na poprzednie słowa. Spojrzenie w przyszłość w zdaniu może być bardzo pomocne. W naszym przykładzie koordynacyjnym referent byłby inny, gdyby zdanie kończyło się „zobaczyć Miguela” zamiast „do szpitala”, więc patrzenie w przyszłość ma kluczowe znaczenie. Z eksperymentów polegających na śledzeniu wzroku wiemy, że czytelnicy nie idą ściśle od lewej do prawej. Aby uchwycić kontekst po prawej stronie, możemy użyć dwukierunkowej sieci RNN, która łączy oddzielny model od prawej do lewej z modelem od lewej do prawej. Przykład użycia dwukierunkowej sieci RNN do znakowania POS pokazano na rysunku 25.5. W przypadku wielowarstwowej sieci RNN zt będzie ukrytym wektorem ostatniej warstwy. W przypadku dwukierunkowej sieci RNN za zt zwykle przyjmuje się konkatenację wektorów z modeli od lewej do prawej i od prawej do lewej. RNN mogą być również używane do zadań klasyfikacji na poziomie zdań (lub na poziomie dokumentu), w których na końcu pojawia się pojedynczy wynik, zamiast strumienia wyników, po jednym na krok czasowy. Na przykład w analizie sentymentu celem jest sklasyfikowanie tekstu jako posiadającego sentyment pozytywny lub negatywny. Na przykład „Ten film został źle napisany i źle zagrany” należy sklasyfikować jako Negatyw. (Niektóre schematy analizy sentymentu wykorzystują więcej niż dwie kategorie lub stosują liczbową wartość skalarną.) Używanie RNN do zadania na poziomie zdania jest nieco bardziej złożone, ponieważ musimy uzyskać zagregowaną reprezentację całego zdania, y z per- słowo wyprowadza yt z RNN. Najprostszym sposobem na to jest użycie ukrytego stanu RNN odpowiadającego ostatniemu słowu wejścia, ponieważ RNN przeczyta całe zdanie w tym kroku. Może to jednak pośrednio skłonić model do zwracania większej uwagi na koniec zdania. Inną powszechną techniką jest łączenie wszystkich ukrytych wektorów. Na przykład, średnie sumowanie oblicza średnią dla elementów ze wszystkich ukrytych wektorów:

Zebrany w puli d-wymiarowy wektor ˜z może następnie zostać dostarczony do jednej lub większej liczby warstw ze sprzężeniem do przodu przed wprowadzeniem do warstwy wyjściowej.

AI : Technologie, Aplikacje i Wyzwania : Kwantowy model mózgu

https://aie24.pl/

Mózg jest złożonym systemem fizycznym w ciągłej interakcji z otoczeniem zewnętrznym. Ogólnie funkcje mózgu można zaobserwować w następujący sposób: (1) załóżmy, że mózg jest w stanie jMi podczas bodźca zewnętrznego przez pewien czas; (2) po usunięciu bodźca zewnętrznego, pozwól mózgowi przejść w stan jNi, który ogólnie powinien być zakodowany (lub zarejestrowany) przez ten sam typ informacji, który jest prowadzony przez bodziec zewnętrzny; i w konsekwencji (3) wstrzymał (lub wywołał) bezpośrednio ze stanu jNi, biorąc pod uwagę, że (4) mózg nieuchronnie nie przeszedł natychmiast ze stanu jMi do jNi, ponieważ miało miejsce wiele faz pośrednich: jAi! jM1i! jM2i! …! jNi, czyli informacje (lub komunikaty) przetwarzane w mózgu, dopóki nie zostaną zapamiętane. Istnieje kilka podstawowych cech opisujących wydajne funkcje mózgu: stała stabilność i brak lokalizacji, na co wyraźnie wskazuje obfitość danych z badań. Chociaż stała stałość jest oczywista, brak lokalizacji, tj. spójna aktywność neuronów w odległych obszarach korowych 3D, sprawia, że ​​tradycyjne podejście do funkcji mózgu jest problematyczne. Jednocześnie brak lokalizacji wskazuje na celowość kwantowego podejścia do takiego problemu. Związek między warunkami mikroskopowymi a leczeniem kwantowym prowadzi do wprowadzenia tak zwanych mikroskopowych stanów kwantowych (MQS), które często znajdują się w sferze fizycznej. Nadprzewodnictwo, nadciekłość i namagnesowanie są reprezentatywnymi ilustracjami MQS o różnych cechach: (1) określona struktura i stany oraz (2) krytyczny poziom koherencji, który po osiągnięciu powoduje (3) stany regulowane, które są bardzo stabilne. Jako przykład namagnesowania specjalnych struktur obszarów Weissa można zauważyć maleńkie obszary w ferromagnesach, w których spiny elektronów są spolaryzowane w określonym kierunku. Ponieważ istnieje wiele małych obszarów i polaryzacji, ogólne namagnesowanie ferromagnetyków nie jest zauważalne. Jeśli natomiast użyjemy odpowiednio silnego pola magnetycznego B lub odpowiednio obniżymy temperaturę (poniżej punktu Curie), czyli w określonych warunkach, ferromagnes wykazuje namagnesowanie, ponieważ teraz wszystkie elektrony wirują w całym makroskopowym krysztale są spolaryzowane po tym samym przebiegu, ściśle ze sobą sprzężone, co prowadzi do stanu w miarę zrównoważonego, makroskopowo spójnego (lub kwantowego), czyli stanu uporządkowanego . W interpretacji większości fizyków przejście od stanu nieuporządkowanego (liczne obszary Weissa) do uporządkowanego (namagnesowanie) nazywane jest „przejściem fazowym”. Wartość istotnych parametrów (pole magnetyczne B lub temperatura T) w punkcie przejścia charakteryzuje przemianę fazową i określa punkt krytyczny (temperatura Curie). Jest oczywiste, że stany koherentne zawierają pewną informację (wszystkie spiny elektronowe są spolaryzowane w ten sam sposób), która nie zawiera stanów nieuporządkowanych (losowo rozłożonych spinów elektronicznych). Innymi słowy, stany nieuporządkowane są bardziej symetryczne (spolaryzowane elektrony wirują w tym samym kierunku, z przerwaniem symetrii obrotowej), podczas gdy stany uporządkowane mają mniejszą symetrię (losowo rozmieszczone spiny elektronów, które są rotacyjnie niezmienne, tj. Nie mają preferowanego kierunku). Stąd stany koherentne w konsekwencji indukują automatyczną zmianę symetrii prowadzącą do przejścia fazowego. Cechami przejścia fazowego są: (1) uniwersalność – to samo przejście fazowe może opisać wiele różnych układów; (2) atraktor – zmieniając pewne parametry układu mogą osiągnąć wartości zbliżone do wartości krytycznych, dla przejścia fazowego . Punkt krytyczny stanowi atraktor dla wszystkich wokół ciebie. W szczególności nie odczuwamy dostrajania instrukcji systemowych podczas osiągania spójnego stanu. I wreszcie (3) równania ewolucyjne – wszystkie istotne parametry przejścia fazowego (obejmujące dwa poprzednie warunki) można zakodować za pomocą grupy równań renormalizacyjnych (RGE). Wyjaśniają nie tylko odchylenie od stanu krytycznego, ale także inne cechy przejścia fazowego. Makroskopowo stany kwantowe lub koherentne mają bardzo selektywne cechy: (1) bardzo długa stałość – są wysoce niezmienne, reprezentują długoterminową zgodność między podstawowymi składnikami, takimi jak samopromująca się pętla stymulacji, fonony, fale spinowe, magnona itp. ., który reguluje stan różnych podstawowych składników, przywracając je do początkowych stanów podstawowych wywołanych przez zaburzenie (jest to symbolicznie oznaczone jako właściwość R + F MQS); (2) brak lokalizacji – jasne jest, że MQS można znaleźć poza stanowiskami mikroskopowymi; (3) częstość występowania – MQS ma nowe cechy, które nie istnieją w podstawowym stanie elementarnym. Najnowsze cechy opisują stany na wyższym poziomie w porównaniu z poziomami, na których zachodzi podstawowa interkomunikacja pomiędzy podstawowymi elementami . Mianowicie nadprzewodnictwo jest nową cechą/osobliwością, która wskazuje na zebrane badanie elektronów w określonych warunkach, podczas gdy każdy elektron podlega podstawowym zasadom elektrodynamiki kwantowej. Przypomnijmy sobie analogię między MQS a przejściami fazowymi z funkcjami mózgu: (1) niekodowany mózg charakteryzuje się losowymi sygnałami i osłabioną percepcją (co koreluje z przypadkową polaryzacją w małych obszarach Weissa ferromagnesu), podczas gdy (2) uczenie się charakteryzuje przez odbieranie zewnętrznych impulsów przez kilka sekund, które wzmacniają i regulują nieuporządkowane znaki nerwowe jako uporządkowane dowody, odpowiadające ferromagnesowi, gdy przyłożone jest zewnętrzne pole magnetyczne B lub temperatura spada poniżej punktu Curie. Wszystko to powoduje przerwanie wielodomenowych małych struktur z przypadkową polaryzacją i prowadzi do uporządkowanego stanu, w którym spiny elektronowe w całym ferromagnetyku są w pełni zharmonizowane w każdym punkcie w tym samym kierunku [38]. W takich warunkach jest to kwestia przejścia fazowego lub samoistnego złamania symetrii. Oczywiste jest, że taki proces zależy od rodzaju bodźców zewnętrznych, które oddziałują z poszczególnymi podstawowymi składnikami i kierują system w kierunku odpowiedniego MQS, czyli stanu regulowanego. Realistycznie rzecz biorąc, aby zaszyfrować wszystkie jakościowo zróżnicowane sygnały i wytworzyć uporządkowane, niepowtarzalne wrażenie o nas samych, konieczna jest ogromna liczba jakościowych różnych stanów, tj. Takie symetrie są związane z grupą praw selekcji, które służą jako fizyczny filtr przed niepożądanymi, nieistotnymi sygnałami błądzącymi. Jest to rzeczywiście trudne zadanie, jeśli przypomnimy sobie fakt, że tylko widoczne spontaniczne pęknięcia symetrii na poziomie podstawowym opisują oddziaływania elektrosłabe. To tak znikoma liczba w stosunku do nieporównywalnie dużej liczby spontanicznie łamanych symetrii . Dlatego jest to jeden z problemów, które wymagają zastosowania do nich teorii strun, podczas gdy (3) zakodowany mózg lub pamięć skutkuje bardzo zrównoważonym, uporządkowanym pierścieniem skupiska włączonych neuronów, które nie zawsze są ograniczone i które odpowiadają, obserwowany analogicznie do ferromagnesu o stabilności i makroskopowym charakterze (w tym braku lokalizacji) osadzonych stanów magnesujących. Ten rodzaj naturalnie zorganizowanego, spójnego uwalniania neuronów, które nie zawsze jest ograniczone, może dostarczyć odpowiedzi na tak zwane wiązanie problemu. I wreszcie (4) proces przypominania, podczas którego powtarzający się słaby sygnał, podobny do sygnału uczącego się, może wywołać aktualnie spójny stan, w którym jego cecha R + F jest ponownie tłumaczona na poprzednią postać. W ten sposób wzbudzenie uporządkowanego stanu jest procesem, który ostrzega nas przed odwołaniem danego uporządkowanego stanu. To, analogicznie do ferromagnesu, odpowiada przyłożeniu słabego pola magnetycznego B0, które nie jest całkowicie równoległe do początkowego pola B, które indukuje wymuszoną oscylację spinów elektronów, w danym momencie, przed uwolnieniem ich z powrotem do równowagi, tj. przywrócenie spójnego stanu dzięki cechom R + F MQS. Konieczne jest powtórzenie (replikacja) sygnału, który jest całkowicie równy sygnałowi uczącemu, całkowicie unieważniając informację, ze względu na omówioną już cechę przejścia fazowego atraktora [32, 40]. W terminologii przejścia fazowego mechanizm przywoływania pamięci odpowiada działaniu nieistotnego operatora. Nie może umknąć naszej uwadze w sieci przejść fazowych, ponieważ R+F i cechy atraktora bardzo ułatwiają pobieranie informacji bez konieczności całkowitej identyfikacji sygnału replikacyjnego i sygnału uczącego. Innymi słowy, dostrajanie, które wymaga długich okresów czasu, jest nieistotne dla uzyskania informacji. Pomyśl, co by się stało, gdyby konieczne było obserwowanie wszystkich scen szybkiego zbliżania się wygłodniałego lwa, obejmujących wyginanie jego szczęk, przed wejściem na drzewo, aby przed nim uciec. To nie byłoby naprawdę praktyczne. Przedstawiony powyżej ogólny obraz funkcji mózgu ma obiecujący charakter. Powstaje jednak pytanie: czy są na to jakieś eksperymentalne dowody? Taki dowód zawiera encefalogram (EEG). Powszechnie przyjmuje się, że fale EEG powstają w wyniku sumowania wyładowań lokalnych neuronów, chociaż proces ten jest wciąż nieco bardziej skomplikowany . Według niektórych badaczy asynchroniczny zapłon losowo rozmieszczonych neuronów daje ogólny efekt zero netto na gołych elektrodach. W przeciwieństwie do tego, badając potencjały elektryczne podczas stymulacji sensorycznej i prób uczenia się, E. R. John udowodnił, że potencjały te rosną, gdy duże i rozproszone grupy nerwowe są wyzwalane w zupełnie inny sposób niż spontaniczna losowa aktywność korowa.

Redystrybucja czasu w obrębie grup neuronowych charakteryzuje się zewnętrznymi bodźcami potencjału. Sayers i in. znaleźli podobne niezależne dowody na wzmocnienie redystrybucji czasu poprzez badanie kolejności faz EEG. Częstotliwość widma EEG podczas spontanicznej aktywności korowej wykazuje losowy rozkład zależności fazowych, które zmierzają w kierunku wyraźnych wzorców faz uporządkowanych dokładnie po prowokacji sensorycznej. Zadziwiające jest to, że charakterystyki fazowe stymulowane potencjałem wpływają na przebiegi spontaniczne, dzięki czemu możliwe jest odwzorowanie kształtów obserwowanych fal. Te wyniki redystrybucji czasowej potwierdził również E. R. John, który wykazał, że spodziewali się, że dane EEG z sumy wyładowań neuronowych są błędne, sugerując, że fale amplitudy są jedyną różnicą między kształtem fali spontanicznej i stymulowanej . Wydaje się, że bodziec zewnętrzny dodaje mózgowi energii i jednocześnie kieruje go do zorganizowania się w uporządkowany sposób, jak w przypadku zewnętrznego pola B w ferromagnetykach. Potwierdza to, że równoważność funkcji mózgu i krytycznych zjawisk dynamicznych jest w pełni uzasadniona. W takim podejściu efektywny świat mentalny (W2) wydaje się aktywnie oddziaływać z MQS, tak że funkcja R + F MQS, a następnie wywołana przez W2 MQS rozpad, zapewniając rozwiązanie starego problemu dotyczącego przyczyn silnego związku emocji z działaniem ciała.

Modele językowe z rekurencyjnymi sieciami neuronowymi

https://aie24.pl/

Zaczniemy od problemu stworzenia modelu języka z odpowiednim kontekstem. Przypomnij sobie, że model języka to rozkład prawdopodobieństwa na sekwencje słów. Pozwala nam przewidzieć następne słowo w tekście, biorąc pod uwagę wszystkie poprzednie słowa i jest często używany jako element konstrukcyjny do bardziej złożonych zadań. Budowanie modelu językowego za pomocą modelu n-gramowego  lub feedforward ,sieć z ustalonym oknem na n słów może napotkać trudności z powodu problemu z kontekstem: albo wymagany kontekst przekroczy ustalony rozmiar okna, albo model będzie miał zbyt wiele parametrów, albo jedno i drugie. Ponadto sieć feedforward ma problem asymetrii: czegokolwiek się dowie o, powiedzmy, pojawieniu się słowa go jako 12. słowa zdania, będzie musiała się na nowo nauczyć, aby pojawił się on na innych pozycjach w zdaniu, ponieważ wagi są różne dla każdej pozycji słowa. Wprowadziliśmy rekurencyjną sieć neuronową lub RNN, która została zaprojektowana do przetwarzania danych szeregów czasowych, jeden punkt odniesienia na raz. Sugeruje to, że RNN mogą być przydatne do przetwarzania języka, po jednym słowie na raz.  W modelu języka RNN każde słowo wejściowe jest zakodowane jako wektor osadzania słowa, xi. Istnieje ukryta warstwa zt, która jest przekazywana jako dane wejściowe z jednego kroku czasowego do następnego. Interesuje nas klasyfikacja wieloklasowa: klasy to słowa ze słownika. Wynik yt będzie więc rozkładem prawdopodobieństwa softmax nad możliwymi wartościami następnego słowa w zdaniu. Architektura RNN rozwiązuje problem zbyt wielu parametrów. Liczba parametrów w macierzach wag w,z,z, w,x.z i w,z,y pozostaje stała, niezależnie od liczby słów – jest to O(1). Jest to w przeciwieństwie do sieci feedforward, które mają parametry O(n) i modeli n-gramowych, które mają parametry O(vn), gdzie v jest rozmiarem słownika. Architektura RNN również rozwiązuje problem asymetrii, ponieważ wagi są takie same dla każdej pozycji słowa. Architektura RNN może czasami również rozwiązać problem ograniczonego kontekstu. Teoretycznie nie ma ograniczeń co do tego, jak daleko wstecz w danych wejściowych może wyglądać model. Każda aktualizacja warstwy ukrytej zt ma dostęp zarówno do bieżącego słowa wejściowego xt, jak i do poprzedniej warstwy ukrytej zt-1, co oznacza, że ​​informacje o dowolnym słowie w warstwie wejściowej mogą być przechowywane w warstwie ukrytej na czas nieokreślony, kopiowane (lub modyfikowane jako właściwe) od jednego kroku do następnego. Oczywiście w z jest ograniczona ilość pamięci, więc nie może zapamiętać wszystkiego o wszystkich poprzednich słowach. W praktyce modele RNN dobrze radzą sobie z różnymi zadaniami, ale nie ze wszystkimi. Przewidywanie, czy sprawdzą się w danym problemie, może być trudne. Jednym z czynników przyczyniających się do sukcesu jest to, że proces szkoleniowy zachęca sieć do przydzielania przestrzeni pamięci w z na te aspekty danych wejściowych, które faktycznie okażą się przydatne. Dane wejściowe, xt , są słowami w korpusie uczącym tekstu, a obserwowane dane wyjściowe są tymi samymi słowami przesuniętymi o 1. Oznacza to, że dla tekstu uczącego „hello world” pierwsze wejście x1 to osadzenie słowa dla „hello ”, a pierwszym wyjściem y1 jest słowo osadzające dla „świata”. Uczymy model, aby przewidywał następne słowo i spodziewamy się, że w tym celu użyje ukrytej warstwy do reprezentowania przydatnych informacji. Jak wyjaśniono , obliczamy różnicę między obserwowanym wyjściem a rzeczywistym wyjściem obliczonym przez sieć i dokonujemy wstecznej propagacji w czasie, dbając o to, aby wagi były takie same dla wszystkich przedziałów czasowych. Po wytrenowaniu modelu możemy go użyć do wygenerowania losowego tekstu. Nadajemy modelowi początkowe słowo wejściowe x1, z którego wygeneruje wynik y1, który jest rozkładem prawdopodobieństwa softmax na słowach. Próbkujemy pojedyncze słowo z rozkładu, zapisujemy je jako dane wyjściowe dla czasu t i przekazujemy je z powrotem jako następne słowo wejściowe x2. Powtarzamy tak długo, jak chcemy. W próbkowaniu z y1 mamy wybór: zawsze możemy wziąć najbardziej prawdopodobne słowo; możemy próbkować zgodnie z prawdopodobieństwem każdego słowa; lub możemy nadpróbkować mniej prawdopodobne słowa, aby wprowadzić większą różnorodność do wygenerowanego wyniku. Waga próbkowania jest hiperparametrem modelu. Oto przykład losowego tekstu wygenerowanego przez model RNN wytrenowany na dziełach Szekspira:

Marry, and will, my lord, to weep in such a one were prettiest;

Yet now I was adopted heir

Of the world’s lamentable day,

To watch the next way with his father with his face?

AI : Technologie, Aplikacje i Wyzwania : Wyobraźnia ruchowa

https://aie24.pl/

Rytm sensomotoryczny (SMR) jest przetwarzany przez korę ruchową związaną z dowolnymi obszarami somatosensorycznymi. Podczas ruchu SMR może się zmniejszać lub zwiększać. Możliwości te są rozpoznawane jako desynchronizacja specyficzna dla zdarzenia (ESD) i synchronizacja specyficzna dla zdarzenia (ESS). W przypadku ESD przesunięcia sygnału stają się mniejsze niż określone linie podstawowe, wywołane desynchronizacją aktywności w określonym obszarze mózgu. Z drugiej strony sygnał ESS podczas ruchu jest silniejszy w stosunku do linii bazowej, co jest charakterystyczne dla sygnału w spoczynku. Lokalizacja sygnału zmienia się w zależności od tego, jak się porusza i na której części ciała wystąpił określony ruch. Stwierdzono, że wyobrażenie sobie ruchu bez jego realizacji powoduje podobnie słaby sygnał EEG jak ERP i VEP. Niemniej jednak można go odróżnić nie tylko po nogach, ale także po rękach (lewej i prawej) .

Powtarzalne sieci neuronowe dla NLP

https://aie24.pl/

Mamy teraz dobrą reprezentację pojedynczych słów w izolacji, ale język składa się z uporządkowanej sekwencji słów, w której ważny jest kontekst otaczających słów. W przypadku prostych zadań, takich jak znakowanie części mowy, wystarczającego kontekstu zapewnia zwykle małe okno o stałej wielkości, składające się z około pięciu słów. Bardziej złożone zadania, takie jak odpowiedzi na pytania lub rozwiązania referencyjne, mogą wymagać kilkudziesięciu słów jako kontekstu. Na przykład w zdaniu „Eduardo powiedział mi, że Miguel jest bardzo chory, więc zabrałem go do szpitala”, wiedząc, że odnosi się on do Miguela, a nie Eduardo, wymaga kontekstu, który obejmuje od pierwszego do ostatniego słowa 14-wyrazowego zdania .

AI : Technologie, Aplikacje i Wyzwania : Potencjały związane ze zdarzeniami (ERP)

https://aie24.pl/

ERP to sygnały elektrokortykalne wykrywane i mierzone przez EEG podczas lub po zdarzeniu czuciowym, motorycznym lub psychologicznym. Na ogół mają ograniczone opóźnienie bodźca i różne amplitudy w porównaniu z normalną aktywnością EEG. EPR są rzadsze i bardziej wyraźne niż sygnały zarejestrowane EEG. Różne sygnały ERP mogą być wyzwalane za pomocą różnych bodźców (zdarzeń), gdzie ERP jest definiowane przez określone opóźnienie czasowe lub opóźnienie pozycji w stosunku do momentu, w którym zostało wywołane. Dwa najczęstsze ERP to P300 i wizualnie wywołany potencjał stanu ustalonego (SSVEP). Fala P300 to rodzaj potencjału indukowanego zdarzeniem, który pojawia się w ludzkim mózgu jako swoiste odbicie odpowiadające opóźnieniu czasowemu około 300 ms po wystąpieniu określonych zdarzeń. Sygnał P300 jest zwykle wzmacniany w centralnym równoległym obszarze mózgu, co można zarejestrować za pomocą EEG. Wydarzenie inicjujące R300 znane jest jako „niezwykły paradygmat”, który składa się z trzech głównych założeń. Zgodnie z pierwszym założeniem podmiot jest reprezentowany przez ciąg bodźców lub zdarzeń należących do jednej z klas (zdarzenie chciane lub niepożądane), przy czym jeden z nich występuje rzadziej niż drugi (rzadkie w porównaniu do częstszego wydarzenie). Pacjent musi zwrócić uwagę na jeden z bodźców, gdy pojawi się zdarzenie (obliczając różnicę w miganiu określonej litery, odpowiadającej rzadkiemu zdarzeniu). Zdarzenie indukuje sygnał P300 w mózgu. W ten sposób możliwe jest wywołanie zarówno bodźca wzrokowego, jak i słuchowego w celu zainicjowania sygnału P300 dla różnych urządzeń i zastosowań, wyjaśniając go na przykład jako potencjał wzrokowy (VEP) lub potencjał słuchowy (AEP). Jeden z pierwszych pisowni P300 BCI, opracowany przez Farwella i Donchina w 1988 roku, wizualnie stymuluje „dziwaczny paradygmat”].

Osadzanie słów

https://aie24.pl/

Chcielibyśmy, aby reprezentacja słów nie wymagała ręcznej inżynierii cech, ale pozwala na uogólnianie między powiązanymi słowami — słowami, które są powiązane syntaktycznie („bezbarwny” ​​i „idealny” są przymiotnikami), semantycznie („kot” i „kotek” są kotami), lokalnie („słonecznie” i „ze śniegiem” to terminy pogodowe), pod względem sentymentu („niesamowity” ma przeciwny sentyment do „wartego do bólu”) lub w inny sposób. Jak zakodować słowo do wektora wejściowego x do wykorzystania w sieci neuronowej? Jak wyjaśniono , możemy użyć jednego gorącego wektora — to znaczy, kodujemy i-te słowo w słowniku z 1 bitem na i-tej pozycji wejściowej i 0 na wszystkich pozostałych pozycjach. Ale taka reprezentacja nie uchwyciłaby podobieństwa między słowami. Podążając za maksymą lingwisty Johna R. Firtha (1957) „Poznasz słowo po frmie, w której się znajduje”, możemy przedstawić każde słowo za pomocą wektora liczby n-gramów wszystkich fraz, w których to słowo się pojawia. surowe liczby n-gramów są kłopotliwe. Przy słownictwie składającym się ze 100 000 słów jest 1025 5 gramów do śledzenia (chociaż wektory w tej 1025-wymiarowej przestrzeni byłyby dość rzadkie — większość zliczeń wynosiłaby zero). Lepsze uogólnienie uzyskalibyśmy, gdybyśmy zredukowali to do wektora o mniejszym rozmiarze, być może o zaledwie kilkuset wymiarach . Ten mniejszy, gęsty wektor nazywamy osadzaniem słowa: niskowymiarowym wektorem reprezentującym słowo. Osadzania słów są uczone automatycznie z danych. (Później zobaczymy, jak to się robi.) Jakie są te wyuczone osadzania słów? Z jednej strony każda z nich jest tylko wektorem liczb, gdzie poszczególne wymiary i ich wartości liczbowe nie mają dostrzegalnego znaczenia:

Z drugiej strony przestrzeń cech ma tę właściwość, że podobne słowa mają podobne wektory. Widzimy to na rysunku

, gdzie istnieją oddzielne klastry dla słów kraj, pokrewieństwo, transport i jedzenie. Okazuje się, z powodów, których do końca nie rozumiemy, że wektory osadzające słowo mają dodatkowe właściwości poza samą bliskością podobnych słów. Załóżmy na przykład, że patrzymy na wektory A dla Aten i B dla Grecji. W przypadku tych słów różnica wektorowa B-A wydaje się kodować relację kraj/stolica. Inne pary — Francja i Paryż, Rosja i Moskwa, Zambia i Lusaka – mają zasadniczo tę samą różnicę wektorów. Możemy użyć tej własności do rozwiązywania problemów z analogią słów, takich jak „Ateny są dla Grecji, tak jak Oslo dla [czego]?” Pisząc C dla wektora Oslo i D dla niewiadomego, zakładamy, że B-A=D-C, co daje nam D=C+(B-A). A kiedy obliczamy ten nowy wektor D, okazuje się, że jest on bliższy „Norwegii” niż jakiemukolwiek innemu słowu. Nie ma jednak gwarancji, że określony algorytm osadzania słów uruchomiony w określonym korpusie uchwyci określoną relację semantyczną. Osadzanie słów jest popularne, ponieważ okazało się, że jest dobrą reprezentacją zadań językowych (takich jak odpowiadanie na pytania, tłumaczenie lub podsumowywanie), a nie dlatego, że gwarantuje, że same odpowiedzą na pytania dotyczące analogii. Używanie wektorów do osadzania słów zamiast kodowania słów w jednym miejscu okazuje się być pomocne w zasadzie we wszystkich zastosowaniach uczenia głębokiego do zadań NLP. Rzeczywiście, w wielu przypadkach możliwe jest użycie generycznych, wstępnie przeszkolonych wektorów, uzyskanych od dowolnego z kilku dostawców, do konkretnego zadania NLP. W chwili pisania tego tekstu powszechnie używane słowniki wektorowe obejmują WORD2VEC, GloVe (Global Vectors) i FASTTEXT, który ma osadzania dla 157 języków. Korzystanie z wstępnie wytrenowanego modelu może zaoszczędzić wiele czasu i wysiłku. Możliwe jest również trenowanie własnych wektorów słów; odbywa się to zwykle w tym samym czasie, co szkolenie sieci do określonego zadania. W przeciwieństwie do ogólnych, wstępnie wytrenowanych osadzeń, osadzania słów tworzone dla określonego zadania mogą być wytrenowane na starannie dobranym korpusie i będą miały tendencję do podkreślania aspektów słów, które są przydatne w zadaniu. Załóżmy na przykład, że zadanie polega na znakowaniu części mowy (POS) . Przypomnij sobie, że obejmuje to przewidywanie prawidłowej części mowy dla każdego słowa w zdaniu. Chociaż jest to proste zadanie, nie jest trywialne, ponieważ wiele słów można oznaczyć na wiele sposobów – na przykład słowo cut może być czasownikiem czasu teraźniejszego (przechodniego lub nieprzechodniego), czasownikiem czasu przeszłego, czasownikiem bezokolicznikowym, imiesłów czasu przeszłego, przymiotnik lub rzeczownik. Jeśli pobliski przysłówek czasowy odnosi się do przeszłości, sugeruje to, że to konkretne wystąpienie cut jest czasownikiem czasu przeszłego; a zatem możemy mieć nadzieję, że osadzenie uchwyci aspekt przysłówków odnoszący się do przeszłości. Tagowanie POS służy jako dobre wprowadzenie do zastosowania uczenia głębokiego w NLP, bez komplikacji bardziej złożonych zadań, takich jak odpowiadanie na pytania (patrz Rozdział 25.5.3). Mając korpus zdań ze znacznikami POS, jednocześnie uczymy się parametrów osadzenia słów i tagu POS. Proces przebiega w następujący sposób:

  1. Wybierz szerokość w (nieparzystą liczbę słów) okna przewidywania, które będzie używane do oznaczania każdego słowa. Typowa wartość to w=5, co oznacza, że ​​znacznik jest przewidywany na podstawie słowa plus dwa słowa po lewej i dwa słowa po prawej. Podziel każde zdanie w swoim korpusie na zachodzące na siebie okna o długości w. Każde okno generuje jeden przykład uczący składający się ze słów w jako danych wejściowych i kategorii POS środkowego słowa jako danych wyjściowych.
  2. Utwórz słownik wszystkich unikalnych tokenów słów, które występują w danych treningowych więcej niż, powiedzmy, 5 razy. Oznacz całkowitą liczbę słów w słowniku jako v.
  3. Posortuj to słownictwo w dowolnej kolejności (być może alfabetycznie).
  4. Wybierz wartość d jako rozmiar każdego wektora osadzającego słowo.
  5. Utwórz nową macierz wag v-by-d o nazwie E. To jest macierz osadzania słów. Wiersz i z E to słowo zawierające i-te słowo w słowniku. Zainicjuj E losowo (lub ze wstępnie wytrenowanych wektorów).
  6. Skonfiguruj sieć neuronową, która wysyła część etykiety mowy. Pierwsza warstwa będzie się składać z w kopii matrycy osadzania. Możemy użyć dwóch dodatkowych ukrytych warstw, z1 i z2 (z macierzami wag odpowiednio W1 i W2), a następnie warstwy softmax dającej rozkład prawdopodobieństwa wyjścia ˆy nad możliwymi kategoriami części mowy dla środkowego słowa:

  1. Aby zakodować sekwencję słów w w wektorze wejściowym, po prostu wyszukaj osadzenie dla każdego słowa i połącz wektory osadzenia. Wynikiem jest wektor wejściowy x o wartościach rzeczywistych o długości wd. Nawet jeśli dane słowo będzie miało to samo osadzenie

wektor niezależnie od tego, czy występuje w pierwszej pozycji, ostatniej, czy gdzieś pomiędzy, każde osadzenie zostanie pomnożone przez inną część pierwszej ukrytej warstwy; dlatego domyślnie kodujemy względną pozycję każdego słowa.

  1. Ćwicz wagi E i inne macierze wag W1, W2 i Wout, korzystając ze zniżania gradientowego. Jeśli wszystko pójdzie dobrze, środkowe słowo, cut, zostanie oznaczone jako czasownik czasu przeszłego, w oparciu o dowody w oknie, które obejmuje czasowe przeszłe słowo „wczoraj”, zaimek podmiotowy trzeciej osoby „oni” bezpośrednio przed cięcie i tak dalej.

Alternatywą dla osadzania słów jest model na poziomie znaków, w którym dane wejściowe są sekwencją znaków, z których każdy jest zakodowany jako jeden gorący wektor. Taki model musi nauczyć się, jak postacie łączą się w słowa. Większość prac w NLP opiera się na kodowaniu na poziomie słowa, a nie na poziomie znaków.

AI : Technologie, Aplikacje i Wyzwania : Speller interfejsu mózg-komputer

https://aie24.pl/

BCI daje nową metodę niezgłaszania za pomocą sygnału mózgowego. BCI Speller P300 to jedna z pierwszych metod aplikacji BCI, oparta na monitorowaniu stacjonarnego wzrokowego potencjału wywołanego (SSVEP) oraz motorycznego potencjału urojonego (MI). Różne podejścia BCI wymagają szczególnych cech sygnału encefalogramu (EEG), co przyspieszyło opracowanie odpowiedniego graficznego interfejsu użytkownika (GUI). Choroba neuronu ruchowego (MND) wpływa na interakcje mózgu z różnymi narządami w ciele, wpływając na sieć neurologiczną i kontrolę motoryczną mięśni. Stosowana jest w leczeniu stwardnienia zanikowego bocznego (ALT), udaru mózgu, urazów mózgu lub rdzenia kręgowego, porażenia mózgowego, dystrofii mięśniowej i stwardnienia rozsianego, a także w utracie zdolności do regulacji mięśni zależnych od woli, głównie składających się z mięśni szkieletowych mięśni odpowiedzialnych za zaburzenia czynnościowe i poznawcze. Jednym z systemów komunikacyjnych przeznaczonych dla osób, które nie są w stanie komunikować się lub używać rąk do pracy, jest wykorzystanie systemu ortograficznego eye-tracking, zależnego od ruchliwości oka sterowanej kursorem na wirtualnej klawiaturze, podczas wybierania poszczególnych liter. Mrugnięcie okiem może być również stosowana jako praktyka konwersacji. Takie i uzupełniające się systemy nie są wygodne dla osób, które utraciły zdolność precyzyjnej regulacji drobnych przesunięć gałki ocznej lub pacjentów cierpiących na niekontrolowane przesunięcia głowy [18, 28]. Istnieje wiele sposobów monitorowania aktywności mózgu. Jednym z najbardziej akceptowalnych wśród nich jest elektroencefalogram (EEG). Jest to nieinwazyjna metoda, która jest szeroko stosowana w ostatnich zastosowaniach BCI. Jest skuteczniejsza niż elektrokortykografia (ECoG), która wymaga operacji przez czaszkę w celu uzyskania bezpośredniego dostępu do struktur mózgu. Urządzenie EEF jest niedrogą, przenośną i łatwą w instalacji metodą. Daje sygnał o wyższej rozdzielczości czasowej w porównaniu z alternatywnymi, nieinwazyjnymi procedurami rejestracji aktywności mózgu. Rezonans magnetyczny (MRI) czy pozytonowa tomografia emisyjna to również nieinwazyjne metody BCI. Nadają się do badania stanu zdrowia osób i zastosowań. Po sprawdzeniu i zarejestrowaniu aktywności mózgu w BCI poszczególne sygnały są wyodrębniane i analizowane za pomocą komputera. Potencjał wyjściowy BCI można wykorzystać do przywrócenia, odnowienia, poprawy lub wzmocnienia funkcji ośrodkowego układu nerwowego. Jednym z najczęściej badanych zastosowań jest pisownia BCI. Pozwala użytkownikowi na kontakt z otoczeniem za pomocą graficznego interfejsu użytkownika (GUI), który wyświetla litery, cyfry i znaki specjalne. Korzystając z sygnału mózgowego, który rejestruje i analizuje BCI, klient wybiera wybrany znak i wpisuje go na ekranie lub innym wyświetlaczu wyjściowym. Pisownia BCI pozwala również ludziom komunikować się bezpośrednio poprzez pomiar i interpretację aktywności mózgu.