luty 2023 – Strona 4 – "Bądź człowiekiem … A.I. !"

Od samouważności do transformatora

Samouważność jest tylko jednym z elementów modelu transformatora. Każda warstwa transformatora składa się z kilku podwarstw. Na każdej warstwie transformatora najpierw przykładana jest uwaga. Sygnał wyjściowy modułu uwagi jest podawany przez warstwy ze sprzężeniem do przodu, gdzie te same macierze masy ze sprzężeniem do przodu są nakładane niezależnie w każdej pozycji. Nieliniowa funkcja aktywacji, zazwyczaj ReLU, jest stosowana po pierwszej warstwie ze sprzężeniem do przodu. Aby rozwiązać problem potencjalnego znikającego gradientu, do warstwy transformatora dodaje się dwa połączenia resztkowe. W praktyce modele transformatorów mają zwykle sześć lub więcej warstw. Podobnie jak w przypadku innych modeli, o których się dowiedzieliśmy, dane wyjściowe warstwy i są używane jako dane wejściowe warstwy i+1. Architektura transformatora nie wychwytuje wprost kolejności słów w sekwencji, ponieważ kontekst jest modelowany tylko przez samouważność, która jest agnostyczna w stosunku do kolejności słów. Aby uchwycić kolejność słów, transformator wykorzystuje technikę zwaną osadzaniem pozycyjnym. Jeśli nasza sekwencja wejściowa ma maksymalną długość n, wtedy uczymy się n nowych wektorów osadzania — po jednym dla każdej pozycji słowa. Sygnał wejściowy do pierwszej warstwy transformatora jest sumą osadzania słowa w pozycji t plus osadzanie pozycyjne odpowiadające pozycji t. Na dole słowa osadzenie i osadzenia pozycyjne są sumowane, tworząc wejście dla trójwarstwowego transformatora. Transformator generuje jeden wektor na słowo, tak jak w przypadku tagowania POS opartego na RNN. Każdy wektor jest podawany do końcowej warstwy wyjściowej i warstwy softmax, aby uzyskać rozkład prawdopodobieństwa na znacznikach. W tej sekcji opowiedzieliśmy tylko połowę historii transformatora: model, który tutaj opisaliśmy, nazywa się koderem transformatora. Przydaje się do zadań klasyfikacji tekstu. Pełna architektura transformatora została pierwotnie zaprojektowana jako model sekwencja-sekwencja do tłumaczenia maszynowego. Dlatego oprócz enkodera zawiera również dekoder transformatorowy. Koder i dekoder są prawie identyczne, z wyjątkiem tego, że dekoder używa wersji samouważności, w której każde słowo może zająć się tylko słowami przed nim, ponieważ tekst jest generowany od lewej do prawej. Dekoder ma również drugi moduł uwagi w każdej warstwie transformatora, który obsługuje wyjście kodera transformatora.

AI : Technologie, Aplikacje i Wyzwania : Maszyny syntetyczne

https://aie24.pl/

Głównymi konstruktorami maszyn molekularnych byliby chemicy. Najprostsze takie maszyny mogły zawierać tylko jedną cząsteczkę. Jednak najbardziej powszechnymi konstrukcjami byłyby bardzo precyzyjnie zdefiniowane architektury elementów/cząsteczek, które są ze sobą połączone zgodnie z zasadą „mechanicznie powiązane architektury molekularne”. Przykładami takich struktur są rotakseny i katenaty. Silniki molekularne składają się z cząsteczek skłonnych do obracania się, gdy otrzymują energię z zewnętrznego źródła. Zaprojektowano wiele maszyn molekularnych wykorzystujących światło do reagowania z innymi cząsteczkami. Śmigło molekularne to cząsteczka, która może wypychać płyn podczas obrotu, dzięki swojej unikalnej formie i konstrukcji analogicznej do makroskopowych śmigieł. Istnieje kilka noży w skali molekularnej przymocowanych pod pewnym kątem na obrzeżach nanowymiarowej włóczni. Przełącznik molekularny to cząsteczka odwracalnie poruszająca się między dwoma lub więcej stanami stabilnymi w odpowiedzi na zmiany pH, temperatury, prądu elektrycznego, mikrośrodowiska, obecności ligandów. Przełącznik molekularny to cząsteczka zdolna do łączenia cząsteczek lub jonów między dwoma bliskimi lokalizacjami. Pęsety molekularne to cząsteczki zdolne do trzymania się między dwoma ramionami, wykorzystując wiązania niekowalencyjne, wiązania wodorowe lub koordynację metaliczną, siły hydrofobowe, siły Van der Waalsa, interakcje π-π lub efekty elektrostatyczne. Przykładem twistera molekularnego jest konstrukcja DNA, podobnie jak DNA maszyny. Czujnik molekularny to cząsteczka zdolna do interakcji z analitem, powodując obserwowalną zmianę. Łączą rozpoznawanie molekularne z jakąś formą raportowania. Molekularny próg logiczny to cząsteczka zdolna do wykonywania operacji logicznych z odpowiednimi wejściami logicznymi, przekształcając je w logiczne „wyjście”

Samouważność

https://aie24.pl/

Wcześniej w modelach sekwencja-sekwencja zwracano uwagę z docelowej RNN na źródłową RNN. Samouważność rozszerza ten mechanizm tak, że każda sekwencja ukrytych stanów dotyczy również siebie – źródło do źródła i cel do celu. Pozwala to modelowi dodatkowo uchwycić kontekst dalekiego zasięgu (i bliskiego) w każdej sekwencji. Najprostszym sposobem zastosowania samouwagi jest sytuacja, w której macierz uwagi jest bezpośrednio tworzona przez iloczyn skalarny wektorów wejściowych. Jest to jednak problematyczne. Iloczyn skalarny między wektorem a nim zawsze będzie wysoki, więc każdy stan ukryty będzie skłaniał się ku sobie. Transformator rozwiązuje ten problem, najpierw rzutując dane wejściowe na trzy różne reprezentacje przy użyciu trzech różnych macierzy wag:

Wektor zapytania q_i= W_qx_i jest tym, z którego jest obserwowany, podobnie jak cel w standardowym mechanizmie uwagi.
Kluczowy wektor ki=W_kx_i jest tym, którym się zajmujemy, podobnie jak źródło w podstawowym mechanizmie uwagi.
Wektor wartości vi=W_vxi to generowany kontekst.

W standardowym mechanizmie uwagi sieci klucza i wartości są identyczne, ale intuicyjnie ma sens, aby były to oddzielne reprezentacje. Wyniki kodowania i-tego słowa, ci, można obliczyć, stosując mechanizm uwagi do rzutowanych wektorów:

Wektor zapytania q_i= W_qx_i jest tym, z którego jest obserwowany, podobnie jak cel w standardowym mechanizmie uwagi.
Kluczowy wektor k_i=W_kx_i jest tym, którym się zajmujemy, podobnie jak źródło w podstawowym mechanizmie uwagi.
Wektor wartości v_i=W_vx_i to generowany kontekst.

AI : Technologie, Aplikacje i Wyzwania : Maszyny molekularne

https://aie24.pl/

W przeciwieństwie do układów mikroskopowych, układy molekularne wykazują znaczne ruchy dynamiczne, zgodnie z prawem Browna. Obserwowane makroskopowo wiele konwencjonalnych maszyn pracuje z często pomijalnym tarciem, ale w układach molekularnych tarcie to jest nieporównywalnie większe. Strategia maszyny Feynamana, oparta na ruchu Browna, nie jest temu przeciwna. Podobnie jak maszyny makroskopowe, maszyny molekularne miałyby ruchome części. Ale kiedy na co dzień otaczają nas mikroskopijne maszyny, analogiczna strategia dla maszyn molekularnych jest niemożliwa, ponieważ dynamika procesu w dużej i małej skali jest zupełnie inna . Błony komórkowe są znakomitym przykładem takich maszyn molekularnych, w których bariera liofilowa poprzez liczne mechanizmy transportowe umożliwia przemieszczanie określonych biobiałek i składników mineralnych z jednej części komórki do drugiej. Podejście do budowy nanomaszyny zakłada wstępną budowę jej elementów, które następnie są składane w wymaganą maszynę zgodnie z zadanym żądaniem. Ponieważ podstawowymi częściami każdej maszyny są silnik i przełączniki, w maszynach molekularnych byłyby to przełączniki molekularne i silniki molekularne. Przełącznik określa stan układu (włączony/wyłączony), a silnik wpływa na trajektorię układu. Przełącznik wykonuje ruch translacyjny, uwalniając swoim ruchem przepływ energii, podczas gdy silnik wykorzystuje tę energię do funkcji reprodukcyjnej.

Rozszyfrowanie

https://aie24.pl/

W czasie uczenia model sekwencja-do-sekwencji próbuje zmaksymalizować prawdopodobieństwo wystąpienia każdego słowa w docelowym zdaniu uczącym, w zależności od źródła i wszystkich poprzednich słów docelowych. Po zakończeniu treningu otrzymujemy zdanie źródłowe, a naszym celem jest wygenerowanie odpowiedniego zdania docelowego. Możemy generować słowo docelowe po jednym słowie na raz, a następnie przesyłać zwrotne w słowie, które wygenerowaliśmy w następnym kroku czasowym. Ta procedura nazywa się dekodowaniem. Najprostszą formą dekodowania jest wybranie słowa o największym prawdopodobieństwie w każdym kroku czasowym, a następnie podanie tego słowa jako danych wejściowych do następnego kroku czasowego. Nazywa się to dekodowaniem zachłannym, ponieważ po wygenerowaniu każdego słowa docelowego system w pełni zgadza się z hipotezą, którą do tej pory stworzył. Problem polega na tym, że celem dekodowania jest maksymalizacja prawdopodobieństwa całej sekwencji docelowej, której dekodowanie zachłanne może nie osiągnąć. Na przykład rozważ użycie zachłannego dekodera do przetłumaczenia na hiszpański angielskiego zdania, które widzieliśmy wcześniej, drzwi frontowe są czerwone. Prawidłowe tłumaczenie to „La puerta de entrada es roja” – dosłownie „Drzwi wejściowe są czerwone”. Załóżmy, że docelowy RNN poprawnie generuje pierwsze słowo La dla The. Następnie chciwy dekoder może zaproponować entrada na front. Ale jest to błąd – hiszpański szyk wyrazów powinien umieścić rzeczownik puerta przed modyfikatorem. Dekodowanie zachłanne jest szybkie – uwzględnia tylko jeden wybór na każdym kroku i może to zrobić szybko – ale model nie ma mechanizmu poprawiania błędów. Moglibyśmy spróbować ulepszyć mechanizm uwagi, aby zawsze zwracał uwagę na właściwe słowo i za każdym razem poprawnie odgadywał. Ale w przypadku wielu zdań niewykonalne jest poprawne odgadnięcie wszystkich słów na początku zdania, dopóki nie zobaczysz, co jest na końcu. Lepszym podejściem jest poszukiwanie optymalnego dekodowania (lub przynajmniej dobrego) przy użyciu jednego z algorytmów wyszukiwania z Rozdziału 3. Powszechnym wyborem jest przeszukiwanie wiązki . W kontekście dekodowania MT, przeszukiwanie wiązki zwykle utrzymuje k najwyższych hipotez na każdym etapie, rozszerzając każdą o jedno słowo przy użyciu k najlepszych wyborów słów, a następnie wybiera najlepsze k z wynikowych k2 nowych hipotez. Gdy wszystkie hipotezy w belce generują specjalny token <end>, algorytm wyprowadza hipotezę o najwyższej punktacji. Ponieważ modele uczenia głębokiego stają się coraz dokładniejsze, zwykle możemy sobie pozwolić na użycie wiązki o mniejszym rozmiarze. Obecne najnowocześniejsze neuronowe modele MT wykorzystują wiązkę o rozmiarze od 4 do 8, podczas gdy starsza generacja statystycznych modeli MT wykorzystywałaby wiązkę o rozmiarze 100 lub większym.

Architektura transformatora

Wpływowy artykuł „Uwaga jest wszystkim, czego potrzebujesz” przedstawił architekturę transformatora, która wykorzystuje mechanizm samouważności, który może modelować kontekst długodystansowy bez zależności sekwencyjnej

AI : Technologie, Aplikacje i Wyzwania : Miękkie algorytmy obliczeniowe

https://aie24.pl/

Do tej pory wszystkie te problemy rozwiązywano opierając się na eksperymentach z ludźmi, którzy kierują swoje myśli do wykonania określonej czynności, a następnie na zastosowaniu algorytmów soft computing, które pozwalają sztucznym sieciom neuronowym uczyć się, opierając się na wcześniejszych przykładach. Strategia ta opiera się na hipotezie, że stany psychiczne są w pełni charakteryzowane przez określony wzorzec czynnościowy aktywacji neuronów mózgowych, co oznacza, że ten sam stan psychiczny niekoniecznie jest związany z aktywacją tych samych neuronów mózgowych, ponieważ chociaż ten sam stan psychiczny jest związany z różnymi wzorami aktywacji neuronów, wszystkie te wzorce, charakteryzują się rodzajem niezmiennej „sygnatury”, podobnej do sygnałów elektromagnetycznych emitowanych przez mózg, które są wykrywane za pomocą elektroencefalogramu (EEG), dzięki czemu wszystkie te szczegóły można określić poprzez analizę odpowiedniego EEG . Ponieważ jednak analiza ta jest niezwykle złożona, najlepszą strategią jest ustanowienie jak największej liczby połączeń między sygnałem EEG a siecią neuronową, aby sztuczna sieć neuronowa poprzez uczenie poprzez proces uczenia się na znanych przykładach wytwarzała wyjście tylko wtedy, gdy EEG – odpowiada podanej intencji. Tak więc, gdyby uczenie się powiodło, sieć neuronowa automatycznie opisałaby procedurę stosowaną do analizy sygnału EEG, rozszyfrowując w ten sposób istotę „sygnatury” intencji. Nie wchodząc w szczegóły techniczne wdrażania tej strategii, jest oczywiste, że jest ona coraz częściej wykorzystywana do projektowania rzeczywistego interfejsu mózgu-komputera . Jednak ten krok zawiera również poważne trudności koncepcyjne, ponieważ działanie sieci po zakończeniu początkowej fazy testowania zależy w dużej mierze od przykładów użytych podczas uczenia, a samo uczenie powinno obejmować dużą liczbę różnych możliwych sytuacji. Niestety, ilość dostępnych danych jest zawsze poważnie ograniczona ze względów praktycznych, które są związane ze sposobem przeprowadzania eksperymentów na ludziach, a także dlatego, że nie wiemy i być może nigdy nie dowiemy się, jak zbudowany jest EEG, ponieważ stany psychiczne nie są zdefiniowane tylko oczekiwane skojarzenia wejścia-wyjścia. Co więcej, liczba różnych wejść i wyjść związanych z daną intencją jest praktycznie nieograniczona, ponieważ liczba różnych możliwych kontekstów jest nieograniczona, a słowo „kontekst” obejmuje nie tylko stan środowiska, ale także pojawienie się innych, obecnie obecne, stany psychiczne. Oczywiście taka strategia projektowania interfejsu mózg-komputer nie nadaje się do rejestrowania pojawiania się stanów intencjonalnych w głowach badanych, co oznacza, że główny cel wprowadzenia interfejsu mózg-komputer nigdy nie zostanie osiągnięty w ten sposób, czyli dlaczego konieczne są możliwe alternatywy . W historii psychologii koncepcja metamyślenia nie jest zbyt popularna, dlatego też Flavel wprowadził analogiczny termin „metapoznanie” w latach 70. kora przedczołowa. Procesy metamyślenia mają na celu utrzymanie pewnego rodzaju równowagi lub, jeszcze lepiej, spójności. Teoria kwantów, jako narzędzie o potężnych mechanizmach koherencji, prowadzi do superpozycji różnych rozkładów prawdopodobieństwa odpowiadających różnym stanom psychicznym . Oznacza to, że różne opisy tego samego systemu mentalnego mogą być nierównoważne, ponieważ dana psychika może przechodzić różne typy transformacji z danej fazy do innej, co oznacza, że teoria ta może jedynie opisywać pojawienie się metamyślenia. Logika kwantowa umysłu opisuje obliczenia kwantowe w łokciach, jednostkach będących superpozycją dwóch stanów kwantowych, umownie oznaczanych jako „0” i „1”. Każdy łokieć może być postrzegany jako niosący jakiś ukryty podwójny potencjał, co może prowadzić do efektu projekcji operatora, co prowadzi do załamania się stanu łokcia. Tak więc normalne funkcjonowanie ludzkiego umysłu w wielu przypadkach można postrzegać jako odpowiednik wygodnej manipulacji komputerem kwantowym, która prowadzi do załamania się stanu sześciennego. Tak więc normalne funkcjonowanie ludzkiego umysłu w wielu przypadkach można postrzegać jako odpowiednik wygodnej manipulacji komputerem kwantowym.

Uwaga

https://aie24.pl/

Co by było, gdyby docelowa RNN była warunkowana na wszystkich ukrytych wektorach ze źródłowej RNN, a nie tylko na ostatnim? Złagodziłoby to niedociągnięcia związane z sąsiednim odchyleniem kontekstu i ustalonymi limitami rozmiaru kontekstu, umożliwiając modelowi równie dobry dostęp do dowolnego poprzedniego słowa. Jednym ze sposobów uzyskania tego dostępu jest połączenie wszystkich ukrytych wektorów źródłowych RNN. Spowodowałoby to jednak ogromny wzrost liczby odważników, przy jednoczesnym wzroście czasu obliczeniowego, a także potencjalnie nadmierne dopasowanie. Zamiast tego możemy wykorzystać fakt, że gdy docelowy RNN generuje słowo docelowe jedno słowo na raz, jest prawdopodobne, że tylko niewielka część źródła jest rzeczywiście istotna dla każdego słowa docelowego. Co najważniejsze, docelowy RNN musi zwracać uwagę na różne części źródła dla każdego słowa. Załóżmy, że sieć jest przeszkolona do tłumaczenia angielskiego na hiszpański. Wyświetlane są słowa „Drzwi frontowe są czerwone”, po których następuje znacznik końca zdania, co oznacza, że nadszedł czas, aby rozpocząć pisanie hiszpańskich słów. Najlepiej więc najpierw zwrócić uwagę na „The” i wygenerować „La”, potem zwrócić uwagę na „drzwi” i wyjście „puerta” i tak dalej. Możemy sformalizować tę koncepcję za pomocą komponentu sieci neuronowej zwanego uwagą, który może być użyty do stworzenia „kontekstowego podsumowania” zdania źródłowego do reprezentacji o stałych wymiarach. Wektor kontekstowy ci zawiera najistotniejsze informacje do wygenerowania następnego słowa docelowego i będzie używany jako dodatkowe dane wejściowe do docelowego RNN. Model sekwencja-sekwencja, który wykorzystuje uwagę, nazywa się modelem uwagi sekwencja-sekwencja. Jeżeli standardowa docelowa RNN jest zapisana jako:

hi = RNN(h_i-1,xi) ;

docelową RNN dla modeli uwagi sekwencja-sekwencja można zapisać jako:

hi = RNN(h_i-1, [x_i, c_i])

gdzie [x_i, c_i] jest konkatenacją wektorów wejściowych i kontekstowych, ci, zdefiniowanych jako:

gdzie h_i_-1 jest docelowym wektorem RNN, który będzie używany do przewidywania słowa w kroku czasowym i, a s j jest wyjściem wektora źródłowego RNN dla słowa źródłowego (lub kroku czasowego) j. Zarówno h_i_-1, jak i s_j są wektorami d-wymiarowymi, gdzie d jest ukrytym rozmiarem. Wartość r_ij jest zatem surowym „wynikiem uwagi” między bieżącym stanem docelowym a słowem źródłowym j. Te wyniki są następnie normalizowane do prawdopodobieństwa a_ijprzy użyciu softmaxu dla wszystkich słów źródłowych. Wreszcie, prawdopodobieństwa te są wykorzystywane do generowania średniej ważonej źródłowych wektorów RNN, ci (inny wektor d-wymiarowy). Jest kilka ważnych szczegółów do zrozumienia. Po pierwsze, sam komponent uwagi nie ma wyuczonych wag i obsługuje sekwencje o zmiennej długości zarówno po stronie źródłowej, jak i docelowej. Po drugie, podobnie jak większość innych technik modelowania sieci neuronowych, o których się nauczyliśmy, uwaga jest całkowicie ukryta. Programista nie dyktuje, kiedy i jakie informacje zostaną użyte; model uczy się, czego używać. Uwaga ,można również połączyć z wielowarstwowymi sieciami RNN. W takim przypadku zazwyczaj zwraca się uwagę na każdą warstwę. Probabilistyczna formuła softmax dla uwagi służy trzem celom. Po pierwsze, umożliwia zróżnicowanie uwagi, co jest konieczne, aby można ją było wykorzystać z propagacją wsteczną. Mimo że sama uwaga nie ma wyuczonych wag, gradienty nadal płyną z powrotem przez uwagę do źródłowych i docelowych RNN. Po drugie, sformułowanie probabilistyczne umożliwia modelowi uchwycenie pewnych typów kontekstualizacji na duże odległości, które mogły nie zostać uchwycone przez źródłową RNN, ponieważ uwaga może rozważyć całą sekwencję źródłową na raz i nauczyć się zatrzymywać to, co jest ważne, i ignorować resztę . Po trzecie, uwaga probabilistyczna pozwala sieci reprezentować niepewność – jeśli sieć nie wie dokładnie, jakie słowo źródłowe ma przetłumaczyć w następnej kolejności, może rozłożyć prawdopodobieństwa uwagi na kilka opcji, a następnie faktycznie wybrać słowo, używając docelowego RNN. W przeciwieństwie do większości komponentów sieci neuronowych, prawdopodobieństwa uwagi są często interpretowane przez ludzi i intuicyjnie znaczące. Na przykład, w przypadku tłumaczenia maszynowego, prawdopodobieństwa uwagi często odpowiadają wyrównaniu między słowami, które wygenerowałby człowiek. Modele sekwencja-sekwencja są naturalne dla tłumaczenia maszynowego, ale prawie każde zadanie w języku naturalnym można zakodować jako problem sekwencja-sekwencja. Na przykład, system odpowiadania na pytania może być szkolony na danych wejściowych składających się z pytania, po którym następuje ogranicznik, po którym następuje odpowiedź.

AI : Technologie, Aplikacje i Wyzwania : Modułowość mózgu

https://aie24.pl/

Założenie modułowości, charakterystyczne dla komputerów, jeśli chodzi o mózg, jest nie do utrzymania, ponieważ obszary „pamięci” (takie jak hipokamp) są istotne nie tylko dla pamięci, ale także dla wyobraźni, nawigacji przestrzennej i innych różnych funkcji . W ten sposób szybkość przetwarzania informacji neuronowych podlega różnym ograniczeniom, takim jak czas potrzebny do przejścia sygnałów elektrochemicznych przez aksony i dendryty, mielinę aksonalną oraz czas propagacji neuroprzekaźników przez szczelinę synaptyczną. Ponadto zależy to od różnicy w wydajności synaptycznej, spójności bodźców nerwowych, bieżącej dostępności neuroprzekaźników i wcześniejszych zapisów stanu zapalnego neuronów. Chociaż istnieją szczególne różnice w „szybkości przetwarzania informacji”, należy przypomnieć, że jest to bardzo skomplikowane zagadnienie, ponieważ wszystkie sygnały są prawdopodobnie indeksowane jako heterogeniczne kombinacje wszystkich powyższych ograniczeń prędkości. Szczególnym pytaniem jest, czy zegar centralny jest obecny w mózgu, co do którego opinie są podzielone, ponieważ nie jest jasne, która część mózgu faktycznie przypomina zegar w swoim działaniu/funkcji. Chociaż często przyjmuje się, że móżdżek oblicza informacje, które obejmują dokładny czas, na przykład czas potrzebny na wykonanie niektórych subtelnych ruchów, niektóre aktualne obserwacje sugerują, że czas w mózgu bardziej przypomina fale stawowe niż zwykły zegar cyfrowy. Poza licznymi podobieństwami między pamięcią RAM a pamięcią krótkiego zasięgu lub „roboczą”, zdaniem wielu wcześniejszych psychologów poznawczych, ostatnie badania ujawniły zdumiewająco znaczące różnice. Chociaż zarówno pamięć RAM, jak i pamięć krótkiego zasięgu wymagają odpowiedniego zasilania, pamięć krótkiego zasięgu wydaje się zawierać tylko „drogowskazy” pamięci długotrwałej, podczas gdy pamięć RAM zawiera dane izomorficzne, podobne do danych przechowywanych na dysku twardym. W przeciwieństwie do pamięci RAM, limit pojemności pamięci krótkiego zasięgu nie jest stały. Różni się w zależności od „szybkości przetwarzania informacji”: doświadczenia i wiedzy. Chociaż przez lata mózg był postrzegany jako sprzęt, na którym działa „inteligentny program” lub „inteligentne oprogramowanie”, takie podejście całkowicie ignorowało zasadniczy fakt, że umysł wywodzi się bezpośrednio z mózgu i że z tego powodu zmiany w umyśle są zawsze wywołane zmianami w mózgu . Inna szkodliwa metafora jest związana z komputerowymi właściwościami mózgu. Sugeruje to, że mózg działa na zasadzie odbierania i transportu sygnałów elektrycznych, a dokładniej potencjałów czynnościowych, które przemieszczają się razem w poszczególnych obwodach logicznych. Niestety, jest to tylko częściowo poprawne, ponieważ sygnały, które są transportowane wzdłuż aksonów, są naturalnie elektrochemiczne, co oznacza, że przechodzą znacznie wolniej niż sygnały elektryczne w komputerze. Ponadto można je regulować na wiele sposobów. I podczas gdy komputery przetwarzają informacje przechowywane w pamięci przez odpowiednie procesory, a następnie zapisują uzyskane wyniki z powrotem do pamięci, neurony, oprócz przetwarzania informacji, są w stanie zmieniać te informacje na swojej drodze przez swoje synapsy, powodując, że wspomnienia nieco się zmieniają, stając się z czasem silniejsze ale także bardziej niedokładne [57–59]. Doświadczenie głęboko i natychmiastowo wpływa na istotę neuronowego przetwarzania informacji, w zupełnie inny sposób niż w konwencjonalnych mikroprocesorach, ponieważ mózg jest systemem skłonnym do samoregulacji, o czym świadczy często występująca po urazie „plastyczność wywołana traumą”, która indukuje wiele różnych ciekawych zmian. Wśród nich niektóre prowadzą do uwolnienia niewykorzystanych potencjałów mózgowych, określanych jako nabyty sawantyzm, ale także takie, które mogą prowadzić do głębokich dysfunkcji poznawczych, typowych dla urazowych uszkodzeń mózgu .

Mając to wszystko na uwadze, fakt, że dane to nie to samo, co ludzkie myśli i 1016 operacji na sekundę, nie oznacza, że komputer dotrze do ludzkiego mózgu, jeśli chodzi o jego bardziej subtelne funkcje, takie jak poznanie czy kreatywność. Pozostaje więc pytanie, czy będziemy w stanie wykorzystać tę moc obliczeniową do dokładnego modelowania systemu, który będzie w pełni naśladował mózg i stworzy sztuczną inteligencję w oparciu o ten model. Ray Kurzweil mówi, że na pewno tak się stanie, ale Myers twierdzi, że nie stanie się to w najbliższej przyszłości. Stanowisko Raya Kurzweila jest interesujące z punktu widzenia możliwości zbudowania struktury równoważnej umysłowi ludzkiemu, który działałby sprawnie w obu kierunkach, wiernie symulując lub kopiując techniki przetwarzania ludzkiego mózgu. Pamiętając, że podstawowe informacje związane z funkcjonowaniem ludzkiego mózgu zawarte są w genomie, przy czym genom ma całkowitą pojemność około 50 megabajtów pamięci, z czego 25 megabajtów jest zarezerwowanych dla funkcji mózgu. Dane opisujące całe nasze zachowanie obejmują około miliona linii kodu genetycznego, na podstawie których Kurzweil wnioskuje, że mózg, w całej swojej złożoności, można opisać za pomocą około miliona linii kodu. W przeciwieństwie do niego Myers uważa, że ten sposób myślenia jest zbyt uproszczony, wskazując na złożoność fałdowania białek, interakcji białko-białko i komórka-komórka oraz wszystkich innych systemów biologii molekularnej, które są prawdopodobnie niezbędne do rozwoju ludzkiego mózgu. Ponieważ naukowcy wciąż nie rozumieją zachowania wszystkich tych systemów, oczywiste jest, że modelowanie, które mogłoby symulować funkcjonowanie mózgu, wymaga znacznie większego wysiłku, aby opracować odpowiednie programy komputerowe, o wystarczających prędkościach przetwarzania informacji, a ponadto sposób, w jaki praca mózgu bezdyskusyjnie przypomina pracę komputera [65, 66]. W niedawnej przeszłości ten sposób myślenia o mózgu był przydatny, ponieważ mózg faktycznie przechowuje i przetwarza informacje podobnie jak komputer, dzięki czemu można narysować nawet zgrubne podobieństwa między częściami mózgu a komponentami komputera. Jednak w istotnym sensie mózg wydaje się funkcjonować zupełnie inaczej niż komputer, ponieważ moc obliczeniowa komputera jest wysoce scentralizowana w jednym lub co najwyżej dwóch procesorach, tak więc podczas gdy procesor robi wszystko, co jest związane z obliczeniami w postaci danych, przechowuje dysk twardy. Oznacza to, że dane są nieustannie przesyłane z dysku twardego do procesora (wykorzystując pamięć RAM jako pośrednika, aby uniknąć tego na dysku twardym, ponieważ taki transfer danych byłby zbyt wolny, nieefektywny i tworzyłby wąskie gardło, które ograniczałoby maksymalna prędkość, z jaką może pracować komputer) . Z drugiej strony mózg działa zupełnie inaczej. Ponieważ określone funkcje mózgu są umiejscowione w obszarach kory mózgowej, wydaje się, że każdy obszar ma własną zdolność do obliczania i przechowywania potrzebnych informacji, przynajmniej tymczasowo. Teoretycznie jest to znacznie wydajniejsze, ponieważ nie wymaga żadnego ruchu na danych. Jak mózg naprawdę to robi, jest oczywiście tajemnicą. Naukowcy opisują nowy typ elementu elektronicznego, który może naśladować podwójne funkcje neuronów mózgowych, wykorzystując „zmianę fazy” materiału, aby umożliwić procesorowi wykonywanie wszystkich czterech podstawowych operacji arytmetycznych (dodawanie, odejmowanie, dzielenie i mnożenie), a także przechowywać dane, które dokładnie określą stan krystalizacji materiału. To fenomenalny pomysł, choć poważny krok w kierunku systemu komputerowego podobnego do ludzkiego mózgu, dlatego naukowcy zamierzają wkrótce podłączyć około stu takich chipów i spróbować stworzyć sieci neuronowe do prostych zadań, takich jak rozpoznawanie obrazów. Wszystko to jasno pokazuje, że przyszłe komputery będą znacząco różnić się od obecnych [68]. Ponieważ ostatnie badania pokazują, że umysł ludzki nie jest klasycznym komputerem, coraz bardziej oczywiste staje się, że nie da się go w pełni zredukować do żadnego typu komputera, ze względu na niealgorytmiczny charakter procesów umysłowych, gdyż większością procesów umysłowych rządzi reguły fizyki kwantowej, obejmujące i kontrolujące procesy zaangażowane w większość operacji umysłowych, dlatego sam proces sterowania jest rodzajem metamyślenia, którego logika przypomina niektóre z kwantowych metajęzyków opisujących najwyższy poziom przetwarzania umysłowego, co obejmuje rozumowanie, podejmowanie decyzji, przypominanie itp. [69]. Jeśli przyjmiemy te ramy teoretyczne, wynika z tego, że jeśli mamy do dyspozycji nowy typ interfejsu mózg-komputer, który umożliwia komunikację między komputerem kwantowym a komputerem kwantowym, moglibyśmy wykorzystać ludzki umysł do kontrolowania go za pomocą metajęzyka kwantowego.

Cały system składający się z podmiotu ludzkiego i sztucznego komputera kwantowego, pod kontrolą metajęzyka kwantowego samego podmiotu, jest nowym typem hybrydy człowiek-komputer, która umożliwia lepszą integrację ludzkiego umysłu ze sztucznymi urządzeniami. Problemy koncepcyjne leżące u podstaw konstrukcji tłumacza języka poleceń wymagają rozwiązania szeregu poważnych problemów, takich jak znajomość podstawowych cech sygnałów mózgowych związanych z określonymi typami intencji lub stanów psychicznych, wybór najlepszych technik wykrywania w obecności szumu i różnych artefaktów oraz znalezienie najlepszego sposobu na wdrożenie online sekwencji wykrywania i wykonania działań

Modele sekwencja-sekwencja

https://aie24.pl/

Jednym z najczęściej badanych zadań w NLP jest tłumaczenie maszynowe (MT), którego celem jest przetłumaczenie zdania z języka źródłowego na język docelowy, na przykład z hiszpańskiego na angielski. Trenujemy model anMT z dużym korpusem par zdań źródło/cel. Celem jest dokładne przetłumaczenie nowych zdań, których nie ma w naszych danych treningowych. Czy możemy wykorzystać RNN do stworzenia systemu MT? Z pewnością możemy zakodować zdanie źródłowe za pomocą RNN. Gdyby istniała zależność jeden do jednego między słowami źródłowymi a słowami docelowymi, moglibyśmy potraktować MT jako proste zadanie tagowania – biorąc pod uwagę słowo źródłowe „perro” w języku hiszpańskim, oznaczamy je jako odpowiadające mu angielskie słowo „pies”. Ale w rzeczywistości słowa nie są jedno-pierwsze: w języku hiszpańskim trzy słowa „caballo de mar” odpowiadają pojedynczemu angielskiemu słowu „konik morski”, a dwa słowa „perro grande” tłumaczą się na „duży pies”, z odwróconą kolejnością słów. Zmiana kolejności słów może być jeszcze bardziej ekstremalna; w języku angielskim temat jest zwykle na początek zdania, ale w Fidżi temat jest zwykle na końcu. Jak więc wygenerować zdanie w języku docelowym? Wygląda na to, że powinniśmy generować jedno słowo na raz, ale śledź kontekst, abyśmy mogli zapamiętać części źródła, które nie zostały jeszcze przetłumaczone, i śledzić, co zostało przetłumaczone, abyśmy się nie powtarzali my sami. Wydaje się również, że w przypadku niektórych zdań musimy przetworzyć całe zdanie źródłowe przed rozpoczęciem generowania celu. Innymi słowy, wygenerowanie każdego słowa docelowego jest uzależnione od całego zdania źródłowego i wszystkich wcześniej wygenerowanych słów docelowych. Daje to generowanie tekstu dla MT ścisłe powiązanie ze standardowym modelem języka RNN, Z pewnością, gdybyśmy wytrenowali RNN na tekstach w języku angielskim, bardziej prawdopodobne byłoby wygenerowanie „dużego psa” niż „duży pies”. Nie chcemy jednak generować losowego zdania w języku docelowym; chcemy wygenerować zdanie w języku docelowym, które odpowiada zdaniu w języku źródłowym. Najprostszym sposobem na to jest użycie dwóch RNN, jednego dla źródła i jednego dla celu. Przeprowadzamy źródłowy RNN nad zdaniem źródłowym, a następnie używamy końcowego stanu ukrytego ze źródłowego RNN jako początkowego stanu ukrytego dla docelowego RNN. W ten sposób każde słowo docelowe jest niejawnie uwarunkowane zarówno całym zdaniem źródłowym, jak i poprzednimi słowami docelowymi. Ta architektura sieci neuronowej nazywana jest podstawowym modelem sekwencja-sekwencja. Najczęściej stosuje się modele sekwencja-do-sekwencji używany do tłumaczenia maszynowego, ale może być również używany do wielu innych zadań, takich jak automatyczne generowanie podpisu tekstowego z obrazu lub podsumowania: przepisywanie długiego tekstu na krótszy, który zachowuje to samo znaczenie. Podstawowe modele sekwencja-sekwencja były znaczącym przełomem w szczególności w NLP i MT. Według Wu podejście doprowadziło do zmniejszenia błędu o 60% w porównaniu z poprzednimi metodami MT. Ale te modele mają trzy główne wady:

* Błąd kontekstu w pobliżu: niezależnie od tego, co RNN chcą pamiętać o przeszłości, muszą dopasować się do swojego ukrytego stanu. Załóżmy na przykład, że RNN przetwarza słowo (lub krok czasowy) 57 w sekwencji 70 słów. Stan ukryty prawdopodobnie będzie zawierał więcej informacji o słowie w kroku czasowym 56 niż słowo w kroku czasowym 5, ponieważ za każdym razem, gdy wektor ukryty jest aktualizowany, musi zastąpić pewną ilość istniejących informacji nową informacją. To zachowanie jest częścią umyślnego projektu modelu i często ma sens w przypadku NLP, ponieważ pobliski kontekst jest zwykle ważniejszy. Jednak odległy kontekst może być również kluczowy i może się zgubić w modelu RNN; nawet LSTM mają trudności z tym zadaniem.

* Stały limit rozmiaru kontekstu: W modelu translacji RNN całe zdanie źródłowe jest skompresowane w pojedynczy, stały wymiarowy wektor stanu ukrytego. LSTM używany w najnowocześniejszym modelu NLP ma zwykle około 1024 wymiarów, a jeśli musimy przedstawić, powiedzmy, zdanie składające się z 64 słów w 1024 wymiarach, to daje nam to tylko 16 wymiarów na słowo – za mało dla złożone zdania. Zwiększenie rozmiaru wektora stanu ukrytego może prowadzić do powolnego trenowania i nadmiernego dopasowania.

* Wolniejsze przetwarzanie sekwencyjne: Jak omówiono już, sieci neuronowe osiągają znaczny wzrost wydajności poprzez przetwarzanie danych uczących w partiach, tak aby wykorzystać wydajną obsługę sprzętową dla arytmetyki macierzy. Z drugiej strony, RNN wydają się być ograniczone do operowania na danych uczących słowo po słowie.

AI : Technologie, Aplikacje i Wyzwania : Podstawowy mechanizm przekształcania myśli w działanie komputera lub robota

https://aie24.pl/

Po udoskonaleniu podstawowego mechanizmu przekształcania myśli w działanie komputera lub robota, potencjalne zastosowanie tej technologii będzie niemal nieograniczone. Zamiast ramienia robota użytkownicy niepełnosprawni będą mogli mieć przymocowane do kończyn roboty zrobotyzowane paski, które umożliwią pacjentom poruszanie nimi i bezpośrednią komunikację z otoczeniem, nawet bez zrobotyzowanej części urządzenia, jako sygnały z pasków zostaną przesłane bezpośrednio do odpowiednich punktów kontrolnych nerwów ruchowych w dłoniach, z pominięciem uszkodzonej części rdzenia kręgowego i umożliwią realne ruchy rąk. Wysyłanie stosunkowo prostych sygnałów z czujników jest wystarczająco trudne, a my wciąż jesteśmy daleko od momentu, w którym będziemy mogli wysyłać sygnały, które mogłyby zmusić kogoś do podjęcia niechętnego działania. Ludzki mózg składa się z około 100 miliardów neuronów i około 100 bilionów synaps, a każdy neuron zapala się około 100 razy na sekundę. Gdyby model mózgu przedstawić jako prostą sieć neuronową, byłby to odpowiednik maszyny wykonującej 10¹⁶ operacji na sekundę, co odpowiada możliwościom najlepszych współczesnych superkomputerów. Jednak wydajność jest znacznie ważniejsza niż szybkość, ponieważ każdy neuron ma złożoną strukturę, która jest połączona z setkami, a nawet tysiącami innych neuronów . Szczególnie trudne jest pokazanie sposobu działania układu nerwowego za pomocą symulacji komputerowych. U gadów część mózgu odpowiedzialna za nieświadome zachowania, takie jak oddychanie, bicie serca, nerki itp., jest opisana przez model Henry’ego Markhama, który symuluje superkomputer IBM. Zakładając, że każdy neuron ma swoją własną logikę, a co za tym idzie odpowiadającą jej matematykę, do tego typu symulacji potrzebny był procesor G5 1,5 GHz, podczas gdy według Markhama do zbudowania działającego modelu gadziego mózgu potrzeba około 10 000 takich procesorów, chociaż mózg gada nie był w stanie „myśleć” ani podążać za czymkolwiek innym niż stymulacja w celu zapalenia niektórych synaps . Z drugiej strony kora nowa, która jest odpowiedzialna za socjalizację, rodzicielstwo i rozumowanie, obejmuje ponad 100 bilionów neuronów i znacznie więcej synaps, w sumie około 10¹²procesorów 2 GHz najnowszej generacji, które byłyby niezbędne w modelach z który udaje, że symuluje zachowanie mózgu w wystarczająco przekonujący sposób. Obecnie istnieją realistyczne przypuszczenia, że dzięki osiągnięciom technologicznym możliwa jest znaczna poprawa wyników poznawczych ludzkiego mózgu, z punktu widzenia jego zdolności uczenia się i podejmowania decyzji, za pomocą superkomputerów. Ponieważ mamy wystarczająco dużo danych o tym, jak działa mózg, podejście komputerowe jest bardzo obiecujące, ze świadomością, że takim stwierdzeniem wkracza na niemal terytorium niemal magicznej złożoności, jakim jest ludzki mózg. I chociaż komputery już teraz okazują się lepsze od ludzkiego mózgu w obliczeniach lub podejmowaniu decyzji, mózg i komputer to dwie zupełnie różne architektury; funkcjonują doskonale, ale każdy w swojej dziedzinie, więc jakiekolwiek ich porównywanie jest bez sensu . Aby pewnego dnia w niedalekiej przyszłości komputery kwantowe mogły w pełni symulować pracę ludzkiego mózgu, trzeba go najpierw dobrze zrozumieć. Chociaż dzisiaj jeszcze daleko nam do tego celu, dlatego porównania ludzkiego mózgu do komputera nie są trafne, to jednak prowadzi nas to do kilku bardzo ciekawych przemyśleń związanych z pojemnością pamięciową mózgu, która jest bardzo różna (biorąc pod uwagę przeciętnego ludzkiego mózgu do przechowywania danych). Niektóre szacunki są bardzo niskie, rzędu 1 terabajta lub 1000 gigabajtów, podczas gdy inne mówią o wartości około 100 terabajtów. Według Foresta Wickmana, ponieważ ludzki mózg zawiera około 100 miliardów neuronów (a dokładniej około 86 miliardów), z których każdy może uczestniczyć w około 1000 potencjalnych synapsach, jeśli pomnożymy każdy z tych 100 miliardów neuronów przez około 1000 synaps, da to 100 miliardów, czyli około 100 terabajtów danych . Jeśli tak, to co sprawia, że ludzki mózg jest tak wyjątkowy? Nie należy zapominać, że samo oszacowanie 100 terabajtów ma swoje wady, ponieważ wynika z tego, że każda synapsa zapisuje tylko 1 bajt informacji. W rzeczywistości liczba ta jest prawdopodobnie większa, ponieważ synapsy mogą znajdować się w większej liczbie stanów pośrednich, a nie tylko w stanie włączonym lub wyłączonym. Chip komputerowy imitujący ludzki mózg może w przyszłości zastąpić nasz mózg, mimo że składa się z ogromnej sieci około 100 miliardów neuronów, które są nieustannie edytowane, podczas gdy nasze synapsy tworzą mosty, łącząc dwa neurony, jeden presynaptyczny i drugi postsynaptyczny, w którym neurony presynaptyczne uwalniają neuroprzekaźniki, które aktywują receptory neuronów postsynaptycznych i kanały jonowe błony komórkowej postsynaptycznej, podczas gdy kanały jonowe umożliwiają naładowanym atomom sodu, potasu i wapnia przemieszczanie się do i z komórki, odgrywając ważną rolę w regulowanie plastyczności synaptycznej lub wzmacnianie lub osłabianie komunikacji neuronowej w czasie, przy założeniu, że gdy neurony komunikują się ze sobą, ich komunikacja nie ogranicza się do prostego włączania i wyłączania sygnału. Większość chipów komputerowych używanych do modelowania aktywności mózgu wykonuje następujący kod binarny, podczas gdy mózg być może nie podąża w tym kierunku, ponieważ synapsy są na ogół współzależne i polegają na sobie nawzajem w przekazywaniu pewnych informacji. Kilka lat temu badacze pisali, że ludzki mózg wytwarza około 6,4 × 10¹⁸ impulsów na sekundę, co odpowiada takiej samej liczbie przesyłanych instrukcji w tym samym czasie, z czego jednoznacznie wynika, że ludzki mózg ma niezwykle dużą pojemność pamięciową . I chociaż porównanie między komputerem a ludzkim mózgiem jest trochę nie na miejscu, to prawdą jest, że neurony łączą się w taki sposób, że każdy z nich wzbogaca wiele wspomnień, tak że pojemność pamięci mózgu jest bliska 2,5 petabajta (1 petabajt ≈ 1000 terabajtów), co oznacza to, że moglibyśmy zmieścić wszystkie obrazy, które wytworzyłby telewizor, pracujący nieprzerwanie przez ponad 300 lat, aby w pełni wypełnić pojemność pamięci ludzkiego mózgu. W tej grze cudownych liczb, gdzie jest prawdziwa prawda? Czy to w kolejności: 1 terabajt, 100 terabajtów czy 2,5 tysiąca terabajtów? Czy zapomniane wspomnienia są wymazywane, czy może jakieś zapomniane części pamięci wciąż są obecne w utraconych częściach naszej świadomości? Czy głęboko zakorzeniona podświadomość zajmuje więcej miejsca niż przemijająca iluzja? Czy w ogóle można zmierzyć pojemność pamięciową ludzkiego mózgu? [50–52] Chociaż związek między mózgiem a komputerem jest dla psychologii poznawczej metaforą, wciąż istnieje między nimi wiele istotnych różnic, które są kluczowe dla zrozumienia mechanizmów neuronowego przetwarzania informacji i tworzenia sztucznej inteligencji. Mózg działa za pomocą kodu analogowego, w przeciwieństwie do komputerów, które używają kodu cyfrowego . Zasadniczo łatwo sobie wyobrazić, że neurony są binarne, ponieważ „rozpalają” potencjał czynnościowy, jeśli osiągną określoną lukę, lub nie zapalają go w inny sposób. To pozorne podobieństwo do kodu cyfrowego „0 i 1” nie zakłóca szerokiego zakresu procesów ciągłych i nieliniowych, które bezpośrednio wpływają na przetwarzanie sygnałów neuronowych. Mianowicie, jednym z podstawowych procesów przekazywania informacji jest szybkość zapalania się neuronów, która zasadniczo jest zmienna w sposób ciągły. Podobnie sieci neuronów mogą zapalać się względnie zsynchronizowane lub nieuporządkowane, a ich spójność wpływa na siłę sygnałów odbieranych przez neurony. Ponadto dostęp do informacji w komputerze odbywa się poprzez ściśle określony adres pamięci, podczas gdy mózg wykorzystuje pamięć adresowaną dla danej treści, aby można było uzyskać dostęp do informacji poprzez „bodziec analogowy”, bo wystarczy pomyśleć o lisie, aby automatycznie aktywować wspomnienia związane do innych obrazów, idei i doświadczeń z nim związanych, takich jak myśliwi polujący na niego lub atrakcyjni przedstawiciele płci przeciwnej, których przebiegłość i inteligencja przykuwają naszą uwagę. Zasadniczo przypomina nam, że nasz mózg ma coś w rodzaju „wbudowanego internetu”, więc wystarczy kilka słów kluczowych, aby wywołać wiele wspomnień . Oczywiście komputery działają w podobny sposób, przeszukując ogromne pliki przechowywanych danych i choć ta różnica między mózgiem a komputerami jest pozornie nieistotna, ma ogromny wpływ na obliczenia neuronowe. Dlatego w psychologii poznawczej toczy się aktualna debata na temat tego, czy informacje są tracone z pamięci, ponieważ same znikają, czy też dzieje się to w wyniku ingerencji innych informacji, chociaż, szczerze mówiąc, taka debata jest częściowo oparta na błędnym założeniu, że te dwa rodzaje możliwości wykluczają się wzajemnie (zgodnie z myśleniem typowym dla komputerów), w wyniku czego sama ta debata stanowi fałszywą dychotomię