Najnowocześniejszy

https://aie24.pl/

Głębokie uczenie się i uczenie transferowe znacznie przyspieszyło stan wiedzy w zakresie NLP – tak bardzo, że jeden z komentatorów w 2018 r. zadeklarował, że „nadszedł moment ImageNet NLP”. Wynika z tego, że tak jak punkt zwrotny nastąpił w 2012 roku dla wizji komputerowej, kiedy systemy głębokiego uczenia przyniosły zaskakująco dobre wyniki w konkursie ImageNet, tak punkt zwrotny nastąpił w 2018 roku dla NLP. Głównym impulsem do osiągnięcia tego punktu zwrotnego było odkrycie, że uczenie transferowe sprawdza się dobrze w przypadku problemów związanych z językiem naturalnym: ogólny model języka można pobrać i dostosować do konkretnego zadania. Zaczęło się od prostych osadzania słów z systemów takich jak WORD2VEC w 2013 roku i GloVe w 2014 roku. Naukowcy mogą pobrać taki model lub stosunkowo szybko wyszkolić własne bez dostępu do superkomputerów. Z drugiej strony, wytrenowane reprezentacje kontekstowe są o rząd wielkości droższe do nauczenia. Modele te stały się możliwe do zrealizowania dopiero po upowszechnieniu się postępów sprzętowych (GPU i TPU) i w tym przypadku badacze byli wdzięczni, że mogą pobierać modele zamiast wydawać zasoby na szkolenie własnych. Model transformatora pozwolił na efektywne trenowanie znacznie większych i głębszych sieci neuronowych niż było to możliwe wcześniej (tym razem ze względu na postęp oprogramowania, a nie sprzętu). Od 2018 r. nowe projekty NLP zwykle rozpoczynają się od wstępnie przeszkolonego modelu transformatora. Chociaż te modele transformatorów zostały wytrenowane do przewidywania następnego słowa w tekście, wykonują zaskakująco dobrą robotę w innych zadaniach językowych. Model ROBERTA z pewnym dopracowaniem osiąga najnowocześniejsze wyniki w testach odpowiedzi na pytania i czytania ze zrozumieniem . GPT-2, transformatorowy model językowy z 1,5 miliarda parametrów wytrenowanych na 40 GB tekstu internetowego, osiąga dobre wyniki w tak różnorodnych zadaniach, jak tłumaczenie między francuskim i angielskim, znajdowanie referentów w zależnościach na duże odległości i odpowiadanie na pytania z zakresu wiedzy ogólnej, wszystko bez dostrajania do konkretnego zadania.  GPT-2 może generować dość przekonujący tekst, podając tylko kilka słów jako podpowiedź. Jako przykład najnowocześniejszego systemu NLP, ARISTO uzyskał wynik 91,6% na egzaminie wielokrotnego wyboru w 8. klasie. ARISTO składa się z zespołu solwerów: niektóre wykorzystują wyszukiwanie informacji (podobnie jak wyszukiwarka internetowa), niektóre pociągają za sobą tekst i wnioskowanie jakościowe, a niektóre używają modeli języka dużych transformatorów. Okazuje się, że sama ROBERTA osiąga w teście 88,2%. ARISTO uzyskuje również wynik 83% z bardziej zaawansowanego egzaminu 12-klasisty. (Wynik 65% to „spełnienie standardów”, a 85% to „spełnienie standardów z wyróżnieniem”.) Istnieją ograniczenia firmy ARISTO. Zajmuje się tylko pytaniami wielokrotnego wyboru, a nie pytaniami opisowymi, i nie może ani czytać, ani generować diagramów.1 T5 (Transformator transferu tekstu na tekst) jest przeznaczony do generowania odpowiedzi tekstowych na różne rodzaje danych wejściowych. Zawiera standardowy model transformatora koder-dekoder, wstępnie wytrenowany na 35 miliardach słów z 750 GB Colossal Clean Crawled Corpus (C4). To nieoznaczone szkolenie ma na celu przekazanie uogólnionej wiedzy językowej modelu, która będzie przydatna do wielu określonych zadań. T5 jest następnie szkolony dla każdego zadania z danymi wejściowymi składającymi się z nazwy zadania, po której następuje dwukropek i treść. Na przykład, gdy zostanie podane „przetłumacz z angielskiego na niemiecki: To jest dobre”, w wyniku pojawi się „Das ist gut”. W przypadku niektórych zadań dane wejściowe są oznaczone; na przykład w Winograd Schema Challenge dane wejściowe podkreślają zaimek z niejednoznacznym desygnatem. Biorąc pod uwagę informację „odnośnik: radni miejscy odmówili demonstrantom zezwolenia, ponieważ obawiali się przemocy”, poprawną odpowiedzią jest „radni miejscy” (nie „demonstranci”). Wiele pozostaje do zrobienia, aby ulepszyć systemy NLP. Jednym z problemów jest ten transformator modelue opierają się tylko na wąskim kontekście, ograniczonym do kilkuset słów. Niektóre podejścia eksperymentalne próbują rozszerzyć ten kontekst; system Reformer  może obsłużyć kontekst do miliona słów. Ostatnie wyniki pokazały, że użycie większej ilości danych uczących skutkuje lepszymi modelami – na przykład ROBERTA osiągnęła najnowocześniejsze wyniki po uczeniu 2,2 biliona słów. Jeśli użycie większej ilości danych tekstowych jest lepsze, co by się stało, gdybyśmy uwzględnili inne rodzaje danych: ustrukturyzowane bazy danych, dane liczbowe, obrazy i wideo? Potrzebowalibyśmy przełomu w szybkości przetwarzania sprzętowego, aby trenować na dużym korpusie wideo, a także możemy potrzebować kilku przełomów w sztucznej inteligencji. Ciekawy czytelnik może się zastanawiać, dlaczego w poprzednim rozdziale dowiedzieliśmy się o gramatykach, analizowaniu składniowym i interpretacji semantycznej tylko po to, by w tym rozdziale odrzucić te pojęcia na rzecz modeli opartych wyłącznie na danych? Obecnie odpowiedzią jest po prostu, że modele oparte na danych są łatwiejsze do opracowania i utrzymania oraz uzyskują lepsze wyniki w standardowych testach porównawczych w porównaniu z ręcznie budowanymi systemami, które można zbudować przy rozsądnym nakładzie ludzkiego wysiłku. Może być tak, że modele transformatorów i ich krewni uczą się ukrytych reprezentacji, które przechwytują te same podstawowe idee, co gramatyki i informacje semantyczne, albo może być tak, że w tych ogromnych modelach dzieje się coś zupełnie innego; po prostu nie wiemy. Wiemy, że system, który jest wytrenowany za pomocą danych tekstowych, jest łatwiejszy w utrzymaniu i przystosowaniu do nowych domen i nowych języków naturalnych niż system, który opiera się na ręcznie stworzonych funkcjach. Może się również zdarzyć, że przyszłe przełomy w jawnym modelowaniu gramatycznym i semantycznym spowodują cofnięcie się wahadła. Być może bardziej prawdopodobne jest pojawienie się podejść hybrydowych. Na przykład Kitaev i Klein (2018) wykorzystali mechanizm uwagi do ulepszenia tradycyjnego parsera okręgów wyborczych, osiągając najlepszy wynik, jaki kiedykolwiek zarejestrowano w zestawie testowym Penn Treebank. Podobnie Ringgaard i inni pokazują, w jaki sposób można ulepszyć parser zależności za pomocą osadzania słów i rekurencyjnej sieci neuronowej. Ich system, SLING, analizuje bezpośrednio reprezentację ramki semantycznej, łagodząc problem błędów narastających w tradycyjnym systemie potokowym. Z pewnością jest miejsce na ulepszenia: nie tylko systemy NLP wciąż opóźniają ludzką wydajność w wielu zadaniach, ale robią to po przetworzeniu tysięcy razy większej ilości tekstu, niż jakikolwiek człowiek mógłby przeczytać w ciągu życia. Sugeruje to, że istnieje wiele możliwości dla nowych spostrzeżeń ze strony lingwistów, psychologów i badaczy NLP.

AI : Technologie, Aplikacje i Wyzwania : Robot kwantowy

https://aie24.pl

Koncepcja robota kwantowego, po raz pierwszy zaproponowana przez Paula Benioffa, rozumiana w postaci systemu mobilnego zawierającego komputer kwantowy i wszystkie niezbędne układy pomocnicze, za pomocą których robot kwantowy oddziałuje z otoczeniem układu kwantowego. Chociaż oryginalny robot kwantowy nie jest świadomy swojego otoczenia i nie jest w stanie podejmować decyzji, niezwykle intrygującym pytaniem jest, czy w najbliższej przyszłości roboty kwantowe będą kiedykolwiek świadome swojego otoczenia, aby mogły samodzielnie przeprowadzać eksperymenty bez udziału człowieka. Gdyby tak się stało, oznaczałoby to, że roboty mogłyby nawet stać się świadome i mieć „wolną wolę”. Taki kwantowy robot oczywiście powinien być wyposażony w swego rodzaju „wewnętrznego obserwatora”, który jest w stanie kontrolować się za pomocą wewnętrznych, kwantowych obliczeń. Taki obserwator operowałby metajęzykiem kwantowym przystosowanym do sterowania językiem kwantowym, wyrażonym w postaci manipulacji łokciem. Naturalne jest założenie, że rdzeń metajęzyka kwantowego stanowią wewnętrzne pomiary operatorów, takie jak te stosowane w mechanice kwantowej. Niestety taki język nie nadaje się do sterowania robotem kwantowym, co oznacza, że ​​tradycyjna „logika kwantowa” nie opisałaby poprawnie wewnętrznych pomiarów niezbędnych dla robota kwantowego [97]. Jako możliwe wyjście z tego problemu Aharonov wprowadził termin tzw. „słabych pomiarów”, które opierają się na pomiarze różnych wielkości fizycznych opisujących układ kwantowy w interakcji z dyssypatywnym środowiskiem. W związku z tym procesy fizyczne zachodzące w mózgu, przynajmniej pod względem aspektów kwantowych wyrażonych przez rozpraszającą kwantową teorię pola, przy braku dynamiki mózgu charakteryzowałyby się nie tylko sześcioma unikalnymi stanami podstawowymi, ale także wieloma różnymi stanami podstawowymi dostosowanymi do wielu różne stany pamięci, które nieuchronnie zachodzą w mózgu, co rozwiązuje problem dekoherencji w robotach kwantowych [105–108]. Otworzyłoby to drogę do wdrożenia komputera kwantowego, w którym podmiot ludzki, poprzez metajęzyk kwantowy, steruje komputerem kwantowym za pomocą interfejsu mózg-komputer, o wiele potężniejszego niż wcześniej, przekształcając w ten sposób ludzkie intencje w działania w sposób skuteczniejszy sposób. Ten typ komputera kwantowego toruje drogę do głębszego połączenia między ludźmi a komputerami, pokazując, że podejście kwantowe pozwala umysłowi oddziaływać bezpośrednio na materię, co otwiera możliwość projektowania nowego typu interfejsu mózg-komputer, powodując rewolucyjną zmianę w naszym prawdziwym sposobie myślenia, na podstawie milczących założeń, że nasze myśli mają bezpośredni wpływ na otaczający nas świat

Maskowane modele językowe

https://aie24.pl

Słabością standardowych modeli językowych, takich jak modele n-gramowe, jest to, że kontekstualizacja każdego słowa opiera się tylko na poprzednich słowach zdania. Prognozy są tworzone od lewej do prawej. Czasami jednak kontekst z późniejszego zdania — na przykład stopy w zdaniu uniósł się o pięć stóp — pomaga wyjaśnić wcześniejsze słowa. Jednym z prostych obejść jest wytrenowanie oddzielnego modelu języka pisanego od prawej do lewej, który kontekstualizuje każde słowo na podstawie kolejnych słów w zdaniu, a następnie łączy reprezentacje od lewej do prawej i od prawej do lewej. Jednak taki model nie łączy dowodów z obu kierunków. Zamiast tego możemy użyć modelu języka maskowanego (MLM). MLM są szkolone przez maskowanie (ukrywanie) poszczególnych słów w danych wejściowych i prosząc model o przewidzenie zamaskowanych słów. Do tego zadania można użyć głębokiego dwukierunkowego RNN lub transformatora na górze zdania maskowanego. Na przykład, mając zdanie wejściowe „Rzeka wzrosła o pięć stóp”, możemy zamaskować środkowe słowo, aby uzyskać „Rzeka pięć stóp” i poprosić modelkę o wypełnienie pustego miejsca. Ostateczne ukryte wektory odpowiadające zamaskowanym tokenom są następnie używane do przewidywania zamaskowanych słów — w tym przykładzie róża. Podczas treningu jedno zdanie może być użyte wiele razy z zamaskowanymi różnymi słowami. Piękno tego podejścia polega na tym, że nie wymaga ono oznakowanych danych; zdanie stanowi własną etykietę dla słowa maskowanego. Jeśli ten model jest wytrenowany na dużym korpusie tekstu, generuje wytrenowane reprezentacje, które dobrze sprawdzają się w wielu różnych zadaniach NLP (tłumaczenie maszynowe, odpowiadanie na pytania, podsumowania, oceny gramatyczne i inne).

AI : Technologie, Aplikacje i Wyzwania : Interfejsy neuroelektroniczne

https://aie24.pl/

Konstruowanie interfejsów neuroelektronicznych to fantastyczna intencja w projektowaniu nanomaszyn, które pozwolą komputerom łączyć się i łączyć z układem nerwowym człowieka. Taka konstrukcja wymaga budowy elementów molekularnych umożliwiających kontrolę i rejestrację impulsu nerwowego przez zewnętrzny komputer. W związku z tym komputery będą w stanie rejestrować adnotacje i odpowiadać na sygnały ciała, powstające w odpowiedzi na dane doznanie. Prawdziwe konstrukcje tego typu struktur miałyby ogromne znaczenie, ponieważ mogłyby rozwiązać wiele ciężkich chorób neurosomatycznych, które skutkują całkowitym załamaniem układu nerwowego (ALS i stwardnienie rozsiane). Również w ten sposób można by naprawić liczne urazy, w których uszkodzony został układ nerwowy, co skutkuje jego dysfunkcją i porażeniem kończyn dolnych [99, 100]. zostać pokonanym. Istnieją dwie strategie podejścia do takich problemów, pod symbolicznymi nazwami: strategia „tankowania” i strategia „tankowania”. W strategii „tankowania” energia w systemie jest stale lub okresowo uzupełniana z zewnętrznego źródła dźwięku, chemicznego, magnetycznego lub elektrycznego. W strategii „rozładowania” cała moc z systemu jest pobierana z wewnętrznego magazynu energii, aż cała energia zostanie wyczerpana. Jedynym ograniczeniem tej innowacji jest fakt, że w procesie przesyłania informacji z komputera do układu nerwowego pacjenta całkiem możliwe są zakłócenia elektryczne, pola elektryczne wywołane impulsami elektromagnetycznymi-EPM oraz rozproszone pola elektryczne z innych otaczających urządzeń elektrycznych/ źródła. Ponadto problemy z izolacją są bardzo poważne, aby uniknąć prądów upływowych i zapewnić wysoką przewodność elektryczną impulsów elektrycznych w mediach „in vivo”, co prowadzi do wyraźnego ryzyka nagłej utraty mocy impulsu i pęknięć. Wreszcie, potrzebne byłyby grubsze przewody, aby przewodzić znaczny poziom mocy bez przegrzania [101]. Obecny stan techniki jest wciąż niewystarczająco rozwinięty, aby zapewnić takie struktury transmisji sygnału. Ponadto niezwykle trudne jest siatkowanie takich struktur i precyzyjne umiejscowienie ich w układzie nerwowym pacjenta, tak aby monitor komputera był w stanie zarejestrować i odpowiedzieć na sygnał nerwowy pacjenta. Wreszcie, dodatkowym wymaganiem jest to, aby struktury interfejsu były w harmonii z układem odpornościowym osoby, aby mogły pozostać w ciele pacjenta wystarczająco długo bez odrzucenia. Ponadto takie struktury muszą być bardzo czułe na zmiany natężenia i kierunku prądów jonowych emitowanych przez układ nerwowy pacjenta. Z powyższego wynika, że ​​chociaż potencjał tych struktur jest niewiarygodny, nie można jeszcze z daleka przewidzieć, kiedy takie konstrukcje zostaną faktycznie technicznie i zrealizowane.

Wstępnie wytrenowane reprezentacje kontekstowe

https://aie24.pl/

Osadzanie słów jest lepszą reprezentacją niż atomowe tokeny słów, ale istnieje ważny problem ze słowami polisemicznymi. Na przykład słowo róża może odnosić się do kwiatu lub czasu przeszłego wzrostu. Spodziewamy się zatem, że znajdziemy co najmniej dwa całkowicie odrębne skupiska kontekstów słów dla róży: jeden podobny do nazw kwiatów, takich jak dalia, i jeden podobny do wzrostu. Żaden pojedynczy wektor osadzania nie może uchwycić obu tych elementów jednocześnie. Róża jest wyraźnym przykładem słowa o (co najmniej) dwóch różnych znaczeniach, ale inne słowa mają subtelne odcienie znaczenia, które zależą od kontekstu, takie jak słowo potrzeba, aby zobaczyć ten film, a ludzie potrzebują tlenu, aby przetrwać. Niektóre zwroty idiomatyczne, takie jak rozbić bank, są lepiej analizowane jako całość niż jako słowa składowe. Dlatego zamiast po prostu uczyć się tabeli ze słowami do osadzania, chcemy wytrenować model, aby generował kontekstowe reprezentacje każdego słowa w zdaniu. Reprezentacja kontekstowa odwzorowuje zarówno słowo, jak i otaczający kontekst słów na wektor osadzania słowa. Innymi słowy, jeśli nakarmimy ten model słowem róża i kontekstem, w którym ogrodnik zasadził krzak róży, powinno to spowodować osadzenie kontekstowe, które jest podobne (ale niekoniecznie identyczne) do reprezentacji, jaką otrzymujemy w kontekście, w którym róża kapuściana miała niezwykły zapach i bardzo różny od przedstawienia róży w kontekście rzeki wznosi się na pięć stóp. Zakładamy, że zbudowaliśmy już kolekcję niekontekstowych osadzeń słów. Podajemy jedno słowo na raz i prosimy model, aby przewidział następne słowo. Na przykład na rysunku w punkcie, w którym dotarliśmy do słowa „samochód”, węzeł RNN w tym kroku czasu otrzyma dwa dane wejściowe: niekontekstowe osadzenie słowa „samochód” oraz kontekst, który koduje informacje z poprzedniego słowa „Czerwony”. Węzeł RNN wygeneruje następnie kontekstową reprezentację dla „samochodu”. Sieć jako całość następnie wyprowadza predykcję dla następnego słowa „jest”. Następnie aktualizujemy wagi sieci, aby zminimalizować błąd między przewidywaniem a rzeczywistym następnym słowem.

AI : Technologie, Aplikacje i Wyzwania : Maszyny do naprawy komórek

https://aie24.pl/

Zadaniem lekarzy nanomedycyny jest takie stosowanie leków i nanochirurgii, aby tkanki „zachęcały” je do samorekonstrukcji. Dzięki maszynom molekularnym takie rekonstrukcje byłyby udane. Rekonstrukcje komórkowe będą oparte na pewnych już sprawdzonych zasadach, które są w pełni sprawdzone w systemach żywych. Wstęp do komórek jest już teraz możliwy, ponieważ cytolodzy mogą dziś wstrzykiwać igły do ​​komórek, nie niszcząc ich. Stąd pierwszym zadaniem maszyn molekularnych byłoby wejście do komórki. Opierając się na znanych już faktach z zakresu biochemii i mikrobiologii, związanych z problematyką oddziaływań biochemicznych w komórkach, należy oczekiwać, że takie układy molekularne-maszyny molekularne będą w stanie rozpoznawać się dotykiem, stwarzając warunki do prawidłowego diagnoza i plan „myśli” budujący uszkodzone sekwencje każdej cząsteczki, mógłby całkowicie złożyć uszkodzone cząsteczki. W końcu same komórki mogłyby replikować taki układ molekularny, dzięki czemu możliwe jest reprodukcyjne samoorganizowanie dowolnego układu, który w ten sposób oddziałuje z komórką. Kierując się podstawowymi prawami natury, związanymi z naprawą komórek na poziomie molekularnym, wkrótce zostaną zaprojektowane urządzenia w nanoskali, które będą mogły poruszać się w głąb komórki, wykrywać niedoskonałości wewnątrz zdrowych komórek i modyfikować ich strukturę w pożądany sposób [96]. ]. Potencjał skonstruowanych w ten sposób maszyn do naprawy komórek będzie oczywiście imponujący. W porównaniu z wymiarami wirusa lub bakterii ich ściśle upakowane części sprawiają, że są bardzo wyrafinowane. W pierwszej generacji takie maszyny będą wysoce spersonalizowane. Kiedy otwierają i zamykają błonę komórkową, przechodzą przez tkanki i przenikają do komórek i wirusów, nanomaszyny będą w stanie naprawić niektóre osobiste defekty molekularne, takie jak upośledzenie DNA lub brak enzymu. Po tym pierwszym kroku w rozwoju takich maszyn, zaawansowane maszyny komórkowe zostaną zaprogramowane tak, aby posiadały, oprócz wszystkich licznych możliwości już opisanych, potencjał znacznej poprawy ludzkiego układu autoimmunologicznego. Uruchomienie tak skomplikowanych maszyn będzie wymagało uprzedniego opracowania bardzo wydajnych nanokomputerów, których funkcją będzie badanie i rejestracja miejsca uszkodzenia, dostęp do niego i odbudowywanie w regularny sposób uszkodzonej struktury molekularnej, a tym samym przejście ich ze stanu chorobowego do stan zdrowia. Po naprawie poszczególnych komórek, we wzajemnej komunikacji i podziale pracy, przejdą do naprawy organów, organ po organie, przywracając całe ciało. Komórki zranione do poziomu całkowitej bezczynności zostaną stworzone z dostępnych im składników odżywczych (np. ze skrobi). Dlatego rozwój takich zaawansowanych nanomaszyn do naprawy komórek będzie mógł uwolnić medycynę od wspomagania samonaprawy, która jest immanentna procesowi samoleczenia organizmu.

Wstępnie wytrenowane osadzanie słów

https://aie24.pl/

Pokrótce wprowadziliśmy osadzanie słów. Zobaczyliśmy, że podobne słowa, takie jak banan i jabłko, kończą się podobnymi wektorami i widzieliśmy, że możemy rozwiązać problemy z analogią za pomocą odejmowania wektorów. Oznacza to, że osadzenia słów są przechwytywane istotne informacje o słowach. W tej sekcji zagłębimy się w szczegóły tworzenia osadzonych słów przy użyciu całkowicie nienadzorowanego procesu na dużym korpusie tekstu. Jest to w przeciwieństwie do osadzeń, które zostały zbudowane podczas procesu nadzorowanej części znakowania mowy, a tym samym wymagały tagów POS, które pochodzą z drogich adnotacji ręcznych. Skoncentrujemy się na jednym konkretnym modelu osadzania słów, modelu GloVe (Global Vectors). Model rozpoczyna się od zebrania liczby, ile razy każde słowo pojawia się w oknie innego słowa, podobnie jak w modelu pomijania gramów. Najpierw wybierz rozmiar okna (może 5 słów) i niech Xij będzie liczbą współwystępowania słów i oraz j w oknie, a Xi niech będzie liczbą współwystępowania słowa i z dowolnym innym słowem. Niech Pij=Xi /Xi będzie prawdopodobieństwem pojawienia się słowa j w kontekście słowa i. Tak jak poprzednio, niech Ei będzie słowem osadzającym dla słowa i. Częścią intuicji modelu GloVe jest to, że związek między dwoma słowami można najlepiej uchwycić, porównując je z innymi słowami. Rozważ słowa lód i para. Rozważmy teraz stosunek ich prawdopodobieństw współwystępowania z innym słowem w, czyli:

Pw,lód / Pw,para

Gdy w jest słowem stałym, stosunek będzie wysoki (co oznacza, że ​​ciało stałe stosuje się bardziej do lodu), a gdy w jest słowem gaz, będzie niski (co oznacza, że ​​gaz stosuje się bardziej do pary). A kiedy w jest słowem bez treści, takim jak słowo, takim jak woda, które jest równie istotne dla obu, lub równie nieistotnym słowem, jak moda, stosunek będzie bliski 1. Model GloVe zaczyna się od tej intuicji i przechodzi przez pewne rozumowanie matematyczne , które przekształca stosunki prawdopodobieństw na różnice wektorowe i iloczyny skalarne, ostatecznie osiągając ograniczenie

Ei ∙ E’k= log(Pij) :

Innymi słowy, iloczyn skalarny dwóch wektorów słownych jest równy logarytmicznemu prawdopodobieństwu ich współwystępowania. Ma to intuicyjny sens: dwa prawie ortogonalne wektory mają iloczyn skalarny bliski 0, a dwa prawie identyczne znormalizowane wektory mają iloczyn skalarny bliski 1. Istnieje techniczna komplikacja polegająca na tym, że model GloVe tworzy dwa wektory osadzające dla każdego słowa , Ei i E’i ; obliczenie tych dwóch, a następnie dodanie ich razem na końcu pomaga w ograniczeniu nadmiernego dopasowania. Trenowanie modelu takiego jak GloVe jest zazwyczaj znacznie tańsze niż trenowanie standardowej sieci neuronowej: nowy model można wytrenować z miliardów słów tekstu w ciągu kilku godzin przy użyciu standardowego procesora komputera stacjonarnego. Możliwe jest nauczenie osadzania słów w określonej domenie i odzyskanie wiedzy w tej domenie. Na przykład Tshitoyan i inni wykorzystali 3,3 miliona abstraktów naukowych na temat materiałoznawstwa, aby wyszkolić model osadzania słów. Odkryli, że tak jak widzieliśmy, że ogólny model osadzania słów może odpowiedzieć „Ateny są dla Grecji jak Oslo dla czego?” z „Norwegią”, ich model materiałoznawstwa może odpowiedzieć: „NiFe jest tak ferromagnetyczny jak IrMn do czego?” z „antyferromagnetykiem”. Ich model nie opiera się wyłącznie na współwystępowaniu słów; wydaje się, że przechwytuje bardziej złożoną wiedzę naukową. Na pytanie, jakie związki chemiczne można sklasyfikować jako „termoelektryczny” lub „izolator topologiczny”, ich model jest w stanie poprawnie odpowiedzieć. Na przykład, CsAgGa2Se4 nigdy nie pojawia się w pobliżu „termoelektryka” w korpusie, ale pojawia się w pobliżu „chalkogenu”, „przerwy wzbronionej” i „optoelektryka”, które są wskazówkami umożliwiającymi sklasyfikowanie go jako podobnego do „termoelektryka”. Co więcej, po przeszkoleniu tylko ze streszczeń do 2008 r. i poproszeniu o wybranie związków, które są „termoelektryczne”, ale jeszcze nie pojawiły się w streszczeniu, trzy z pięciu najlepszych modeli modelu zostały odkryte jako termoelektryczne w artykułach opublikowanych między 2009 a 2019 r.

AI : Technologie, Aplikacje i Wyzwania : Nanoroboty

https://aie24.pl/

Oczekuje się, że wprowadzenie nanorobotów do medycyny całkowicie zmieni świat medycyny. Ich funkcją byłaby naprawa uszkodzonych narządów i leczenie infekcji, gdy zostaną wprowadzone do organizmu pacjenta. Rozmiar tych nanorobotów powinien wynosić od 0,5 do 3 μm, ponieważ maksymalna wielkość naczyń włosowatych ma taką wartość. Wśród materiałów, które są kandydatami do budowy takiego robota, na pierwszym miejscu są materiały węglowe (kompozyty diament/fularen-nanorurki), ze względu na swoją wytrzymałość i inne właściwości fizyczne (przewodnictwo cieplne-diamenty i przewodnictwo elektryczne-nanorurki). Nanoroboty byłyby wytwarzane w nanofabrykach biurkowych specjalizujących się w takich celach. Nanoroboty byłyby wytwarzane w nanofabrykach biurkowych specjalizujących się w takich celach. Podczas pracy nanourządzenia mogłyby być sterowane metodą rezonansu magnetycznego, zwłaszcza gdyby ich elementy były wykonane z węgla 13C (ponieważ 13C ma zerowy jądrowy moment magnetyczny). Takie zdumiewające nanourządzenia medyczne można wprowadzić do konkretnego narządu lub tkanki. Sama diagnoza choroby byłaby znacznie dokładniejsza, ponieważ takie nanourządzenia diagnostyczne mogłyby korygować region docelowy. Zadaniem lekarza byłoby zeskanowanie pożądanego fragmentu ciała i zobaczenie nanourządzenia w pobliżu celu (guza) i tym samym ocena z całą pewnością, czy terapia medyczna w leczeniu chorej tkanki (tkanki dotkniętej chorobą nowotworową) była skuteczna . Technologia nanorobotów to technologia tworzenia maszyn lub nanorobotów w skali zbliżonej do nanometra. Mówiąc dokładniej, nanoroboty reprezentują szeroko rozpowszechnioną dyscyplinę inżynierską w zakresie projektowania i wytwarzania nanorobotów, czyli urządzeń o wymiarach rzędu 0,1–10 μm, zaprojektowanych w nanoskali przy użyciu składników molekularnych. Nadal nie ma sztucznego robota biologicznego, więc na razie jest to tylko teoretyczny pomysł. Imiona; nanoroboty, nanonoidy, nanity lub nanomity są również stosowane do wyznaczania tych hipotetycznych nanourządzeń [90–92]. Inne definicje są czasami używane w odniesieniu do nanorobotów, które umożliwiają precyzyjną interakcję między urządzeniami w nanoskali lub manipulowanie nimi przy użyciu rozdzielczości w nanoskali. Dzięki takiemu podejściu większe urządzenia, takie jak AFM, można uchodzić za przyrządy nanorobotyczne, ponieważ umożliwiają one nanomanipulację. Dlatego obecnie jednym z najważniejszych tematów są nanourządzenia. Pewne takie prymitywne maszyny molekularne zostały już skonstruowane. Jednym z nich jest czujnik o przekroju „przełącznika” 1,5 nm, który może zliczać poszczególne cząsteczki w próbce chemicznej. Pierwsza nanomaszyna, jaką kiedykolwiek zbudowano w technologii medycznej, była maszyną do identyfikacji i zabijania raka. Inne potencjalne zastosowanie nanomaszyn wiązałoby się z pracą z toksycznymi chemikaliami i pomiarem ich stężenia w atmosferze i wodzie. Na Uniwersytecie Rice zademonstrowano obwody monomolekularne, które powstały w procesie chemicznym z udziałem fulerenów jako kół. Uruchamiane są poprzez kontrolowanie temperatury otoczenia i umieszczane w „skaningowym” mikroskopie tunelowym [93]. Potencjalne zastosowania nanorobotów w medycynie obejmują diagnostykę, celowane dostarczanie leków przeciwnowotworowych, instrumenty biomedyczne, chirurgię, monitorowanie farmakokinetyki cukrzycy i opiekę zdrowotną. W przyszłych planach nanotechnologie medyczne będą wykorzystywać roboty wstrzykiwane pacjentom do przeprowadzania leczenia na poziomie komórkowym. Takie roboty nie replikują się, ponieważ replikacja prowadzi do złożoności urządzeń i zmniejsza dostępność. Nanoroboty medyczne byłyby wytwarzane w hipotetycznych nanofabrykach, w których maszyny w nanoskali można by zintegrować z domniemaną skalowaną maszyną „biurową” w celu stworzenia makroskopowego produktu. Bardziej szczegółowe teoretyczne omówienie nanorobotów, w tym specyficzny projekt, komunikację, nawigację, manipulację, poruszanie się i komputeryzację w kontekście medycznym, po raz pierwszy przedstawił Robert Freitas . W bliskiej lub dalekiej przyszłości przewiduje się budowę robotów w mikro i nanoskali zdolnych do składania innych nanomaszyn i przemieszczania się do organizmu w celu dostarczania leków lub robotów pełniących funkcje mikrochirurgiczne.

Szkolenie wstępne i Transfer Learning

https://aie24.pl/

Uzyskanie wystarczającej ilości danych do zbudowania solidnego modelu może być wyzwaniem. W wizji komputerowej  wyzwanie to rozwiązano poprzez zgromadzenie dużych kolekcji obrazów (takich jak ImageNet) i ręczne ich etykietowanie. W przypadku języka naturalnego częściej pracuje się z tekstem bez etykiet. Różnica wynika po części z trudności w etykietowaniu: niewykwalifikowany pracownik może łatwo oznaczyć obrazek jako „kot” lub „zachód słońca”, ale wymaga to intensywnego szkolenia, aby przypisywać do zdania znaczniki części mowy lub analizować drzewa. Różnica wynika również z obfitości tekstu: Internet dodaje codziennie ponad 100 miliardów słów tekstu, w tym zdigitalizowane książki, wyselekcjonowane zasoby, takie jak Wikipedia, oraz niewyselekcjonowane posty w mediach społecznościowych. Projekty takie jak Common Crawl zapewniają łatwy dostęp do tych danych. Do zbudowania modeli osadzania n-gramów lub słów można użyć dowolnego bieżącego tekstu, a niektóre teksty mają strukturę, która może być pomocna w różnych zadaniach — na przykład istnieje wiele witryn z często zadawanymi pytaniami z parami pytań i odpowiedzi, które można wykorzystać do trenowania system odpowiedzi na pytania. Podobnie wiele witryn sieci Web publikuje obok siebie tłumaczenia tekstów, które można wykorzystać do uczenia systemów tłumaczenia maszynowego. Niektóre teksty zawierają nawet pewnego rodzaju etykiety, takie jak witryny z recenzjami, w których użytkownicy dodają adnotacje do swoich recenzji tekstowych za pomocą pięciogwiazdkowego systemu ocen. Wolelibyśmy nie zadawać sobie trudu tworzenia nowego zestawu danych za każdym razem, gdy chcemy mieć nowy model NLP. W tej sekcji przedstawiamy ideę szkolenia wstępnego: formę uczenia się transferowego , w której używamy dużej ilości wspólnych danych języka domeny ogólnej do trenowania początkowej wersji modelu NLP. Stamtąd możemy użyć mniejszej ilości danych specyficznych dla domeny (być może w tym niektórych danych oznaczonych etykietą), aby udoskonalić model. Udoskonalony model może uczyć się słownictwa, idiomów, struktur składniowych i innych zjawisk językowych, które są specyficzne dla nowej dziedziny.

AI : Technologie, Aplikacje i Wyzwania : Biologiczne maszyny molekularne

https://aie24.pl/

Do najbardziej złożonych maszyn molekularnych, zlokalizowanych wewnątrz komórek, należą motory białkowe, takie jak miozyna odpowiedzialna za kontakt z mięśniami, kinezyna odpowiedzialna za transport do wnętrza komórki i na zewnątrz jądra komórkowego wzdłuż mikrotubul oraz dyneina odpowiedzialna za aksonalny rytm rzęsek i wici : Te białka i ich zachowanie w nanoskali są znacznie bardziej wyrafinowane niż jakakolwiek sztucznie wykonana maszyna molekularna. Podstawowy mechanizm ruchu rzęsek opisał J. L. Ross w swojej pracy [82, 83]. Wysoki poziom abstrakcji w jego uwagach końcowych zakłada, że ​​nanomaszyny komórkowe składają się z ponad 600 białek w kompleksie molekularnym, przy czym wiele części takich maszyn uważa się za niezależne nanomaszyny. Budowa bardziej wyrafinowanych maszyn molekularnych jest dziś w centrum wielu badań teoretycznych. Teoretycznie zbadano już wiele cząsteczek, chociaż metody syntezy takich cząsteczek są nadal w fazie badań eksperymentalnych. Mianowicie do praktycznego projektowania tak skomplikowanych maszyn molekularnych konieczne jest opanowanie konstrukcji konkretnych maszyn, które z powodzeniem mogłyby pełnić rolę asemblerów molekularnych