Dostęp do API OpenAI

https://aie24.pl/

Od 2021 roku na rynku pojawiło się już kilka autorskich modeli AI, które mają więcej parametrów niż GPT-3. Jednak dostęp do nich jest ograniczony do kilku osób w obrębie działów badawczo-rozwojowych firmy, co uniemożliwia ocenę ich wyników w rzeczywistych zadaniach NLP. Jednym z czynników zapewniających dostępność GPT-3 jest prosty i intuicyjny interfejs użytkownika typu „wprowadzanie i wysyłanie tekstu”. Nie wymaga skomplikowanego dostrajania gradientu ani aktualizacji i nie musisz być ekspertem, aby z niego korzystać. To połączenie skalowalnych parametrów i stosunkowo otwartego dostępu sprawia, że GPT-3 jest najbardziej ekscytującym i prawdopodobnie najbardziej odpowiednim modelem językowym w historii. Ze względu na niezwykłe możliwości GPT-3 istnieje znaczne ryzyko w zakresie bezpieczeństwa i nadużyć związanych z udostępnieniem go jako otwartego oprogramowania, co omówimy w rozdziale 7. Biorąc to pod uwagę, OpenAI zdecydowało się nie publikować kodu źródłowego GPT-3 publicznie i opracował unikalny model współdzielenia dostępu za pośrednictwem interfejsu API. Firma zdecydowała się początkowo udostępnić dostęp do API w formie ograniczonej listy użytkowników wersji beta. Proces składania wniosków wymagał od osób wypełnienia formularza zawierającego szczegółowe informacje na temat ich pochodzenia i powodów, dla których proszono o dostęp do interfejsu API. Tylko zatwierdzeni użytkownicy otrzymali dostęp do prywatnej wersji beta API z interfejsem o nazwie Playground. Na początku lista oczekujących na dostęp do wersji beta GPT-3 liczyła dziesiątki tysięcy osób. OpenAI szybko zarządzało aplikacjami, które zaczęły napływać, dodając partiami programistów, ale także ściśle monitorując ich aktywność i opinie na temat doświadczeń użytkowników API, aby je stale ulepszać. Dzięki postępom w zakresie zabezpieczeń OpenAI usunęła listę oczekujących w listopadzie 2021 r. GPT-3 jest teraz ogólnodostępny po prostym logowaniu. Jest to wielki kamień milowy w historii GPT-3 i bardzo oczekiwane posunięcie przez społeczność. Aby uzyskać dostęp do API wystarczy wejść na stronę rejestracji, założyć bezpłatne konto i od razu zacząć z nim eksperymentować. Nowi użytkownicy początkowo otrzymują pulę darmowych kredytów, która pozwala im na swobodne eksperymentowanie z API. Liczba napisów odpowiada stworzeniu treści tekstowych o długości trzech powieści średniej długości. Po wykorzystaniu bezpłatnych kredytów użytkownicy zaczynają płacić za użytkowanie lub, jeśli zajdzie taka potrzeba, mogą poprosić o dodatkowe kredyty od obsługi klienta OpenAI API. OpenAI dąży do tego, aby aplikacje oparte na API były budowane w sposób odpowiedzialny. Z tego powodu zapewnia narzędzia, najlepsze praktyki i wskazówki dotyczące użytkowania, które pomagają programistom szybko i bezpiecznie wprowadzać aplikacje do środowiska produkcyjnego. Firma stworzyła także wytyczne dotyczące treści, aby wyjaśnić, jakiego rodzaju treści można generować za pomocą interfejsu API OpenAI. Aby pomóc programistom zapewnić, że ich aplikacje będą wykorzystywane zgodnie z przeznaczeniem, zapobiegać potencjalnym nadużyciom i przestrzegać wytycznych dotyczących treści, OpenAI oferuje bezpłatny filtr treści. Polityka OpenAI zabrania korzystania z API w sposób niezgodny z zasadami opisanymi w jego statucie, w tym w treściach promujących nienawiść, przemoc lub samookaleczenie lub mających na celu nękanie, wpływanie na procesy polityczne, szerzenie dezinformacji, treści spamowe , i tak dalej. Po zarejestrowaniu konta OpenAI możesz przejść dalej.

Krótka historia GPT-3

https://aie24.pl/

GPT-3 został stworzony i stanowi kamień milowy dla OpenAI, pioniera badań nad sztuczną inteligencją z siedzibą w San Francisco. Misją OpenAI jest „zapewnienie korzyści całej ludzkości ze sztucznej inteligencji”. Sztuczna inteligencja ogólna to rodzaj sztucznej inteligencji, która nie ogranicza się do wyspecjalizowanych zadań, ale zamiast tego dobrze radzi sobie z różnorodnymi zadaniami, tak jak robią to ludzie.

GPT-1

OpenAI zaprezentowało GPT-1 w czerwcu 2018 r. Kluczowym odkryciem twórców było to, że połączenie architektury transformatora z nienadzorowanym szkoleniem wstępnym dało obiecujące rezultaty. Piszą, że GPT-1 został dostosowany do konkretnych zadań, aby osiągnąć „dobre zrozumienie języka naturalnego”. GPT-1 stanowił ważny krok w kierunku modelu językowego z ogólnymi możliwościami opartymi na języku. Udowodniono, że modele językowe można skutecznie wytrenować, co może pomóc w dobrym uogólnianiu. Architektura może wykonywać różne zadania NLP przy niewielkim dostrajaniu. GPT-1 wykorzystał zbiór danych Book Corpus, który zawiera około siedmiu tysięcy niepublikowanych książek, oraz część dekodera transformatora, która samodzielnie trenowała model. Architektura pozostała w dużej mierze taka sama jak w oryginalnym transformatorze. Model miał 117 milionów parametrów. GPT-1 otworzył możliwości dla przyszłych modeli, które mogłyby lepiej uwolnić ten potencjał dzięki większym zbiorom danych i większej liczbie parametrów. Jednym z jego osiągnięć była przyzwoita wydajność zero-shot w różnych zadaniach NLP, takich jak odpowiadanie na pytania (Q&A) i analiza nastrojów, dzięki przeszkoleniu wstępnemu. Uczenie się „zero-shot” to zdolność modelu do wykonania zadania bez spotykania się z żadnym tego rodzaju przykładem w przeszłości; model ma zrozumieć zadanie bez patrzenia na przykłady. Transfer zadań typu zero-shot to ustawienie, w którym modelowi przedstawia się niewiele przykładów lub nie podaje ich wcale i proszono o zrozumienie zadania na podstawie przykładów i instrukcji.

GPT-2

W lutym 2019 OpenAI wprowadziło GPT-2, który był większy niż GPT-1, ale poza tym bardzo podobny. Główną różnicą było to, że GPT-2 mógł wykonywać wiele zadań jednocześnie. Pomyślnie udowodniono, że model językowy może dobrze wykonywać kilka zadań bez konieczności otrzymywania żadnych przykładów szkoleniowych dla tych zadań. GPT-2 pokazał, że szkolenie na większym zbiorze danych i posiadanie większej liczby parametrów poprawia zdolność modelu językowego do rozumienia zadań i przewyższa najnowocześniejszy stan wielu zadań w ustawieniach zerowych. Wykazało również, że nawet większe modele językowe byłyby jeszcze lepsze w rozumieniu języka naturalnego. Aby stworzyć obszerny zbiór danych wysokiej jakości, autorzy pobrali Reddit i pobrali dane z linków wychodzących do artykułów, które uzyskały pozytywną opinię na platformie. Powstały zbiór danych, WebText, zawierał 40 GB danych tekstowych z ponad ośmiu milionów dokumentów, czyli znacznie więcej niż zbiór danych GPT-1. GPT-2 został przeszkolony na zbiorze danych WebText i miał 1,5 miliarda parametrów, 10 razy więcej niż GPT-1. GPT-2 oceniano na podstawie kilku zbiorów danych dotyczących dalszych zadań, takich jak czytanie ze zrozumieniem, streszczanie, tłumaczenie i odpowiadanie na pytania.

GPT-3

W dążeniu do zbudowania jeszcze solidniejszego i potężniejszego modelu językowego OpenAI zbudowało model GPT-3. Zarówno jego zbiór danych, jak i model są o około dwa rzędy wielkości większe niż te użyte w GPT-2: GPT-3 ma 175 miliardów parametrów i został przeszkolony na mieszance pięciu różnych korpusów tekstowych, co stanowi znacznie większy zbiór danych niż ten użyty do uczenia GPT -2. Architektura GPT-3 jest w dużej mierze taka sama jak GPT-2. Dobrze radzi sobie z dalszymi zadaniami NLP w ustawieniach zerowego i kilku strzałów. GPT-3 ma takie możliwości, jak pisanie artykułów, które są nie do odróżnienia od artykułów pisanych przez człowieka. Może także wykonywać w locie zadania, do których nigdy nie został specjalnie przeszkolony, takie jak sumowanie liczb, pisanie zapytań SQL, a nawet pisanie kodu React i JavaScript, mając prosty angielski opis zadań.

NOTATKA

Ustawienia kilku, jednego i zerowego to wyspecjalizowane przypadki transferu zadań zerowych. W przypadku ustawienia kilkukrotnego model otrzymuje opis zadania i tyle przykładów, ile mieści się w oknie kontekstowym modelu. W ustawieniu jednorazowym model jest dostarczany z dokładnie jednym przykładem, a w ustawieniu zerowym – bez żadnego przykładu.

Misja OpenAI podkreśla demokratyczne i etyczne aspekty sztucznej inteligencji. Wymiar demokratyczny polega na decyzji o udostępnieniu trzeciej wersji modelu, GPT-3, za pośrednictwem publicznego API lub interfejsu programowania aplikacji: pośrednika programowego, który przesyła informacje tam i z powrotem między witryną internetową lub aplikacją a użytkownikiem. Interfejsy API pełnią rolę komunikatorów, umożliwiając programistom tworzenie nowych interakcji programistycznych pomiędzy aplikacjami i użytkownikami. Wydanie GPT-3 poprzez API było rewolucyjnym posunięciem. Do 2020 r. zaawansowane modele sztucznej inteligencji opracowane przez wiodące laboratoria badawcze były dostępne tylko dla nielicznych – badaczy i inżynierów pracujących nad tymi projektami. Interfejs API OpenAI zapewnia użytkownikom na całym świecie bezprecedensowy dostęp do najpotężniejszego na świecie modelu językowego poprzez proste logowanie. (Biznesowym uzasadnieniem tego posunięcia jest stworzenie nowego paradygmatu, który nazywa „modelem jako usługą”, w którym programiści mogą płacić za wywołanie API)

Badacze OpenAI eksperymentowali z różnymi rozmiarami modeli podczas pracy nad GPT-3. Wykorzystali istniejącą architekturę GPT-2 i zwiększyli liczbę parametrów. W wyniku tego eksperymentu powstał model o nowych, niezwykłych możliwościach w postaci GPT-3. Podczas gdy GPT-2 wykazywał pewne możliwości zerowego zasięgu w dalszych zadaniach, GPT-3 może wykonywać jeszcze bardziej nowatorskie zadania, jeśli zostanie przedstawiony w przykładowym kontekście. Badacze OpenAI uznali za niezwykłe, że samo skalowanie parametrów modelu i rozmiaru zbioru danych szkoleniowych doprowadziło do tak niezwykłych postępów. Ogólnie rzecz biorąc, są optymistami, że tendencje te utrzymają się nawet w przypadku modeli znacznie większych niż GPT-3, umożliwiając tworzenie coraz silniejszych modeli uczenia się zdolnych do uczenia się w trybie kilku lub zerowym po prostu poprzez precyzyjne dostrojenie na małej próbce. Czytając tę książkę, eksperci szacują, że prawdopodobnie budowane i wdrażane są modele językowe oparte na bilionach parametrów. Weszliśmy w złotą erę wielkich modeli językowych i teraz nadszedł czas, abyś stał się jej częścią. GPT-3 przyciągnął wiele uwagi opinii publicznej. W czasopiśmie MIT Technology Review uznano GPT-3 za jedną z 10 przełomowych technologii roku 2021. Sama elastyczność w wykonywaniu serii uogólnionych zadań z wydajnością i dokładnością zbliżoną do ludzkiej sprawia, że jest ona tak ekscytująca, jak napisał na Twitterze twórca tej technologii, Arram Sabeti. Wydanie API spowodowało zmianę paradygmatu w NLP i przyciągnęło ogromną liczbę beta testerów. Innowacje i start-upy pojawiały się błyskawicznie, a komentatorzy nazwali GPT-3 „piątą rewolucją przemysłową”. Według OpenAI w ciągu zaledwie dziewięciu miesięcy od uruchomienia API ludzie zbudowali za jego pomocą ponad trzysta firm. Pomimo tej nagłości niektórzy eksperci twierdzą, że podekscytowanie nie jest przesadzone. Bakz Awan to programista, który stał się przedsiębiorcą i wpływowcem, a także jednym z głównych głosów w społeczności programistów OpenAI API. Prowadzi kanał na YouTubie „Bakz T. Future” oraz podcast. Awan twierdzi, że GPT-3 i inne modele są w rzeczywistości „przereklamowane ze względu na ich użyteczność, przyjazność, zabawę i moc. To prawie szokujące.” Daniel Erickson, dyrektor generalny firmy Viable, która ma produkt oparty na GPT-3, chwali zdolność modelu do wydobywania spostrzeżeń z dużych zbiorów danych w drodze, jak to nazywa, szybkiego rozwoju:

Firmy podążające tą ścieżką obejmują przypadki użycia, takie jak generowanie kopii do reklam i stron internetowych. Filozofia projektowania jest stosunkowo prosta: firma pobiera Twoje dane, przesyła je do podpowiedzi i wyświetla wynik wygenerowany przez API. Rozwiązuje zadanie, które można łatwo wykonać za pomocą pojedynczego monitu API i otacza go interfejsem użytkownika, aby dostarczyć go użytkownikom.

Problem, jaki Erickson widzi w tej kategorii przypadków użycia, polega na tym, że jest ona już przepełniona, co przyciąga wielu ambitnych założycieli start-upów konkurujących z podobnymi usługami. Zamiast tego Erickson zaleca przyjrzenie się innej kategorii przypadków użycia, tak jak zrobił to Viable. Przypadki użycia oparte na danych nie są tak zatłoczone jak przypadki użycia szybkiej generacji, ale są bardziej opłacalne i pozwalają łatwo stworzyć „fosę” bezpieczeństwa. Kluczem, mówi Erickson, jest zbudowanie dużego zbioru danych, który można stale dodawać i który może zapewnić potencjalne spostrzeżenia. GPT-3 pomoże Ci wydobyć z niego cenne spostrzeżenia. W Viable był to model, który pozwolił im łatwo zarabiać. „Ludzie płacą znacznie więcej za dane niż za szybkie wyniki” – wyjaśnia Erickson. Należy zaznaczyć, że rewolucje technologiczne niosą ze sobą także kontrowersje i wyzwania. GPT-3 to potężne narzędzie w rękach każdego, kto próbuje stworzyć narrację. Bez szczególnej staranności i życzliwych intencji jednym z takich wyzwań, przed którymi staniemy, będzie powstrzymanie prób wykorzystania algorytmu do szerzenia kampanii dezinformacyjnych. Innym rozwiązaniem byłoby wyeliminowanie jego wykorzystania do generowania masowych ilości treści cyfrowych o niskiej jakości, które następnie zanieczyszczałyby informacje dostępne w Internecie. Jeszcze innym problemem są ograniczenia zbiorów danych, które są wypełnione różnego rodzaju uprzedzeniami, które można wzmocnić dzięki tej technologii.

Transformatorowe mechanizmy uwagi

https://aie24.pl/

Architektura transformatorowa została wynaleziona, aby poprawić wydajność sztucznej inteligencji w zadaniach tłumaczenia maszynowego. „Transformatory zaczynały jako modele językowe” – wyjaśnia Kilcher – „nawet nie tak duże, ale potem stały się duże”. Aby pracować z modelami transformatorów, musisz zrozumieć jeszcze jedną koncepcję techniczną: uwagę. Mechanizm uwagi to technika naśladująca uwagę poznawczą: analizuje sekwencję wejściową kawałek po kawałku i na podstawie prawdopodobieństwa na każdym etapie decyduje, które inne części sekwencji są ważne. Spójrz na przykład na zdanie „Kot usiadł na macie, gdy zjadł mysz”. Czy „to” w tym zdaniu odnosi się do „kota” lub „maty”? Model transformatora potrafi mocno połączyć „to” z „kotem”. To jest uwaga. Wracając do naszego przykładu z koderem i dekoderem, wyobraźmy sobie, że koder zapisuje słowa kluczowe ważne dla semantyki zdania i przekazuje je dekoderowi wraz z tłumaczeniem. Te słowa kluczowe znacznie ułatwiają tłumaczenie dekoderowi, który teraz wie, które części zdania są ważne i które terminy nadają kontekst zdaniu. W modelu transformatorowym wyróżnia się dwa rodzaje uwagi: samouważność (połączenie słów w zdaniu) i uwagę kodera-dekodera (połączenie słów ze zdania źródłowego ze słowami ze zdania docelowego). Mechanizm uwagi pomaga transformatorowi odfiltrować szum i skupić się na tym, co istotne: połączeniu dwóch słów w relacji semantycznej, gdy słowa same w sobie nie noszą żadnych wyraźnych znaczników wskazujących na siebie. Modele transformatorów korzystają z większych architektur i większych ilości danych. Szkolenia na dużych zbiorach danych i dostrajanie do konkretnych zadań poprawiają wyniki. Transformatory lepiej rozumieją kontekst słów w zdaniu niż jakikolwiek inny rodzaj sieci neuronowej. GPT to tylko część dekodera transformatora. Teraz, gdy już wiesz, co oznacza GPT, porozmawiajmy o „3” – a także o 1 i 2.

Modele sekwencyjne

https://aie24.pl/

Naukowcy z Google i Uniwersytetu w Toronto przedstawili ideę modelu transformatora w artykule z 2017 roku: Proponujemy nową, prostą architekturę sieci, Transformer, opartą wyłącznie na mechanizmach uwagi, całkowicie rezygnując z powtarzalności i splotów. Eksperymenty przeprowadzone na dwóch zadaniach tłumaczenia maszynowego wykazały, że modele te mają lepszą jakość, a jednocześnie są bardziej zrównoleglone i wymagają znacznie mniej czasu na szkolenie. Podstawą modeli transformatorów jest architektura sekwencyjna. Sekwencja do sekwencji (Seq2Seq) przekształca daną sekwencję elementów, np. słów w zdaniu, w inną sekwencję, np. zdanie w innym języku; zdania są zależne od sekwencji, ponieważ kolejność słów ma kluczowe znaczenie dla zrozumienia zdania. Modele Seq2Seq są szczególnie dobre w tłumaczeniu, gdzie sekwencja słów z jednego języka jest przekształcana na sekwencję różnych słów w innym języku. Tłumacz Google zaczął używać w produkcji modelu opartego na Seq2Seq pod koniec 2016 r. Modele Seq2Seq składają się z dwóch części: kodera i dekodera. Wyobraź sobie osobę kodującą i dekoderującą jako tłumaczy, z których każdy zna tylko dwa języki, a każdy ma inny język ojczysty. W naszym przykładzie 2 powiemy, że koder jest rodzimym użytkownikiem języka francuskiego, a dekoder jest rodzimym użytkownikiem języka angielskiego. Obydwa mają wspólny drugi język: powiedzmy, że jest to koreański. Aby przetłumaczyć język francuski na angielski, koder konwertuje zdanie francuskie na język koreański (tzw. kontekst) i przekazuje kontekst do dekodera. Ponieważ dekoder rozumie język koreański, może teraz tłumaczyć z koreańskiego na angielski. Pracując razem, potrafią przetłumaczyć język francuski na angielski, jak pokazano na rysunku

Modele transformatorów

https://aie24.pl/

Sieci neuronowe stanowią rdzeń głębokiego uczenia się. Ich nazwa i struktura są inspirowane ludzkim mózgiem i naśladują sposób, w jaki neurony biologiczne przekazują sobie nawzajem sygnały. Sieć neuronowa to sieć lub obwód neuronów pracujących w tandemie. Innowacje w sieciach neuronowych mogą poprawić wydajność modelu w przypadku dalszych zadań, dlatego naukowcy zajmujący się sztuczną inteligencją stale pracują nad nowymi architekturami sieci neuronowych. Jeden z takich wynalazków zrewolucjonizował NLP, jakie znamy dzisiaj: transformator. Transformator to model uczenia maszynowego, który przetwarza całą sekwencję tekstu na raz (zamiast pojedynczych słów) i ma potężny mechanizm pozwalający zrozumieć powiązania między słowami.

Wstępnie przeszkolone modele

https://aie24.pl

Czy słyszałeś o teorii 10 000 godzin? W swojej książce „Outliers” Malcolm Gladwell sugeruje, że ćwiczenie dowolnej umiejętności przez 10 000 godzin wystarczy, aby stać się ekspertem. Ta „ekspercka” wiedza znajduje odzwierciedlenie w połączeniach, jakie twój ludzki mózg rozwija pomiędzy neuronami. Model sztucznej inteligencji faktycznie robi coś podobnego. Aby stworzyć dobrze działający model, należy go wytrenować przy użyciu określonego zestawu zmiennych, zwanych parametrami. Proces ustalania ideału 1 parametr modelu nazywa się szkoleniem. Model asymiluje wartości parametrów w kolejnych iteracjach szkoleniowych. Znalezienie idealnych parametrów w modelu głębokiego uczenia się zajmuje dużo czasu. Szkolenie to długotrwały proces, który w zależności od zadania może trwać od kilku godzin do kilku miesięcy i wymaga ogromnej mocy obliczeniowej. Bardzo pomocna byłaby możliwość ponownego wykorzystania części tego długiego procesu uczenia się do innych zadań. I tu właśnie pojawiają się wstępnie przeszkolone modele. Wstępnie wyszkolony model, zgodny z teorią 10 000 godzin Gladwella, to pierwsza umiejętność, którą rozwijasz, która może pomóc ci szybciej zdobyć kolejną. Na przykład opanowanie umiejętności rozwiązywania problemów matematycznych może pomóc w szybszym nabyciu umiejętności rozwiązywania problemów inżynierskich. Wstępnie wytrenowany model jest szkolony (przez Ciebie lub kogoś innego) do bardziej ogólnego zadania, a następnie jest dostępny w celu dostrojenia go do różnych zadań. Zamiast budować model od zera w celu rozwiązania problemu, jako punkt wyjścia wykorzystujesz model przeszkolony w oparciu o bardziej ogólny problem i przeprowadzasz bardziej szczegółowe szkolenie w wybranym przez Ciebie obszarze, korzystając ze specjalnie dobranego zestawu danych. Wstępnie wytrenowany model może nie być w 100% dokładny, ale pozwala uniknąć konieczności wymyślania koła na nowo, oszczędzając w ten sposób czas i poprawiając wydajność. W uczeniu maszynowym model jest szkolony na zestawie danych. Rozmiar i typ próbek danych różnią się w zależności od zadania, które chcesz rozwiązać. GPT-3 jest wstępnie nauczony na korpusie tekstu z pięciu zestawów danych: Common Crawl, WebText2, Books1, Books2 i Wikipedia.

Common Crawl

Korpus Common Crawl (zbiór tekstów) obejmuje petabajty danych, w tym surowe dane stron internetowych, metadane i dane tekstowe zebrane w ciągu ośmiu lat przeszukiwania sieci. Badacze OpenAI korzystają z wyselekcjonowanej, przefiltrowanej wersji tego zbioru danych.

WebText2

WebText2 to rozszerzona wersja zbioru danych WebText, który jest wewnętrznym korpusem OpenAI tworzonym poprzez skrobanie stron internetowych o szczególnie wysokiej jakości. Aby sprawdzić jakość, autorzy usunęli z Reddita wszystkie linki wychodzące, które otrzymały co najmniej trzy punkty karmy (wskaźnik tego, czy inni użytkownicy uznali link za interesujący, edukacyjny czy po prostu zabawny). WebText2 zawiera 40 gigabajtów tekstu z tych 45 milionów linków, co stanowi ponad 8 milionów dokumentów.

Books1 i Books 2

Books1 i Books2 to dwa korpusy (liczba mnoga korpusu), które zawierają tekst dziesiątek tysięcy książek o różnej tematyce.

Wikipedia

Korpus Wikipedii to zbiór obejmujący wszystkie anglojęzyczne artykuły z internetowej encyklopedii Wikipedia pochodzącej z crowdsourcingu w momencie finalizowania zbioru danych GPT-3 w 2019 r. Ten zbiór danych zawiera około 5,8 miliona artykułów w języku angielskim.

Korpus ten zawiera w sumie prawie bilion słów. GPT-3 jest w stanie generować i skutecznie pracować również z językami innymi niż angielski. Tabela przedstawia 10 najpopularniejszych języków w zbiorze danych.

Choć przepaść między angielskim a innymi językami jest dramatyczna, na pierwszym miejscu znajduje się angielski, obejmujący 93% zbioru danych; Język niemiecki, na drugim miejscu, stanowi zaledwie 1% — ten 1% wystarczy do stworzenia doskonałego tekstu w języku niemieckim, z przeniesieniem stylu i innymi zadaniami. To samo dotyczy innych języków na liście. Ponieważ GPT-3 jest wstępnie przeszkolony na obszernym i zróżnicowanym zbiorze tekstów, może z powodzeniem wykonywać zaskakującą liczbę zadań NLP bez podawania przez użytkowników żadnych dodatkowych przykładowych danych.

Transformator generatywny, wstępnie wytrenowany: GPT-3

https://aie24.pl/

Nazwa GPT-3 oznacza „Generative Pre-trained Transformer 3”. Przejrzyjmy wszystkie te terminy jeden po drugim, aby zrozumieć powstawanie GPT-3.

Modele generatywne

GPT-3 jest modelem generatywnym, ponieważ generuje tekst. Modelowanie generatywne jest gałęzią modelowania statystycznego. Jest to metoda matematycznego przybliżania świata. Otacza nas niesamowita ilość łatwo dostępnych informacji – zarówno w świecie fizycznym, jak i cyfrowym. Najtrudniejszą częścią jest opracowanie inteligentnych modeli i algorytmów, które będą w stanie analizować i rozumieć tę skarbnicę danych. Modele generatywne są jednym z najbardziej obiecujących podejść do osiągnięcia tego celu. Aby wytrenować model, należy przygotować i wstępnie przetworzyć zbiór danych, czyli zbiór przykładów, które pomagają modelowi nauczyć się wykonywać dane zadanie. Zwykle zbiór danych to duża ilość danych w określonej domenie: na przykład miliony zdjęć samochodów w celu nauczenia modelu, czym jest samochód. Zbiory danych mogą mieć także formę zdań lub próbek audio. Po pokazaniu modelowi wielu przykładów należy go wytrenować, aby generował podobne dane.

Modele językowe: większe i lepsze

https://aie24.pl/

Modelowanie języka to zadanie polegające na przypisaniu prawdopodobieństwa sekwencji słów w tekście w określonym języku. Proste modele językowe mogą patrzeć na słowo i przewidywać następne słowo (lub słowa), które najprawdopodobniej po nim nastąpi, w oparciu o analizę statystyczną istniejących sekwencji tekstowych. Aby utworzyć model języka, który skutecznie przewiduje sekwencje słów, należy go wytrenować na dużych zbiorach danych. Modele językowe są kluczowym elementem aplikacji do przetwarzania języka naturalnego. Można o nich myśleć jak o maszynach do przewidywania statystycznego, w których podajesz tekst jako dane wejściowe i otrzymujesz prognozę jako wynik. Prawdopodobnie znasz to z funkcji automatycznego uzupełniania w swoim smartfonie. Na przykład, jeśli wpiszesz „dobrze”, autouzupełnianie może zasugerować „rano” lub „powodzenie”. Przed GPT-3 nie było ogólnego modelu języka, który dobrze radziłby sobie z szeregiem zadań NLP. Modele językowe zostały zaprojektowane do wykonywania jednego konkretnego zadania NLP, takiego jak generowanie tekstu, podsumowywanie lub klasyfikacja, z wykorzystaniem istniejących algorytmów i architektur. W tej książce omówimy niezwykłe możliwości GPT-3 jako ogólnego modelu językowego. Zaczniemy ten rozdział od omówienia każdej litery „GPT”, aby pokazać, co ona oznacza i jakie elementy zostały wykorzystane do zbudowania tego modelu. Przedstawimy krótki przegląd historii modelu i tego, jak pojawiły się dzisiaj modele sekwencji po sekwencji. Następnie przeprowadzimy Cię przez znaczenie dostępu do API i jego ewolucję w czasie w zależności od wymagań użytkowników. Zalecamy zarejestrowanie konta OpenAI przed przejściem do pozostałych części.

Przetwarzanie języka naturalnego: pod maską

https://aie24.pl/

Przetwarzanie języka naturalnego to poddziedzina językoznawstwa, informatyki i sztucznej inteligencji zajmująca się interakcją między komputerem a językiem ludzkim. Celem NLP jest zbudowanie systemów zdolnych do przetwarzania ludzkiego języka. Język naturalny odnosi się do sposobu, w jaki ludzie komunikują się ze sobą. NLP łączy dziedzinę lingwistyki obliczeniowej (modelowanie języka ludzkiego w oparciu o reguły) z uczeniem maszynowym, aby stworzyć inteligentne maszyny zdolne do identyfikacji kontekstu i zrozumienia intencji języka naturalnego. Uczenie maszynowe (ML) to poddziedzina sztucznej inteligencji zajmująca się badaniem maszyn zdolnych do uczenia się na podstawie doświadczenia i wykonywania zadań bez bezpośredniego programowania. Uczenie głębokie to podzbiór uczenia maszynowego inspirowany sposobem działania ludzkiego mózgu. Jest to sieć neuronowa lub duża sieć neuronów, które współdziałają ze sobą w celu wykonywania znacznie złożonych zadań przy minimalnej interwencji. W 2010 roku pojawiło się głębokie uczenie się, a wraz z dojrzałością tej dziedziny pojawiły się duże modele językowe składające się z gęstych sieci neuronowych złożonych z tysięcy, a nawet milionów prostych jednostek przetwarzających zwanych sztucznymi neuronami. Sieci neuronowe stały się pierwszą poważną zmianą w dziedzinie NLP, umożliwiając wykonywanie złożonych zadań w języku naturalnym, co wcześniej było możliwe tylko w teorii. Drugą istotną zmianą było wprowadzenie wstępnie wyszkolonych modeli (takich jak GPT-3), które można było dostosować do różnych dalszych zadań, oszczędzając wiele godzin szkolenia. NLP stanowi rdzeń wielu rzeczywistych zastosowań sztucznej inteligencji, takich jak:

Wykrywanie spamu

Filtr spamu w Twojej skrzynce odbiorczej przypisuje procent przychodzących wiadomości e-mail do folderu spamu, korzystając z NLP w celu oceny, które wiadomości e-mail wyglądają podejrzanie.

Tłumaczenie maszynowe

Tłumacz Google, DeepL i inne programy do tłumaczenia maszynowego wykorzystują NLP do oceny milionów zdań przetłumaczonych przez ludzi posługujących się różnymi parami językowymi.

Wirtualni asystenci i chatboty

Wszystkie Alexas, Siris, Asystenci Google i chatboty obsługi klienta na świecie należą do tej kategorii. Używają NLP, aby zrozumieć, analizować i ustalać priorytety pytań i żądań użytkowników oraz szybko i poprawnie na nie odpowiadać.

Analiza nastrojów w mediach społecznościowych

Marketerzy zbierają posty w mediach społecznościowych na temat konkretnych marek, tematów rozmów i słów kluczowych, a następnie wykorzystują NLP do analizy, co użytkownicy myślą o każdym temacie, indywidualnie i zbiorowo. Pomaga to markom w badaniach klientów, ocenie wizerunku i wykrywaniu dynamiki społecznej.

Podsumowanie tekstu

Streszczanie tekstu polega na zmniejszeniu jego objętości przy zachowaniu kluczowych informacji i zasadniczego znaczenia. Do codziennych przykładów podsumowań tekstowych należą nagłówki wiadomości, zapowiedzi filmów, tworzenie biuletynów, badania finansowe, analizy umów prawnych i podsumowania wiadomości e-mail, a także aplikacje dostarczające kanały informacyjne, raporty i wiadomości e-mail.

Wyszukiwanie semantyczne

Wyszukiwanie semantyczne wykorzystuje głębokie sieci neuronowe do inteligentnego przeszukiwania danych. Wchodzisz w interakcję z nim za każdym razem, gdy szukasz w Google. Wyszukiwanie semantyczne jest pomocne, gdy chcesz wyszukać coś na podstawie kontekstu, a nie konkretnych słów kluczowych.

„Sposób, w jaki wchodzimy w interakcję z innymi ludźmi, odbywa się za pośrednictwem języka” – mówi Yannic Kilcher, jeden z najpopularniejszych YouTuberów i wpływowych osób w przestrzeni NLP, dodając, że język jest częścią każdej interakcji, jaką ludzie mają ze sobą nawzajem i z komputerami. Nic więc dziwnego, że NLP jako dziedzina była miejscem kilku z najbardziej ekscytujących odkryć i wdrożeń sztucznej inteligencji w ostatniej dekadzie.

Era modeli wielkojęzykowych

https://aie24.pl/

Wyobraź sobie, że budzisz się w piękny, słoneczny poranek. Jest poniedziałek i wiesz, że tydzień będzie pracowity. Twoja firma wkrótce uruchomi nową aplikację zwiększającą produktywność osobistą, Taskr, i rozpocznie kampanię w mediach społecznościowych, aby świat dowiedział się o Twoim genialnym produkcie. Twoim głównym zadaniem w tym tygodniu jest napisanie i opublikowanie serii angażujących wpisów na blogu. Zaczynasz od zrobienia listy rzeczy do zrobienia:

* Napisz pouczający i zabawny artykuł na temat hacków zwiększających produktywność, w tym Taskr. Nie przekraczaj pięciuset słów.

* Utwórz listę pięciu chwytliwych tytułów artykułów.

* Wybierz wizualizacje.

Naciskasz Enter, bierzesz łyk kawy i obserwujesz, jak artykuł splata się na ekranie, zdanie po zdaniu, akapit po akapicie. W 30 sekund masz wartościowy, wysokiej jakości post na blogu, idealny początek Twojej serii w mediach społecznościowych. Strona wizualna jest zabawna i przyciąga uwagę. Zrobione! Wybierasz najlepszy tytuł i rozpoczynasz proces wydawniczy. To nie jest odległa, futurystyczna fantazja, ale rzut oka na nową rzeczywistość, która stała się możliwa dzięki postępowi sztucznej inteligencji. W chwili pisania tej książki powstaje wiele takich aplikacji, które są wdrażane wśród szerszego grona odbiorców. GPT-3 to najnowocześniejszy model językowy stworzony przez OpenAI, firmę znajdującą się na pograniczu badań i rozwoju sztucznej inteligencji. Artykuł badawczy OpenAI ogłaszający GPT-3 został opublikowany w maju 2020 r., a następnie w czerwcu 2020 r. udostępniono dostęp do GPT-3 za pośrednictwem OpenAI API. Od wydania GPT-3 ludzie na całym świecie z różnych środowisk, w tym z branży technologicznej, artystycznej , literatura, marketing itp. znalazły już setki ekscytujących zastosowań tego modelu, które mogą potencjalnie ulepszyć sposób, w jaki komunikujemy się, uczymy i bawimy. GPT-3 jest w stanie wykonywać ogólne zadania językowe, takie jak generowanie i klasyfikowanie tekstu, z niespotykaną łatwością, swobodnie przechodząc między różnymi stylami tekstu i celami. Wachlarz problemów, które może rozwiązać, jest ogromny. W tej książce zachęcamy Cię do zastanowienia się, jakie problemy możesz rozwiązać samodzielnie za pomocą GPT-3. Pokażemy Ci, co to jest i jak z niego korzystać, ale najpierw chcemy dać Ci trochę kontekstu. W pozostałej części omówimy, skąd pochodzi ta technologia, jak jest zbudowana, w jakich zadaniach się wyróżnia i jakie potencjalne ryzyko się z nią wiąże. Zagłębmy się w szczegóły, przyglądając się dziedzinie przetwarzania języka naturalnego (NLP) i temu, jak pasują do niej duże modele językowe (LLM) i GPT-3.