https://aie24.pl/
GPT-3 został stworzony i stanowi kamień milowy dla OpenAI, pioniera badań nad sztuczną inteligencją z siedzibą w San Francisco. Misją OpenAI jest „zapewnienie korzyści całej ludzkości ze sztucznej inteligencji”. Sztuczna inteligencja ogólna to rodzaj sztucznej inteligencji, która nie ogranicza się do wyspecjalizowanych zadań, ale zamiast tego dobrze radzi sobie z różnorodnymi zadaniami, tak jak robią to ludzie.
GPT-1
OpenAI zaprezentowało GPT-1 w czerwcu 2018 r. Kluczowym odkryciem twórców było to, że połączenie architektury transformatora z nienadzorowanym szkoleniem wstępnym dało obiecujące rezultaty. Piszą, że GPT-1 został dostosowany do konkretnych zadań, aby osiągnąć „dobre zrozumienie języka naturalnego”. GPT-1 stanowił ważny krok w kierunku modelu językowego z ogólnymi możliwościami opartymi na języku. Udowodniono, że modele językowe można skutecznie wytrenować, co może pomóc w dobrym uogólnianiu. Architektura może wykonywać różne zadania NLP przy niewielkim dostrajaniu. GPT-1 wykorzystał zbiór danych Book Corpus, który zawiera około siedmiu tysięcy niepublikowanych książek, oraz część dekodera transformatora, która samodzielnie trenowała model. Architektura pozostała w dużej mierze taka sama jak w oryginalnym transformatorze. Model miał 117 milionów parametrów. GPT-1 otworzył możliwości dla przyszłych modeli, które mogłyby lepiej uwolnić ten potencjał dzięki większym zbiorom danych i większej liczbie parametrów. Jednym z jego osiągnięć była przyzwoita wydajność zero-shot w różnych zadaniach NLP, takich jak odpowiadanie na pytania (Q&A) i analiza nastrojów, dzięki przeszkoleniu wstępnemu. Uczenie się „zero-shot” to zdolność modelu do wykonania zadania bez spotykania się z żadnym tego rodzaju przykładem w przeszłości; model ma zrozumieć zadanie bez patrzenia na przykłady. Transfer zadań typu zero-shot to ustawienie, w którym modelowi przedstawia się niewiele przykładów lub nie podaje ich wcale i proszono o zrozumienie zadania na podstawie przykładów i instrukcji.
GPT-2
W lutym 2019 OpenAI wprowadziło GPT-2, który był większy niż GPT-1, ale poza tym bardzo podobny. Główną różnicą było to, że GPT-2 mógł wykonywać wiele zadań jednocześnie. Pomyślnie udowodniono, że model językowy może dobrze wykonywać kilka zadań bez konieczności otrzymywania żadnych przykładów szkoleniowych dla tych zadań. GPT-2 pokazał, że szkolenie na większym zbiorze danych i posiadanie większej liczby parametrów poprawia zdolność modelu językowego do rozumienia zadań i przewyższa najnowocześniejszy stan wielu zadań w ustawieniach zerowych. Wykazało również, że nawet większe modele językowe byłyby jeszcze lepsze w rozumieniu języka naturalnego. Aby stworzyć obszerny zbiór danych wysokiej jakości, autorzy pobrali Reddit i pobrali dane z linków wychodzących do artykułów, które uzyskały pozytywną opinię na platformie. Powstały zbiór danych, WebText, zawierał 40 GB danych tekstowych z ponad ośmiu milionów dokumentów, czyli znacznie więcej niż zbiór danych GPT-1. GPT-2 został przeszkolony na zbiorze danych WebText i miał 1,5 miliarda parametrów, 10 razy więcej niż GPT-1. GPT-2 oceniano na podstawie kilku zbiorów danych dotyczących dalszych zadań, takich jak czytanie ze zrozumieniem, streszczanie, tłumaczenie i odpowiadanie na pytania.
GPT-3
W dążeniu do zbudowania jeszcze solidniejszego i potężniejszego modelu językowego OpenAI zbudowało model GPT-3. Zarówno jego zbiór danych, jak i model są o około dwa rzędy wielkości większe niż te użyte w GPT-2: GPT-3 ma 175 miliardów parametrów i został przeszkolony na mieszance pięciu różnych korpusów tekstowych, co stanowi znacznie większy zbiór danych niż ten użyty do uczenia GPT -2. Architektura GPT-3 jest w dużej mierze taka sama jak GPT-2. Dobrze radzi sobie z dalszymi zadaniami NLP w ustawieniach zerowego i kilku strzałów. GPT-3 ma takie możliwości, jak pisanie artykułów, które są nie do odróżnienia od artykułów pisanych przez człowieka. Może także wykonywać w locie zadania, do których nigdy nie został specjalnie przeszkolony, takie jak sumowanie liczb, pisanie zapytań SQL, a nawet pisanie kodu React i JavaScript, mając prosty angielski opis zadań.
NOTATKA
Ustawienia kilku, jednego i zerowego to wyspecjalizowane przypadki transferu zadań zerowych. W przypadku ustawienia kilkukrotnego model otrzymuje opis zadania i tyle przykładów, ile mieści się w oknie kontekstowym modelu. W ustawieniu jednorazowym model jest dostarczany z dokładnie jednym przykładem, a w ustawieniu zerowym – bez żadnego przykładu.
Misja OpenAI podkreśla demokratyczne i etyczne aspekty sztucznej inteligencji. Wymiar demokratyczny polega na decyzji o udostępnieniu trzeciej wersji modelu, GPT-3, za pośrednictwem publicznego API lub interfejsu programowania aplikacji: pośrednika programowego, który przesyła informacje tam i z powrotem między witryną internetową lub aplikacją a użytkownikiem. Interfejsy API pełnią rolę komunikatorów, umożliwiając programistom tworzenie nowych interakcji programistycznych pomiędzy aplikacjami i użytkownikami. Wydanie GPT-3 poprzez API było rewolucyjnym posunięciem. Do 2020 r. zaawansowane modele sztucznej inteligencji opracowane przez wiodące laboratoria badawcze były dostępne tylko dla nielicznych – badaczy i inżynierów pracujących nad tymi projektami. Interfejs API OpenAI zapewnia użytkownikom na całym świecie bezprecedensowy dostęp do najpotężniejszego na świecie modelu językowego poprzez proste logowanie. (Biznesowym uzasadnieniem tego posunięcia jest stworzenie nowego paradygmatu, który nazywa „modelem jako usługą”, w którym programiści mogą płacić za wywołanie API)
Badacze OpenAI eksperymentowali z różnymi rozmiarami modeli podczas pracy nad GPT-3. Wykorzystali istniejącą architekturę GPT-2 i zwiększyli liczbę parametrów. W wyniku tego eksperymentu powstał model o nowych, niezwykłych możliwościach w postaci GPT-3. Podczas gdy GPT-2 wykazywał pewne możliwości zerowego zasięgu w dalszych zadaniach, GPT-3 może wykonywać jeszcze bardziej nowatorskie zadania, jeśli zostanie przedstawiony w przykładowym kontekście. Badacze OpenAI uznali za niezwykłe, że samo skalowanie parametrów modelu i rozmiaru zbioru danych szkoleniowych doprowadziło do tak niezwykłych postępów. Ogólnie rzecz biorąc, są optymistami, że tendencje te utrzymają się nawet w przypadku modeli znacznie większych niż GPT-3, umożliwiając tworzenie coraz silniejszych modeli uczenia się zdolnych do uczenia się w trybie kilku lub zerowym po prostu poprzez precyzyjne dostrojenie na małej próbce. Czytając tę książkę, eksperci szacują, że prawdopodobnie budowane i wdrażane są modele językowe oparte na bilionach parametrów. Weszliśmy w złotą erę wielkich modeli językowych i teraz nadszedł czas, abyś stał się jej częścią. GPT-3 przyciągnął wiele uwagi opinii publicznej. W czasopiśmie MIT Technology Review uznano GPT-3 za jedną z 10 przełomowych technologii roku 2021. Sama elastyczność w wykonywaniu serii uogólnionych zadań z wydajnością i dokładnością zbliżoną do ludzkiej sprawia, że jest ona tak ekscytująca, jak napisał na Twitterze twórca tej technologii, Arram Sabeti. Wydanie API spowodowało zmianę paradygmatu w NLP i przyciągnęło ogromną liczbę beta testerów. Innowacje i start-upy pojawiały się błyskawicznie, a komentatorzy nazwali GPT-3 „piątą rewolucją przemysłową”. Według OpenAI w ciągu zaledwie dziewięciu miesięcy od uruchomienia API ludzie zbudowali za jego pomocą ponad trzysta firm. Pomimo tej nagłości niektórzy eksperci twierdzą, że podekscytowanie nie jest przesadzone. Bakz Awan to programista, który stał się przedsiębiorcą i wpływowcem, a także jednym z głównych głosów w społeczności programistów OpenAI API. Prowadzi kanał na YouTubie „Bakz T. Future” oraz podcast. Awan twierdzi, że GPT-3 i inne modele są w rzeczywistości „przereklamowane ze względu na ich użyteczność, przyjazność, zabawę i moc. To prawie szokujące.” Daniel Erickson, dyrektor generalny firmy Viable, która ma produkt oparty na GPT-3, chwali zdolność modelu do wydobywania spostrzeżeń z dużych zbiorów danych w drodze, jak to nazywa, szybkiego rozwoju:
Firmy podążające tą ścieżką obejmują przypadki użycia, takie jak generowanie kopii do reklam i stron internetowych. Filozofia projektowania jest stosunkowo prosta: firma pobiera Twoje dane, przesyła je do podpowiedzi i wyświetla wynik wygenerowany przez API. Rozwiązuje zadanie, które można łatwo wykonać za pomocą pojedynczego monitu API i otacza go interfejsem użytkownika, aby dostarczyć go użytkownikom.
Problem, jaki Erickson widzi w tej kategorii przypadków użycia, polega na tym, że jest ona już przepełniona, co przyciąga wielu ambitnych założycieli start-upów konkurujących z podobnymi usługami. Zamiast tego Erickson zaleca przyjrzenie się innej kategorii przypadków użycia, tak jak zrobił to Viable. Przypadki użycia oparte na danych nie są tak zatłoczone jak przypadki użycia szybkiej generacji, ale są bardziej opłacalne i pozwalają łatwo stworzyć „fosę” bezpieczeństwa. Kluczem, mówi Erickson, jest zbudowanie dużego zbioru danych, który można stale dodawać i który może zapewnić potencjalne spostrzeżenia. GPT-3 pomoże Ci wydobyć z niego cenne spostrzeżenia. W Viable był to model, który pozwolił im łatwo zarabiać. „Ludzie płacą znacznie więcej za dane niż za szybkie wyniki” – wyjaśnia Erickson. Należy zaznaczyć, że rewolucje technologiczne niosą ze sobą także kontrowersje i wyzwania. GPT-3 to potężne narzędzie w rękach każdego, kto próbuje stworzyć narrację. Bez szczególnej staranności i życzliwych intencji jednym z takich wyzwań, przed którymi staniemy, będzie powstrzymanie prób wykorzystania algorytmu do szerzenia kampanii dezinformacyjnych. Innym rozwiązaniem byłoby wyeliminowanie jego wykorzystania do generowania masowych ilości treści cyfrowych o niskiej jakości, które następnie zanieczyszczałyby informacje dostępne w Internecie. Jeszcze innym problemem są ograniczenia zbiorów danych, które są wypełnione różnego rodzaju uprzedzeniami, które można wzmocnić dzięki tej technologii.