Bezpieczeństwo i prywatność danych

https://aie24.pl/

Chociaż Microsoft nie powiedział dotychczas zbyt wiele publicznie na temat swojego bezpieczeństwa, ivakaruni powiedział nam, że firma koncentruje się na trzech głównych punktach: filtrach treści, monitorowaniu nadużyć i podejściu stawiającym na bezpieczeństwo. Zespół pracuje nad elementami zwiększającymi bezpieczeństwo i planuje wykorzystać opinie klientów, aby dowiedzieć się, które z tych elementów będą dla użytkowników najważniejsze przed ich oficjalnym wprowadzeniem na rynek. Zespół pracuje także nad dokumentacją opisującą architekturę wdrażania polityki prywatności, która zostanie udostępniona klientom w celu zapewnienia, że Microsoft chroni dane klientów, jednocześnie dbając o to, by dotrzymywano swoich obowiązków w zakresie odpowiedzialnego korzystania ze sztucznej inteligencji. „Wielu klientów, którzy do nas przychodzą, ma wątpliwości dotyczące sposobu, w jaki jest ono obecnie wdrażane w OpenAI, ponieważ jest ono bardziej otwarte, a my rozwiązujemy [te obawy]” – mówi Divakaruni. Wprowadzono filtry treści w postaci filtrów PII (dane osobowe), które blokują treści o charakterze seksualnym i innego rodzaju, których zakres jest wciąż ustalany. „Filozofia polega na zapewnianiu klientom odpowiednich narzędzi do dostosowywania i iterowania treści dla ich konkretnej domeny” – mówi Divakaruni. Klienci korporacyjni Microsoftu są wymagający pod względem bezpieczeństwa. Zespół usługi Azure OpenAI API Service wykorzystuje pracę wykonaną w przypadku innych produktów, takich jak Bing i Office. Microsoft ma długą historię opracowywania modeli i przesuwania granic. „Office dostarcza produkty językowe już od jakiegoś czasu. Mamy więc dość rozbudowane możliwości moderowania treści… a my mamy zespół naukowy zajmujący się tworzeniem filtrów odpowiednich dla tych modeli w tej przestrzeni” – mówi Divakaruni. Użytkownicy OpenAI API często żądają geofencingu – technologii wyznaczającej wirtualną granicę wokół rzeczywistego obszaru geograficznego, tworząc silosy umożliwiające przechowywanie danych w określonej lokalizacji. Jeśli dane zostaną przeniesione poza określony promień, może to spowodować akcję w telefonie obsługującym dane geograficzne lub innym przenośnym urządzeniu elektronicznym. Może na przykład ostrzegać administratorów, gdy osoba wejdzie lub wyjdzie z geofence, a następnie wygenerować alert na urządzeniu mobilnym użytkownika w formie powiadomienia push lub wiadomości e-mail. Geofencing umożliwia firmom dokładne śledzenie, promowanie i skuteczne ostrzeganie administratorów. Prace nad funkcją geofencing na platformie Azure wciąż trwają, ale Divakaruni twierdzi, że została wdrożona eksperymentalnie dla kilku wybranych klientów, takich jak GitHub Copilot.

Zarządzanie zasobami

https://aie24.pl/

Jedna różnica między tymi dwiema usługami polega na sposobie zarządzania zasobami. Zasób to element, którym można zarządzać i który jest dostępny za pośrednictwem usługi (niezależnie od tego, czy jest to interfejs API OpenAI, czy Microsoft Azure). W kontekście OpenAI przykładami zasobów może być konto API lub pula kredytów powiązana z kontem. Platforma Azure oferuje bardziej złożony zestaw zasobów, takich jak maszyny wirtualne, konta magazynu, bazy danych, sieci wirtualne, subskrypcje i grupy zarządzania. Chociaż OpenAI oferuje jedno konto API na organizację, w ramach platformy Azure firmy mogą tworzyć wiele różnych zasobów, które mogą śledzić, monitorować i alokować do różnych centrów kosztów. „Ogólnie rzecz biorąc, jest to po prostu kolejny zasób platformy Azure” – mówi Christopher Hoder, starszy menedżer programu w Microsoft Azure OpenAI Service, co ułatwia korzystanie z niego od razu po wyjęciu z pudełka. Zarządzanie zasobami na platformie Azure to funkcja wdrażania i zarządzania, która umożliwia klientom tworzenie, aktualizowanie i usuwanie zasobów na kontach platformy Azure. Zawiera funkcje takie jak kontrola dostępu, blokady i znaczniki, które zabezpieczają i organizują zasoby klienta po wdrożeniu. Platforma Azure oferuje kilka warstw zarządzania zasobami, które umożliwiają firmom i organizacjom lepsze zarządzanie cenami i zasobami, mówi Hoder. Na wysokim poziomie istnieje organizacyjne konto Azure, w ramach którego znajduje się wiele subskrypcji platformy Azure. W ramach tego istnieją grupy zasobów, a następnie same zasoby. „Wszystkie te elementy można monitorować, segmentować i kontrolować dostęp” – dodaje Hoder, co staje się szczególnie ważne w przypadku wdrożeń na dużą skalę.

Natywny interfejs API OpenAI platformy Azure

https://aie24.pl/

OpenAI wiedziało, że konieczne będzie skalowanie podstaw chmury. Od momentu powstania interfejsu API OpenAI zawsze zamysłem było utworzenie instancji interfejsu API również na platformie Azure, aby dotrzeć do większej liczby klientów. Divakaruni wspomina, że między platformami OpenAI API i Azure OpenAI Service jest więcej podobieństw niż różnic. Z technologicznego punktu widzenia cel jest bardzo podobny: zapewnić ludziom ten sam interfejs API i dostęp do tych samych modeli. Kształt usługi Azure OpenAI będzie bardziej natywny dla platformy Azure, ale Microsoft chce dorównać doświadczeniom programistów klientów OpenAI, zwłaszcza że niektórzy z nich przechodzą z interfejsu OpenAI API do usługi Azure OpenAI Service.

Studium przypadku: Usługa Microsoft Azure OpenAI

https://aie24.pl/

Algolia dojrzała na OpenAI API, ale wkrótce firma zapragnęła rozszerzyć swoją działalność na Europę, co wiązało się z koniecznością zapewnienia zgodności z RODO. Rozpoczęła współpracę z Microsoftem, który uruchamiał usługę Azure OpenAI. W następnym studium przypadku przyjrzymy się tej usłudze.

Partnerstwo, jakie miało być

Microsoft i OpenAI ogłosiły partnerstwo w 2019 roku, którego celem jest zapewnienie klientom Microsoft Azure dostępu do możliwości GPT-3. Partnerstwo opiera się na wspólnej wizji polegającej na zapewnieniu bezpiecznego wdrażania sztucznej inteligencji i AGI. Microsoft zainwestował miliard dolarów w OpenAI, finansując uruchomienie API, które działa na platformie Azure. Partnerstwo kończy się dostarczeniem interfejsu API, aby zapewnić większej liczbie osób dostęp do dużych modeli językowych. Dominic Divakaruni, główny menedżer produktów grupy i szef usługi Azure OpenAI Service, mówi, że zawsze myślał o tej współpracy jako o partnerstwie, które wydaje się być takie, jakie miało być, zauważając, że dyrektor generalny Microsoft Satya Nadella i dyrektor generalny OpenAI Sam Altman często mówili o zapewnieniu aby korzyści płynące ze sztucznej inteligencji były dostępne i szeroko rozpowszechnione. Obydwu firmom zależy także na bezpieczeństwie innowacji AI. Celem, jak mówi Divakaruni, „było wzajemne wykorzystanie mocnych stron”, w szczególności doświadczeń użytkowników OpenAI i modelowania postępu oraz istniejących relacji Microsoftu z firmami, dużymi sprzedawcami i infrastrukturą chmurową. Biorąc pod uwagę bazę klientów, zespół Microsoft Azure rozumie podstawowe wymagania klientów korzystających z chmury korporacyjnej w zakresie zgodności, certyfikatów, bezpieczeństwa sieci i powiązanych kwestii. Dla Microsoftu zainteresowanie GPT-3 zaczyna się w dużej mierze od tego, że otwiera on nowe możliwości i jest dostępny przed jakimkolwiek innym modelem z kategorii LLM. Kolejnym kluczowym czynnikiem inwestycji Microsoftu jest to, że zyskał on możliwość korzystania wyłącznie z zasobów własności intelektualnej OpenAI. Chociaż dostępne są alternatywy GPT-3, Divakaruni twierdzi, że centralizacja API OpenAI jest wyjątkowa. Zauważa, że modele usług takich jak analiza tekstu czy tłumaczenie wymagają „sporo pracy” ze strony dostawcy chmury, aby dostosować je do usługi API. OpenAI oferuje jednak „ten sam interfejs API używany do różnych zadań”, a nie „niestandardowe interfejsy API tworzone do konkretnych zadań”.

Zdobyta wiedza

https://aie24.pl/

Jeśli więc Algolia Answers musiałaby dzisiaj zaczynać od zera, co zrobiłaby inaczej? „Praca z GPT-3 może czasami być przytłaczająca” – mówi Coates. „Na wczesnych etapach rozwoju produktu zadalibyśmy niektóre z podstawowych pytań, np.: «Czy jesteśmy gotowi przyjąć cios w zakresie zrozumienia semantyki, ponieważ zakładamy taki wzrost za wszystko inne?». Myślę, że byśmy to zrobili. na początku dużo więcej myślałem o opóźnieniu i zbieżności różnych czynników rankingowych. Dodaje, że widział w projekcie „powrót do modelu opartego na BERT. Można powiedzieć, że surowa jakość nie jest taka sama, jak ta, którą uzyskamy z GPT-3. Nie można temu zaprzeczyć. Myślę jednak, że choć zakochaliśmy się w tej technologii, odkryliśmy problemy klientów, których nie rozwiązaliśmy, a technologia musi podążać za problemami klientów, a nie odwrotnie”. Jakie jest zatem stanowisko Algolii na temat przyszłości wyszukiwania? „Nie wierzymy, że komukolwiek naprawdę udało się połączyć znaczenie tekstowe i znaczenie semantyczne. To bardzo trudny problem, ponieważ mogą wystąpić sytuacje, w których pewne treści są istotne, ale tak naprawdę nie odpowiadają na pytanie” – mówi Coates. Przewiduje on „małżeństwo bardziej tradycyjnej, tekstowej podstawy, jej bardziej zrozumiałej i możliwej do wytłumaczenia strony, z bardziej zaawansowanymi modele językowe.”

Szybkość i opóźnienie

https://aie24.pl/

Szybkość ma szczególne znaczenie w Algolii; firma obiecuje swoim klientom błyskawiczne możliwości wyszukiwania z opóźnieniami ograniczonymi do zaledwie milisekund. Kiedy zespół ocenił propozycję OpenAI, był zadowolony z jakości wyników, ale opóźnienie GPT-3 było nie do przyjęcia. „W naszym tradycyjnym wyszukiwaniu wyniki pojawiają się w czasie krótszym niż 50 milisekund” – mówi Coates. „Przeszukujemy setki milionów dokumentów i musi to odbywać się w czasie rzeczywistym. Kiedy na początku pracowaliśmy z OpenAI, każde z tych zapytań zajmowało kilka minut. Algolia zdecydowała się dać szansę GPT-3 i rozpoczęła początkową fazę eksperymentów oraz wdrożenie wersji beta Algolia Answers. Jednak zmniejszenie opóźnień i kosztów finansowych wymagało dużego wysiłku. „Zaczęliśmy od całkowitego opóźnienia wynoszącego około 300, czasem 400 milisekund” – wspomina Coates, „które musieliśmy obniżyć do zakresu od 50 do 100 milisekund, aby nasi klienci mogli z niego skorzystać”. Ostatecznie w ramach projektu Algolia opracowała podświetlanie semantyczne – technikę wykorzystującą wyszkolony model pytań i odpowiedzi na podstawie GPT-3 do przeprowadzania miniwyszukiwań i znajdowania prawidłowej odpowiedzi. Połączenie GPT-3 z innymi modelami open source spowodowało zmniejszenie całkowitego opóźnienia. Jakość ich wyników jest lepsza, dodaje Helme-Guizon, ponieważ „modele są przeszkolone w znajdowaniu odpowiedzi, a nie tylko słów, które są ze sobą powiązane”. Helme-Guizon twierdzi, że kluczowym aspektem architektury Algolia Answers jest architektura wyszukiwania czytników, w której czytelnik AI „przegląda podzbiór dokumentów i czyta je, rozumie je w odniesieniu do zapytania za pomocą Ady i daje nam wynik zaufania dla wartości semantycznej.” Chociaż było to „dobre pierwsze rozwiązanie”, dodaje, wiąże się z wieloma wyzwaniami, „zwłaszcza opóźnieniami, ponieważ istnieje zależność, w wyniku której nie można przetwarzać pierwszej i drugiej partii jednocześnie” asynchronicznie. GPT-3 wykorzystuje osadzanie przewidywań do obliczenia podobieństwa cosinus, czyli matematycznej metryki używanej do określenia podobieństwa dwóch dokumentów, niezależnie od ich rozmiaru. Coates podsumowuje te wyzwania: Po pierwsze, „nie można wysłać zbyt wielu dokumentów, w przeciwnym razie odpowiedź będzie zbyt wolna lub koszty będą zbyt wysokie”. Drugim jest zarzucenie „sieci wystarczająco szerokiej, aby można było pobrać wszystkie istotne dokumenty, zachowując jednocześnie czas i koszty pod kontrolą”.

Koszt

https://aie24.pl/

Większość przypadków użycia GPT-3, które widzieliśmy do tej pory, to produkty typu business-to-consumer (B2C), ale w przypadku firmy typu business-to-business (B2B), takiej jak Algolia, gra jest inna. Nie tylko potrzebują, aby ceny OpenAI działały dla nich, ale także muszą zoptymalizować swoje ceny dla klientów, aby „mogły przynosić zyski i sprawiać, że klienci nadal byli zainteresowani tym, co [tworzą]”. W branży rozwiązań wyszukiwania sukces mierzy się na podstawie przepustowości. Naturalnie więc warto pomyśleć o kompromisie między jakością, kosztami i szybkością. Coates mówi: „Nawet zanim poznaliśmy koszty, Ada była dla nas właściwym modelem ze względu na szybkość. Ale nawet jeśli, powiedzmy, Davinci był wystarczająco szybki, być może i tak dotarlibyśmy do Ady tylko ze względu na koszty”. Helme-Guizon zauważa, że czynniki wpływające na koszt obejmują „liczbę tokenów oraz liczbę wysyłanych dokumentów i ich długość”. Podejście Algolii polegało na zbudowaniu „najmniejszych możliwych okien kontekstowych” – 1 oznaczających ilość danych wysyłanych jednorazowo do API – które nadal byłyby „wystarczająco istotne pod względem jakości”. Jak więc rozwiązali ten problem? Coates wyjaśnia: „Zaczęliśmy od OpenAI, zanim ogłoszono ceny, zaszliśmy wystarczająco daleko i przekonaliśmy się, że jakość jest wystarczająco dobra w porównaniu z tym, co widzieliśmy gdzie indziej, nie wiedząc, jakie są ceny. Więc to było sporo nieprzespanych nocy, nie wiedząc, jakie są ceny. A kiedy już znaliśmy ceny, [kwestia] polegała na wymyśleniu, jak obniżyć te koszty. Ponieważ kiedy po raz pierwszy zobaczyliśmy ceny, nie byliśmy pewni, czy [będziemy w stanie] sprawić, by to zadziałało”. Włożyli dużo pracy w optymalizację ceny pod kątem swojego zastosowania, ponieważ według Coatesa ustalanie cen będzie „uniwersalnym wyzwaniem” dla każdego, kto próbuje zbudować swój biznes w oparciu o GPT-3. Dlatego zdecydowanie zaleca się, aby myśleć o optymalizacji cen już na wczesnych etapach rozwoju produktu.

Prywatność danych

https://aie24.pl/

Według Coatesa największe wyzwania, przed którymi stanęła Algolia podczas wprowadzania tej nowatorskiej technologii, miały charakter prawny. „Przejście przez kwestie prawne, bezpieczeństwa i zaopatrzenia było być może najtrudniejszą rzeczą, jaką zrobiliśmy w całym projekcie, ponieważ wysyłasz dane klientów, co zasila model uczenia maszynowego. Jak usuwamy te dane? Jak możemy się upewnić, że jest on zgodny z RODO? Jak sobie z tym wszystkim radzimy? Skąd wiemy, że OpenAI nie pobierze tych danych i nie zasili nimi również modelu innych osób? Było więc wiele pytań, na które należało odpowiedzieć, i wiele porozumień, które należało wprowadzić w życie”.

Ocena opcji NLP

https://aie24.pl/

Algolia powołała specjalny zespół do pracy w tym obszarze. Kiedy OpenAI skontaktowało się z nimi, aby dowiedzieć się, czy Algolia może być zainteresowana GPT-3, zespół Coatesa porównał to z konkurencyjnymi technologiami. Inżynierka Algolia ML Claire Helme-Guizon, członkini pierwotnego zespołu Algolia Answers, wyjaśnia: „Pracowaliśmy nad modelami podobnymi do BERT, aby zoptymalizować prędkość, DistilBERT i bardziej stabilnymi modelami, takimi jak RoBERTa wraz z różnymi wariantami GPT-3 jak DaVinci, Ada itp.” Stworzyli system oceny, aby porównać jakość różnych modeli i poznać ich mocne i słabe strony. Odkryli, jak mówi Coates, że GPT-3 „działa naprawdę dobrze, jeśli chodzi o jakość zwracanych wyników wyszukiwania”. Szybkość i koszt były słabymi stronami, ale ostatecznie decydującym czynnikiem był interfejs API, ponieważ umożliwił Algolii korzystanie z modelu bez konieczności utrzymywania infrastruktury. Algolia zapytała obecnych klientów, czy mogliby być zainteresowani tego typu wyszukiwaniem, a odpowiedź była bardzo pozytywna. Nawet przy takiej jakości wyników Algolia wciąż miała mnóstwo pytań: jak by to zadziałało dla klientów? Czy architektura byłaby skalowalna? Czy było to wykonalne finansowo? Aby na nie odpowiedzieć, Coates wyjaśnia: „Opracowaliśmy konkretne przypadki użycia, które zawierały dłuższą treść tekstową”, takie jak publikacje i punkty pomocy. W niektórych przypadkach wystarczy polegać wyłącznie na GPT-3, aby uzyskać wyniki wyszukiwania, ale w innych skomplikowanych przypadkach może być konieczne zintegrowanie GPT-3 z innymi modelami. GPT-3, do pewnego momentu szkolony na danych, boryka się z przypadkami użycia związanymi z świeżością, popularnością lub spersonalizowanymi wynikami. Jeśli chodzi o jakość wyników, wyzwanie dla zespołu Algolia stanowił fakt, że wyniki podobieństwa semantycznego generowane przez GPT-3 nie były jedynym miernikiem, który miał znaczenie dla ich klientów. Musieli w jakiś sposób połączyć wyniki podobieństwa z innymi miarami, aby zapewnić klientom zadowalające wyniki. Wprowadzili więc inne modele open source, aby podkreślić najlepsze wyniki w połączeniu z GPT-3.

Studium przypadku: Odpowiedzi Algolii

https://aie24.pl/

Algolia to renomowany dostawca rozwiązań wyszukiwania, którego klientami są firmy z listy Fortune 500 oraz start-upy nowej generacji. Oferuje symboliczny interfejs API wyszukiwania oparty na słowach kluczowych, który można zintegrować z dowolnym istniejącym produktem lub aplikacją. W 2020 roku Algolia nawiązała współpracę z OpenAI, aby połączyć GPT-3 z już istniejącą technologią wyszukiwania. Oferta produktów nowej generacji zaowocowała Algolia Answers, która umożliwia klientom budowanie inteligentnego, opartego na semantyce punktu końcowego z jednym wyszukiwaniem dla zapytań. „Budujemy technologię, z której korzystają inne firmy” – mówi Dustin Coates, menedżer produktu w Algolia. Coates twierdzi, że jego zespół rozumie przez inteligentne wyszukiwanie mniej więcej tak: „Szukasz czegoś i natychmiast otrzymujesz odpowiedź — nie tylko wracasz do nagrania, ale wracasz do artykułu — ale wracasz do co właściwie jest odpowiedzią na pytanie. Krótko mówiąc, jest to „funkcja wyszukiwania, w której ludzie nie muszą wpisywać dokładnie tych słów”.