Szybkość ma szczególne znaczenie w Algolii; firma obiecuje swoim klientom błyskawiczne możliwości wyszukiwania z opóźnieniami ograniczonymi do zaledwie milisekund. Kiedy zespół ocenił propozycję OpenAI, był zadowolony z jakości wyników, ale opóźnienie GPT-3 było nie do przyjęcia. „W naszym tradycyjnym wyszukiwaniu wyniki pojawiają się w czasie krótszym niż 50 milisekund” – mówi Coates. „Przeszukujemy setki milionów dokumentów i musi to odbywać się w czasie rzeczywistym. Kiedy na początku pracowaliśmy z OpenAI, każde z tych zapytań zajmowało kilka minut. Algolia zdecydowała się dać szansę GPT-3 i rozpoczęła początkową fazę eksperymentów oraz wdrożenie wersji beta Algolia Answers. Jednak zmniejszenie opóźnień i kosztów finansowych wymagało dużego wysiłku. „Zaczęliśmy od całkowitego opóźnienia wynoszącego około 300, czasem 400 milisekund” – wspomina Coates, „które musieliśmy obniżyć do zakresu od 50 do 100 milisekund, aby nasi klienci mogli z niego skorzystać”. Ostatecznie w ramach projektu Algolia opracowała podświetlanie semantyczne – technikę wykorzystującą wyszkolony model pytań i odpowiedzi na podstawie GPT-3 do przeprowadzania miniwyszukiwań i znajdowania prawidłowej odpowiedzi. Połączenie GPT-3 z innymi modelami open source spowodowało zmniejszenie całkowitego opóźnienia. Jakość ich wyników jest lepsza, dodaje Helme-Guizon, ponieważ „modele są przeszkolone w znajdowaniu odpowiedzi, a nie tylko słów, które są ze sobą powiązane”. Helme-Guizon twierdzi, że kluczowym aspektem architektury Algolia Answers jest architektura wyszukiwania czytników, w której czytelnik AI „przegląda podzbiór dokumentów i czyta je, rozumie je w odniesieniu do zapytania za pomocą Ady i daje nam wynik zaufania dla wartości semantycznej.” Chociaż było to „dobre pierwsze rozwiązanie”, dodaje, wiąże się z wieloma wyzwaniami, „zwłaszcza opóźnieniami, ponieważ istnieje zależność, w wyniku której nie można przetwarzać pierwszej i drugiej partii jednocześnie” asynchronicznie. GPT-3 wykorzystuje osadzanie przewidywań do obliczenia podobieństwa cosinus, czyli matematycznej metryki używanej do określenia podobieństwa dwóch dokumentów, niezależnie od ich rozmiaru. Coates podsumowuje te wyzwania: Po pierwsze, „nie można wysłać zbyt wielu dokumentów, w przeciwnym razie odpowiedź będzie zbyt wolna lub koszty będą zbyt wysokie”. Drugim jest zarzucenie „sieci wystarczająco szerokiej, aby można było pobrać wszystkie istotne dokumenty, zachowując jednocześnie czas i koszty pod kontrolą”.