Skalowanie w kategoriach modeli językowych było przez długi czas niedoceniane ze względu na koncepcje teoretyczne takie jak brzytwa Ockhama i zanikanie wyników po rozszerzeniu sieci neuronowej do znacznych rozmiarów. W przypadku konwencjonalnego uczenia głębokiego normą zawsze było utrzymywanie małego rozmiaru modelu i mniejszej liczby parametrów, aby uniknąć problemu zanikających gradientów i wprowadzenia złożoności w procesie uczenia modelu. Brzytwa Ockhama, która sugeruje, że „prosty model jest najlepszym modelem”, była święta w społeczności AI od jej powstania. Zasada ta była punktem odniesienia przy szkoleniu nowych modeli, co zniechęcało ludzi do eksperymentowania ze skalą. W 2020 roku, kiedy OpenAI wypuściło swój model języka markizy GPT-3, potencjał skalowania znalazł się w centrum uwagi, a powszechna koncepcja społeczności AI zaczęła się zmieniać. Ludzie zaczęli zdawać sobie sprawę, że „dar skali” może dać początek bardziej uogólnionej sztucznej inteligencji, w której pojedynczy model, taki jak GPT-3, może wykonywać szereg zadań. Hostowanie i zarządzanie modelem takim jak GPT-3 wymaga wyrafinowania na wielu różnych poziomach, w tym optymalizacji architektury modelu, jego wdrożenia i sposobu, w jaki ogół społeczeństwa może uzyskać do niego dostęp. De Moor mówi nam: „Kiedy uruchomiliśmy Copilot, w początkowych fazach korzystał on z infrastruktury OpenAI API, a po uruchomieniu mieliśmy eksplozję reakcji, ponieważ tak wiele osób zarejestrowało się i chciało korzystać z produktu”. Chociaż API było w stanie obsłużyć dużą liczbę żądań, rzeczywista liczba żądań i ich częstotliwość i tak zaskoczyły zespół OpenAI. De Moor i jego zespół „zdali sobie sprawę z potrzeby bardziej wydajnej i większej infrastruktury do wdrażania i na szczęście mniej więcej w tym czasie wyszło na jaw rozwiązanie Microsoft Azure OpenAI”, co umożliwiło im dokonanie wymaganego przejścia na infrastrukturę wdrożeniową Azure . Kiedy zapytaliśmy o doświadczenia w budowaniu i skalowaniu Copilota, de Moor dzieli się: „Na początku mieliśmy błędne przekonanie, że dokładność jest najważniejszą rzeczą, która się liczy, ale jakiś czas później, na drodze do produktu, zdaliśmy sobie sprawę, że tak naprawdę jest to handel -różnica między potężnym modelem sztucznej inteligencji a [] nieskazitelnym doświadczeniem użytkownika. Zespół Copilot szybko zdał sobie sprawę, że istnieje kompromis między szybkością a dokładnością sugestii, jak ma to miejsce w przypadku każdego modelu głębokiego uczenia się o wystarczającej skali. Ogólnie rzecz biorąc, im więcej warstw ma model głębokiego uczenia się, tym będzie on dokładniejszy. Jednak więcej warstw oznacza również, że działanie będzie wolniejsze. Jak wyjaśnia de Moor, zespół Copilot musiał w jakiś sposób znaleźć równowagę między nimi: „Nasz przypadek użycia wymagał, aby model dostarczył odpowiedź z szybkością, błyskawiczna prędkość z wieloma alternatywnymi sugestiami; jeśli nie jest wystarczająco szybki, użytkownicy mogą łatwo wyprzedzić model i sami napisać kod. Odkryliśmy więc, że odpowiedzią był nieco słabszy model, który zapewnia szybkie reakcje przy zachowaniu jakości wyników”. Szybkie przyjęcie przez użytkowników i zainteresowanie GitHub Copilot zaskoczyło wszystkich w zespole, ale na tym się nie skończyło. Ze względu na użyteczność produktu i jakość sugestii dotyczących kodu zespół zaobserwował wykładniczy wzrost ilości kodu wygenerowanego przy użyciu rozwiązania Copilot, przy czym średnio „35% nowo napisanego kodu jest sugerowane przez Copilot. Liczba ta będzie rosnąć w miarę zbliżania się do znalezienia właściwej równowagi między możliwościami modelu a szybkością sugestii” – mówi de Moor. Zapytany o aspekt bezpieczeństwa danych i prywatności kodu przesłanego w ramach żądania do Copilota, de Moor odpowiada: „Architektura Copilota została zaprojektowana w taki sposób, że gdy użytkownik wpisze kod w Copilocie, nie będzie żadnej możliwości wycieku kodu między użytkownikami. GitHub Copilot to syntezator kodu, a nie wyszukiwarka: zdecydowana większość sugerowanego kodu jest generowana unikalnie i nigdy wcześniej nie była widziana. Odkryliśmy, że w około 0,1% przypadków sugestia może zawierać fragmenty pochodzące dosłownie ze zbioru uczącego”.