Wpływ LLM na środowisko

https://aie24.pl/

Praktyczne szkolenie wstępne na dużą skalę wymaga dużej ilości obliczeń, co jest energochłonne. Zapotrzebowanie na głębokie uczenie się szybko wzrosło, a wraz z nim wzrosły potrzebne zasoby obliczeniowe. Wiąże się to ze znacznymi kosztami dla środowiska w postaci niezrównoważonego zużycia energii i emisji gazów cieplarnianych. W badaniu przeprowadzonym w 2019 r. naukowcy z Uniwersytetu Massachusetts oszacowali, że szkolenie w ramach dużego modelu głębokiego uczenia się powoduje wytwarzanie 626 000 funtów dwutlenku węgla powodującego ocieplenie planety, co odpowiada emisji pięciu samochodów w ciągu całego życia. W miarę powiększania się modeli ich potrzeby obliczeniowe przewyższają poprawę wydajności sprzętu. Chipy specjalizujące się w przetwarzaniu sieci neuronowych, takie jak procesory graficzne (jednostki przetwarzania grafiki) i TPU (jednostki przetwarzania tensora), w pewnym stopniu zrównoważyły zapotrzebowanie na większą moc obliczeniową, ale nie w stopniu wystarczającym. Pierwszym wyzwaniem jest pomiar zużycia energii i emisji wyszkolonego modelu. Chociaż opracowano kilka narzędzi (takich jak Experiment Impact Tracker, ML CO2 Impact Calculator i Carbontracker), społeczność ML nie opracowała jeszcze najlepszych praktyk i narzędzi pomiarowych ani nie wypracowała nawyku pomiaru i publikowania danych dotyczących wpływu modeli na środowisko. Badanie przeprowadzone w 2021 r. szacuje, że szkolenie GPT-3 wytworzyło około 552 ton metrycznych dwutlenku węgla. To mniej więcej tyle, ile 120 samochodów wyprodukowałoby w ciągu roku jazdy. Zużycie energii przez GPT-3 podczas treningu wynosi 1287 megawatogodzin (MWh) i jest najwyższe spośród wszystkich LLM zbadanych przez naukowców .Wydaje się, że badacze OpenAI są świadomi kosztów i wydajności swoich modeli. Wstępne uczenie modelu GPT-3 o 175 miliardach parametrów pochłonęło wykładniczo więcej zasobów obliczeniowych niż model GPT-2 o 1,5 miliardach parametrów zużyty w całym procesie uczenia. Oceniając wpływ LLM na środowisko, ważne jest, aby wziąć pod uwagę nie tylko zasoby przeznaczane na szkolenia, ale także sposób, w jaki zasoby te są amortyzowane w miarę używania i dostrajania modelu w trakcie jego życia. Chociaż modele takie jak GPT-3 zużywają znaczne zasoby podczas szkolenia, po przeszkoleniu mogą być zaskakująco wydajne: nawet w przypadku pełnego modelu GPT-3 175B wygenerowanie stu stron treści z wytrenowanego modelu może kosztować rzędu 0,4 kW/h, lub tylko kilka centów w kosztach energii. Dodatkowo, ponieważ GPT-3 charakteryzuje się uogólnieniem obejmującym kilka strzałów, nie trzeba go przeszkolić do każdego nowego zadania, tak jak robią to mniejsze modele. W artykule „Green AI” z 2019 r. opublikowanym w czasopiśmie Communications of the ACM zauważono, że „trend publicznego udostępniania wstępnie wyszkolonych modeli jest sukcesem ekologicznym”, a autorzy zachęcają organizacje, aby „w dalszym ciągu udostępniały swoje modele, aby oszczędzać innym koszty ich przekwalifikowania.” Pojawiło się jeszcze kilka strategii mających na celu zmniejszenie wpływu LLM na planetę. Jak stwierdził Patterson i inni podkreślają: „Co niezwykłe, wybór DNN, centrum danych i procesora może zmniejszyć ślad węglowy aż do ~100-1000X”. Techniki algorytmiczne mogą również poprawić efektywność energetyczną. Niektóre działają, osiągając tę samą dokładność przy mniejszych ogólnych obliczeniach. Inne techniki wykorzystują duży, już wytrenowany model jako punkt wyjścia, aby uzyskać lżejszy, wydajniejszy obliczeniowo model z niemal taką samą dokładnością.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *