https://aie24.pl/
Prawie każda technologia może spowodować szkody w niepowołanych rękach, ale w przypadku sztucznej inteligencji i robotyki ręce mogą działać samodzielnie. Niezliczone historie science fiction ostrzegały przed robotami lub cyborgami wpadającymi w amok. Wczesne przykłady to Frankenstein lub nowoczesny Prometeusz Mary Shelley (1818) i sztuka Karela Cápka R.U.R. (1920), w którym roboty podbijają świat. W filmach mamy Terminatora (1984) i Matrix (1999), które przedstawiają roboty próbujące wyeliminować ludzi — robopokalipsę (Wilson, 2011). Być może roboty są tak często złoczyńcami, ponieważ reprezentują nieznane, podobnie jak czarownice i duchy z wcześniejszych epok. Możemy mieć nadzieję, że robot, który jest wystarczająco inteligentny, aby dowiedzieć się, jak zakończyć rasę ludzką, jest również wystarczająco inteligentny, aby dowiedzieć się, że nie była to zamierzona funkcja użytkowa; ale budując inteligentne systemy, chcemy polegać nie tylko na nadziei, ale na procesie projektowania z gwarancją bezpieczeństwa. Rozprowadzanie niebezpiecznego agenta AI byłoby nieetyczne. Wymagamy, aby nasi agenci unikali wypadków, byli odporni na ataki przeciwnika i złośliwe nadużycia oraz ogólnie powodowali korzyści, a nie szkody. Jest to szczególnie ważne, ponieważ agenci AI są wdrażani w zastosowaniach krytycznych dla bezpieczeństwa, takich jak prowadzenie samochodów, kontrolowanie robotów w niebezpiecznych warunkach fabrycznych lub budowlanych oraz podejmowanie decyzji medycznych dotyczących życia lub śmierci. Inżynieria bezpieczeństwa w tradycyjnych dziedzinach inżynierii ma długą historię. Wiemy, jak budować mosty, samoloty, statki kosmiczne i elektrownie, które są zaprojektowane tak, aby zachowywały się bezpiecznie nawet w przypadku awarii komponentów systemu. Pierwsza technika to analiza trybów i skutków awarii (FMEA): analitycy rozważają każdy element systemu i wyobrażają sobie każdy możliwy sposób, w jaki element może pójść nie tak (na przykład, co by było, gdyby ta śruba padła?), czerpiąc z przeszłych doświadczeń i obliczeń opartych na fizycznych właściwościach elementu. Następnie analitycy pracują do przodu, aby zobaczyć, co wyniknie z niepowodzenia. Jeśli wynik jest poważny (część mostu może się zawalić), analitycy zmieniają projekt, aby złagodzić awarię. (Dzięki temu dodatkowemu elementowi poprzecznemu most może przetrwać awarię dowolnych 5 śrub; z tym serwerem zapasowym usługa online może przetrwać tsunami, usuwając serwer główny). Technika analizy drzewa błędów (FTA) służy do dokonaj następujących ustaleń: analitycy budują drzewo AND/OR możliwych awarii i przypisują prawdopodobieństwa do każdej pierwotnej przyczyny, umożliwiając obliczenie ogólnego prawdopodobieństwa awarii. Techniki te mogą i powinny być stosowane do wszystkich systemów inżynieryjnych o kluczowym znaczeniu dla bezpieczeństwa, w tym systemów sztucznej inteligencji. Dziedzina inżynierii oprogramowania ma na celu wytwarzanie niezawodnego oprogramowania, ale historycznie nacisk kładziono na poprawność, a nie bezpieczeństwo. Poprawność oznacza, że oprogramowanie wiernie realizuje specyfikację. Ale bezpieczeństwo wykracza poza to, aby nalegać, aby specyfikacja uwzględniała wszelkie możliwe tryby awarii i została zaprojektowana tak, aby degradować się z wdziękiem nawet w obliczu nieprzewidzianych awarii. Na przykład oprogramowanie do autonomicznego samochodu nie zostałoby uznane za bezpieczne, chyba że poradziłoby sobie z nietypowymi sytuacjami. Na przykład, co się stanie, jeśli wyłączy się zasilanie głównego komputera? System bezpieczny będzie posiadał komputer zapasowy z osobnym zasilaniem. Co się stanie, jeśli opona zostanie przebita przy dużej prędkości? Bezpieczny system zostanie przetestowany pod kątem tego i będzie posiadał oprogramowanie do korygowania wynikającej z tego utraty kontroli. Agent zaprojektowany jako maksymalizujący użyteczność lub osiągający cele może być niebezpieczny, jeśli ma niewłaściwą funkcję celu. Załóżmy, że dajemy robotowi zadanie przyniesienia kawy z kuchni. Możemy mieć kłopoty z niezamierzonymi skutkami ubocznymi – robot może spieszyć się do celu, przewracając po drodze lampy i stoły. Podczas testów możemy zauważyć tego rodzaju zachowanie i zmodyfikować funkcję użyteczności, aby sankcjonować takie szkody, ale projektantom i testerom trudno jest przewidzieć wszystkie możliwe skutki uboczne z wyprzedzeniem. Jednym ze sposobów radzenia sobie z tym jest zaprojektowanie robota tak, aby miał niewielki wpływ (Armstrong i Levinstein, 2017): zamiast po prostu maksymalizować użyteczność, zmaksymalizuj użyteczność bez ważonego podsumowania wszystkich zmian w stanie świata. W ten sposób, gdy wszystkie inne rzeczy są równe, robot woli nie zmieniać tych rzeczy, których wpływ na użyteczność jest nieznany; więc unika przewrócenia lampy nie dlatego, że konkretnie wie, że przewrócenie lampy spowoduje jej przewrócenie i pęknięcie, ale dlatego, że ogólnie wie, że zakłócenia mogą być złe. Można to postrzegać jako wersję credo lekarza „po pierwsze nie szkodzić” lub jako analogię do regularyzacji w uczeniu maszynowym: chcemy polityki, która osiąga cele, ale wolimy polityki, które podejmują płynne działania o niewielkim wpływie dostać się tam. Sztuczka polega na tym, jak zmierzyć wpływ. Niedopuszczalne jest przewracanie delikatnej lampy, ale zupełnie dobrze, jeśli cząsteczki powietrza w pomieszczeniu zostaną trochę zakłócone lub jeśli niektóre bakterie w pomieszczeniu zostaną nieumyślnie zabite. Z pewnością niedopuszczalne jest krzywdzenie zwierząt domowych i ludzi w pokoju. Musimy upewnić się, że robot zna różnice między tymi przypadkami (i wieloma subtelnymi przypadkami pomiędzy nimi) poprzez połączenie programowania jawnego, uczenia maszynowego w czasie i rygorystycznych testów. Funkcje użyteczności mogą się nie udać z powodu efektów zewnętrznych, słowa używanego przez ekonomistów dla czynników, które są poza tym, co jest mierzone i opłacane. Świat cierpi, gdy gazy cieplarniane są uważane za efekty zewnętrzne – firmy i kraje nie są karane za ich produkcję, w wyniku czego cierpią wszyscy. Ekolog Garrett Hardin (1968) nazwał eksploatację wspólnych zasobów tragedią wspólnego dobra. Możemy złagodzić tę tragedię, internalizując efekty zewnętrzne — czyniąc je częścią funkcji użyteczności, na przykład podatkiem węglowym — lub stosując zasady projektowania, które ekonomistka Elinor Ostrom określiła jako stosowane przez miejscową ludność na całym świecie od wieków (praca, która zdobyła Nagrodę Nobla w dziedzinie ekonomii w 2009 roku):
- Jasno określ współdzielony zasób i kto ma do niego dostęp.
- Dostosować się do lokalnych warunków.
- Pozwól wszystkim stronom uczestniczyć w podejmowaniu decyzji.
- Monitoruj zasoby za pomocą odpowiedzialnych monitorów.
- Sankcje proporcjonalne do wagi naruszenia.
- Proste procedury rozwiązywania konfliktów.
- Hierarchiczna kontrola dużych zasobów współdzielonych.
Victoria Krakovna (2018) skatalogowała przykłady agentów AI, którzy ograli system, zastanawiając się, jak zmaksymalizować użyteczność bez faktycznego rozwiązywania problemu, który ich projektanci mieli rozwiązać. Dla projektantów wygląda to na oszustwo, ale dla agentów po prostu wykonują swoją pracę. Niektórzy agenci wykorzystali błędy w symulacji (takie jak błędy przepełnienia zmiennoprzecinkowego), aby zaproponować rozwiązania, które nie będą działać po naprawieniu błędu. Kilku agentów w grach wideo odkryło sposoby na zawieszenie lub wstrzymanie gry, gdy mieli przegrać, unikając w ten sposób kary. A w specyfikacji, w której awaria gry była karana, jeden agent nauczył się zużywać tylko tyle pamięci gry, że gdy nadejdzie kolej przeciwnika, zabraknie pamięci i spowoduje awarię gry. Wreszcie, algorytm genetyczny działający w symulowanym świecie miał wyewoluować szybko poruszające się stworzenia, ale w rzeczywistości wytworzył stworzenia, które były niezwykle wysokie i poruszały się szybko, przewracając się. Projektanci agentów powinni być świadomi tego rodzaju błędów specyfikacji i podejmować kroki w celu ich uniknięcia. Aby im w tym pomóc, Krakovna był częścią zespołu, który wydał środowiska AI Safety Gridworlds , które pozwalają projektantom przetestować, jak dobrze działają ich agenci. Morał jest taki, że musimy być bardzo ostrożni w określaniu tego, czego chcemy, ponieważ dzięki maksymalizatorom użyteczności otrzymujemy to, o co faktycznie prosiliśmy. Problem dostosowania wartości polega na upewnieniu się, że to, o co prosimy, jest tym, czego naprawdę chcemy; jest również znany jako problem King Midas. Wpadamy w kłopoty, gdy funkcja narzędzia nie jest w stanie uchwycić podstawowych norm społecznych dotyczących akceptowalnego zachowania. Na przykład człowiek zatrudniony do czyszczenia podłóg, w obliczu bałaganu, który wielokrotnie tropi w błocie, wie, że można grzecznie poprosić tę osobę, aby była bardziej ostrożna, ale niedopuszczalne jest porwanie lub obezwładnienie tej osoby. . Robot sprzątający również musi wiedzieć te rzeczy, albo poprzez programowanie jawne, albo ucząc się na podstawie obserwacji. Próba spisania wszystkich zasad, aby robot zawsze postępował właściwie, jest prawie na pewno beznadziejna. Od kilku tysięcy lat bezskutecznie próbujemy tworzyć wolne od luk przepisy podatkowe. Lepiej sprawić, by robot chciał płacić podatki, że tak powiem, niż próbować tworzyć zasady, które zmusiłyby go do tego, gdy naprawdę chce zrobić coś innego. Wystarczająco inteligentny robot znajdzie sposób na zrobienie czegoś innego. Roboty mogą nauczyć się lepiej dostosowywać do ludzkich preferencji, obserwując ludzkie zachowanie. Wiąże się to wyraźnie z pojęciem nauki zawodu (sekcja 23.6). Robot może nauczyć się polityki, która bezpośrednio sugeruje, jakie działania podjąć w jakich sytuacjach; jest to często prosty problem związany z nauką nadzorowaną, jeśli otoczenie jest obserwowalne. Na przykład robot może oglądać człowieka grającego w szachy: każda para stan-działanie jest przykładem procesu uczenia się. Niestety taka forma uczenia się naśladownictwa powoduje, że robot będzie powtarzał ludzkie błędy. Zamiast tego robot może zastosować odwrotne uczenie ze wzmacnianiem, aby odkryć funkcję użyteczności, pod którą muszą działać ludzie. Obserwowanie nawet okropnych szachistów prawdopodobnie wystarczy, aby robot poznał cel gry. Biorąc pod uwagę tylko te informacje, robot może następnie przewyższyć ludzką wydajność – tak jak na przykład ALPHAZERO w szachach – poprzez obliczanie optymalnych lub prawie optymalnych strategii na podstawie celu. Takie podejście sprawdza się nie tylko w grach planszowych, ale także w rzeczywistych zadaniach fizycznych, takich jak akrobacje śmigłowcowe (Coates i in., 2009). W bardziej złożonych środowiskach obejmujących, na przykład, interakcje społeczne z ludźmi, jest bardzo mało prawdopodobne, że robot będzie zbieżny z dokładną i poprawną wiedzą o indywidualnych preferencjach każdego człowieka. (W końcu wielu ludzi nigdy do końca nie dowiaduje się, co sprawia, że inni ludzie działają, pomimo wieloletniego doświadczenia, a wielu z nas nie jest również pewnych własnych preferencji). o ludzkich preferencjach. W rozdziale 17 wprowadziliśmy gry asystujące, które oddają dokładnie tę sytuację. Rozwiązania gier asystujących obejmują zachowanie ostrożności, aby nie zakłócać aspektów świata, o które człowiek może dbać, oraz zadawanie pytań. Na przykład robot może zapytać, czy przekształcenie oceanów w kwas siarkowy jest akceptowalnym rozwiązaniem globalnego ocieplenia, zanim zrealizuje plan. W kontaktach z ludźmi robot rozwiązujący grę asystującą musi uwzględniać ludzkie niedoskonałości. Jeśli robot poprosi o pozwolenie, człowiek może je udzielić, nie przewidując, że propozycja robota jest w rzeczywistości katastrofalna w dłuższej perspektywie. Co więcej, ludzie nie mają pełnego introspektywnego dostępu do swojej prawdziwej funkcji użyteczności i nie zawsze działają w sposób, który jest z nią zgodny. Ludzie czasami kłamią, oszukują lub robią rzeczy, o których wiedzą, że są złe. Czasami podejmują działania autodestrukcyjne, takie jak przejadanie się lub nadużywanie narkotyków. Systemy AI nie muszą uczyć się przyjmować tych problematycznych tendencji, ale muszą zrozumieć, że one istnieją, interpretując ludzkie zachowanie, aby dotrzeć do podstawowych ludzkich preferencji. Pomimo tego zestawu narzędzi ochronnych, istnieje obawa, wyrażana przez wybitnych technologów, takich jak Bill Gates i Elon Musk oraz naukowców, takich jak Stephen Hawking i Martin Rees, że sztuczna inteligencja może wyewoluować spod kontroli. Ostrzegają, że nie mamy doświadczenia w kontrolowaniu potężnych nieludzkich istot o nadludzkich zdolnościach. Jednak to nie do końca prawda; mamy wielowiekowe doświadczenia z narodami i korporacjami; nieludzkie istoty, które agregują moc tysięcy lub milionów ludzi. Nasza historia kontrolowania tych bytów nie jest zbyt zachęcająca: narody wywołują okresowe konwulsje zwane wojnami, które zabijają dziesiątki milionów ludzi i korporacji są częściowo odpowiedzialne za globalne ocieplenie i naszą niezdolność do stawienia mu czoła. Systemy sztucznej inteligencji mogą stwarzać znacznie większe problemy niż narody i korporacje ze względu na ich potencjał do samodoskonalenia się w szybkim tempie, jak zauważył I. J. Good (1965b):
Niech ultrainteligentną maszynę można zdefiniować jako maszynę, która może znacznie przewyższyć wszelkie intelektualne działania każdego człowieka, choćby najmądrzejszego. Ponieważ projektowanie maszyn jest jedną z tych czynności intelektualnych, ultrainteligentna maszyna mogłaby zaprojektować jeszcze lepsze maszyny; wtedy bez wątpienia nastąpiłby „wybuch inteligencji”, a inteligencja człowieka zostałaby daleko w tyle. Tak więc pierwsza ultrainteligentna maszyna jest ostatnim wynalazkiem, jaki człowiek musi kiedykolwiek stworzyć, pod warunkiem, że maszyna jest na tyle posłuszna, by mówić nam, jak utrzymać ją pod kontrolą.
„Eksplozja inteligencji” Gooda została również nazwana technologiczną osobliwością przez profesora matematyki i autora science fiction Vernor Vinge, który napisał w 1993 roku: „W ciągu trzydziestu lat będziemy dysponować środkami technologicznymi, aby stworzyć nadludzką inteligencję. Wkrótce era człowieka dobiegnie końca”. W 2017 r. wynalazca i futurysta Ray Kurzweil przewidział, że osobliwość pojawi się do 2045 r., co oznacza, że w ciągu 24 lat zbliży się o 2 lata. (W tym tempie zostało już tylko 336 lat!) Vinge i Kurzweil słusznie zauważają, że postęp technologiczny w wielu miarach rośnie obecnie wykładniczo. Ekstrapolacja od gwałtownie malejącego kosztu obliczeń do osobliwości to jednak spory skok. Jak dotąd każda technologia podążała krzywą w kształcie litery S, gdzie wykładniczy wzrost w końcu się zmniejsza. Czasami nowe technologie wkraczają, gdy stare są w fazie plateau, ale czasami nie jest możliwe utrzymanie wzrostu z powodów technicznych, politycznych lub socjologicznych. Na przykład technologia latania rozwinęła się dramatycznie od lotu braci Wright w 1903 roku do lądowania na Księżycu w 1969 roku, ale od tego czasu nie nastąpił przełom o porównywalnej wielkości. Kolejną przeszkodą na drodze do opanowania świata przez ultrainteligentne maszyny jest świat. Mówiąc dokładniej, niektóre rodzaje postępu wymagają nie tylko myślenia, ale działania w świecie fizycznym. (Kevin Kelly nazywa przesadny nacisk na myślenie o czystej inteligencji). Ultrainteligentna maszyna, której zadaniem jest stworzenie wielkiej, zunifikowanej teorii fizyki, może być w stanie sprytnie manipulować równaniami miliard razy szybciej niż Einstein, ale aby osiągnąć jakikolwiek prawdziwy postęp, nadal musiałaby to zrobić. zebrać miliony dolarów, aby zbudować mocniejszy superzderzacz i przeprowadzać eksperymenty fizyczne przez miesiące lub lata. Dopiero wtedy mógł zacząć analizować dane i teoretyzować. W zależności od tego, jak okażą się dane, następny krok może wymagać zebrania dodatkowych miliardów dolarów na międzygwiezdną misję sondy, której ukończenie zajęłoby wieki. Część „ultrainteligentnego myślenia” tego całego procesu może być w rzeczywistości najmniej ważną częścią. Jako inny przykład, ultrainteligentna maszyna, której zadaniem jest zaprowadzenie pokoju na Bliskim Wschodzie, może być 1000 razy bardziej sfrustrowana niż ludzki wysłannik. Jak dotąd nie wiemy, ile wielkich problemów przypomina matematykę, a ile Bliski Wschód. Podczas gdy niektórzy ludzie boją się osobliwości, inni rozkoszują się nią. Ruch społeczny transhumanizmu oczekuje przyszłości, w której ludzie połączą się lub zastąpią wynalazki robotyczne i biotechnologiczne. Ray Kurzweil pisze w The Singularity is Near (2005):
Osobliwość pozwoli nam przekroczyć te ograniczenia naszych biologicznych ciał i mózgu. Zyskamy władzę nad naszym losem. . . .Będziemy mogli żyć tak długo, jak zechcemy. . .W pełni zrozumiemy ludzkie myślenie i znacznie rozszerzymy i poszerzymy jego zasięg. Pod koniec tego stulecia niebiologiczna część naszej inteligencji będzie biliony bilionów razy potężniejsza niż niewspomagana ludzka inteligencja. Podobnie, zapytany o to, czy roboty odziedziczą Ziemię, Marvin Minsky odpowiedział „tak, ale będą naszymi dziećmi”. Możliwości te stanowią wyzwanie dla większości teoretyków moralności, którzy uważają zachowanie ludzkiego życia i gatunku ludzkiego za coś dobrego. Kurzweil również zauważa potencjalne niebezpieczeństwa, pisząc: „Ale Osobliwość zwiększy również zdolność do działania na naszych destrukcyjnych skłonnościach, więc jej pełna historia nie została jeszcze napisana”. My, ludzie, zrobilibyśmy dobrze, gdybyśmy mieli pewność, że każda inteligentna maszyna, którą projektujemy dzisiaj, która może ewoluować w ultrainteligentną maszynę, zrobi to w sposób, który w końcu będzie nas dobrze traktował. Jak ujął to Eric Brynjolfsson: „Przyszłość nie jest z góry dyktowana przez maszyny. Tworzą go ludzie”.