Decydując, czego chcemy

https://aie24.pl/

Przedstawiliśmy algorytmy wyszukiwania służące do znajdowania stanu celu. Ale agenci zorientowani na cel są kruche, gdy otoczenie jest niepewne i gdy należy wziąć pod uwagę wiele czynników. W zasadzie agenci maksymalizujący użyteczność rozwiązują te kwestie w sposób całkowicie ogólny. Dziedziny ekonomii i teorii gier, a także sztuczna inteligencja korzystają z tego spostrzeżenia: po prostu zadeklaruj, co chcesz zoptymalizować i co robi każda akcja, a my możemy obliczyć optymalne działanie. W praktyce jednak teraz zdajemy sobie sprawę, że wybór właściwej funkcji użyteczności jest sam w sobie trudnym problemem. Wyobraźmy sobie na przykład złożoną sieć interakcji preferencji, którą musi zrozumieć agent działający jako asystent biurowy dla człowieka. Problem pogłębia fakt, że każdy człowiek jest inny, więc agent „po wyjęciu z pudełka” nie będzie miał wystarczającego doświadczenia z żadną osobą, aby nauczyć się dokładnego modelu preferencji; z konieczności będzie musiała działać w warunkach niepewności preferencji. Dalsza złożoność pojawia się, jeśli chcemy zapewnić, że nasi agenci działają w sposób sprawiedliwy i sprawiedliwy dla społeczeństwa, a nie tylko jedna osoba. Nie mamy jeszcze dużego doświadczenia w budowaniu złożonych modeli preferencji w świecie rzeczywistym, nie mówiąc już o rozkładach prawdopodobieństwa w takich modelach. Chociaż istnieją czynnikowe formalizmy, podobne do sieci Bayesa, które mają na celu dekompozycję preferencji względem stanów złożonych, ich stosowanie w praktyce okazało się trudne. Jednym z powodów może być to, że preferencje względem stanów są w rzeczywistości kompilowane z preferencji względem historii stanów, które są opisane funkcjami nagrody . Nawet jeśli funkcja nagrody jest prosta, odpowiadająca jej funkcja użyteczności może być bardzo złożona. Sugeruje to, że poważnie traktujemy zadanie inżynierii wiedzy dla funkcji nagrody jako sposobu przekazania naszym agentom tego, co chcemy, aby zrobili. Idea uczenia się przez odwrotne wzmocnienie jest jednym z podejść do tego problemu, gdy mamy eksperta, który może wykonać zadanie, ale nie może go wyjaśnić. Moglibyśmy też używać lepszych języków do wyrażania tego, czego chcemy. Na przykład w robotyce liniowa logika temporalna ułatwia określenie, co chcemy, aby wydarzyło się w najbliższej przyszłości, czego chcemy uniknąć, a czego stwierdza, że ​​chcemy trwać wiecznie . Potrzebujemy lepszych sposobów wyrażania tego, czego chcemy i lepszych sposobów, aby roboty interpretowały dostarczane przez nas informacje. Branża komputerowa jako całość stworzyła potężny ekosystem do agregowania preferencji użytkowników. Gdy klikasz coś w aplikacji, grze online, sieci społecznościowej lub witrynie zakupów, służy to jako zalecenie, że Ty (i Twoi podobni rówieśnicy) chcielibyście zobaczyć podobne rzeczy w przyszłości. (Albo może być tak, że witryna jest zagmatwana i kliknąłeś niewłaściwą rzecz – dane są zawsze zaszumione). Informacje zwrotne nieodłącznie związane z tym systemem sprawiają, że na krótką metę jest on bardzo skuteczny w wybieraniu coraz bardziej uzależniających gier i filmów. Jednak te systemy często nie zapewniają łatwego sposobu rezygnacji – urządzenie automatycznie odtworzy odpowiedni film, ale jest mniej prawdopodobne, że powie Ci „może nadszedł czas, aby odłożyć urządzenia i wybrać się na relaksujący spacer na łonie natury”. Strona z zakupami pomoże Ci znaleźć ubrania pasujące do Twojego stylu, ale nie zajmą się pokojem na świecie ani nie zakończą głodu i ubóstwa. W zakresie, w jakim menu wyborów jest napędzane przez firmy próbujące zyskać na uwadze klienta, menu pozostanie niekompletne. Jednak firmy reagują na zainteresowania klientów, a wielu klientów wyraziło opinię, że są zainteresowani sprawiedliwym i zrównoważonym światem. Tim O’Reilly wyjaśnia, dlaczego zysk nie jest jedynym motywem, posługując się następującą analogią: „Pieniądze są jak benzyna podczas podróży. Nie chcesz, aby podczas podróży zabrakło Ci benzyny, ale nie robisz wycieczki po stacjach benzynowych. Musisz zwracać uwagę na pieniądze, ale nie o pieniądze. Dobrze spędzony czas Tristana Harrisa w Center for Humane Technology jest krokiem w kierunku dawania nam bardziej wszechstronnych wyborów . Ruch porusza problem, który został rozpoznany przez Herberta Simona w 1971 roku: „Bogactwo informacji tworzy ubóstwo uwagi”. Być może w przyszłości będziemy mieli osobistych agentów, którzy będą bronić naszych prawdziwych długoterminowych interesów, a nie interesów korporacji, których aplikacje obecnie wypełniają nasze urządzenia. Zadaniem agenta będzie pośredniczenie w ofertach różnych dostawców, ochrona nas przed uzależniającymi przyciągającymi uwagę i poprowadzenie nas w kierunku celów, które naprawdę są dla nas ważne.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *