100 Pytań o A.I. : Jakie są niektóre etyczne pytania dotyczące życia z robotami?

Nie ma wątpliwości, że dziedziny robotyki i sztucznej inteligencji wygenerują wiele dobrych rzeczy na świecie. Może to obejmować szybsze badania nad poważnymi chorobami i ich leczeniem, zmniejszające liczbę ofiar śmiertelnych wypadków drogowych i pomagające między innymi stymulować wzrost gospodarczy. Mimo to wciąż istnieje wiele podstawowych problemów etycznych, które pojawiają się przy stosowaniu robotycznych technologii. Jedną z podstawowych przesłanek, którą eksperci w tej dziedzinie proponowali od lat, jest to, że tworzenie robotów pomocniczych zawsze powinno odbywać się z myślą o tym, aby pomóc nam prowadzić lepsze życie, promując dobrobyt ludzkości. Nie ma jednak gwarancji, że każda osoba fizyczna lub firma wdrażająca te technologie zastosuje się do tych wytycznych. Ponadto wielu może napotkać złożone problemy etyczne w poszukiwaniu korzyści ekonomicznych za pomocą narzędzi sztucznej inteligencji. Rozważając sposoby wdrażania technologii robotycznych i sztucznej inteligencji, oto kilka etycznych pytań, o których należy pamiętać:

•  W jaki sposób możemy zapewnić, że robotyka nie będzie promować nierówności na świecie? Ponieważ jest bardzo prawdopodobne, że niewielka liczba zamożnych ludzi jako pierwsza zainwestuje w robotykę, ważne będzie stworzenie inicjatyw mających na celu rozpowszechnianie informacji i możliwości edukacyjnych wśród wszystkich grup społeczno-ekonomicznych w odniesieniu do korzyści płynących z zasobów opartych na sztucznej inteligencji. Jak można tego dokonać?

•  Jak możemy zachować umiejętności społeczne w miarę wzrostu interakcji z robotyką? Za każdym razem, gdy nowy rodzaj technologii jest szeroko stosowany, zmienia sposób interakcji ludzi, nie tylko za pomocą tego narzędzia, ale także między sobą. W jaki sposób możemy zachęcać do pozytywnych relacji międzyludzkich w technologii AI, aby nie stracić niezbędnych umiejętności komunikacyjnych?

•  Czy powinniśmy w pełni ufać robotom? Zrobotyzowane narzędzia są już używane w centrach chirurgicznych i szpitalach, wojsku i innych sytuacjach potencjalnie śmiertelnych, co może się nasilać. Ponieważ wykorzystanie robotyki stale rośnie w innych branżach i dla poważnych celów, jak powinniśmy zareagować, jeśli narzędzia AI nie zrobią tego, co powinny, lub nawet spowodują szkody? Co się stanie, gdy ludzie zaczną wątpić we własną ocenę sytuacji, polegając zamiast tego na robotach, które udzielą odpowiedzi na ważne pytania? Jednym z pomysłów jest stworzenie “etycznej czarnej skrzynki”, która ma zostać osadzona we wszystkich robotach, co pozwoliłoby im wyjaśnić procesy decyzyjne, z którą zdecydowanie się zgadzam.

•  Jakie prawa powinny mieć roboty? Podczas gdy ludzie mają podstawowe prawa wewnętrzne uzgodnione i chronione przez większość rządów, jakie prawa, jeśli w ogóle, powinny mieć inteligentne roboty?

•  W jaki sposób skutecznie regulujemy stosowanie robotów? Ponieważ technologie robotyczne stają się tańsze i czasochłonne w tworzeniu, jakie decyzje legislacyjne będziemy musieli podjąć jako społeczeństwo, aby pomóc nam uniknąć błędów o strasznych konsekwencjach w rozwoju i stosowaniu tych narzędzi?

To tylko próbka niektórych kwestii etycznych, którymi należy się zająć teraz, na wczesnych etapach rozwoju technologii robotycznych, zarówno w sferze publicznej, jak i politycznej. Ponieważ możliwe jest, że wiele danych kodu źródłowego dla robotów będzie typu “open source” (co oznacza, że są dostępne dla wszystkich), istnieje duże prawdopodobieństwo, że narzędzia te będą miały ogromny wpływ na nasze życie, na dobre i na złe. Już teraz niektóre firmy, które uczestniczą w opracowywaniu i wykorzystywaniu narzędzi AI i robotyki, zjednoczyły się, aby stworzyć Partnerstwo w zakresie sztucznej inteligencji (więcej informacji na ten temat można znaleźć na stronie www.partnershiponai.org), która ma na celu zwiększenie publicznego zrozumienia AI i technologie robotyczne oraz zachęcanie do dyskusji na pokrewne tematy. Inna podobna inicjatywa, której przewodzi Reid Hoffman, założyciel sieci Omidyar, Knight Foundation i LinkedIn, nosi nazwę Etyka i Zarządzanie Funduszu Sztucznej Inteligencji. Obecnie jednak inicjatywy te nie są powszechnie znane, dlatego wiele osób nie zdaje sobie sprawy z tempa rozwoju robotyki i tego, jak ważne jest, aby osoby prywatne, firmy, a nawet rządy zaczęły myśleć i mówić o skutkach technologii robotycznych teraz.

Optymalne polityki i użyteczność stanów

Po ustaleniu, że użyteczność danej historii jest sumą zdyskontowanych nagród, możemy porównać polisy, porównując oczekiwane użyteczności uzyskane podczas ich realizacji. Zakładamy, że agent znajduje się w pewnym stanie początkowym s i definiujemy St (zmienną losową) jako stan, który agent osiąga w czasie t podczas wykonywania określonej polityki π. (Oczywiście, S0=s, stan, w którym znajduje się agent.) Rozkład prawdopodobieństwa na sekwencje stanów S1,S2, … jest określany przez stan początkowy, politykę π i model przejściowy dla środowiska. Oczekiwana użyteczność uzyskana przez wykonanie π startu w s jest dana wzorem

gdzie oczekiwanie E odnosi się do rozkładu prawdopodobieństwa w ciągach stanów określonych przez s i π . Teraz ze wszystkich polityk, które agent może wybrać do wykonania, zaczynając od s, jedna (lub więcej) będzie miała wyższe oczekiwane narzędzia niż wszystkie inne. Użyjemy π*s do oznaczenia jednej z tych zasad:

Pamiętaj, że π*s to polityka, więc zaleca działanie dla każdego stanu; jego związek z s w szczególności polega na tym, że jest to optymalna polityka, gdy s jest stanem początkowym. Niezwykłą konsekwencją stosowania zdyskontowanych narzędzi o nieskończonych horyzontach jest to, że optymalna polityka jest niezależna od stanu wyjściowego. (Oczywiście sekwencja działań nie będzie niezależna; pamiętaj, że polityka to funkcja określająca akcję dla każdego stanu.) Ten fakt wydaje się intuicyjnie oczywisty: jeśli polityka π*a jest optymalna, zaczynając od a  polityka π*b jest optymalna, zaczynając od b, a następnie, gdy osiągną trzeci stan c, nie ma powodu, aby nie zgadzali się ze sobą lub z π*c , co dalej. Możemy więc po prostu napisać optymalną politykę. Biorąc pod uwagę tę definicję, prawdziwa użyteczność stanu to Uπ((s) – to znaczy oczekiwana suma zdyskontowanych nagród, jeśli agent realizuje optymalną politykę. Piszemy to jako U(s), pasując do notacji dla użyteczności wyniku. Rysunek przedstawia narzędzia dla świata 4 x 3 . Zauważ, że narzędzia są wyższe dla stanów bliżej wyjścia +1, ponieważ do wyjścia potrzeba mniej kroków.

Funkcja użyteczności U(s) pozwala agentowi wybrać działania zgodnie z zasadą maksymalnej oczekiwanej użyteczności, czyli wybrać działanie, które maksymalizuje nagrodę za kolejny krok plus oczekiwaną zdyskontowaną użyteczność kolejnego stanu:

Zdefiniowaliśmy użyteczność stanu, U(s), jako oczekiwaną sumę zdyskontowanych nagród od tego momentu. Z tego wynika, że istnieje bezpośredni związek między użytecznością państwa a użytecznością I jego sąsiadów: użyteczność państwa to oczekiwana nagroda za następne przejście plus zdyskontowana użyteczność następnego stanu, przy założeniu, że agent wybiera optymalne działanie. Oznacza to, że użyteczność stanu jest dana przez

Nazywa się to równaniem Bellmana, od Richarda Bellmana (1957). Użyteczności stanów — określone równaniem (jako oczekiwana użyteczność kolejnych ciągów stanów – są rozwiązaniami układu równań Bellmana. W rzeczywistości są to unikalne rozwiązania. Spójrzmy na jedno z równań Bellmana dla świata 4 x 3 . Wyrażenie na U(1;1) to

gdzie cztery wyrażenia odpowiadają ruchom w górę, w lewo, w dół i w prawo. Kiedy wstawiamy liczby z rysunku powyżej, przy ϒ=1, okazuje się, że najlepszym działaniem jest Up. Inną ważną wielkością jest funkcja użyteczności działania, czyli funkcja Q: Q(s,a) to oczekiwana użyteczność podjęcia danego działania w danym stanie. Funkcja Q jest związana z mediami w oczywisty sposób:

Ponadto optymalną politykę można wyodrębnić z funkcji Q w następujący sposób:

Możemy również opracować równanie Bellmana dla funkcji Q, zauważając, że oczekiwana całkowita nagroda za podjęcie działania jest jego natychmiastową nagrodą plus zdyskontowana użyteczność stanu końcowego, który z kolei może być wyrażony w postaci funkcji Q:

Rozwiązanie równań Bellmana dla U (lub dla Q) daje nam to, czego potrzebujemy, aby znaleźć optymalną politykę. Funkcja Q pojawia się raz za razem w algorytmach rozwiązywania MDP, więc zastosujemy następującą definicję:

100 Pytań o A.I.: Sztuczna inteligencja w akcji: hotel prowadzony przez roboty?

Chociaż istnieje wiele przykładów sztucznej inteligencji aby pomóc firmom z branży usługowej i hotelarskiej, Henn na Hotel w Japonii jest klasą samą w sobie. Ten niezwykły hotel, założony przez Hideo Sawadę, jest pierwszym na świecie prowadzonym przez “personel”, który składa się prawie w całości z robotów. Głównym celem tego innowacyjnego eksperymentu było ustalenie, czy prowadzenie hotelu prawie wyłącznie za pomocą robotów zmaksymalizuje jego ogólną wydajność i obsługę. Początkowe wyniki były pozytywne, a Henn na już się rozwija, replikując ten hotel w innych lokalizacjach, aby ostatecznie otworzyć podobne hotele w Japonii i na całym świecie. Oto kilka przykładów wykorzystania robotów przez Henn na Hotel:

•  Recepcjoniści: robotowi recepcjoniści wyglądają prawie jak ludzie i potrafią mówić po angielsku, japońsku i koreańsku.

•  Bellhops: Ci robotyczni asystenci mogą dostarczyć bagaż bezpośrednio do pokoju. Ponadto hotel jest bezkluczykowy, a pokoje są otwierane w oparciu o technologię rozpoznawania twarzy.

•  Concierge: Ten aktywowany głosem robot Concierge działa w pokoju hotelowym, aby włączać i wyłączać urządzenia oraz dostarczać informacji o pogodzie i innych, a wszystko to za pomocą kilku prostych poleceń ustnych.

Istnieje wiele innych robotów wykorzystywanych w Henn na, w tym jeden, który jest dostępny do ochrony Twojego bagażu. W sumie Henn na ma około 140 robotów, a także 7 pracowników personelu do spraw nadzoru i kontroli jakości. Dzięki zespołowi robotów, głównie robotów, zarząd tego hotelu nie musi martwić się wynagrodzeniem za godziny nadliczbowe, urlopami, premiami lub innymi tradycyjnymi problemami związanymi z personelem. Henn na Hotel jest kluczowym przykładem tego, w jaki sposób przemysłowi usługowemu pomoże technologia robotyczna, chociaż ten hotel może być dla niektórych zbyt ekstremalny; wielu turystów woli mieć poczucie więzi międzyludzkich podczas pobytu w hotelu. Najprawdopodobniej idealna kombinacja dla firm z branży hotelarsko-gastronomicznej będzie polegać na oferowaniu mieszanki tradycyjnych kontaktów międzyludzkich z robotami-asystentami. W przyszłości prawdopodobnie będzie coraz więcej firm z branży usługowej i hotelarskiej wprowadzających roboty wspomagające współpracujące z tradycyjnymi pracownikami ludzkimi. W takim przypadku ich celem powinno być nadal zapewnianie wysokiej jakości usług i oferowanie doskonałej obsługi klienta.

Narzędzia w czasie

W przykładzie MDP na rysunku wcześniejszym wydajność agenta była mierzona sumą nagród za doświadczane przejścia. Ten wybór miary wydajności nie jest arbitralny, ale nie jest jedyną możliwością dla funkcji użyteczności2 w historiach środowiska, które zapisujemy jako Uh([s0;a0; s1;a1,…, sn]). Pierwsze pytanie, na które należy odpowiedzieć, to czy istnieje horyzont skończony czy nieskończony dla podejmowania decyzji. Skończony horyzont oznacza, że istnieje ustalony czas N, po którym nic nie ma znaczenia — gra się, że tak powiem, skończona. Zatem,

dla wszystkich k > 0. Załóżmy na przykład, że agent zaczyna się w (3,1) w świecie 4 x 3 z rysunku i załóżmy, że N=3. Następnie, aby mieć jakąkolwiek szansę na osiągnięcie stanu +1, agent musi skierować się bezpośrednio w jego stronę, a optymalnym działaniem jest wejście w górę. Z drugiej strony, jeśli N=100, to jest mnóstwo czasu, aby obrać bezpieczną trasę, jadąc w lewo. Tak więc przy skończonym horyzoncie optymalne działanie w danym stanie może zależeć od tego, ile czasu pozostało. Polisa zależna od czasu nazywana jest niestacjonarną. Z drugiej strony bez ustalonego limitu czasowego nie ma powodu, aby zachowywać się inaczej w tym samym stanie w różnym czasie. Zatem optymalne działanie zależy tylko od aktualnego stanu, a optymalna polityka jest stacjonarna. Zasady dla przypadku o nieskończonym horyzoncie są zatem prostsze niż te dla przypadku o skończonym horyzoncie iw tym rozdziale zajmujemy się głównie przypadkiem o nieskończonym horyzoncie. (Później zobaczymy, że dla środowisk częściowo obserwowalnych, nieskończony horyzont przypadek nie jest taki prosty.) Zauważ, że „nieskończony horyzont” niekoniecznie oznacza, że ​​wszystkie ciągi stanów są nieskończone; oznacza to tylko, że nie ma ustalonego terminu. W MDP o nieskończonym horyzoncie, który zawiera stan końcowy, mogą istnieć skończone sekwencje stanów. Kolejnym pytaniem, na które musimy się zdecydować, jest to, jak obliczyć użyteczność ciągów stanów. W tej części będziemy dodawać zniżkowe nagrody: użyteczność historii to

gdzie współczynnik dyskonta γ jest liczbą z zakresu od 0 do 1. Współczynnik dyskonta opisuje preferencje agenta dla bieżących nagród w stosunku do przyszłych nagród. Gdy γ zbliża się do zera, nagrody w odległej przyszłości są postrzegane jako nieistotne. Gdy γ zbliża się do 1, agent chętniej czeka na długoterminowe nagrody. Kiedy γ wynosi dokładnie 1, nagrody ze zniżką sprowadzają się do szczególnego przypadku nagród czysto addytywnych. Zauważ, że addytywność została użyta niejawnie w naszym użyciu funkcji kosztu ścieżki w heurystycznych algorytmach wyszukiwania.

Istnieje kilka powodów, dla których nagrody ze zniżką addytywną mają sens. Jedna jest empiryczna: wydaje się, że zarówno ludzie, jak i zwierzęta cenią sobie nagrody krótkoterminowe bardziej niż nagrody w odległej przyszłości. Inny jest ekonomiczny: jeśli nagrody są pieniężne, naprawdę lepiej jest je zdobyć wcześniej niż później, ponieważ wczesne nagrody można zainwestować i przynosić zwroty podczas oczekiwania na późniejsze nagrody. W tym kontekście współczynnik dyskontowy γ jest równoważny do stopy procentowej (1/γ -1. Na przykład współczynnik dyskontowy γ=0:9 odpowiada stopie procentowej 11,1%. Trzecim powodem jest niepewność co do prawdziwych nagród: mogą nigdy nie nadejść z różnych powodów, które nie są brane pod uwagę w modelu przejściowym. Przy pewnych założeniach współczynnik dyskontowy gamma jest równoznaczny z dodaniem prawdopodobieństwa 1-γ przypadkowego zakończenia w każdym kroku czasowym, niezależnie od podjętego działania. Czwarte uzasadnienie wynika z naturalnej właściwości preferencji w stosunku do historii. W terminologii wieloatrybutowej teorii użyteczności, każde przejścia  może być postrzegany jako atrybut historii [s0,a0,s1,a1,s2…]. W zasadzie funkcja użyteczności może zależeć w dowolnie złożony sposób od tych atrybutów. Istnieje jednak wysoce prawdopodobne założenie, że preferencje są niezależne od preferencji, a mianowicie, że preferencje podmiotu między sekwencjami stanów są stacjonarne. Załóżmy dwie historie [s0;a0, s1,a1, s2,…] i [s’0;a’0; s’1;a’1 ; s’2,…] zaczynają się od tego samego przejścia (tj. s0=s’0, a0=a’0 i s1=s’1). Wtedy stacjonarność preferencji oznacza, że ​​dwie historie powinny być uporządkowane według preferencji w taki sam sposób, jak historie [s1,a1, s2,…] i [s’1;a’1; s’0,…]. W języku polskim oznacza to, że jeśli wolisz jedną przyszłość od drugiej, która zaczyna się jutro, to i tak powinieneś preferować tę przyszłość, jeśli zamiast tego ma zaczynać się dzisiaj. Stacjonarność jest dość nieszkodliwym założeniem, ale dyskontowanie addytywne jest jedyną formą użyteczności na historiach, które go satysfakcjonują. Ostatecznym uzasadnieniem przecenionych nagród jest to, że dogodnie sprawia, że ​​niektóre paskudne nieskończoności znikają. W przypadku horyzontów nieskończonych istnieje potencjalna trudność: jeśli środowisko nie zawiera stanu końcowego lub jeśli agent nigdy go nie osiągnie, wszystkie historie środowiska będą nieskończenie długie, a narzędzia z addytywnymi, niedyskontowalnymi nagrodami będą generalnie nieskończone. Chociaż możemy się zgodzić, że +∞ jest lepsze niż -∞, porównanie dwóch sekwencji stanów z użytecznością +∞ jest trudniejsze. Istnieją trzy rozwiązania, z których dwa już widzieliśmy:

1. Przy obniżonych nagrodach użyteczność nieskończonej sekwencji jest skończona. W rzeczywistości, jeśli γ < 1 i nagrody są ograniczone przez ±Rmax, mamy

używając standardowego wzoru na sumę nieskończonego szeregu geometrycznego.

  1. Jeśli środowisko zawiera stany końcowe i jeśli agent ma pewność, że w końcu osiągnie jeden, nigdy nie będziemy musieli porównywać nieskończonych sekwencji. Polityka, która gwarantuje osiągnięcie stanu końcowego, nazywana jest polityką właściwą. Przy odpowiednich zasadach możemy użyć γ=1 (tj. dodatkowych nagród bez rabatu). Pierwsze trzy zasady przedstawione na rysunku (b) są prawidłowe, ale czwarta jest niewłaściwa.

Zyskuje nieskończoną całkowitą nagrodę, pozostając z dala od stanów końcowych, gdy nagroda za przejścia między stanami nieterminalnymi jest dodatnia. Istnienie niewłaściwych zasad może spowodować, że standardowe algorytmy rozwiązywania problemów MDP zakończą się niepowodzeniem z dodatkowymi nagrodami, a zatem stanowi dobry powód do korzystania ze zdyskontowanych nagród.

  1. Nieskończone sekwencje mogą być porównywane pod względem średniej nagrody uzyskanej na czas kroku Średnia nagroda. Załóżmy, że przejścia do kwadratu (1,1) w świecie 4 x 3 mają nagrodę 0,1, podczas gdy przejścia do innych stanów nieterminalnych mają nagrodę 0,01. Wtedy polisa, która stara się pozostać w (1,1), będzie miała wyższą średnią nagrodę niż polisa, która zostaje gdzie indziej. Średnia nagroda jest użytecznym kryterium dla niektórych problemów, ale analiza algorytmów średniej nagrody jest złożona.

Nagrody ze zniżką addytywną stanowią najmniej trudności w ocenie historii, więc odtąd będziemy z nich korzystać.

100 Pytań o A.I. : Jakie są najbardziej wyrafinowane roboty?

Boston Dynamics stał się wiodącą firmą z branży robotyki budując najbardziej zaawansowane roboty, jakie do tej pory widzieliśmy. Firma rozpoczęła swoją działalność w Massachusetts Institute of Technology (MIT) jako projekt mający na celu budowę robotów, które manewrują jak zwierzęta. Większość początkowych opracowań robotów Boston Dynamics była finansowana z kontraktów wojskowych. Zmieniło się to jednak, gdy firma została kupiona przez Google (Alphabet Inc.) w 2013 r., A następnie kupiona od Alphabet przez SoftBank w czerwcu 2017 r. Powodem, dla którego Boston Dynamics jest tak znaczący, jest to, że była pierwszą firmą, która stworzyła i zaprezentowała się roboty, które są wyjątkowo wyrafinowane pod względem wzornictwa i zwinności. Roboty te wykazały zdolność wykonywania skomplikowanych zadań, które do tej pory były widoczne tylko w filmach. Dzięki serwisom społecznościowym, takim jak YouTube i Facebook, prezentującym filmy z ich robotycznych dzieł, Boston Dynamics cieszy się dużą popularnością. Ta uwaga przyniosła społeczeństwu zupełnie nową świadomość tego, co roboty mogą naprawdę zrobić, oraz szeroką gamę możliwości, jakie roboty zapewniają dla wzbogacenia naszego życia. Oto tylko trzy przykłady innowacyjnych robotów zaprojektowanych przez Boston Dynamics.

•  Uchwyt: Model robota z uchwytem jest dwunożny, który łączy koła i kończyny, zapewniając mu dużą siłę i mobilność. Koła umożliwiają robotowi szybkie poruszanie się po płaskich powierzchniach, podczas gdy nogi umożliwiają mu poruszanie się w prawie każdym terenie. Uchwyt może również wykonywać skoki o długości 120 cm , co podnosi imponującą już wysokość maszyny o wysokości 200 cm. Robot ma 10 aktywowanych połączeń, umożliwiając mu podnoszenie ciężkich przedmiotów i manewrowanie w różnych przestrzeniach. Może przejechać 24 km przy pełnym naładowaniu z prędkością 14 km/h i jest wyposażony w siłowniki elektryczne i hydrauliczne. Uchwyt został po raz pierwszy zaprezentowany w filmie podczas DARPA Robotics Challenge 2015. Magazyn przewodowy nazwał robota “cudem ewolucji”.

•  Spot: Zgodnie z historią robotów zwierzęcych Boston Dynamics przedstawił Spot, robota, który ma dostarczać paczki na konferencji TED 2017. Ten robot został zaprojektowany przez firmę w celu znalezienia sposobów na komercjalizację swoich dzieł. Boston Dynamics zachęca Spot do ćwiczenia dostarczania paczek do domów pracowników, aby pomóc udoskonalić jego możliwości i wygląd. Punkt ma 12 przegubów, jest zasilany elektrycznie i ma hydrauliczne sterowanie. Został zaprojektowany z myślą o zadaniach zarówno wewnętrznych, jak i zewnętrznych, i może działać przez 45 minut na jednym ładowaniu. Ponadto, zgodnie ze stroną internetową firmy, wykorzystując LIDAR i widzenie stereo, Spot wyczuwa trudny teren.

•  Spot Mini: mniejsza wersja robota psa Boston Dynamics została zaprojektowana jako pomocny pracownik w biurze, domu i na zewnątrz. Spot Mini może unieść do 30 funtów, ma stawy i ma zdolność wspinania się po schodach. W sumie Spot Mini waży 25 funtów i może działać przez 90 minut po pełnym naładowaniu. Mini jest bardziej mobilny niż większa wersja i jest wyposażony w ramię, za pomocą którego można podnosić i dostarczać przedmioty. Jest również wyposażony w kamery stereo, kamery głębokości oraz czujniki położenia / siły w kończynach, które pomagają w nawigacji i mobilności. Ponadto firma twierdzi, że jest to najcichszy robot, który zbudowali.

Dyrektor generalny Boston Dynamics, Marc Raibert powiedział : “Naszym celem jest budowanie robotów, które są równe lub większe od ludzi pod względem mobilności, sprawności manualnej, percepcji i inteligencji” – powiedział Raibert. Raibert uważa również, że robotyka będzie większa niż Internet. Te roboty to tylko kilka przykładów tych, które są projektowane dzisiaj, a będzie ich o wiele, wiele więcej w przyszłości. Ponieważ roboty będą wkrótce dominować w przestrzeni komercyjnej, nadszedł czas, aby lepiej poznać różne rodzaje robotów i ich możliwości w życiu codziennym. Kolejną firmą, która była w centrum uwagi mediów, jest Hanson Robotics, która stworzyła robota o zadziwiająco ludzkim wyglądzie Sophia. Według strony internetowej firmy Sophia może uczyć dzieci, pomagać osobom starszym, a co najdziwniejsze nawet naśladować mimikę twarzy. W październiku 2017 r. Arabia Saudyjska przyznała honorowe obywatelstwo robotowi Sophii, ruchowi, który przez wielu uważany był za chwyt reklamowy. Powszechnie wierzono w to ze względu na dobrze znaną ambicję kraju, aby przekształcić gospodarkę uzależnioną od ropy naftowej w gospodarkę opartą na cyfrach. Ponadto wielu ekspertów zgadza się, że przyznanie praw obywatelskich obiektowi nieożywionemu, jak robot, może być problematyczny z kilku powodów.

Problemy z podejmowaniem decyzji sekwencyjnych

Załóżmy, że agent znajduje się w środowisku 4x 3 pokazanym na rysunku (a).

Począwszy od stanu początkowego, musi wybrać akcję w każdym kroku czasowym. Interakcja z otoczeniem kończy się, gdy agent osiągnie jeden ze stanów docelowych, oznaczonych jako +1 lub –1. Podobnie jak w przypadku problemów z wyszukiwaniem, działania dostępne dla agenta w każdym stanie są podane jako ACTIONS, czasami skracane do A(s); w środowisku 4 3 działania w każdym stanie to Góra, Dół, Lewo i Prawo. Na razie zakładamy, że środowisko jest w pełni obserwowalne, dzięki czemu agent zawsze wie, gdzie się znajduje. Gdyby środowisko było deterministyczne, rozwiązanie byłoby proste: [W górę, W górę, W prawo, W prawo, W prawo]. Niestety, środowisko nie zawsze przyjmie takie rozwiązanie, ponieważ działania są zawodne. Konkretny model ruchu stochastycznego, który przyjmujemy, ilustruje rysunek (b).

Każde działanie osiąga zamierzony efekt z prawdopodobieństwem 0,8, ale przez resztę czasu działanie przesuwa agenta pod kątem prostym do zamierzonego kierunku. Co więcej, jeśli agent wpadnie na ścianę, pozostanie na tym samym kwadracie. Na przykład od pola początkowego (1,1) akcja Up przesuwa agenta do (1,2) z prawdopodobieństwem 0,8, ale z prawdopodobieństwem 0,1 przesuwa się w prawo do (2,1), a z prawdopodobieństwem 0,1 porusza się w lewo, uderza w ścianę i pozostaje w (1,1). W takim środowisku sekwencja [Up;Up; Prawidłowy; Prawidłowy; Po prawej] wznosi się wokół bariery i osiąga stan docelowy na poziomie (4,3) z prawdopodobieństwem 0,85=0:32768. Istnieje również niewielka szansa na przypadkowe osiągnięcie celu, postępując w drugą stronę z prawdopodobieństwem 0,14 0:8, co daje całkowitą sumę 0,32776. Podobnie jak w rozdziale 3, model przejścia (lub po prostu „model”, gdy znaczenie jest jasne) opisuje wynik każdego działania w każdym stanie. Tutaj wynik jest stochastyczny, więc zapisujemy P(s’| s,a) dla prawdopodobieństwa osiągnięcia stanu s’, jeśli akcja a jest wykonana w stanie s. (Niektórzy autorzy piszą T(s,a,s’) dla modelu przejścia.) Założymy, że przejścia są markowskie: prawdopodobieństwo osiągnięcia s’ z s zależy tylko od s, a nie od historii wcześniejszych stanów. Aby zakończyć definicję środowiska zadań, musimy określić funkcję użytkową dla agenta. Ponieważ problem decyzyjny jest sekwencyjny, funkcja użyteczności będzie zależeć od sekwencji stanów i działań – historii środowiska – a nie od pojedynczego stanu. W dalszej części tej sekcji zbadamy naturę funkcji użyteczności na historiach; na razie po prostu zakładamy, że za każde przejście od s do s’ poprzez akcję a agent otrzymuje nagrodę R(s,a,s’). Nagrody mogą być pozytywne lub negatywne, ale są ograniczone przez ±Rmax.

W naszym konkretnym przykładzie nagroda wynosi -0,04 dla wszystkich przejść z wyjątkiem tych, które wchodzą w stany końcowe (które mają nagrody +1 i -1). Użyteczność historii środowiska to tylko (na razie) suma otrzymanych nagród. Na przykład, jeśli agent osiągnie stan +1 po 10 krokach, jego całkowita użyteczność wyniesie (9 x -0,04)+1=0,64. Negatywna nagroda -0,04 daje agentowi motywację do szybkiego dotarcia do (4,3), więc nasze środowisko jest stochastycznym uogólnieniem problemów wyszukiwania z rozdziału 3. Innym sposobem powiedzenia tego jest to, że agent nie lubi żyć w tym środowiska i dlatego chce jak najszybciej wyjechać. Podsumowując: sekwencyjny problem decyzyjny dla w pełni obserwowalnego, stochastycznego środowiska z modelem przejścia Markowa i addytywnymi nagrodami nazywa się procesem decyzyjnym Markowa lub MDP i składa się ze zbioru stanów (ze stanem początkowym s0); zestaw działań w każdym stanie; model przejściowy P(s’ | s,a); oraz funkcję nagrody R(s,a,s’). Metody rozwiązywania MDP zwykle obejmują programowanie dynamiczne: uproszczenie problemu poprzez rekurencyjne dzielenie go na mniejsze części i zapamiętywanie optymalnych rozwiązań dla części. Kolejne pytanie brzmi: jak wygląda rozwiązanie problemu? Żadna ustalona sekwencja działań nie może rozwiązać problemu, ponieważ agent może znaleźć się w stanie innym niż cel. Dlatego rozwiązanie musi określać, co agent powinien zrobić dla dowolnego stanu, do którego agent może dotrzeć. Tego rodzaju rozwiązanie polityczne nazywa się polityką. Tradycyjnie oznacza się politykę przez π , a π(s) jest działaniem zalecanym przez politykę dla stanu s. Bez względu na wynik działania, wynikowy stan znajdzie się w polisie, a agent będzie wiedział, co dalej. Za każdym razem, gdy dana polityka jest realizowana od stanu początkowego, stochastyczny charakter środowiska może prowadzić do innej historii środowiska. Jakość polityki jest zatem mierzona oczekiwaną użytecznością możliwych historii środowiskowych generowanych przez tę politykę. Polityka optymalna to polityka, która zapewnia najwyższą oczekiwaną użyteczność. Używamy π* do określenia optymalnej polityki. Biorąc pod uwagę π*, agent decyduje, co zrobić, sprawdzając swoją bieżącą percepcję, która informuje go o bieżącym stanie s, a następnie wykonuje akcję π*(s). Strategia jawnie reprezentuje funkcję agenta, a zatem jest opisem prostego agenta odruchowego, obliczonym na podstawie informacji używanych dla agenta opartego na narzędziach. Optymalne polityki dla świata z rysunku pierwszego pokazano na rysunku (a).

Istnieją dwie zasady, ponieważ agentowi jest dokładnie obojętne, czy pójdzie w lewo, czy w górę z (3,1): przejście w lewo jest bezpieczniejsze, ale dłuższe, podczas gdy wchodzenie w górę jest szybsze, ale ryzykuje przypadkowe wpadnięcie w (4,2). Ogólnie rzecz biorąc, często istnieje wiele optymalnych polityk.

Bilans ryzyka i nagrody zmienia się w zależności od wartości r=R(s,a,s’) dla przejść między stanami nieterminalnymi. Zasady przedstawione na rysunku (a) są optymalne dla -0,0850 < r < -0,0273. Rysunek (b) pokazuje optymalne polityki dla czterech innych zakresów r.

 Gdy r < -1,6497, życie jest tak bolesne, że agent kieruje się prosto do najbliższego wyjścia, nawet jeśli wyjście jest warte –1. Gdy -0,7311 < r < -0,4526, życie jest dość nieprzyjemne; agent wybiera najkrótszą drogę do stanu +1 z (2,1), (3,1) i (3,2), ale z (4,1) koszt osiągnięcia +1 jest tak wysoki, że agent woli zanurkować prosto w -1. Kiedy życie jest tylko trochę posępne (-0,0274 < r < 0), optymalna polityka nie wiąże się z żadnym ryzykiem. W (4,1) i (3,2) agent odchodzi bezpośrednio od stanu –1, aby nie wpaść przez przypadek, mimo że oznacza to kilkakrotne uderzenie głową o ścianę. Wreszcie, jeśli r > 0, to życie jest pozytywnie przyjemne i agent unika obu wyjść. Dopóki działania w (4,1), (3,2) i (3,3) są takie, jak pokazano, każda polityka jest optymalna, a agent otrzymuje nieskończoną całkowitą nagrodę, ponieważ nigdy nie wchodzi w stan terminalny. Okazuje się, że w sumie istnieje dziewięć optymalnych taktyk dla różnych zakresów r; Ćwiczenie 16.THRC prosi cię o ich odnalezienie. Wprowadzenie niepewności przybliża MDP do świata rzeczywistego niż problemy wyszukiwania deterministycznego. Z tego powodu MDP badano w kilku dziedzinach, w tym w sztucznej inteligencji, badaniach operacyjnych, ekonomii i teorii sterowania.

100 Pytań o A.I.: Jakie są niektóre roboty domowe?

W przyszłości Twój dom będzie prawdopodobnie pełen różnych rodzajów robotów wykonujących różne zadania, których wolisz nie wykonywać. Prawdopodobnie w dowolnym miejscu będą roboty, od kuchni po salon, ogród i robiące rzeczy, które pomogą ci zautomatyzować i zaoszczędzić czas. Oszczędzając czas, roboty pomogą ludziom skoncentrować się na tym, co lubimy robić, zamiast wypełniać nasze codzienne zadania i obowiązki. Oto niektóre z najbardziej popularnych rodzajów robotów, które są obecnie opracowywane, i niektóre, które już dotarły na rynek. Pamiętaj jednak, że w przyszłości pojawi się wiele bardziej zaawansowanych wersji tych robotów.

Roboty kuchenne

Jednym z najciekawszych obecnie opracowywanych rodzajów robotów kuchennych jest robot kuchenny Moley, który podobno może przygotować ponad 100 posiłków najlepszych szefów kuchni, w tym Thomasa Kellera, Alain Ducasse i Gordona Ramsaya. Ta zrobotyzowana kuchnia wyposażona jest w szafkę, sprzęt AGD i dwa zrobotyzowane systemy przechwytywania ruchu, a także inne funkcje, które pozwalają temu zautomatyzowanemu szefowi kuchni przygotowywać wyrafinowane posiłki. Firma pracowała również nad funkcją, która dodałaby do tego produktu element do mycia naczyń i czyszczenia kuchni. Zrobotyzowana kuchnia Moley będzie będzie kosztować około 15 000 USD. Jest całkiem prawdopodobne, że przyszłe domy będą sprzedawane z już zainstalowanymi robotami kuchennymi.

Roboty czyszczące

Najbardziej znanym robotem czyszczącym jest robot Roomba firmy iRobot. Firma jest uważana za lidera w branży, ponieważ była pierwszą na tym rynku z robotycznym odkurzaczem Roomba. iRobot został założony w 1990 r., a po raz pierwszy wypuścił robota Roomba w 2002 r., zgodnie ze stroną internetową . Firma sprzedaje teraz kilka modeli robotów do sprzątania domów, w tym robota do odkurzania strumieniowego Braava, z których wszystkie stale pracuje nad ulepszaniem. iRobot opracowuje również szereg innych domowych robotów. Dziś w tę przestrzeń wkraczają także inne firmy, takie jak bObsweep, ILIFE i ECOVACS Robotics, z których wszystkie opracowały roboty do czyszczenia podłóg.

Roboty do prasowania

Roboty do prasowania obiecują ogromne oszczędności czasu, ponieważ prasowanie może być dużym bólem głowy dla zapracowanych ludzi. Pierwszym robotem do prasowania był Dressman z Siemans, który okaże się cennym narzędziem dla osób, które chcą zaoszczędzić czas. Ta maszyna, która ma kształt górnej części tułowia, działa przy użyciu gorącego powietrza na wilgotnej koszuli. Koszula zostaje umieszczona na robocie, a gorące powietrze nadmuchuje ją i suszy, jednocześnie usuwając zagniecenia.

Roboty ogrodnicze

Innowacyjny robot o nazwie Tertill może pomóc w utrzymaniu ogrodu, pieląc go za ciebie. Może poruszać się po ogrodzie, mierzyć wielkość każdej rośliny i ciąć wszystkie te, które mają mniej niż cal długości. Ma również sposób na ochronę mniejszych, rosnących roślin przed cięciem, co pozwala mu codziennie pracować na ziemi. Tertill został zaprojektowany przez jednego z członków zespołu, który również pracował nad robotem Roomba.

Roboty do koszenia trawników

Istnieje kilka firm, które już produkowały kosiarki zautomatyzowane, w tym między innymi Gardena i Husqvarna. Jednak obecne wersje tych robotów otrzymały średnie oceny klientów tylko w sklepach internetowych, takich jak Amazon.com. Podobnie jak w przypadku innych rodzajów robotów, robot do kosiarki poprawi się tylko dzięki oszczędności czasu.

Podstawowe roboty domowe

Ten typ robota jest bardziej stylem towarzyszącym, a wiele z nich zaprojektowano z myślą o rozpoznawaniu ludzkich ekspresji i emocji. Ponieważ w tej przestrzeni pracuje obecnie tak wiele firm, w przyszłości na rynku będzie dostępna szeroka gama robotów domowych. Przykładem jednego z takich robotów towarzyszących jest Kuri, opracowany przez Mayfield Robotics, firmę z siedzibą w Kalifornii. Podobnie jak Kuri, wiele domowych robotów towarzyszących jest jeszcze w początkowej fazie projektowania, a zatem są szczątkowe w porównaniu z tym, czego możemy się spodziewać w przyszłości. Przyszłe roboty domowe będą prawdopodobnie wyposażone w narzędzia do zarabiania na temat domu i członków rodziny, nagrywania filmów i pomocy na różne sposoby.

Inteligentne roboty domowe

W przyszłości wszystko w naszych domach będzie połączone przez Internet Rzeczy (IoT). Roboty będą powszechne i wszystko będzie połączone. Obejmie to wszystkie przedmioty domowe, takie jak lodówka i inne urządzenia, a nawet mogą obejmować inne przedmioty domowe, takie jak meble. W przyszłości roboty domowe będą również powszechne i będą one również połączone z Internetem Rzeczy. Twórca robota Roomba uważa, że w przyszłości wszystkie roboty będą niewidoczne.

“Konsumenci chcą nieskazitelnej podłogi; nie brzęczącej maszyny pod stopami “, napisał Joe Jones w poście na blogu. “Ludzie chcą tego, co robot może dla nich zrobić; sam robot może po prostu przeszkadzać. ” Pozytywną stroną robotyki domowej i inteligentnych domów będzie to, że roboty mogą zautomatyzować przyziemne zadania i pomóc nam zaoszczędzić czas. One będą pozwalać ludziom przestać wykonywać wiele obowiązków, których nie lubią, pozostawiając im więcej czasu na robienie tego, co lubią. Jednak możliwym negatywnym skutkiem może być to, że ludzie mogą zacząć tracić zdolność do angażowania się i interakcji z innymi ludźmi z powodu spędzania zbyt dużo czasu z robotami w swoich domach. Musimy pamiętać, że podstawową ideą posiadania robotów jest pomoc w wykonywaniu zadań, a nie zmiana tego, kim jesteśmy jako ludzie. Kolejnym problemem związanym z robotami domowymi jest możliwa utrata prywatności. Większość robotów domowych będzie podłączonych do chmury i może także być w stanie nagrywać prywatne rozmowy i inne dane osobowe w domu. Świadomość, że ich prywatność może zostać potencjalnie naruszona, spowoduje, że wielu ludzi będzie się denerwować wpuszczeniem tych robotów do swoich domów. Obawa ta prawdopodobnie spowoduje, że konsumenci będą dostosowywać się do robotów domowych w wolniejszym tempie, co z kolei spowolni rozwój robotów domowych w ogóle.

Streszczenie

  • Teoria prawdopodobieństwa opisuje, w co agent powinien wierzyć na podstawie dowodów, teoria użyteczności opisuje, czego chce agent, a teoria decyzji łączy te dwie kwestie, aby opisać, co agent powinien zrobić.
  • Możemy wykorzystać teorię decyzji do zbudowania systemu, który podejmuje decyzje poprzez rozważenie wszystkich możliwych działań i wybranie tego, który prowadzi do najlepszego oczekiwanego rezultatu. Taki system jest znany jako racjonalny agent.
  • Teoria użyteczności pokazuje, że agenta, którego preferencje między loteriami są zgodne z zestawem prostych aksjomatów, można opisać jako posiadający funkcję użyteczności; ponadto agent wybiera działania tak, jakby maksymalizował swoją oczekiwaną użyteczność.
  • Wieloatrybutowa teoria użyteczności zajmuje się użytecznościami, które zależą od kilku różnych atrybutów stanów. Dominacja stochastyczna jest szczególnie przydatną techniką podejmowania jednoznacznych decyzji, nawet bez precyzyjnych wartości użyteczności atrybutów.
  • Sieci decyzyjne zapewniają prosty formalizm do wyrażania i rozwiązywania problemów decyzyjnych. Stanowią naturalne rozszerzenie sieci bayesowskich, zawierające oprócz węzłów przypadkowych węzły decyzyjne i użytkowe.
  • Czasami rozwiązanie problemu wymaga znalezienia większej ilości informacji przed podjęciem decyzji. Wartość informacji definiuje się jako oczekiwaną poprawę użyteczności w porównaniu z podjęciem decyzji bez informacji; jest szczególnie przydatny do kierowania procesem zbierania informacji przed podjęciem ostatecznej decyzji.
  • Gdy, jak to często bywa, nie można w pełni i poprawnie określić funkcji użytkowej człowieka, maszyny muszą działać w niepewności co do prawdziwego celu. To robi znaczącą różnicę, gdy istnieje możliwość, że maszyna pozyska więcej informacji o ludzkich preferencjach. Prostym argumentem pokazaliśmy, że niepewność preferencji sprawia, że ​​maszyna ulega człowiekowi do tego stopnia, że ​​pozwala się wyłączyć.

100 Pytań o A.I.: Który kraj ma najwięcej robotów?

Wiele krajów ma dużą liczbę pracujących robotów, a badania wykazały, że w krajach o największej liczbie robotów stopa bezrobocia jest niższa niż w innych krajach. Według badań przeprowadzonych przez Bank of America i Merrill Lynch w 2016 r. Japonię uznano za kraj o największej liczbie robotów. W tym czasie kraj miał 310 508 robotów . Stany Zjednoczone zajęły drugie miejsce z 166823 robotami operacyjnymi, a Niemcy zajęły trzecie miejsce z 161988. Ostatnio, według jednego z mediów, udokumentowano, że Korea Południowa ma najwyższą gęstość robotów niż jakikolwiek inny kraj na świecie. Ponadto rząd Korei Południowej ogłosił, że w ciągu najbliższych pięciu lat zainwestuje 450 milionów dolarów w przemysł robotyki. W 2016 r. Międzynarodowa Federacja Robotyki opublikowała raport zawierający interesujące statystyki dotyczące liczby robotów na 100 pracowników w różnych krajach. Korea Południowa była na pierwszym miejscu z 5,31 robotów na 100 pracowników, podczas gdy średnia globalna wynosiła tylko 0,69 robotów na 100 pracowników. W jednym badaniu naukowcy odkryli związek między robotyką a wzrostem gospodarczym. Doszli do wniosku, że 10 procent wzrostu PKB i 16 procent poprawy wydajności było związanych z liczbą robotów w danym kraju. Chociaż spekulowano, że automatyzacja powoduje wyższe stopy bezrobocia, nie zawsze okazało się to prawdą. Jedna z publikacji ekonomicznych zauważa, że przemysł robotyki utworzył od 9 do 12 milionów nowych miejsc pracy w latach 2000-2016, argumentując, że kraje o większej liczbie robotów to także kraje o niższej stopie bezrobocia. Teoria ta polega na tym, że chociaż roboty mogą zastępować pracochłonne prace, tworzą także nowe w dziedzinie technologii dla projektantów robotów, producentów, programistów i tym podobnych. Podczas gdy kraje azjatyckie mają zwykle większą liczbę pracujących robotów, kraje zachodnie, takie jak Stany Zjednoczone, nie są tak daleko w tyle. Oczywiste jest również, że przemysł robotyki będzie nadal się rozwijał w nadchodzących latach, podobnie jak rynek kreatywnych miejsc pracy wraz z nim.

Szacunek dla ludzi

Przejdźmy teraz do drugiego z wyżej wymienionych przypadków: maszyny, która ma pomagać człowiekowi, ale nie jest pewna, czego człowiek chce. Pełne rozpatrzenie tej sprawy należy odroczyć do rozdziału 17, w którym omawiamy decyzje dotyczące więcej niż jednego agenta. Tutaj zadajemy jedno proste pytanie: w jakich okolicznościach taka maszyna będzie podporządkowywać się człowiekowi. Aby zbadać to pytanie, rozważmy bardzo prosty scenariusz, jak pokazano na rysunku

Robbie to robot programowy pracujący dla Harriet, zapracowanego człowieka, jako jej osobisty asystent. Harriet potrzebuje pokoju w hotelu na następne spotkanie biznesowe w Genewie. Robbie może teraz działać – powiedzmy, że może zarezerwować Harriet w bardzo drogim hotelu w pobliżu miejsca spotkania. Nie jest pewien, jak bardzo Harriet spodoba się hotel i jego cena; powiedzmy, że ma jednolite prawdopodobieństwo jego wartości netto dla Harriet między -40 a +60, ze średnią +10. Mógł też „wyłączyć się” – mniej melodramatycznie, całkowicie wyłączyć się z procesu rezerwacji hotelu – który definiujemy (bez utraty ogólności), że ma wartość 0 dla Harriet. Gdyby to były jego dwie możliwości, poszedłby dalej i zarezerwował hotel, ponosząc znaczne ryzyko, że unieszczęśliwi Harriet. (Gdyby zakres wynosił od -60 do +40, przy średniej -10, zamiast tego wyłączyłby się.) Damy Robbie jednak trzeci wybór: wyjaśnij jego plan, poczekaj i pozwól Harriet go wyłączyć. Harriet może go wyłączyć lub pozwolić mu zarezerwować hotel. Ktoś mógłby zapytać, co mogłoby z tego wyniknąć, skoro sam mógł dokonać obu tych wyborów? Chodzi o to, że wybór Harriet – wyłączyć Robbiego lub pozwolić mu iść dalej – zapewnia:

Robbie z informacją o preferencjach Harriet. Na razie założymy, że Harriet jest racjonalna, więc jeśli Harriet pozwoli Robbiemu iść dalej, oznacza to, że wartość dla Harriet jest dodatnia. Teraz, jak pokazano na rysunku 15.11, przekonanie Robbiego zmienia się: jest jednolite od 0 do +60, ze średnią +30. Jeśli więc ocenimy początkowe wybory Robbiego z jego punktu widzenia:

  1. Działając teraz i rezerwując hotel ma oczekiwaną wartość +10.
  2. Wyłączenie się ma wartość 0.
  3. Czekanie i pozwolenie Harriet na wyłączenie go prowadzi do dwóch możliwych rezultatów:

(a) Istnieje 40% szans, w oparciu o niepewność Robbiego co do preferencji Harriet, że znienawidzi plan i wyłączy Robbiego, z wartością 0.

(b) Istnieje 60% szans, że Harriet spodoba się plan i pozwoli Robbiemu kontynuować, z oczekiwaną wartością +30.

Zatem czekanie ma wartość oczekiwaną (0:4 0)+(0:6 30)= +18, co jest lepsze niż +10, których Robbie oczekuje, jeśli zadziała teraz.

W rezultacie Robbie ma pozytywną motywację, by poddać się Harriet – to znaczy pozwolić sobie na wyłączenie. Ta zachęta pochodzi bezpośrednio z niepewności Robbiego co do preferencji Harriet. Robbie zdaje sobie sprawę, że istnieje szansa (w tym przykładzie 40%), że może zrobić coś, co sprawi, że Harriet będzie nieszczęśliwa, w takim przypadku wyłączenie byłoby lepsze niż kontynuowanie. Gdyby Robbie był już pewien preferencji Harriet, po prostu podjąłby decyzję (lub wyłączyłby się); konsultując się z Harriet, nie dałoby się absolutnie nic zyskać, ponieważ zgodnie z przekonaniami Robbiego, Robbie może już przewidzieć, co ona zdecyduje. W rzeczywistości możliwe jest udowodnienie tego samego wyniku w ogólnym przypadku: dopóki Robbie nie jest całkowicie pewien, że ma zamiar zrobić to, co zrobiłaby sama Harriet, lepiej pozwolić jej się wyłączyć. Intuicyjnie jej decyzja dostarcza Robbiemu informacji, a oczekiwana wartość informacji jest zawsze nieujemna. I odwrotnie, jeśli Robbie jest pewien decyzji Harriet, jej decyzja nie dostarcza nowych informacji, a więc Robbie nie ma motywacji, by pozwolić jej na podjęcie decyzji. Formalnie niech P(u) będzie wcześniejszą gęstością prawdopodobieństwa Robbiego nad użytecznością Harriet dla proponowanego działania a. Wtedy wartość kontynuacji z a jest

(Niedługo zobaczymy, dlaczego całka jest podzielona w ten sposób.) Z drugiej strony, wartość działania d, odnosząc się do Harriet, składa się z dwóch części: jeśli u > 0, to Harriet pozwala Robbiemu kontynuować, więc wartość to u, ale jeśli u < 0, Harriet wyłącza Robbiego, więc wartość wynosi 0:

Porównując wyrażenia na EU(a) i EU(d), od razu widzimy, że

ponieważ wyrażenie dla EU(d) ma wyzerowany obszar użyteczności ujemnej. Te dwa wybory mają jednakową wartość tylko wtedy, gdy obszar ujemny ma zerowe prawdopodobieństwo — to znaczy, gdy Robbie jest już pewien, że Harriet podoba się proponowane działanie. Istnieje kilka oczywistych opracowań modelu, które warto natychmiast zbadać. Pierwszym opracowaniem jest nałożenie kosztów na czas Harriet. W takim przypadku Robbie jest mniej skłonny do zawracania sobie głowy Harriet, jeśli ryzyko pogorszenia sytuacji jest niewielkie. Tak powinno być. A jeśli Harriet jest naprawdę zrzędliwa, że ​​ktoś jej przerywa, nie powinna być zbyt zdziwiona, jeśli Robbie od czasu do czasu robi rzeczy, których nie lubi. Drugie opracowanie uwzględnia pewne prawdopodobieństwo błędu ludzkiego – to znaczy, że Harriet może czasami wyłączyć Robbiego, nawet jeśli jego proponowane działanie jest rozsądne, a czasami może pozwolić Robbiemu kontynuować, nawet jeśli jego proponowane działanie jest niepożądane. Łatwo jest umieścić to prawdopodobieństwo błędu w modelu. Jak można się spodziewać, rozwiązanie pokazuje, że Robbie jest mniej skłonny do podporządkowywania się irracjonalnej Harriet, która czasami działa wbrew jej własnym interesom. Im bardziej przypadkowo się zachowuje, tym bardziej Robbie musi być niepewny co do jej preferencji, zanim się jej podporządkowuje. Znowu tak powinno być: na przykład, jeśli Robbie jest samojezdnym samochodem, a Harriet jest jego niegrzecznym dwuletnim pasażerem, Robbie nie powinien pozwolić Harriet wyłączyć go na środku autostrady.