100 Pytań o A.I. : Jakie są działania Amazon dotyczące sztucznej inteligencji

Wyjątkowo popularna platforma e-commerce Amazon, Amazon.com, wdraża technologię uczenia maszynowego od dłuższego czasu. Dzięki uczeniu maszynowemu Amazon.com może polecać podobne produkty, gdy klienci coś kupują lub wysyłać odpowiednie promocje użytkownikom, którzy oglądali niektóre produkty, ale ich nie kupowali. Amazon jest bez wątpienia jednym z prekursorów, jeśli chodzi o wykorzystanie korzyści związanych z produktywnością i wydajnością stworzonych przez użycie robotów, co z kolei pozwala firmie oferować lepsze funkcje dla klientów, takie jak szybka dostawa. W rzeczywistości, zgodnie z najnowszymi raportami, obecnie w magazynach Amazon jest używanych ponad 100 000 robotów pomarańczowych i ponad 1000 pracowników, którzy budują, programują i pracują obok nich. Amazon inwestuje zasoby w rozwój sztucznej inteligencji również w wielu innych obszarach. Od dostaw dronów po osobistą asystentkę Alexę, a także badania danych klientów, firma znalazła różne sposoby ulepszania swoich produktów i usług poprzez zastosowanie sztucznej inteligencji.

Praktyczne zastosowania sztucznej inteligencji w Amazon

Amazon wykorzystuje sztuczną inteligencję do ulepszenia niektórych swoich e-commerce i usługi internetowe. Niektóre sposoby wykorzystania technologii obejmują:

•  Produkty zalecane przez Amazon: Jedną z najpopularniejszych aplikacji sztucznej inteligencji firmy Amazon jest jej zdolność do gromadzenia i analizowania danych klientów w celu tworzenia dokładniejszych sugestii dotyczących produktów. Dla Amazon i jej dostawców utrzymanie wydatków konsumentów jest kluczowe, a AI pomaga im w utrzymaniu napływu zamówień.

•  Osobisty asystent Alexa: osobisty asystent Amazona otrzymał niedawno ulepszenie dzięki dodaniu Echo, cyfrowego urządzenia głośnikowego, które jeszcze bardziej ułatwia interakcję z Alexą. Echo / Alexa aktywowane mową mogą być używane do wyszukiwania informacji, takich jak czas lub pogoda, do odtwarzania muzyki i do wielu innych zadań.

•  Przechowywanie w chmurze: AI zostało zastosowane w usłudze przechowywania w chmurze Amazon w celu zabezpieczenia danych. Nazywa się Amazon Macie i wykorzystuje uczenie maszynowe do wyszukiwania, sortowania i ochrony poufnych informacji. Macie powstał w reakcji na naruszenie bezpieczeństwa, które miało miejsce w Amazon S3, prostej usłudze przechowywania w chmurze, kiedy ponad 60 000 poufnych plików należących do rządu USA stało się dostępnych dla ogółu społeczeństwa. Dzięki sztucznej inteligencji bardziej wyrafinowani Macie mogą teraz wyszukiwać tego rodzaju poufne dane i zabezpieczyć je, a także śledzić dostęp do danych w celu wykrycia podejrzanych działań.

Usługi AI w chmurze Amazon dla firm

Amazon będzie jedną z najbardziej konkurencyjnych firm oferujących usługi sztucznej inteligencji firmom, podobnie jak Google, Microsoft i IBM. Od dłuższego czasu Amazon jest dostawcą usług hostingowych dla wielu klientów korporacyjnych, a teraz zaczyna oferować również możliwości AI dla innych firm. Na przykład Intuit, firma finansująca niektóre popularne produkty finansowe, takie jak TurboTax, wykorzystuje platformę AI Amazon do wprowadzania uczenia maszynowego do swoich produktów. Platforma AI firmy Amazon oferuje następujące podstawowe produkty i usługi dla firm:

•  Amazon Lex: Umożliwia tworzenie potężnych chatbotów z funkcjami audio. Działa z tą samą technologią, która zasila Amazon Alexa i wykorzystuje automatyczne rozpoznawanie mowy (ASR) i rozumienie języka naturalnego (NLU).

• Amazon Polly: usługa zamiany tekstu na mowę, która pozwala tworzyć aplikacje mówiące w kilku językach.

•  Rozpoznawanie Amazon: Umożliwia dodanie analizy obrazu do dowolnej apliakcji.

Jestem pewien, że platforma AI Amazon będzie bardzo popularna wśród wszystkich rodzajów firm, zwłaszcza małych i średnich, które zaczynają rozumieć znaczenie rozpoczęcia pracy ze sztuczną inteligencją. Więcej informacji można znaleźć na stronie: https://aws.amazon.com/amazon-ai

Chociaż firma ma już sztuczną inteligencję na większości swoich produktów, wciąż liczy na przyszły rozwój sztucznej inteligencji, aby ulepszyć swoją ofertę. wciąż liczy na przyszły rozwój sztucznej inteligencji, aby ulepszyć swoją ofertę. Według dyrektora generalnego Amazon, Jeffa Bezosa, sztuczna inteligencja ma kluczowe znaczenie dla sukcesu firmy:

“Uczenie maszynowe napędza nasze algorytmy prognozowania popytu, rankingu wyszukiwania produktów, rekomendacji produktów i ofert, zerowania miejsc docelowych, wykrywania oszustw, tłumaczeń i wielu innych. Choć mniej widoczny, znaczny wpływ uczenia maszynowego będzie tego typu – po cichu, ale w znaczący sposób usprawni podstawowe operacje “.

Bezos powiedział również, że wierzy, że AI będzie kluczem do tego ulepszenie wszystkich firm i rządów. Matt Wood, dyrektor generalny Deep Learning i AI dla Amazon Web Services (AWS), wspomniał ostatnio, że internetowy gigant handlu elektronicznego ma największą platformę AI na świecie.

Iteracja zasad

W poprzedniej części zauważyliśmy, że możliwe jest uzyskanie optymalnej polityki nawet wtedy, gdy oszacowanie funkcji użyteczności jest niedokładne. Jeśli jedno działanie jest wyraźnie lepsze niż wszystkie inne, to dokładna wielkość użyteczności w zaangażowanych stanach nie musi być precyzyjna. To spostrzeżenie sugeruje alternatywny sposób na znalezienie optymalnych zasad. Algorytm iteracji polityki zmienia następujące dwa kroki, zaczynając od jakiejś początkowej polityki π0:

  • Ocena polityki: biorąc pod uwagę politykę πi, oblicz Ui=Uπi , użyteczność każdego stanu, jeśli πi miałoby zostać wykonane.
  • Poprawa polityki: Oblicz nową politykę MEU πi+1, używając jednoetapowego wyprzedzenia w oparciu o Ui

Algorytm kończy się, gdy krok poprawy polityki nie przyniesie żadnych zmian w narzędziach. W tym momencie wiemy, że funkcja użyteczności Ui jest stałym punktem aktualizacji Bellmana, więc jest to rozwiązanie równań Bellmana, a πi musi być optymalną polityką. Ponieważ istnieje tylko skończenie wiele strategii dla skończonej przestrzeni stanów i można wykazać, że każda iteracja daje lepszą strategię, iteracja polityki musi zostać zakończona. Algorytm pokazano na rysunku 16.9. Podobnie jak w przypadku iteracji wartości, używamy funkcji Q-WARTOŚĆ.

Jak wdrażamy POLITYKĘ-OCENĘ? Okazuje się, że jest to prostsze niż rozwiązywanie standardowych równań Bellmana (co robi iteracja wartości), ponieważ działanie w każdym stanie jest ustalane przez politykę . W i-tej iteracji strategia πi określa akcję πi(s) w stanie s. Oznacza to, że mamy uproszczoną wersję równania Bellmana odnoszącego użyteczność s (pod πi) do użyteczności jego sąsiadów:

Załóżmy na przykład, że πi jest zasadą pokazaną na rysunku (a).

Wtedy mamy πi(1;1)=Up, πi(1;2)=Up i tak dalej, a uproszczone równania Bellmana to

i tak dalej dla wszystkich stanów. Ważne jest to, że te równania są liniowe, ponieważ operator „max” został usunięty. Dla n stanów mamy n równań liniowych z n niewiadomymi, które można rozwiązać dokładnie w czasie O(n3) standardowymi metodami algebry liniowej. Jeśli model przejścia jest rzadki – to znaczy, jeśli każdy stan przechodzi tylko do niewielkiej liczby innych stanów – wówczas proces rozwiązywania może być jeszcze szybszy. W przypadku małych przestrzeni stanów ewaluacja polityki przy użyciu dokładnych metod rozwiązania jest często najbardziej efektywnym podejściem. Dla dużych przestrzeni stanów czas O(n3) może być zaporowy. Na szczęście nie jest konieczne przeprowadzanie dokładnej oceny polityki. Zamiast tego możemy wykonać pewną liczbę uproszczonych kroków iteracji wartości (uproszczone, ponieważ polityka jest ustalona), aby uzyskać dość dobre przybliżenie narzędzi. Uproszczona aktualizacja Bellman dla tego procesu to

i powtarza się to kilka razy, aby wydajnie wygenerować kolejne oszacowanie użyteczności. Powstały algorytm nazywa się zmodyfikowaną iteracją zasad. Algorytmy, które opisaliśmy do tej pory, wymagają aktualizacji narzędzia lub polityki dla wszystkich stanów jednocześnie. Okazuje się, że nie jest to bezwzględnie konieczne. W rzeczywistości w każdej iteracji możemy wybrać dowolny podzbiór stanów i zastosować do tego podzbioru dowolny rodzaj aktualizacji (ulepszenie zasad lub uproszczoną iterację wartości). Ten bardzo ogólny algorytm nazywa się asynchroniczną iteracją zasad. Biorąc pod uwagę pewne warunki początkowej polityki i początkowej funkcji użyteczności, asynchroniczna iteracja polityki gwarantuje zbieżność do optymalnej polityki. Swoboda wyboru dowolnych stanów do pracy oznacza, że możemy projektować znacznie wydajniejsze algorytmy heurystyczne – na przykład algorytmy, które koncentrują się na aktualizowaniu wartości stanów, które prawdopodobnie zostaną osiągnięte dzięki dobrej polityce. Nie ma sensu planować rezultatów działania, którego nigdy nie zrobisz.

1`00 Pytań o A.I.: Jakie są działania sztucznej inteligencji Facebooka?

Facebook był w stanie zgromadzić tak ogromną bazę użytkowników dzięki uczeniu maszynowemu i sztucznej inteligencji w połączeniu z ogromną ilością szczegółowych danych osobowych, które użytkownicy udostępniają w swoich profilach. Algorytm Facebooka oparty na sztucznej inteligencji jest w stanie analizować udostępnione dane osobowe i uczyć się od nich, aby zrozumieć ich indywidualne preferencje i zainteresowania. Dzięki temu Facebook może zapewnić każdemu użytkownikowi z ich unikalnym i spersonalizowanym doświadczeniem na Facebooku, znacząco przyczyniającym się do popularności sieci społecznościowej. Sztuczna inteligencja stała się dużym priorytetem na Facebooku. Firma wykorzystuje sztuczną inteligencję do tworzenia nowych produktów i bez wątpienia pojawi się w przyszłych projektach. Niektóre z tych projektów będą obejmować technologie takie jak rzeczywistość wirtualna i rzeczywistość rozszerzona, które są oparte na sztucznej inteligencji.

Praktyczne przykłady sztucznej inteligencji na Facebooku

•  Wyszukiwanie zdjęć na Facebooku: Ta funkcja udostępnia pomoc sztucznej inteligencji, która umożliwia Facebookowi zrozumienie treści zdjęć. Korzyścią dla użytkowników jest to, że wyszukiwania obrazów można dokonać za pomocą słów kluczowych na platformie mediów społecznościowych.

•  FBLearner Flow: Jak wspomniano powyżej, w zasadzie wszystko, co robi Facebook, jest możliwe dzięki efektywnemu wykorzystaniu sztucznej inteligencji. FBLearner Flow, zwany przez Facebooka “kręgosłupem AI”, analizuje wszystkie opublikowane treści użytkowników, a następnie personalizuje doświadczenia wszystkich w unikalny sposób

•  Analiza tekstu: DeepText to narzędzie AI opracowane przez Facebook, które może zrozumieć znaczenie słów i ich kontekst. Obecnie DeepText może zrozumieć treść tekstową postów w ponad 20 językach. Gigant mediów społecznościowych zaczął wykorzystywać analizę tekstu jako broń w walce z terroryzmem. W postu na Facebooku CEO Facebooka Mark Zuckerberg napisał, że firma polegała na raportach użytkowników, aby dowiedzieć się o wszelkich postach związanych z terroryzmem, ale ponieważ nie jest to najskuteczniejszy sposób monitorując działalność ekstremistów, firma zaczęła wykorzystywać sztuczną inteligencję do szybkiego i skutecznego filtrowania treści, które mogą być powiązane z wszelkimi działaniami terrorystycznymi lub zagrożeniami. Obejmuje to nauczenie systemu rozpoznawania tekstu i zdjęć związanych z niepożądaną aktywnością.

•  Rozpoznawanie wzorów w celu zapobiegania samobójstwom: Facebook ma teraz algorytm głębokiego uczenia się, który może analizować posty i komentarze użytkowników w celu wykrycia ewentualnych planów samobójczych, a następnie powiadomić odpowiednich specjalistów. Firma rozpoczęła testowanie tego w USA w marcu 2017 roku i planuje rozszerzyć go na inne kraje po pomyślnym zakończeniu testów w USA.

•  Ulepszanie zdjęć 360 stopni: za pomocą głębokich sieci neuronowych firma dostosowuje orientację zdjęć, aby zapewnić użytkownikom lepsze wrażenia z oglądania.

•  Wizja komputerowa: Facebook opracowuje również metodę analizy komputerowej, która może zrozumieć obrazy. Firma dopiero zaczyna wykorzystywać sztuczną inteligencję do wizji komputerowej, ale firma stwierdziła, że bada tematy związane z wizją komputerową, w tym fotografię obliczeniową, dialog wizualny, rozumienie treści i obrazu, rzeczywistość wirtualną, a nawet zdjęcia satelitarne.

•  Facebook Personal Assistant M: Facebook Messenger oferuje teraz opcję osobistego asystenta o nazwie Facebook M, który może udzielać użytkownikom rekomendacji w celu poprawy ich wrażeń. Na przykład może przypomnieć użytkownikom o zapisaniu informacji, aby przejrzeć je później, i wysłać użytkownikom przypomnienia o urodzinach. M może również polecać połączenia wideo lub głosowe, które można wykonywać bezpośrednio w aplikacji. Jednak te funkcje nie są jeszcze dostępne dla wszystkich użytkowników.

•  Facebook Messenger Platform Chatbots: Facebook Messenger ma również platformę do chatbotów. Jest to obecnie jedna z najpopularniejszych platform chatbotów, która została szczegółowo opisana w rozdziale o chatbotach.

Firmy AI Jakie Nabył Facebook

Aby osiągnąć wszystkie te osiągnięcia, Facebook rozwija własną sztuczną inteligencję, ale kupił także kilka znaczących firm AI. Jednym z nich jest Ozlo, który jest twórcą konwersacyjnej sztucznej inteligencji. Firma stała się znana z aplikacji dla konsumentów i wykresu wiedzy – bazy faktów na temat świata. Facebook nabył również Wit.ai, który zajmuje się API ,programowaniem i interfejsami AI aktywowane głosem. Ponadto do arsenału sztucznej inteligencji Facebooka dodano także Masquerade Technologies, która opracowuje technologię rozpoznawania twarzy, oraz Zurich Eye, firma zajmująca się komputerowymi widzenie.

Działania badawcze AI na Facebooku

Facebook ma dział badań poświęcony wyłącznie sztucznej inteligencji, który nazywa się Facebook AI Research (FAIR). Witryna FAIR udostępnia artykuły, wiadomości i spostrzeżenia na temat współpracy Facebooka z technologiami związanymi z AI. Na tej stronie można również przeczytać publikacje powiązane z AI napisane przez badaczy FAIR i pobrać różne modele uczenia maszynowego lub uczenia głębokiego. Odwiedź stronę: https://research.fb.com/category/facebook-ai-research- Facebook otworzył niedawno laboratorium badawcze w Montrealu, w którym naukowcy i inżynierowie będą pracować nad różnymi projektami sztucznej inteligencji. Znany jako FAIR Montreal, ma na celu zbadanie wszystkich aspektów problemów związanych z AI, w tym aplikacji, zarówno oprogramowania, jak i komponentów sprzętowych oraz sposobów uzyskiwania wiedzy z danych. Co ciekawe, Google otworzył także bazę badawczą AI w Montrealu. Dyrektor generalny i założyciel Facebooka Mark Zuckerberg uważa, że w końcu AI będzie lepszy od ludzi przy prawie każdym zadaniu i dzieli się tymi spostrzeżeniami na ten temat:

“Wcześniej przewidywałem, że w ciągu 5-10 lat będziemy mieli systemy AI, które są bardziej dokładne niż ludzie dla każdego zmysłu – wzroku, słuchu, dotyku itp., A także rzeczy takich jak język. To imponujące, jak potężny staje się stan techniki dla tych narzędzi i to co rok sprawia, że jestem bardziej pewny swoich przewidywań. W pewnym sensie AI jest zarówno bliżej, jak i dalej, niż nam się wydaje. Sztuczna inteligencja jest bliżej możliwości robienia mocniejszych rzeczy, niż większość ludzi się spodziewa – prowadzenia samochodów, leczenia chorób, odkrywania planet, rozumienia mediów. Każdy z nich będzie miał ogromny wpływ na świat, ale wciąż zastanawiamy się, czym jest prawdziwa inteligencja

Zbieżność iteracji wartości

Powiedzieliśmy, że iteracja wartości ostatecznie zbiega się do unikalnego zestawu rozwiązań równań Bellmana. W tej sekcji wyjaśniamy, dlaczego tak się dzieje. Po drodze wprowadzamy kilka użytecznych pomysłów matematycznych i uzyskujemy kilka metod oceny błędu funkcji użyteczności zwracanej w przypadku wcześniejszego zakończenia algorytmu; jest to przydatne, ponieważ oznacza, że ​​nie musimy biegać w nieskończoność. Ta sekcja jest dość techniczna. Podstawowym pojęciem używanym do wykazania zbieżności iteracji wartości jest pojęcie skrócenia. Z grubsza mówiąc, skrócenie jest funkcją jednego argumentu, który po zastosowaniu z kolei do dwóch różnych danych wejściowych daje dwie wartości wyjściowe, które są „bliżej siebie” przynajmniej o pewien stały czynnik, niż oryginalne dane wejściowe. Na przykład funkcja „podziel przez dwa” jest skróceniem, ponieważ po podzieleniu dowolnych dwóch liczb przez dwa ich różnica zmniejsza się o połowę. Zauważ, że funkcja „podziel przez dwa” ma ustalony punkt, a mianowicie zero, który pozostaje niezmieniony przez zastosowanie tej funkcji. Z tego przykładu możemy wyróżnić dwie ważne właściwości skurczów:

  • Skurcz ma tylko jeden stały punkt; gdyby istniały dwa stałe punkty, nie zbliżałyby się one do siebie podczas stosowania funkcji, więc nie byłoby to skurczem.
  • Gdy funkcja zostanie zastosowana do dowolnego argumentu, wartość musi zbliżyć się do punktu stałego (ponieważ punkt stały się nie porusza), więc wielokrotne zastosowanie skrótu zawsze osiąga punkt stały w limicie.

Załóżmy teraz, że widzimy aktualizację Bellmana jako operator B, który jest stosowany jednocześnie do aktualizacji użyteczności każdego stanu. Wtedy równanie Bellmana staje się U = BU, a równanie aktualizacji Bellmana można zapisać jako

Ui+1  ← BUi

Następnie potrzebujemy sposobu na pomiar odległości między wektorami użyteczności. Użyjemy normy themax, która mierzy „długość” wektora przez wartość bezwzględną jego największej składowej:

Przy tej definicji „odległość” między dwoma wektorami, ||U – U’||, jest maksymalną różnicą między dowolnymi dwoma odpowiadającymi sobie elementami. Główny rezultat tej sekcji jest następujący: Niech Ui oraz U’i będą dowolnymi dwoma wektorami użyteczności. Następnie mamy

Oznacza to, że aktualizacja Bellmana jest skróceniem o współczynnik przestrzeni wektorów użyteczności. Stąd z ogólnych właściwości skrócenia wynika, że iteracja wartości zawsze zbiega się do unikalnego rozwiązania równań Bellmana, gdy γ < 1. Możemy również użyć skrócenia Właściwość do analizy szybkości zbieżności do rozwiązania. W szczególności możemy zastąpić U’i w równaniu rzeczywistymi użytecznościami U, dla których BU =U. Wtedy uzyskujemy nierówność

Jeśli spojrzymy na ||Ui  – U|| jako błąd w estymacji Ui, zobaczymy, że błąd jest zmniejszony przynajmniej o czynnik w każdej iteracji. W związku z tym iteracja wartości jest zbieżna wykładniczo szybko. Liczbę wymaganych iteracji możemy obliczyć w następujący sposób: Najpierw przypomnijmy z równania, że użyteczności wszystkich stanów są ograniczone przez ±Rmax=(1- γ). Oznacza to, że maksymalny błąd początkowy ||U0-U|| ≤ 2Rmax=(1-γ). Załóżmy, że uruchamiamy N iteracje, aby osiągnąć błąd co najwyżej ε . Następnie, ponieważ błąd jest redukowany przynajmniej γ za każdym razem, wymagamy γN · 2Rmax=(1- γ ) ≤ ε. Biorąc dzienniki, stwierdzamy, że

iteracje są wystarczające. Rysunek (b) pokazuje, jak zmienia się N z γ, dla różnych wartości stosunku ε/=Rmax.

Dobrą wiadomością jest to, że ponieważ w przypadku wykładniczo szybkiej zbieżności, N nie zależy zbytnio od stosunku ε/Rmax. Złą wiadomością jest to, że N szybko rośnie, gdy γ zbliża się do 1. Możemy uzyskać szybką konwergencję, jeśli zrobimy γ małe, ale to skutecznie daje agentowi krótki horyzont i może przeoczyć długoterminowe efekty jego działań. Błąd określony w poprzednim akapicie daje pewne wyobrażenie o czynnikach wpływających na czas działania algorytmu, ale czasami jest zbyt konserwatywny jako metoda decydowania, kiedy zatrzymać iterację. W tym drugim celu możemy użyć ograniczenia odnoszącego błąd do rozmiaru aktualizacji Bellmana w dowolnej iteracji. Z właściwości skracania można wykazać, że jeśli aktualizacja jest mała (tj. nie zmienia się znacząco użyteczność żadnego stanu), to błąd w porównaniu z prawdziwą funkcją użyteczności również jest mały. Dokładniej,

Jest to warunek zakończenia używany w algorytmie ITERACJA WARTOŚCI z rysunku wcześniejszego. Do tej pory przeanalizowaliśmy błąd funkcji użyteczności zwracanej przez algorytm iteracji wartości. Tym, na czym naprawdę zależy agentowi, jest to, jak dobrze sobie poradzi, jeśli podejmie decyzje J na podstawie tej funkcji użyteczności. Załóżmy, że po i iteracjach iteracji wartości agent ma oszacowane Ui rzeczywistej użyteczności U i uzyskuje politykę πi maksymalnej oczekiwanej użyteczności (MEU) i w oparciu o jednoetapowe wyprzedzenie przy użyciu Ui  . Czy wynikowe zachowanie będzie prawie tak dobre, jak zachowanie optymalne? To kluczowe pytanie dla każdego prawdziwego agenta i okazuje się, że odpowiedź brzmi tak. Uπi(s) to użyteczność uzyskana, jeśli πi jest wykonywane począwszy od s, a strata polisy ||Uπi – U|| jest największą stratą, jaką agent może stracić wykonując πi zamiast optymalnej polityki π. Strata polityki πi jest powiązana z błędem w Ui przez następującą nierówność:

jeśli ||Ui−U|| < ε wtedy ||Uπi –U|| < 2ε

W praktyce często zdarza się, że πi staje się optymalne na długo przed osiągnięciem zbieżności Ui. Rysunek pokazuje, w jaki sposób maksymalny błąd w Ui i utrata polityki zbliżają się do zera w miarę postępu procesu iteracji wartości dla środowiska 4×3 z γ=0,9.

Polityka πi jest optymalna, gdy i=5, mimo że maksymalny błąd w Ui nadal wynosi 0,51. Teraz mamy już wszystko, czego potrzebujemy, aby w praktyce wykorzystać iterację wartości. Wiemy, że zbiega się ona z prawidłowymi użytecznościami, możemy ograniczyć błąd w szacunkach użyteczności, jeśli zatrzymamy się po skończonej liczbie iteracji, a także możemy ograniczyć utratę polisy wynikającą z wykonania odpowiedniej polityki MEU. Na koniec, wszystkie wyniki w tej sekcji zależą od dyskontowania przy γ <1. Jeśli γ=1 i środowisko zawiera stany końcowe, to można wyprowadzić podobny zestaw wyników zbieżności i granic błędów.

100 Pytań o A.I.: Jakie są działania Google w zakresie sztucznej inteligencji?

Google jest jedną z największych firm opartych na danych na świecie, posiadającą dane od milionów użytkowników uzyskane w wyniku wyszukiwań w Google.com, YouTube, Gmail i innych produktach i usługach należących do Google. Dostęp do tak ogromnej ilości danych zapewnił Google doskonały start, aby stać się jednym ze światowych liderów w dziedzinie sztucznej inteligencji. Sztuczna inteligencja jest jednym z kluczowych priorytetów firmy Google i jej spółki macierzystej, Alphabet Inc. Google jest uważana za jedną z najbardziej zaawansowanych firm zajmujących się sztuczną inteligencją, ponieważ prawie wszystkie jej nowe produkty i usługi w pewien sposób wykorzystują technologię sztucznej inteligencji.

Jak Google stosuje sztuczną inteligencję w swoich produktach

Oto kilka praktycznych przykładów zastosowania AI przez Google:

•  Podstawowa wyszukiwarka Google: za każdym razem, gdy coś wyszukujesz na google.com, otrzymujesz wyniki oparte na algorytmie uczenia maszynowego Google, który uczy się z każdego wyszukiwania i personalizuje wyniki za Ciebie. Google chce rozwinąć swoje możliwości wyszukiwania, aby był nawet w stanie przewidzieć, czego chcesz szukać, wszystko dzięki uczeniu maszynowemu i sztucznej inteligencji.

•  Asystent Google: osobisty asystent Google może ci pomóc, informując cię o aktualnych warunkach pogodowych, tłumacząc tekst na ponad 100 języków i aktualizując status twojego lotu. Można go używać do tworzenia przypomnień, dokonywania rezerwacji obiadów, a nawet przyciemniania świateł w domu podczas korzystania z usługi Google Home.

Ponieważ korzystanie z takich inteligentnych asystentów staje się coraz powszechniejsze, niektórzy krytycy wyrażają obawy dotyczące prywatności ujawnianych danych, na przykład rozmowy prowadzone z asystentem Google. Z tego powodu Google dodało sekcję pomocy technicznej do Asystenta Google, z łatwymi narzędziami, które pozwalają użytkownikom modyfikować ustawienia i uprawnienia, a nawet usuwać dane asystenta w razie potrzeby. Ta sekcja wsparcia znajduje się tutaj: www.goo.gl/GPjkCf. Możesz także dowiedzieć się więcej o Asystencie Google tutaj:

https://assistant.google.com

•  Zdjęcia Google: zostało to wykorzystane do rozpoznawania obrazów, aby pomóc w sortowaniu i indeksowaniu zdjęć przesłanych do Internetu. Google rozszerzyło zakres zastosowania o ulepszenie obrazu, które może dodawać szczegóły, których brakuje w obrazie.

•  Rozpoznawanie mowy: Asystent Google korzysta z głębokiego uczenia się, aby rozpoznawać polecenia, pytania i inne instrukcje mówione. Dotyczy to również usługi tłumaczeniowej Google.

•  YouTube: Google korzysta z uczenia maszynowego, aby lepiej śledzić nawyki użytkowników, co pomaga poprawić dokładność rekomendacji wideo.

•  Google Pixel Buds: Pixel Buds to marka słuchawek Bluetooth od Google. Są sprzedawane jako oferujące usługi natychmiastowego tłumaczenia dla ponad 40 obsługiwanych języków. Obecnie usługa tłumaczeń językowych Google oparta na sztucznej inteligencji jest jedną z najlepszych dostępnych. Korzystając z pąków pikselowych, osoba może nacisnąć prawą słuchawkę i powiedzieć “Pomóż mi mówić po włosku”. Pałąk lewego ucha przetłumaczyłby wszystko. Chociaż pierwsze wydanie tego produktu prawdopodobnie nie będzie idealne, z czasem może stać się ogromnym atutem dla ludzi zarówno zawodowo, jak i osobiście.

•  Autonomiczne samochody Google: Autonomiczne samochody Google są napędzane sztuczną inteligencją i uczeniem maszynowym, a według raportów firma wydała już ponad 1,1 miliarda dolarów na ich rozwój.

Ponadto istnieje wiele innych obszarów, w których Google stosuje sztuczną inteligencję, w tym projekty opieki zdrowotnej i usługi w chmurze.

Firmy AI Jakie Google Nabył

W 2014 roku Google kupił DeepMind, który według niektórych ekspertów może być jedną z najbardziej zaawansowanych firm AI na świecie. Ponadto Google nabył 12 innych firm zajmujących się sztuczną inteligencją, takich jak Halli Labs, Kaggle i Api.ai, bezpłatna aplikacja, za pomocą której można zbudować własnego asystenta AI.

Najlepsze osiągnięcia AI w Google

Niektóre z najlepszych przykładów, które pokazują możliwości i programów AI obejmują:

•  AlphaGo: to oprogramowanie AI opracowane przez DeepMind demonstruje moc głębokiego uczenia się, będąc pierwszym programem komputerowym, który pokonał człowieka w niezwykle złożonej chińskiej grze strategicznej Go. Według dyrektora generalnego DeepMind, Demisa Hassabisa, AlphaGo używa głębokich sieci neuronowych do grania w starożytną chińską grę Go przeciwko sobie tysiące razy, ucząc się na swoich błędach. W październiku 2017 roku DeepMind ogłosił, że AlphaGo Zero nauczył się grać w Go całkowicie bez udziału człowieka. Ten nowy system uczenia maszynowego był w stanie pokonać poprzednią wersję AlphaGo w ciągu zaledwie trzech dni, kończąc się wynikiem 100 gier wygranych do 0. Wszystkie poprzednie wersje AlphaGo wymagały danych wprowadzonych przez ludzi, aby nauczyć się grać w grę . W przeciwieństwie do tego AlphaGo Zero uczy się wyłącznie poprzez grę własną, która rozpoczyna się od losowych ruchów.

•  Bot uczy się chodzić: bot Google AI, również opracowany przez DeepMind, nauczył się chodzić, biegać i skakać bez instrukcji człowieka. Dzięki zastosowaniu uczenia wzmacniającego, oznaczającego sygnały nagrody wysyłane do maszyny, gdy wykonuje określone zachowania, bot był w stanie znaleźć własną drogę przez przeszkody.

•  TensorFlow: biblioteka typu open source, która pomaga w uczeniu maszynowym dla programistów i badaczy. Google po raz pierwszy wydało Tensorflow w listopadzie 2015 r. Internetowy gigant później wydał TensorFlow Lite, lekkie rozwiązanie TensorFlow dla urządzeń mobilnych i wbudowanych w listopadzie 2017 r.

Usługi i eksperymenty AI Google

•  Usługi AI AI dla firm: Google otworzyło również swoje usługi w chmurze AI dla innych firm w celu zastosowania zaawansowanych usług uczenia maszynowego. Ta usługa oferuje ogromne korzyści firmom, które rozumieją, jak wykorzystać tę platformę.

https://cloud.google.com/products/machine-learning

•  Google oparte na chmurze narzędzia AI: Google ma witrynę internetową, która koncentruje się wyłącznie na sztucznej inteligencji, wyświetlając różne narzędzia AI, które firma zaleca każdemu, a także wiadomości związane z jej projektami AI. Jednym z takich interesujących projektów jest Kaggle.com, która według strony internetowej jest największą na świecie społecznością zajmującą się przetwarzaniem danych i uczeniem maszynowym, zawierającą konkursy i eksperymenty. https://ai.google

•  Eksperymenty AI w Google: Google wdrożyło program o nazwie AI Experiments, w którym każdy może przesyłać swoje projekty związane z AI, a najbardziej kreatywne i godne uwagi projekty są prezentowane na stronie https://experiments.withgoogle.com/ai. Jednym z przykładów takiego projektu jest AutoDraw, narzędzie, które zgaduje, co próbujesz narysować, i oferuje bardziej realistycznie wyglądające wersje jako opcje. Możesz spróbować samemu: www.autodraw.com

•  Sztuczna inteligencja “zrób to sam”: Google ma witrynę internetową poświęconą udostępnianiu wszystkim narzędzi i zestawów programistycznych, które pomagają im tworzyć własne produkty związane z AI. Pierwszy projekt, który Google udostępnił na tej stronie, nazywa się AIY Projects Voice Kit, który jest rozpoznawaczem języka naturalnego, który można podłączyć do Google Assistant, i zasadniczo pozwala zbudować własną aplikację dla Google Assistant. https://aiyprojects.withgoogle.com/voice Rysunek 8.3. Google Voice-Kit AI zrób to sam. https: // aiyprojects.

Dzięki rozszerzeniu przez Google badań nad sztuczną inteligencją i otwartości na umożliwienie innym użytkownikom czerpania korzyści z jego pracy, świat rozwoju sztucznej inteligencji został znacznie ulepszony. Niedawno dyrektor generalny Google, Sundar Pichai, powiedział, że oprogramowanie do uczenia maszynowego firmy może nawet posłużyć do produkcji większej liczby programów do uczenia maszynowego, aby pomóc w rozwiązaniu problemu niedoboru talentów w branży. Firma wydaje się być zdeterminowana, aby przenieść AI na wyższy poziom, wykorzystując ją do ulepszania swoich aplikacji i, z kolei, doznań użytkowników. Możesz dowiedzieć się więcej o publikacjach Google dotyczących uczenia maszynowego pod adresem:

https://research.google.com/pubs/MachineIntelligence.html

Algorytmy dla MDP

W tej sekcji przedstawiamy cztery różne algorytmy rozwiązywania MDP. Pierwsze trzy, iteracja wartości, iteracja zasad i programowanie liniowe, generują dokładne rozwiązania w trybie offline. Czwarty to rodzina algorytmów przybliżonych online, która obejmuje planowanie Monte Carlo.

Iteracja wartości

Równanie Bellmana jest podstawą algorytmu iteracji wartości do rozwiązywania MDP. Jeśli istnieje n możliwych stanów, to istnieje n równań Bellmana, po jednym dla każdego stanu. N równań zawiera n niewiadomych – użyteczności stanów. Chcielibyśmy więc rozwiązać te jednoczesne równania, aby znaleźć narzędzia. Jest jeden problem: równania są nieliniowe, ponieważ operator „max” nie jest operatorem liniowym. Podczas gdy układy równań liniowych można szybko rozwiązać za pomocą technik algebry liniowej, układy równań nieliniowych są bardziej problematyczne. Jedną z rzeczy do wypróbowania jest podejście iteracyjne. Zaczynamy od dowolnych wartości początkowych dla mediów, obliczamy prawą stronę równania i wstawiamy je w lewą – aktualizując w ten sposób użyteczność każdego stanu na podstawie mediów jego sąsiadów. Powtarzamy to, aż osiągniemy równowagę. Niech Ui(s) będzie wartością użyteczności dla stanu s w i-tej iteracji. Etap iteracji, zwany aktualizacją Bellmana, wygląda następująco:

gdzie zakłada się, że aktualizacja jest stosowana jednocześnie do wszystkich stanów w każdej iteracji. Jeśli zastosujemy aktualizację Bellmana nieskończenie często, gwarantujemy osiągnięcie równowagi (patrz „Iteracja zbieżności wartości” poniżej), w którym to przypadku ostateczne wartości użyteczności muszą być rozwiązaniami równań Bellmana. W rzeczywistości są to również rozwiązania unikalne, a odpowiadająca im polityka jest optymalna. Szczegółowy algorytm, w tym warunek zakończenia, gdy media są „wystarczająco blisko”, co pokazano tu

Zauważ, że korzystamy z funkcji Q-WARTOŚĆ zdefiniowanej na stronie 559. Możemy zastosować iterację wartości do świata 4 x 3. Rozpoczynając od wartości początkowych równych zero, narzędzia ewoluują, jak pokazano na rysunku (a)

Zwróć uwagę, jak stany w różnych odległości od (4,3) kumulują ujemną nagrodę, dopóki nie zostanie znaleziona ścieżka do (4,3), po czym użyteczność zacznie rosnąć. Możemy myśleć o algorytmie iteracji wartości jako propagacji informacji w przestrzeni stanów za pomocą lokalnych aktualizacji.

100 Pytań o A.I.: Jakie są zalecane zasoby dotyczące robotów i robotyki?

Jeśli chcesz dowiedzieć się o wewnętrznych zasadach działania robotyki, istnieje wiele książek związanych z techniczną stroną robotyki dostępnych w Sieci. Jeśli jednak aplikacje i implikacje tych technologii są dla Ciebie interesujące, sprawdź niektóre zasoby, które polecam poniżej. Być może jedna z najbardziej znanych książek na temat robotyki i ich potencjalnego wpływu nazywa się Martin Rise of the Robots: Technology and Threat of an Jobless Future. Ta książka była jedną z pierwszych, która podjęła temat zmian w sile roboczej spowodowanych robotyką. Ilustruje to dramatyczne implikacje możliwe w przyszłości, ponieważ roboty są opracowywane i wykorzystywane na wiele sposobów. W szczególności podkreśla potencjał utraty pracy przez ludzi. Jeśli chodzi o coś bardziej skoncentrowanego na ludzkiej stronie, poleciłbym książkę Gerda Leonharda “Technologia kontra ludzkość: nadchodzące starcie człowieka z maszyną”, która omawia technologie wzrostu wykładniczego i ich możliwy wpływ na ludzi. Szczególnie podoba mi się skupienie Leonharda na znaczeniu ludzkości dla zachowania jej esencji i władzy nad technologią, a także na kwestiach etycznych, które mogą wynikać z tych robotycznych narzędzi. Jeśli zamiast tego chcesz nauczyć się budować roboty, zaproponuję bardziej interaktywny zasób, bezpłatny kurs online od Udacity zatytułowany Artificial Intelligence for Robotics, który można znaleźć tutaj: https://www.udacity.com/course/artificial-intelligence-for-robotics -cs373. Ten internetowy kurs wideo jest prowadzony przez Sebastiana Thruna, niemieckiego informatyka, który kierował zespołem samochodowym Google, i jest obecnie znany jako jeden z najlepszych ekspertów w dziedzinie robotyki i sztucznej inteligencji na świecie. Wreszcie, jako wiarygodne i aktualne źródło wysokiej jakości informacji na temat ciągłego rozwoju technologii robotów, możesz zapoznać się z artykułami Światowego Forum Ekonomicznego na temat sztucznej inteligencji i robotów, które można znaleźć na stronie: https://www.weforum.org/agenda/archive/artificial-intelligence-androbotics/

Reprezentowanie MDP

Najprostszym sposobem przedstawienia P(s’| s,a) i R(s,a,s’) jest użycie dużych, trójwymiarowych tabel o rozmiarze |S|2A|. Jest to dobre dla małych problemów, takich jak świat 4 x 3, dla których tabele mają 112 x 4=484 wpisów każda. W niektórych przypadkach tabele są rzadkie – większość wpisów ma wartość zero, ponieważ każdy stan s może przejść tylko do ograniczonej liczby stanów s’ – co oznacza, że ​​tabele mają rozmiar O|S|A|). W przypadku większych problemów nawet nieliczne tabele są zdecydowanie za duże. Podobnie gdzie sieci bayesowskie zostały rozszerzone o węzły akcji i użyteczności w celu utworzenia sieci decyzyjnych, możemy reprezentować MDP poprzez rozszerzenie dynamicznych sieci bayesowskich (DBN, patrz rozdział 14) o węzły decyzyjne, nagrody i użyteczności w celu tworzenia dynamicznych sieci decyzyjnych lub DDN. DDN to faktoryzowane reprezentacje; zazwyczaj mają wykładniczą przewagę złożoności nad reprezentacjami atomowymi i może modelować całkiem istotne problemy w świecie rzeczywistym. Rysunek , oparty na DBN z rysunku wcześniejszego, pokazuje niektóre elementy nieco realistycznego modelu robota mobilnego, który może się ładować.

Stan St jest rozłożony na cztery zmienne stanu:

  • Xt składa się z dwuwymiarowego położenia na siatce oraz orientacji;
  • ˙Xt to tempo zmian Xt ;
  • Ładowanie jest prawdziwe, gdy robot jest podłączony do źródła zasilania;
  • Batteryt to poziom naładowania baterii, który modelujemy jako liczbę całkowitą w zakresie 0,…, 5.

Przestrzeń stanów dla MDP jest iloczynem kartezjańskim zakresów tych czterech zmiennych. Akcja jest teraz zbiorem At zmiennych akcji, składających się z Plug=Unplug, który ma trzy wartości (plug, unplug i noop); LeftWheel dla mocy wysyłanej do lewego koła; i RightWheel dla mocy wysyłanej do prawego koła. Zestaw działań dla MDP jest iloczynem kartezjańskim zakresów tych trzech zmiennych. Zauważ, że każda zmienna akcji wpływa tylko na podzbiór zmiennych stanu. Ogólnym modelem przejścia jest rozkład warunkowy P(Xt+1|Xt , At), który można obliczyć jako iloczyn prawdopodobieństw warunkowych z DDN. Nagrodą jest tutaj pojedyncza zmienna, która zależy tylko od lokalizacji X (na przykład dotarcie do miejsca docelowego) i ładowania, ponieważ robot musi płacić za zużytą energię elektryczną; w tym konkretnym modelu nagroda nie zależy od akcji lub stanu wyniku. Sieć na rysunku powyżej została zaplanowana w dwóch krokach w przyszłość. Zauważ, że sieć zawiera węzły dla nagród za czasy t i t+1, ale użyteczność dla czasu t+2. Dzieje się tak, ponieważ agent musi zmaksymalizować (zdyskontowaną) sumę wszystkich przyszłych nagród, a U(Xt+3) reprezentuje nagrodę za wszystkie nagrody od t+3 wzwyż. Jeśli dostępne jest przybliżenie heurystyczne do U, można je w ten sposób uwzględnić w reprezentacji MDP i wykorzystać zamiast dalszego rozszerzania. To podejście jest ściśle związane z wykorzystaniem funkcji wyszukiwania o ograniczonej głębokości i funkcji oceny heurystycznej w grach. Innym interesującym i dobrze zbadanym MDP jest gra w Tetris (rysunek (a)).

Zmienne stanu dla gry to Bieżący kawałek, Następny kawałek i zmienna o wartości wektora bitowego Wypełniona jednym bitem dla każdej z 10 x 20 lokalizacji na planszy. Przestrzeń stanów ma zatem 7x 7 x 2200 ≈ 1062 stanów. DDN dla Tetris pokazano na rysunku (b).

Zauważ, że Filledt+1 jest funkcją deterministyczną funkcji Filledt i At . Okazuje się, że każda polisa dla Tetrisa jest właściwa (osiąga stan terminalny): w końcu tablica zapełnia się pomimo wszelkich starań, aby ją opróżnić.

100 Pytań o A.I. : Jak możemy skutecznie dostosować się do życia za pomocą robotów?

Historia pokazała, że wraz z pojawieniem się nowych technologii większość ludzi powoli się dostosowuje, poświęcając czas na zapoznanie się z nowymi narzędziami oraz ich wpływem i zastosowaniami. Problem, który pojawia się w przypadku sztucznej inteligencji i robotyki, polega na tym, że zasoby te rosną wykładniczo, co sprawia, że tym ważniejsze jest teraz omówienie ich zastosowań i konsekwencji. Jedno ważne pytanie brzmi: w jaki sposób możemy przygotować się do przystosowania się do przyszłości, w której żyjemy i pracujemy codziennie z robotami? Chociaż nie ma absolutnej, doskonałej odpowiedzi na to pytanie, jedną bardzo ważną rzeczą, o której należy pamiętać, jest to, że celem robotów pomocniczych jest polepszenie naszego życia w wymierny sposób. Ponieważ coraz więcej narzędzi opartych na sztucznej inteligencji zaczyna podejmować zadania, które kiedyś były przez nas wykonywane, możliwe jest, że pierwotny cel robotyki zostanie w końcu zapomniany. Musimy pamiętać, że roboty mają służyć nam, a nie na odwrót. Chociaż nie mam wszystkich odpowiedzi, jeśli chodzi o najlepsze sposoby przystosowania się do życia za pomocą robotów, oto kilka pytań, które możesz rozważyć, które mogą pomóc w prowadzeniu twojego procesu myślowego i zainspirować Cię do podjęcia działań:

•  Co możesz zrobić osobiście, aby pomóc całemu społeczeństwu w dostosowaniu się do życia i pracy obok robotów?

•  Co politycy i światowi liderzy powinni wiedzieć o robotyce i sztucznej inteligencji, aby odnieść sukces?

•  Jak możemy edukować nasze dzieci na temat zastosowań i implikacji robotyki?

•  W jaki sposób możemy sprzyjać wzrostowi liczby nauczycieli, którzy mogą komunikować znaczenie narzędzi robotycznych i uczyć sposobów współpracy z robotami?

•  W jaki sposób instytucje edukacyjne mogą opracowywać programy wymiany pozytywnych informacji o robotach?

•  Jakie są ważne wytyczne etyczne dotyczące korzystania z robotów i jak możemy je skutecznie wdrożyć?

•  W jaki sposób możemy zapewnić dostępność robotycznych narzędzi dla wszystkich grup społeczno-ekonomicznych?

•  Jak możemy uniknąć potencjalnych wad lub szkód, które mogą być spowodowane przez roboty?

•  W jaki sposób upewniamy się, że wszyscy w społeczeństwie mają takie same możliwości uczenia się i korzystania z robotów i robotyki, zamiast bogatych?

•  W jaki sposób upewniamy się, że umiejętności komunikacji interpersonalnej nie ucierpią w świecie, w którym wiele osób decyduje się komunikować i spędzać większość czasu z robotami zamiast ludźmi?

Moje własne przemyślenie na ten temat polega na tym, że pilnie potrzebujemy więcej edukacji publicznej i rozmowy na temat roli robotów w społeczeństwie. Musimy zająć się takimi kwestiami, jak ich role będą ewoluować, gdy staną się one bardziej popularne i realistyczne, jakie będą ich relacje z ludźmi i jak role ludzkie mogą się w rezultacie zmienić. Musimy zaangażować się w tego rodzaju dyskusje i edukację, zanim nastąpi poważna proliferacja robotów podobnych do ludzi. Jeśli nie będziemy odpowiednio wcześniej przygotowani, może dojść do nagłego napływu tych robotów do niepokojów społecznych, w tym wielu zdezorientowanych, wściekłych i w inny sposób nieszczęśliwych ludzi. Najważniejsze jest, aby zacząć działać teraz, a nie czekać, aż zaawansowane technologie robotyczne zaleją rynek i nasze życie. Międzynarodowe prawa i ograniczenia odegrają kluczową rolę w tworzeniu i użytkowaniu robotów w ciągu najbliższych kilku lat, dlatego edukacja polityków i liderów na całym świecie powinna być głównym celem otaczającym dalszy rozwój technologii robotycznych.

Wagi nagród

Zauważono, że skala użyteczności jest arbitralna: transformacja afiniczna pozostawia niezmienioną decyzję optymalną. Możemy zastąpić U(s) przez U’(s) = mU(s)+b, gdzie m i b są dowolnymi stałymi takimi, że m > 0. Łatwo zauważyć, z definicji użyteczności jako zdyskontowanych sum nagród, że podobne transformacja nagród pozostawi optymalną politykę niezmienioną w MDP:

R’(s,a,s’) = mR(,a,s’)+b:

Okazuje się jednak, że addytywna dekompozycja nagrody użyteczności prowadzi do znacznie większej swobody w definiowaniu nagród. Niech Φ(s) będzie dowolną funkcją stanu s. Następnie, zgodnie z twierdzeniem o kształtowaniu, następująca transformacja pozostawia bez zmian optymalną politykę:

Aby pokazać, że to prawda, musimy udowodnić, że dwa programy MDP, M i M’, mają identyczne optymalne polityki, o ile różnią się tylko funkcjami nagrody, jak określono w równaniu . Zaczynamy od równania Bellmana dla Q, funkcji Q dla MDP M:

Teraz niech Q’(s,a)=Q(s,a)-Φ(s) i wstawić to do tego równania; dostajemy

co następnie upraszcza się do

Innymi słowy, Q’(s,a) spełnia równanie Bellmana dla MDP M’. Teraz możemy wyodrębnić optymalną politykę dla M’ za pomocą równania

Funkcja Φ(s) jest często nazywana potencjałem, przez analogię do potencjału elektrycznego (napięcia), który powoduje powstawanie pól elektrycznych. Termin γΦ(s’)-Φ(s) funkcjonuje jako gradient potencjału. Tak więc, jeśli Φ(s) ma większą wartość w stanach o większej użyteczności, dodanie  γ Φ(s’)-Φ(s) do nagrody skutkuje prowadzeniem agenta „pod górę” użyteczności. Na pierwszy rzut oka może wydawać się dość sprzeczne z intuicją, że możemy w ten sposób modyfikować nagrodę bez zmiany optymalnej polityki. Dobrze, jeśli pamiętamy, że wszystkie zasady są optymalne, a funkcja nagrody jest wszędzie zerowa. Oznacza to, zgodnie z twierdzeniem o kształtowaniu, że wszystkie taktyki są optymalne dla dowolnej nagrody opartej na potencjale postaci R(s,a,s’) = γΦ(s’)- Φ(s). Intuicyjnie dzieje się tak, ponieważ przy takiej nagrodzie nie ma znaczenia, w którą stronę przechodzi agent z A do B. (Najłatwiej to zobaczyć, gdy γ=1: wzdłuż dowolnej ścieżki suma nagród spada do Φ(B)-Φ(A), więc wszystkie ścieżki są równie dobre.) Zatem dodanie nagrody opartej na potencjale do jakiejkolwiek innej nagrody nie powinno zmieniać optymalnej polityki. Elastyczność zapewniana przez twierdzenie o kształtowaniu oznacza, że ​​możemy faktycznie pomóc agentowi, sprawiając, że natychmiastowa nagroda bardziej bezpośrednio odzwierciedla to, co agent powinien zrobić. W rzeczywistości, jeśli ustawimy Φ(s)=U(s), to zachłanna polityka G w odniesieniu do zmodyfikowanej nagrody R’ jest również optymalną polityką:

Oczywiście, aby ustawić Φ(s)=U(s), musielibyśmy znać U(s); więc nie ma darmowego lunchu, ale nadal istnieje znaczna wartość w zdefiniowaniu funkcji nagrody, która jest pomocna w możliwym zakresie. To jest dokładnie to, co robią trenerzy zwierząt, kiedy zapewniają zwierzęciu mały smakołyk na każdym etapie sekwencji docelowej