100 Pytań o A.I.: Jakie są kluczowe obawy dotyczące prywatności związane z technologiami AI?

Jednym z wielu wyzwań, przed którymi stoi społeczeństwo ze względu na gwałtownie rosnące wykorzystanie sztucznej inteligencji, jest zachowanie prywatności informacji. Czy pamiętasz dni przed mediami społecznościowymi i Google, kiedy nikt nie mógł wyszukiwać Cię po imieniu przez Internet i uzyskiwać informacji o Tobie? Od tego czasu nasze oczekiwania i myśli dotyczące prywatności uległy ogromnej zmianie. W wielu przypadkach Google i Facebook wiedzą więcej o naszym codziennym życiu i procesach decyzyjnych niż my, jedynie dzięki ilości i rodzajom danych, do których mają dostęp. To spowodowało, że wiele osób zaczęło martwić się utratą prywatności dużych firm technologicznych. W ciągu najbliższych kilku lat sztuczna inteligencja stanie się powszechna w wielu obszarach naszego życia. Dzięki sztucznej inteligencji będziemy mogli doświadczyć niesamowitych ulepszeń w opiece zdrowotnej, edukacji, bezpieczeństwie publicznym i nie tylko. Staje się to możliwe, ponieważ narzędzia sztucznej inteligencji mogą szybko i dokładnie pracować w celu gromadzenia i analizowania dużych ilości danych, jednak przy tak dużej ilości danych pojawiają się pytania, w jaki sposób możemy zagwarantować, że nasze prywatne informacje nie są wykorzystywane w niewłaściwy sposób lub dla celów komercyjnych. Tego rodzaju pytania muszą być rozwiązywane zarówno na poziomie indywidualnym, jak i politycznym, gdzie ustawodawstwo można zmienić lub wprowadzić w celu ochrony prywatności obywateli. Inteligentni asystenci cyfrowi, tacy jak Apple Siri, Alexa Amazon i Google Assistant, mogą być niezwykle przydatnymi narzędziami, ale także mają duży wgląd w to, gdzie się udajemy i co robimy. Z tego powodu wiele osób już się waha przed korzystaniem z tego rodzaju urządzeń, obawiając się, że firmy za nimi mogą wykorzystywać lub sprzedawać swoje dane osobowe w celach reklamowych lub gorzej. W tym celu wielu twierdziło, że osoby fizyczne powinny zawsze mieć dostęp do danych na ich temat firm technologicznych. Prostym przykładem jest usługa Moja aktywność Google, do której możesz zalogować się ze swojego konta Google, aby zobaczyć to, czego szukałeś, oglądałeś lub odwiedziłeś w witrynach Google. Pojęcie prywatności różni się również w zależności od kraju. Na przykład polityka prywatności w USA znacznie różni się od polityki w Europie, która często jest bardziej surowa i aktualna w zakresie trendów technologicznych. Jednym z takich aktów prawnych w Unii Europejskiej jest Ogólne rozporządzenie o ochronie danych (RODO), które weszło w życie 25 maja 2018 r. Podstawowym założeniem tego zbioru przepisów jest to, że obywatele UE będą mieć większą kontrolę nad sposobami w których można wykorzystywać ich dane osobowe. Oto trzy interesujące elementy tego ustawodawstwa:

•  Prawo do bycia zapomnianym: pozwala każdemu obywatelowi UE zażądać usunięcia jego danych osobowych z rejestrów firmy.

•  Świadoma zgoda: zgodnie z tą częścią prawa firmy nie będą mogły stosować długich lub mylących warunków. Każde żądanie zgody użytkownika musi być łatwo zrozumiałe i dostępne. Może to stanowić duże wyzwanie dla niektórych usług opartych na narzędziach opartych na sztucznej inteligencji, takich jak Alexa, Google Assistant i Siri.

•  Przenoszenie danych: każdy obywatel UE może również poprosić o przesłanie swoich danych do innego dostawcy.

Prawdopodobnie niektóre z największych firm oferujących narzędzia AI będą miały trudności z dostosowaniem się do ograniczeń nałożonych przez ten zestaw przepisów. Gartner, Inc. szacuje, że 50 procent firm nie będzie w stanie w pełni przestrzegać RODO do końca 2018 r. RODO stanowi zmianę paradygmatu dla dużych firm technologicznych i krok naprzód w zakresie prawa osób fizycznych do prywatności. W związku z tym, że firmy technologiczne w UE są zmuszone dostosować swoje praktyki biznesowe do wymogów RODO, miejmy nadzieję, że inne kraje zaczną wprowadzać podobne przepisy w celu ochrony swoich obywateli.

Algorytmy rozwiązywania POMDP

Pokazaliśmy, jak zredukować POMDP do MDP, ale otrzymywane przez nas MDP mają ciągłą (i zwykle wielowymiarową) przestrzeń stanów. Oznacza to, że będziemy musieli przeprojektować algorytmy programowania dynamicznego , które zakładały skończoną przestrzeń stanów i skończoną liczbę akcji. W tym miejscu opisujemy algorytm iteracji wartości zaprojektowany specjalnie dla POMDP, a następnie algorytm podejmowania decyzji online podobny do algorytmu opracowanego dla gier.

100 Pytań o A.I. : Jakie są powszechne obawy dotyczące sztucznej inteligencji?

Opierając się na moich rozmowach z innymi, zauważyłem, że wielu ludzi ma co najmniej pewien strach, jeśli chodzi o sztuczną inteligencję. W większości przypadków wynika to z niezrozumienia tego, czym jest sztuczna inteligencja lub nadmiernej zależności od tego, co media głównego nurtu mówią o tych technologiach. Wiadomości negatywne przyciągają więcej uwagi niż wiadomości pozytywne, dlatego wiele serwisów informacyjnych maksymalizuje liczbę odbiorców, skupiając się na opowieściach negatywnych lub przesadzonych, jak ma to miejsce w przypadku dużej części relacji dotyczących sztucznej inteligencji. Prawie wszystko, co jest nowe i złożone, powoduje zamieszanie i strach wśród ludzi. Naukowcy nazywają to “negatywnym nastawieniem”, które odnosi się do naszej zbiorowej skłonności do chęci słyszenia i zapamiętywania złych wiadomości. Ponieważ większość ludzi nie ma wykształcenia w zakresie sztucznej inteligencji, temat ten stał się celem negatywnych historii. Na przykład latem 2017 r. w wielu serwisach informacyjnych pojawiły się upiększone nagłówki dotyczące eksperymentów AI na Facebooku. Rozważ ten przykład jednego z nagłówków w Yahoo News: “Inżynierowie z Facebooka wpadają w panikę, wyciągają wtyczkę z AI po opracowaniu przez boty własnego języka “- Yahoo News Chociaż nagłówek ten z pewnością przykuł uwagę, było to dość odejście od prawdy, ponieważ wydarzenie nie wywołało paniki wśród inżynierów Facebooka. Zamiast tego media zmieniły historię, aby wygenerować większy ruch i przyciągnąć więcej uwagi. Artykuł Toma McKaya, zatytułowany Nie, Facebook nie wpadł w panikę i zamknął program AI, który stawał się niebezpiecznie inteligentny, opublikowany na stronie internetowej Gizmodo, wyjaśnia, co się naprawdę wydarzyło. Jestem pewien, że w przyszłości będziemy otrzymywać takie nagłówki, ponieważ aplikacje AI stają się coraz bardziej popularne. Z tego powodu zawsze dobrym pomysłem jest przeglądanie przesadzonych nagłówków, śledzenie zawsze przesadnych nagłówków, śledzenie źródeł i samodzielne badanie. Jednym z najczęstszych obaw związanych z rozwojem sztucznej inteligencji jest to, że ostatecznie stworzymy pewnego rodzaju super sztuczną inteligencję, która zaszkodzi, a nawet zabije ludzi. Jednym ze źródeł tego strachu są oburzające przedstawienia AI w Hollywood, które przez wiele lat były często negatywne lub przerażające, wielokrotnie pokazując przerażające obrazy robotów niszczących ich twórców. Innym powodem jest to, że technologia sztucznej inteligencji, którą możemy dziś stworzyć, jest bardziej realistyczna niż kiedykolwiek wcześniej, ponieważ zasadniczo może widzieć, słyszeć, rozumieć, rozumować, a w niektórych przypadkach chodzić, rozmawiać, a nawet wyglądać jak człowiek. To może utorować drogę dla wyobraźni niektórych ludzi, gdy myślą o tym, co te maszyny mogą zrobić. Innym czynnikiem prawdopodobnie podsycającym płomienie publicznego strachu może być to, że wielu szanowanych naukowców i badaczy sztucznej inteligencji było widzianych w wiadomościach omawiających kwestie, które mogą być uzasadnionymi przyczynami niepokoju. Niektórzy z tych słynnych ekspertów, tacy jak Stephen Hawking i Elon Musk, publicznie ostrzegają, że rozwój sztucznej inteligencji może być niebezpieczny dla ludzi, jeśli nie przygotujemy się i nie zaplanujemy odpowiednio. Dzielenie się tymi obawami mogło mieć niezamierzoną konsekwencję zaostrzenia obaw społeczeństwa przed sztuczną inteligencją. Istnieją setki ekspertów pracujących nad problemem strachu publicznego, w tym jedne z najbardziej błyskotliwych umysłów na świecie w zakresie sztucznej inteligencji i innych dziedzin nauki. Istnieją również organizacje, takie jak Future of Life Institute, wdrażające wiele inicjatyw w tym zakresie. Chociaż nadal istnieją pewne problemy i wyzwania, które należy rozwiązać, eksperci już szukają rozwiązań. Zamiast więc martwić się o nagłówki w mediach, zacznij myśleć o tym, jak zastosować sztuczną inteligencję w swoim życiu, zarówno teraz, jak i w najbliższej przyszłości.

Definicja POMDP

Aby zrozumieć POMDP, musimy najpierw je odpowiednio zdefiniować. POMDP ma te same elementy co MDP – model przejścia P (s’ | s , a), akcje A (s) i funkcja nagrody R (s,a,s’) – ale podobnie jak częściowo obserwowalne problemy wyszukiwania, ma również model czujnika P (e | s). Tutaj, podobnie jak w rozdziale 14, model czujnika określa prawdopodobieństwo dostrzeżenia dowodów w stanie s. Na przykład możemy przekształcić świat 4 x 3 w POMDP, dodając zaszumiony lub częściowy czujnik zamiast zakładać, że agent dokładnie zna swoją lokalizację. Można użyć zaszumionego czterobitowego czujnika, który zgłasza obecność lub brak ściany w każdym kierunku kompasu z dokładnością 1 – ε. Podobnie jak w przypadku MDP, możemy uzyskać zwartą reprezentację dla dużych POMDP, używając dynamicznych sieci decyzyjnych (patrz Rozdział 16.1.4). Dodajemy zmienne czujnika Et, zakładając, że zmienne stanu Xt mogą nie być bezpośrednio obserwowalne. Następnie podano model czujnika POMDP przez P (Et| Xt). Na przykład, możemy dodać zmienne czujnika do DDN na rysunku 16.4, takie jak BatteryMetert, aby oszacować rzeczywisty ładunek Batteryt i Speedometert, aby oszacować wielkość wektora prędkości ˙Xt. Czujnik sonaru Wallst może podać szacunkowe odległości do najbliższej ściany w każdym z czterech głównych kierunków względem aktualnej orientacji robota; wartości te zależą od aktualnej pozycji i orientacji Xt. W rozdziałach 4 i 11 zbadaliśmy niedeterministyczne i częściowo obserwowalne problemy planowania i zidentyfikowaliśmy stan przekonania – zbiór rzeczywistych stanów, w których może się znajdować agent – jako kluczową koncepcję do opisywania i obliczania rozwiązań. W POMDP stan przekonania b staje się rozkładem prawdopodobieństwa na wszystkie możliwe stany, tak jak w rozdziale 14. Na przykład początkowy stan przekonania dla POMDP 4  x 3 może być jednorodnym rozkładem na dziewięć stanów nieterminalnych wraz z zerami dla terminala stany, czyli częściowo obserwowalne problemy planowania i zidentyfikowaliśmy stan przekonania – zbiór rzeczywistych stanów, w których może się znajdować agent – jako kluczową koncepcję do opisywania i obliczania rozwiązań. W POMDP stan przekonania b staje się rozkładem prawdopodobieństwa na wszystkie możliwe stany, tak jak w rozdziale 14. Na przykład początkowy stan przekonania dla POMDP 4  x 3 może być jednorodnym rozkładem na dziewięć stanów nieterminalnych wraz z zerami dla terminala stany, czyli

Używamy notacji b (s), aby odnieść się do prawdopodobieństwa przypisanego do stanu faktycznego s przez stan przekonania b. Agent może obliczyć swój aktualny stan przekonań jako warunkowy rozkład prawdopodobieństwa w rzeczywistych stanach, biorąc pod uwagę dotychczasową sekwencję percepcji i działań. Jest to zasadniczo zadanie filtrowania opisane w rozdziale 14. Podstawowe równanie filtrowania rekurencyjnego (14.5 na stronie 485) pokazuje, jak obliczyć nowy stan przekonań na podstawie poprzedniego stanu przekonań i nowych dowodów. W przypadku POMDP również musimy rozważyć działanie, ale wynik jest zasadniczo taki sam. Jeśli b było poprzednim stanem przekonań, a agent wykonuje działanie a, a następnie postrzega dowód e, wtedy nowy stan przekonań uzyskuje się, obliczając prawdopodobieństwo przebywania w stanie s0 dla każdego s0 za pomocą następującego wzoru:

gdzie α jest stałą normalizującą, która sumuje stan przekonania do 1. Przez analogię do operatora aktualizacji do filtrowania , możemy zapisać to jako

W POMDP 4×3 załóżmy, że agent porusza się w lewo, a jego czujnik zgłasza jedną sąsiednią ścianę; wtedy jest całkiem prawdopodobne (choć nie jest to gwarantowane, ponieważ zarówno ruch, jak i czujnik są hałaśliwe), że agent jest teraz w (3,1). Ćwiczenie 16.POMD prosi o obliczenie dokładnych wartości prawdopodobieństwa dla nowego stanu przekonań. Podstawowy wgląd wymagany do zrozumienia POMDP jest następujący: optymalne działanie J zależy tylko od aktualnego stanu przekonania agenta. Oznacza to, że optymalną politykę można opisać poprzez mapowanie π*(b) stanów przekonań na działania. Nie zależy to od faktycznego stanu agenta. To dobrze, bo agent nie zna swojego aktualnego stanu; wszystko, co wie, to stan wiary. W związku z tym cykl decyzyjny agenta POMDP można podzielić na następujące trzy etapy:

  1. Mając aktualny stan przekonań b, wykonaj akcję a =π*(b).
  2. Obserwuj postrzeganie e
  3. Ustaw obecny stan przekonań na FoRWARD (b; a; e) i powtórz.

Możemy myśleć o POMDP jako wymagających przeszukiwania w przestrzeni stanów przekonań, podobnie jak metody rozwiązywania problemów bezczujnikowych i problemów losowych w Rozdziale 4. Główną różnicą jest to, że przestrzeń stanów przekonań POMDP jest ciągła, ponieważ stan przekonań POMDP jest prawdopodobieństwem. dystrybucja. Na przykład stan wiary dla świata 4 x 3 jest punktem w 11-wymiarowej ciągłej przestrzeni. Czynność zmienia stan przekonań, a nie tylko stan fizyczny, ponieważ wpływa na odbierane postrzeganie. W związku z tym działanie jest oceniane przynajmniej częściowo zgodnie z informacjami, które agent uzyskuje w wyniku. Dlatego POMDP uwzględniają wartość informacji (sekcja 15.6) jako jeden z elementów problemu decyzyjnego. Przyjrzyjmy się dokładniej wynikom działań. W szczególności obliczmy prawdopodobieństwo, że agent w stanie przekonań b osiągnie stan przekonań b’ po wykonaniu działania a. Teraz, gdybyśmy znali działanie i następujące po nim spostrzeżenie, to równanie (16.16) dostarczyłoby deterministycznej aktualizacji stanu przekonania: b’ = FORWARD (b , a , e). Oczywiście, kolejny percept nie jest jeszcze znany, więc agent może przybyć w jednym z kilku możliwych stanów przekonań b’, w zależności od perceptu, który jest odbierany. Prawdopodobieństwo dostrzeżenia e, zakładając, że a zostało wykonane w stanie przekonania b, jest określone przez zsumowanie wszystkich rzeczywistych stanów s’, które agent może osiągnąć:

Zapiszmy prawdopodobieństwo osiągnięcia b’ z b przy danej akcji a, jako P (b’ |b,  a). Prawdopodobieństwo to można obliczyć w następujący sposób:

gdzie P (b’|e, a, b) wynosi 1, jeśli b’ = FORWARD (b, a, e) i 0 w przeciwnym razie. Równanie (16.17) można postrzegać jako definiujące model przejścia dla przestrzeni stan-przekonanie. Możemy również zdefiniować funkcję nagrody dla przejść stan-przekonanie, która jest wyprowadzona z oczekiwanej nagrody za przemiany stanu rzeczywistego, które mogą zachodzić. Tutaj używamy prostej formy (b; a), oczekiwanej nagrody, jeśli agent wykona stan przekonań b:

 

Razem P (b’ | b , a) i ρ(b , a) definiują obserwowalny MDP w przestrzeni stanów przekonań. Ponadto można wykazać, że optymalna polityka dla tego MDP, π*(b), jest również optymalna polityką I dla oryginalnego POMDP. Innymi słowy, rozwiązywanie POMDP w przestrzeni stanów fizycznych można zredukować do rozwiązywania MDP w odpowiedniej przestrzeni stanów przekonań. Fakt ten jest być może mniej zaskakujący, jeśli pamiętamy, że stan przekonań jest z definicji zawsze obserwowalny dla agenta

100 Pytań o A.I.: Z jakich zasobów AI można już korzystać?

Istnieje wiele sposobów, dzięki którym ludzie używają sztucznej inteligencji każdego dnia, nawet o tym nie myśląc i nie zdając sobie z tego sprawy. Oto niektóre z najczęstszych przykładów:

•  Inteligentni wirtualni asystenci personalni: Siri, Cortana i Google Assistant są doskonałymi przykładami powszechnie używanych narzędzi AI i są szeroko omówione w innych obszarach tej książki.

•  Spersonalizowane rekomendacje mediów: Czy kiedykolwiek korzystałeś z Netflix lub Spotify? Każda z tych firm wykorzystuje zasoby sztucznej inteligencji do polecania filmów lub muzyki na podstawie wcześniejszych wyborów.

•  Inteligentne wyszukiwania na Facebooku: narzędzia AI AI Facebooka pozwalają wyszukiwać zdjęcia według zawartości za pomocą programów do rozpoznawania obrazów. Na przykład możesz wyszukiwać obrazy związane z “rodziną” lub “pizzą”, a narzędzia AI AI Facebooka znajdą je dla Ciebie.

•  Zalecenia dotyczące produktu: Gdy kupujesz coś za pośrednictwem Amazon.com, jego algorytm uczenia maszynowego zawiera rekomendacje dotyczące podobnych lub powiązanych produktów, które możesz być zainteresowany zakupem.

•  Wyszukiwania Google: od wielu lat wyniki wyszukiwania Google są bezpośrednim produktem uczenia maszynowego, personalizującego wyniki na podstawie lokalizacji i wcześniejszych wyszukiwań.

• Rozpoznawanie mowy w wyszukiwarce Google: Oprócz wyszukiwania tekstowego możesz także wprowadzać polecenia głosowe, które Google może interpretować za pomocą technologii AI znanej jako rozpoznawanie mowy.

•  Boty Facebook Messenger: Wiele firm używa teraz chatbotów w Facebook Messenger, aby odpowiadać na codzienne żądania obsługi klienta.

•  Ochrona przed oszustwami online: PayPal, system płatności online, wykorzystuje uczenie maszynowe do ochrony przed oszustwami, analizując duże ilości danych klientów w celu oceny ryzyka. AI jest kluczową technologią dla wszystkich internetowych usług finansowych, ponieważ są one często celem cyberprzestępców.

•  Reklama online: reklama online działa najskuteczniej, gdy jest wzmocniona przez zastosowanie sztucznej inteligencji. Na przykład reklama na Facebooku wykorzystuje algorytmy głębokiego uczenia się do analizy danych dotyczących wydajności reklamy, aby zrozumieć, jak najlepiej kierować reklamy. To znacznie bardziej prawdopodobne, że reklamy będą oglądane i klikane przez docelowych odbiorców.

To tylko kilka prostych przykładów, które dają ci wgląd w to, jak sztuczna inteligencja jest już wykorzystywana w naszym codziennym życiu, ale jest ich o wiele więcej. W przyszłości prawdopodobnie będziemy korzystać z jeszcze większej liczby narzędzi sztucznej inteligencji, które działają za kulisami, często pozostając niezauważonymi, ale zapewniając rozwiązania, które ułatwią nam życie i zwiększą wydajność.

Częściowo obserwowalne MDP

W opisie procesów decyzyjnych Markowa przyjęto, że środowisko jest w pełni obserwowalne. Przy takim założeniu agent zawsze wie, w jakim jest stanie. To, w połączeniu z założeniem Markowa dla modelu przejściowego, oznacza, że ​​optymalna polityka zależy tylko od aktualnego stanu.

Gdy otoczenie jest tylko częściowo obserwowalne, sytuacja jest, można powiedzieć, znacznie mniej jasna. Agent niekoniecznie wie, w jakim stanie się znajduje, więc nie może wykonać akcji (akcji) zalecanych dla tego stanu. Co więcej, użyteczność stanu s i optymalne działanie w s zależą nie tylko od s, ale także od tego, ile agent wie, kiedy jest w s. Z tych powodów częściowo obserwowalne MDP (lub POMDP – wymawiane „pom-dee-pees”) są zwykle postrzegane jako znacznie trudniejsze niż zwykłe MDP. Nie możemy jednak uniknąć POMDP, ponieważ świat rzeczywisty jest taki sam.

100 Pytań o A.I. : Jakie są działania w branży A.I firmy Tencent?

Tencent jest spółką stojącą za największą siecią mediów społecznościowych w Chinach. Ta firma oferuje produkty i usługi związane z mediami społecznościowymi, mapami, pocztą, rozrywką, hazardem, streamingiem wideo, grami, i edukacją. Jako twórca WeChat Tencent jest kolejnym ważnym graczem w świecie sztucznej inteligencji. Ta firma jest obecnie warta ponad 300 miliardów dolarów. Oprócz wdrażania technologii sztucznej inteligencji w aplikacji do komunikacji błyskawicznej WeChat, Tencent pracuje nad wieloma innymi technologiami sztucznej inteligencji, w tym rozpoznawaniem obrazu i samochodami samojezdnymi. WeChat jest bardziej zintegrowany z codziennymi czynnościami użytkowników niż inne popularne komunikatory, takie jak WhatsApp i Facebook Messenger. Dzięki WeChat możesz robić takie rzeczy, jak zamówić taksówkę, robić zakupy online, czytać wiadomości, wysyłać pieniądze znajomemu i wykonywać wiele innych czynności. WeChat stara się być jedyną aplikacją, jakiej ktoś potrzebuje w Chinach. Dzięki codziennej aktywności milionów użytkowników WeChat Tencent ma dostęp do ogromnej ilości danych dotyczących osobistych nawyków swoich klientów. Według wielu ekspertów tego rodzaju dane są cenniejsze niż dane wyszukiwania Baidu lub dane e-commerce dostępne dla Alibaba, co daje Tencent doskonałą pozycję do tworzenia najnowocześniejszych produktów i usług AI.

Badania AI Tencenta

Tencent otworzył laboratorium AI w Seattle i inwestuje znaczne środki w projekty badawczo-rozwojowe dotyczące AI. Oprócz posiadania własnego laboratorium sztucznej inteligencji, Tencent zaczął także inwestować w wiele startupów związanych z AI. Badania AI Tencenta koncentrują się na uczeniu maszynowym, wizji komputerowej, rozpoznawaniu mowy i przetwarzaniu języka naturalnego oraz ich potencjalnych zastosowaniach w grach, produktach społecznościowych i opartych na treści oraz platformach AI. Więcej informacji można znaleźć w badaniach firmy dotyczących AI, a także w niektórych publikacjach w języku angielskim, pod adresem: http://ai.tencent.com/ailab/index.html

Rola w chińskim narodowym zespole AI

W ramach narodowego zespołu AI w Chinach rolą Tencent będzie skupienie się na rozwoju technologii widzenia komputerowego w celu poprawy diagnostyka medyczna. Wraz z trzema wiodącymi chińskimi firmami omówionymi wcześniej, istnieje wiele innych udanych startupów i firm w Chinach, które ciężko pracują nad rozwojem bardziej zaawansowanych technologii sztucznej inteligencji i możemy spodziewać się lepszych wyników z czasem.

Warianty nieindeksowalne

Problemy z bandytami były częściowo motywowane zadaniem testowania nowych metod leczenia na ciężko chorych pacjentach. W tym zadaniu cel, jakim jest maksymalizacja całkowitej liczby sukcesów w czasie, ma wyraźnie sens: każdy pomyślny test oznacza uratowane życie, każda porażka to stracone życie. Jeśli jednak nieco zmienimy założenia, pojawia się inny problem. Załóżmy, że zamiast określać najlepszą terapię dla każdego nowego pacjenta, testujemy różne leki na próbkach bakterii, aby zdecydować, który lek jest najlepszy. Następnie wprowadzimy ten lek do produkcji i zrezygnujemy z pozostałych. W tym scenariuszu nie ma dodatkowych kosztów, jeśli bakterie umrą – każdy test ma stały koszt, ale nie musimy minimalizować niepowodzeń testu; raczej staramy się jak najszybciej podjąć dobrą decyzję. Zadanie wyboru najlepszej opcji w tych warunkach nazywa się problemem wyboru. Problemy z selekcją są wszechobecne w kontekście przemysłowym i osobistym. Często trzeba zdecydować, którego dostawcy użyć do procesu; lub jakich kandydatów zatrudnić. Problemy selekcji są powierzchownie podobne do problemu bandytów, ale mają inne właściwości matematyczne. W szczególności nie istnieje funkcja indeksowania dla problemów z selekcją. Dowód tego wymaga pokazania dowolnego scenariusza, w którym optymalna polityka zmienia swoje preferencje dla dwóch ramion M1 i M2 po dodaniu trzeciego ramienia M3.

Pprzedstawiono koncepcję problemów decyzyjnych na metapoziomie, takich jak podejmowanie decyzji, jakie obliczenia należy wykonać podczas przeszukiwania drzewa gry przed wykonaniem ruchu. Tego rodzaju decyzja na metapoziomie jest również problemem selekcji, a nie problemem bandytów. Oczywiście rozbudowa lub ocena węzła kosztuje tyle samo czasu, niezależnie od tego, czy generuje wysoką, czy niską wartość wyjściową. Być może jest więc zaskakujące, że algorytm przeszukiwania drzewa Monte Carlo okazał się tak skuteczny, biorąc pod uwagę, że próbuje rozwiązać problemy z selekcją za pomocą heurystyki UCB, która została zaprojektowana z myślą o problemach bandytów. Ogólnie rzecz biorąc, oczekuje się, że optymalne algorytmy bandytów zbadają znacznie mniej niż optymalne algorytmy selekcji, ponieważ algorytm bandytów zakłada, że ​​nieudana próba kosztuje prawdziwe pieniądze. Ważnym uogólnieniem procesu bandytów jest superproces bandytów lub BSP, w którym każde ramię jest pełnym procesem decyzyjnym Markowa, a nie procesem nagradzania Markowa z tylko jednym możliwym działaniem. Wszystkie inne właściwości pozostają takie same: ramiona są niezależne, można pracować tylko nad jedną (lub ograniczoną liczbą) na raz i istnieje jeden czynnik dyskontowy. Przykłady BSP obejmują życie codzienne, w którym można zająć się jednym zadaniem na raz, nawet jeśli kilka zadań może wymagać uwagi; zarządzanie projektami z wieloma projektami; nauczanie z wieloma uczniami wymagającymi indywidualnego doradztwa; i tak dalej. Powszechnym określeniem jest wielozadaniowość. Jest tak wszechobecny, że ledwo zauważalny: formułując rzeczywisty problem decyzyjny, analitycy decyzyjni rzadko pytają, czy ich klient ma inne, niezwiązane problemy.

Można rozumować w następujący sposób: „Jeżeli istnieje n rozłącznych MDP, to jest oczywiste, że optymalna ogólna polityka jest budowana z optymalnych rozwiązań poszczególnych MDP. Biorąc pod uwagę swoją optymalną politykę πi, każdy MDP staje się procesem nagrody Markowa, w którym w każdym stanie s występuje tylko jedno działanie πi(s). Dlatego sprowadziliśmy superproces n-uzbrojonych bandytów do procesu zbrojnych bandytów”. Na przykład, jeśli deweloper ma do wybudowania jedną ekipę budowlaną i kilka centrów handlowych, to wydaje się po prostu zdrowym rozsądkiem, że należy opracować optymalny plan budowy dla każdego centrum handlowego, a następnie rozwiązać problem bandytów, aby zdecydować, dokąd wysłać załogi każdego dnia. Choć brzmi to bardzo wiarygodnie, jest niepoprawne. W rzeczywistości globalnie optymalna polityka dla BSP może obejmować działania, które są lokalnie suboptymalne z punktu widzenia składowej MDP, w której są podejmowane. Powodem tego jest to, że dostępność innych MDP, w których można działać, zmienia równowagę między krótkoterminowymi i długoterminowymi nagrodami w komponencie MDP. W rzeczywistości prowadzi to do bardziej chciwego zachowania w każdym MDP (poszukiwanie krótkoterminowych nagród) ponieważ dążenie do długoterminowej nagrody w jednym MDP opóźniłoby nagrody we wszystkich innych MDP. Załóżmy na przykład, że w lokalnie optymalnym harmonogramie budowy jednego centrum handlowego pierwszy sklep będzie dostępny do wynajęcia do 15 tygodnia, podczas gdy harmonogram nieoptymalny kosztuje więcej, ale pierwszy sklep będzie dostępny do 5 tygodnia. lepiej zastosować lokalnie nieoptymalny harmonogram w każdym z nich, aby czynsze zaczęły przychodzić w tygodniach 5, 10, 15 i 20, a nie w tygodniach 15, 30, 45 i 60. Innymi słowy, co byłoby tylko 10 -tygodniowe opóźnienie dla pojedynczego MDP zamienia się w 40-tygodniowe opóźnienie dla czwartego MDP. Ogólnie rzecz biorąc, globalnie i lokalnie optymalne polityki z konieczności pokrywają się tylko wtedy, gdy współczynnik dyskontowy wynosi 1; w takim przypadku nie ma żadnych kosztów opóźnienia nagród w jakimkolwiek MDP. Kolejne pytanie brzmi, jak rozwiązywać BSP. Oczywiście, globalnie optymalne rozwiązanie dla BSP można obliczyć, przekształcając je w globalny MDP w przestrzeni stanów produktu kartezjańskiego. Liczba stanów byłaby wykładnicza w liczbie ramion BSP, więc byłoby to horrendalnie niepraktyczne. Zamiast tego możemy wykorzystać luźny charakter interakcji między ramionami. Ta interakcja wynika tylko z ograniczonej zdolności agenta do jednoczesnego zajmowania się ramionami. Do pewnego stopnia interakcję można modelować za pomocą pojęcia kosztu alternatywnego: ile użyteczności traci się na krok czasowy, nie poświęcając tego kroku czasowego innej gałęzi. Im wyższy koszt alternatywny, tym bardziej konieczne jest generowanie wczesnych nagród w danej odmianie. W niektórych przypadkach koszt alternatywny nie ma wpływu na optymalną politykę w danej gałęzi. (Zwykle jest to prawdą w procesie nagradzania Markowa, ponieważ istnieje tylko jedna polityka.) W takim przypadku można zastosować optymalną politykę, przekształcając to ramię w proces nagradzania Markowa. Taka optymalna polityka, jeśli istnieje, nazywana jest polityką dominującą. Okazuje się, że dodając akcje do stanów, zawsze można stworzyć rozluźnioną wersję MDP (patrz rozdział 3.6.2), aby miała dominującą politykę, co w ten sposób daje górną granicę wartości działania w ramię. Dolną granicę można obliczyć, rozwiązując każdą odmianę osobno (co może dać ogólnie nieoptymalną politykę), a następnie obliczając indeksy Gittinsa. Jeśli dolna granica działania w jednym ramieniu jest wyższa niż górna granica dla wszystkich innych działań, problem jest rozwiązany; jeśli nie, to połączenie wyszukiwania z wyprzedzeniem i ponownego obliczania granic gwarantuje ostatecznie zidentyfikowanie optymalnej polityki dla BSP. Dzięki takiemu podejściu stosunkowo duże BSP (1040 stanów lub więcej) można rozwiązać w kilka sekund.

100 Pytań o A.I.: Jakie są działania firmy Baidu w zakresie sztucznej inteligencji?

Baidu jest jedną z największych firm wykorzystujących technologię AI w Chinach. Dzięki najbardziej znanemu produktowi będącemu największą chińską wyszukiwarką Baidu ma dostęp do ogromnej ilości danych wyszukiwania użytkowników. Daje to firmie dźwignię finansową podobną do tej w Google w świecie zachodnim, co daje jej przewagę w zrozumieniu nawyków zakupowych konsumentów. Baidu planuje wprowadzić technologie AI do swojej wyszukiwarki w najbliższej przyszłości. To jeszcze bardziej umożliwi mu dostarczanie sugestii na podstawie wyszukiwań użytkowników. Baidu inwestuje również znaczne środki w technologie stojące za samochodami samojezdnymi i wydał już bezpłatny system operacyjny dla producentów samobieżnych napędów o nazwie Apollo. Firma zawarła również partnerstwo z innym liderem w branży pojazdów samojezdnych, Nvidią, co zapewni Baidu dalszy dostęp do istotnych danych badawczych i wiodącą przewagę nad konkurentami. Ponadto Baidu jest uznanym liderem w systemach rozpoznawania twarzy opartych na sztucznej inteligencji, które zostały już przetestowane w niektórych miastach w Chinach, służąc jako bilet wstępu dla turystów do ich hoteli. Tego rodzaju biometryczne technologie rozpoznawania twarzy zostaną wkrótce wdrożone w hotelach i lotniskach na całym świecie, a jednocześnie będą wykorzystywane do zwiększenia bezpieczeństwa podróży, skrócenia czasu oczekiwania i pomocy w rozwiązywaniu przestępstw. Według Baidu jego programy do wykrywania twarzy są dokładniejsze niż człowiek przy ręcznym sprawdzaniu tożsamości. Podczas gdy wiele firm próbuje sprzedawać technologie rozpoznawania twarzy lotniskom, hotelom i innym obiektom turystycznym, Baidu ma wyraźną przewagę w tym zakresie. Jednak niektórzy z krytyków twierdzą, że mogą istnieć problemy z prywatnością, gdy tak duża firma komercyjna ma dostęp i kontroluje tak dużą część naszych danych osobowych.

Inteligentny głośnik i roboty

Baidu wprowadził niedawno inteligentny głośnik o nazwie Raven H. Podobnie jak Amazon Echo i Google Home, może wykonywać te same podstawowe zadania, co inni wiodący asystenci domowi, np. odtwarzać muzykę lub sprawdzać prognozę pogody. Jednak w przeciwieństwie do innych, Raven H jest wyposażony w DuerOS, zaawansowaną technologię głosową, która umożliwia użytkownikowi poruszanie się po domu i pozostanie w kontakcie z urządzeniem. Baidu stworzył również robota domowego o nazwie Raven R., gdzie zgłoszono, że ma inteligencję emocjonalną. Ten robot jest zasilany przez narzędzia AI, takie jak widzenie komputerowe, rozpoznawanie twarzy oraz własną technologię autonomicznej jazdy Apollo. W chwili pisania tego tekstu nie zostało jeszcze ogłoszone, kiedy Raven R będzie dostępny w sprzedaży lub ile będzie kosztować.

Badania AI Baidu

Wiodąca rola Baidu w badaniach nad sztuczną inteligencją sięga 2013 roku, kiedy otworzył swoje pierwsze laboratorium AI w Dolinie Krzemowej. Obecnie w Baidu pracuje ponad 1300 badaczy AI. Zespół ten był wcześniej kierowany przez Andrew NG, czołowego eksperta w dziedzinie sztucznej inteligencji, który dał firmie dodatkowe korzyści w swoich programach AI. Możesz dowiedzieć się więcej o bieżących inicjatywach badawczych firmy, odwiedzając stronę http://research.baidu.com Baidu prowadzi również stronę internetową z informacjami o jej produktach i usługach AI, ale ta strona jest obecnie dostępna tylko w języku chińskim pod adresem http: / /ai.baidu.com/ 

Rola w chińskim narodowym zespole AI

Rola Baidu w krajowym zespole AI wspieranym przez chiński rząd koncentruje się na rozwoju i wdrażaniu samochodów z własnym napędem. Ta rola została mądrze wybrana, ponieważ Baidu od dawna jest uznawane za lidera w technologiach samochodowych w Azji

W przybliżeniu optymalne zasady dotyczące bandytów

Obliczanie indeksów Gittinsa dla bardziej realistycznych problemów rzadko jest łatwe. Na szczęście ogólne właściwości zaobserwowane w poprzednim podrozdziale – a mianowicie celowość jakiejś kombinacji szacowanej wartości i niepewności – pozwalają na tworzenie prostych polityk, które okazują się „prawie tak dobre” jak polityki optymalne. Pierwsza klasa metod wykorzystuje górną granicę ufności lub heurystykę UCB, wprowadzoną wcześniej dla przeszukiwania drzewa metodą Monte Carlo. Podstawową ideą jest wykorzystanie próbek z każdego ramienia do ustalenia przedziału ufności dla wartości ramienia, to znaczy przedziału, w którym można oszacować, że wartość leży z dużą pewnością; następnie wybierz ramię z najwyższą górną granicą przedziału ufności. Górna granica to bieżące oszacowanie średniej wartości plus pewna wielokrotność odchylenia standardowego niepewności tej wartości. Odchylenie standardowe jest proporcjonalne do √1/Ni , gdzie Ni jest liczbą próbkowań ramienia Mi. Mamy więc przybliżoną wartość wskaźnika dla ramienia Mi podaną przez

gdzie g(N) jest odpowiednio dobraną funkcją N, czyli całkowitej liczby próbek pobranych ze wszystkich ramion. Polityka UCB po prostu wybiera ramię o najwyższej wartości UCB. Zauważ, że wartość UCB nie jest ściśle indeksem, ponieważ zależy od N, całkowitej liczby próbek pobranych we wszystkich ramionach, a nie tylko od samego ramienia. Dokładna definicja g określa żal w stosunku do polityki jasnowidzenia, która po prostu wybiera najlepszą rękę i daje średnią nagrodę μ*. Znany wynik Lai i Robbinsa pokazuje, że w przypadku bezdyskontowanym żaden możliwy algorytm nie może żałować, że rośnie wolniej niż O (logN). Kilka różnych opcji g prowadzi do polityki UCB, która odpowiada temu wzrostowi; na przykład możemy użyć g(N) = (2log (1 + N log2N))1/2. Druga metoda, dobór próby Thompsona, wybiera odmianę losowo zgodnie z prawdopodobieństwem, że ta odmiana jest w rzeczywistości optymalna, biorąc pod uwagę dotychczasowe próby. Załóżmy, że Pii) jest bieżącym rozkładem prawdopodobieństwa dla prawdziwej wartości ramienia Mi. Następnie prostym sposobem na zaimplementowanie próbkowania Thompsona jest wygenerowanie jednej próbki z każdego Pi, a następnie wybranie najlepszej próbki. Ten algorytm ma również żal, który rośnie do O (logN).