AI : Technologie, Aplikacje i Wyzwania : Zastosowania uczenia się przez wzmacnianie

https://aie24.pl/

  • Zarządzanie zasobami w klastrach komputerowych: Projektowanie algorytmów przydzielających ograniczone zasoby do różnych zadań jest trudne i wymaga heurystyki tworzonej przez człowieka. RL może być używany do automatycznego uczenia się przydzielania i planowania zasobów komputera do zadań oczekujących w celu zminimalizowania średniego spowolnienia zadania.
  • Sterowanie sygnalizacją świetlną: Naukowcy próbowali zaprojektować sterownik sygnalizacji świetlnej, aby rozwiązać problem zatorów.
  • Gry: RL jest obecnie tak dobrze znany, ponieważ jest głównym algorytmem używanym do rozwiązywania różnych gier i czasami osiągania nadludzkiej wydajności. Najbardziej znane to Alpha Go i Alpha Go Zero. Alpha Go, wyszkolony w niezliczonych grach z ludźmi, osiągnął już nadludzką wydajność, korzystając z sieci wartości i wyszukiwania drzewa Monte Carlo.
  • Spersonalizowane zalecenia: Guanjie iinni, zastosowali RL w systemie rekomendacji wiadomości w artykule zatytułowanym „DRN: A Deep Reinforcement Learning Framework for News Recommendation”

Uczenie się przez pasywne wzmacnianie

https://aie24.pl/

Zaczynamy od prostego przypadku w pełni obserwowalnego środowiska z niewielką liczbą akcji i stanów, w którym agent ma już ustaloną politykę (polityki), π(s) która określa jego działania. Agent próbuje poznać funkcję użyteczności Uπ(s) – oczekiwaną całkowitą zdyskontowaną nagrodę, jeśli polityka jest wykonywana począwszy od stanu s. Nazywamy to biernym agentem uczenia się. Zadanie uczenia pasywnego jest podobne do zadania oceny polityki, będącego częścią algorytmu iteracji polityki. Różnica polega na tym, że bierny agent uczący nie zna modelu przejścia P(s0’ | s,a), który określa prawdopodobieństwo osiągnięcia stanu s’ ze stanu s po wykonaniu akcji a; nie zna też funkcji nagrody R(s,a,s’), która określa nagrodę za każde przejście. Jako przykład użyjemy świata 4 3 przedstawionego wcześniej. Rysunek pokazuje optymalne zasady dla tego świata i odpowiadających mu narzędzi.

Agent wykonuje zestaw prób w środowisku przy użyciu swojej polityki π. W każdej próbie agent startuje w stanie (1,1) i doświadcza sekwencji przejść między stanami, aż osiągnie jeden ze stanów końcowych (4,2) lub (4,3). Jego percepcje dostarczają zarówno aktualnego stanu, jak i nagrody otrzymanej za przejście, które właśnie nastąpiło, aby osiągnąć ten stan. Typowe próby mogą wyglądać tak:

Pamiętaj, że każde przejście jest opatrzone adnotacjami z podjętym działaniem i nagrodą otrzymaną w następnym stanie. Celem jest wykorzystanie informacji o nagrodach do poznania oczekiwanej użyteczności Uπ(s) związanej z każdym stanem nieterminalowym s. Użyteczność definiuje się jako oczekiwaną sumę (zdyskontowanych) nagród uzyskanych w przypadku przestrzegania zasad π. Podobnie piszemy

gdzie R(St , (St);St+1) jest nagrodą otrzymaną, gdy działanie π(St) zostanie podjęte w stanie St i osiągnie stan St+1. Zauważ, że St jest zmienną losową oznaczającą stan osiągnięty w czasie t podczas wykonywania polityki , zaczynając od stanu S0=s. We wszystkich naszych równaniach uwzględnimy czynnik dyskontowy, ale dla świata 4 3 ustawimy γ =1, co oznacza brak dyskontowania.

AI : Technologie, Aplikacje i Wyzwania : Przegląd literatury

https://aie24.pl/

Wykorzystanie uczenia się ze wzmocnieniem w grze w szachy było niezwykłym ulepszeniem w dziedzinie sztucznej inteligencji. Neumann, Turing i Shannon początkowo kwestionowali, czy maszyna może grać w szachy. Alan Turing pracował nad stworzeniem maszyny do gry w szachy z zamiarem, aby działała ona jak klin w atakowaniu innych problemów . Turochamp  to program szachowy opracowany przez Turinga i Champernowne w 1948 roku. Został stworzony w ramach badań pary w dziedzinie informatyki i uczenia maszynowego. Jest w stanie rozegrać całą partię szachów przeciwko ludzkiemu graczowi na niskim poziomie gry, obliczając w odpowiedzi wszystkie potencjalne ruchy i wszystkie potencjalne ruchy gracza, przypisując wartości punktowe do każdego stanu gry i wybierając ruch o najwyższej możliwej średniej wartości punktowej . Dobrze znaną historią sukcesu uczenia się ze wzmocnieniem jest TD-gammon, program do gry w tryktraka, który nauczył się całkowicie poprzez uczenie się ze wzmocnieniem i samodzielną grę, i osiągnął nadludzki poziom gry. SARSA, jako jeden z rodzajów metod uczenia się przez wzmocnienie, jest zintegrowany z głębokim uczeniem w celu rozwiązania problemów z kontrolą gier wideo. DeepMind zaprezentował pierwszy model głębokiego uczenia się, który skutecznie uczył się zasad kontroli bezpośrednio od wielowymiarowego wejścia sensorycznego z wykorzystaniem uczenia się przez wzmacnianie. Model jest splotową siecią neuronową, wytrenowaną za pomocą wariantu Q-learningu, której dane wejściowe to surowe piksele, a dane wyjściowe to funkcja wartości szacująca przyszłe nagrody. DeepMind zastosował tę metodę do siedmiu gier na Atari 2600 ze środowiska uczenia Arcade. W 2016 roku DeepMind stworzył agenta AI, Alpha Go , który otrzymał szansę gry przeciwko panującemu światowemu mistrzowi świata. AlphaGo wygrał mecz, 4-1, triumf, który wywołał falę podekscytowania w związku z RL. Wykorzystano sieć wartości i polityk oraz przeprowadzono symulacje przy użyciu podejścia bezmodelowego, takiego jak przeszukiwanie drzewa metodą Monte Carlo. Pomaga to w opracowaniu solidnego agenta, który sprawdza się w każdej sytuacji. Ta koncepcja została ekstrapolowana i wykorzystana do zbudowania agenta Alpha Zero, który był używany do gry w szachy. Ten agent pokonał Stockfisha, panującego mistrza szachów komputerowych. Alpha Zero wyeliminowała potrzebę korzystania z gier, w które grają eksperci-ludzie, przy tworzeniu swojego modelu sieci neuronowej. Przechodzi od zera do bohatera, tj. jest karmiony tylko regułami gry i rozwija swoją politykę poprzez samodzielną zabawę z wykorzystaniem uczenia się przez wzmacnianie. Wykorzystuje również tylko jedną sieć neuronową, która łączy rolę sieci wartości i polityki. Postaramy się zbadać metody zastosowane w Alpha Zero w celu opracowania agenta zdolnego rzucić wyzwanie amatorskim szachistom. W 2019 roku Arjan Groen stworzył bibliotekę Reinforcement Learning Chess, która działa w trzech środowiskach szachowych, a mianowicie Move Chess, Capture Chess i Real Chess. Agent używa przede wszystkim RL, aby nauczyć się grać w swoim otoczeniu.

NAUKA PRZEZ WZMACNIANIE

https://aie24.pl/

W przypadku uczenia nadzorowanego agent uczy się, biernie obserwując przykładowe pary wejścia/wyjścia dostarczone przez „nauczyciela”. W tym rozdziale zobaczymy, jak agenci mogą aktywnie uczyć się na podstawie własnego doświadczenia bez nauczyciela, rozważając swój ostateczny sukces lub porażkę.

Uczenie się z nagród

Rozważ problem nauki gry w szachy.  Funkcja agenta szachowego przyjmuje jako dane wejściowe pozycję na szachownicy i zwraca ruch, więc trenujemy tę funkcję, podając przykłady pozycji szachowych, każdy oznaczony poprawnym ruchem. Tak się składa, że ​​mamy do dyspozycji bazy danych kilku milionów gier arcymistrzowskich, każda sekwencja pozycji i ruchów. Ruchy wykonane przez zwycięzcę są, z nielicznymi wyjątkami, uważane za dobre, jeśli nie zawsze doskonałe. Mamy więc obiecujący zestaw treningowy. Problem w tym, że jest stosunkowo mało przykładów (około 108) w porównaniu z przestrzenią wszystkich możliwych pozycji szachowych (około 1040). W nowej grze szybko napotyka się pozycje, które znacznie różnią się od tych w bazie danych, a wyszkolona funkcja agenta prawdopodobnie zawiedzie – nie tylko ponieważ nie ma pojęcia, co jego ruchy mają osiągnąć (mat), ani nawet jaki wpływ mają ruchy na pozycje bierek. I oczywiście szachy to maleńka część prawdziwego świata. W przypadku bardziej realistycznych problemów potrzebowalibyśmy znacznie większych baz danych arcymistrzów, a one po prostu nie istnieją. Alternatywą jest uczenie się ze wzmocnieniem (RL), w którym agent wchodzi w interakcję ze światem i okresowo otrzymuje nagrody (lub, w terminologii psychologii, wzmocnienia), które odzwierciedlają, jak dobrze sobie radzi. Na przykład w szachach nagroda wynosi 1 za wygraną, 0 za przegraną i 12 za remis. Koncepcję nagród widzieliśmy już w rozdziale 16 dla procesów decyzyjnych Markowa (MDP). Rzeczywiście, cel w uczeniu się przez wzmacnianie jest taki sam: zmaksymalizować oczekiwaną sumę nagród. Uczenie się przez wzmacnianie różni się od „tylko rozwiązania MDP”, ponieważ agent nie otrzymuje MDP jako problemu do rozwiązania; agent znajduje się w MDP. Może nie znać modelu przejścia lub funkcji nagrody i musi działać, aby dowiedzieć się więcej. Wyobraź sobie, że grasz w nową grę, której zasad nie znasz; po stu lub tak się porusza, sędzia mówi „przegrywasz”. To jest uczenie się przez wzmacnianie w pigułce. Z naszego punktu widzenia, jako projektantów systemów AI, zapewnienie agentowi sygnału nagrody jest zwykle znacznie łatwiejsze niż dostarczanie oznakowanych przykładów zachowania. Po pierwsze, funkcja nagrody jest często (jak widzieliśmy w przypadku szachów) bardzo zwięzła i łatwa do określenia: wymaga tylko kilku linijek kodu, aby powiedzieć agentowi szachowemu, czy wygrał lub przegrał grę, lub powiedzieć agentowi wyścigowemu że wygrał lub przegrał wyścig lub rozbił się. Po drugie, nie musimy być ekspertami, zdolnymi do podjęcia właściwych działań w każdej sytuacji, jak miałoby to miejsce, gdybyśmy próbowali zastosować uczenie nadzorowane. Okazuje się jednak, że odrobina wiedzy może przejść długą drogę w uczeniu się przez wzmacnianie. Dwa przykłady w poprzednim akapicie — nagrody za wygraną/przegraną w szachach i wyścigach — są tym, co nazywamy rzadkimi nagrodami, ponieważ w ogromnej większości stanów agent nie otrzymuje w ogóle żadnego informacyjnego sygnału nagrody. W grach takich jak tenis czy krykiet możemy łatwo zapewnić dodatkowe nagrody za każdy zdobyty punkt lub za każdy zdobyty bieg. W wyścigach samochodowych mogliśmy nagrodzić agenta za postępy na torze we właściwym kierunku. Podczas nauki raczkowania każdy ruch do przodu jest osiągnięciem. Te pośrednie nagrody znacznie ułatwiają naukę. Tak długo, jak możemy zapewnić agentowi prawidłowy sygnał nagrody, uczenie się przez wzmacnianie zapewnia bardzo ogólny sposób budowania systemów AI. Dotyczy to szczególnie symulowanych środowisk, w których nie brakuje możliwości zdobycia doświadczenia. Dodanie głębokiego uczenia jako narzędzia w systemach RL umożliwiło również nowe zastosowania, w tym naukę grania w gry wideo Atari z surowych danych wizualnych , kontrolowanie robotów  oraz gra w pokera . Opracowano dosłownie setki różnych algorytmów uczenia się ze wzmocnieniem, a wiele z nich może wykorzystywać jako narzędzia w szerokim zakresie metod uczenia się. Omówimy podstawowe idee i na kilku przykładach przedstawimy w pewnym sensie różnorodność podejść. Klasyfikujemy podejścia w następujący sposób:

* Uczenie się przez wzmacnianie oparte na modelu: W tych podejściach agent wykorzystuje przejściowy model środowiska, aby pomóc w interpretacji sygnałów nagrody i podejmowaniu decyzji o tym, jak działać. Model może być początkowo nieznany, w którym to przypadku agent uczy się modelu obserwując efekty jego działań, lub może być już znany – np. program szachowy może znać zasady gry w szachy, nawet jeśli nie wie, jak to zrobić. wybierz dobre ruchy. W środowiskach częściowo obserwowalnych model przejścia jest również przydatny do estymacji stanu (patrz rozdział 14). Systemy uczenia się przez wzmacnianie oparte na modelach często uczą się funkcji użyteczności U(s), zdefiniowanej (jak w rozdziale 16) w kategoriach sumy nagród od stanu.

* Uczenie się przez wzmocnienie bez modelu: W tych podejściach agent nie zna ani nie uczy się modelu przejścia dla środowiska. Zamiast tego uczy się bardziej bezpośredniej reprezentacji tego, jak się zachowywać. Występuje w jednej z dwóch odmian:

* Nauka użyteczności działania: wprowadziliśmy funkcje użyteczności działania w rozdziale 16. Najpopularniejszą formą uczenia się użyteczności działania jest Q-learning, w którym agent uczy się funkcji Q lub funkcji jakości, Q(s;a) , oznaczający sumę nagród od stanu s dalej, jeśli zostanie podjęte działanie a. Mając funkcję Q, agent może wybrać, co zrobićw s poprzez znalezienie akcji o najwyższej wartości Q.

* Wyszukiwanie zasad: agent uczy się zasad, które bezpośrednio odwzorowują stany na działania. Zaczniemy od pasywnego uczenia się wzmacniającego, gdzie polityka agenta jest ustalona, ​​a zadaniem jest poznanie użyteczności stanów (lub par stan-działanie); może to również obejmować poznanie modelu środowiska. (Zrozumienie decyzji Markowa)

Procesy,  są niezbędne dla tej sekcji. Podstawowym zagadnieniem jest eksploracja: agent musi jak najwięcej doświadczyć swojego otoczenia aby nauczyć się w nim zachowywać. Omówimy, w jaki sposób agent może wykorzystać uczenie indukcyjne (w tym metody uczenia głębokiego), aby znacznie szybciej uczyć się na podstawie swoich doświadczeń. Omawiamy również inne podejścia, które mogą pomóc w skalowaniu RL w celu rozwiązania rzeczywistych problemów, w tym dostarczanie pośrednich pseudonagród, które prowadzą uczącego się i organizują zachowanie w hierarchię działań.

AI : Technologie, Aplikacje i Wyzwania : Projektowanie agenta szachowego z wykorzystaniem uczenia się przez wzmacnianie z siecią SARSA

https://aie24.pl/

Wzmacnianie uczenia (RL) to raczkująca metoda tworzenia oprogramowania do gier sztucznej inteligencji (AI). W RL agent (gracz) może zbadać wszystkie możliwe sposoby poruszania się w środowisku. Dla każdej akcji wykonanej przez agenta następuje przejście z bieżącego stanu do innego stanu. Zgodnie z akcją przyznawana jest nagroda. Kiedy agent wykonuje dobry ruch, otrzymuje wysoką nagrodę, podczas gdy robi zły ruch, otrzymuje niską nagrodę. Więc agent stara się uzyskać wysoką nagrodę, wykonując dobre ruchy. Ta metoda może być używana do tworzenia oprogramowania do gier.

Nauka przez wzmacnianie

https://aie24.pl/

W uczeniu się przez wzmacnianie (RL) podmiot podejmujący decyzje uczy się na podstawie sekwencji sygnałów nagrody, które dostarczają pewnych wskazówek co do jakości jego zachowania. Celem jest optymalizacja sumy przyszłych nagród. Można to zrobić na kilka sposobów: w terminologii z rozdziału 16 agent może nauczyć się funkcji wartości, funkcji Q, polityki i tak dalej. Z punktu widzenia deep learningu wszystkie te funkcje mogą być reprezentowane przez wykresy obliczeniowe. Na przykład funkcja wartości w Go przyjmuje pozycję na tablicy jako dane wejściowe i zwraca oszacowanie, jak korzystna jest ta pozycja dla agenta. Chociaż metody uczenia RL różnią się od metod uczenia nadzorowanego, zdolność wielowarstwowych grafów obliczeniowych do przedstawiania złożonych funkcji na dużych przestrzeniach wejściowych okazała się bardzo przydatna. Powstały obszar badań nazywa się głębokim uczeniem ze wzmacnianiem. W latach pięćdziesiątych Arthur Samuel eksperymentował z wielowarstwowymi reprezentacjami funkcji wartości w swojej pracy nad uczeniem się ze wzmocnieniem dla warcabów, ale odkrył, że w praktyce aproksymator funkcji liniowych sprawdza się najlepiej. (Mogło to być konsekwencją pracy z komputerem około 100 miliardów razy mniej wydajnym niż nowoczesna jednostka przetwarzająca tensor).  Różne kopie tego agenta zostały przeszkolone do grania w każdą z kilku różnych gier wideo na Atari i zademonstrowały umiejętności, takie jak strzelanie do obcych statków kosmicznych, odbijanie piłek za pomocą wioseł i prowadzenie symulowanych samochodów wyścigowych. W każdym przypadku agent nauczył się funkcji Q na podstawie nieprzetworzonych danych obrazu, a sygnałem nagrody był wynik gry. Kolejne prace przyniosły głębokie systemy RL, które grają na nadludzkim poziomie w większości z 57 różnych gier na Atari. System ALPHAGO firmy DeepMind również wykorzystywał głębokie RL, aby pokonać najlepszych ludzkich graczy w grze Go . Pomimo imponujących sukcesów, deep RL wciąż napotyka poważne przeszkody: często trudno jest uzyskać dobre wyniki, a wytrenowany system może zachowywać się bardzo nieprzewidywalnie, jeśli środowisko choć trochę różni się od danych treningowych (Irpan, 2018). W porównaniu z innymi aplikacjami głębokiego uczenia, głębokie RL jest rzadko stosowane w warunkach komercyjnych. Jest to jednak bardzo aktywny obszar badań.

Streszczenie

Opisaliśmy metody uczenia funkcji reprezentowanych przez głębokie grafy obliczeniowe. Główne punkty to:

  • Sieci neuronowe reprezentują złożone funkcje nieliniowe z siecią sparametryzowanych jednostek liniowych progów.
  • Algorytm propagacji wstecznej implementuje gradientowe opadanie w przestrzeni parametrów, aby zminimalizować funkcję strat.
  • Głębokie uczenie działa dobrze w przypadku rozpoznawania obiektów wizualnych, rozpoznawania mowy, przetwarzania języka naturalnego i uczenia się ze wzmocnieniem w złożonych środowiskach.
  • Sieci splotowe szczególnie dobrze nadają się do przetwarzania obrazów i innych zadań, w których dane mają topologię siatki.
  • Sieci rekurencyjne są skuteczne w zadaniach związanych z przetwarzaniem sekwencji, w tym modelowaniu języka i tłumaczeniu maszynowym.

AI : Technologie, Aplikacje i Wyzwania : Wniosek

https://aie24.pl/

Powyższy system można uznać za bardziej punkt wyjścia do budowy systemów ANPR. Stosowane techniki opierają się na podstawowych technikach widzenia komputerowego i przetwarzania obrazu w celu zlokalizowania tablicy rejestracyjnej na obrazie, w tym operacji morfologicznych, gradientów obrazu, progowania, operacji bitowych i konturów. Zastosowane metody będą działać dobrze tylko w kontrolowanych warunkach i przewidywalnych środowiskach, na przykład gdy warunki oświetlenia są jednolite na obrazach wejściowych, a tablice rejestracyjne są ustandaryzowane, np. ciemne znaki na jasnym tle tablicy rejestracyjnej. Aby jednak zbudować system, który działa w niekontrolowanych środowiskach, konieczne jest zastąpienie komponentów (czyli lokalizacji tablic rejestracyjnych, segmentacji znaków i rozpoznawania znaków) bardziej zaawansowanymi modelami uczenia maszynowego i głębokiego uczenia. Istnieje wiele wyzwań związanych z prowadzeniem całodobowej operacji ANPR z setkami tysięcy samochodów przejeżdżających każdego dnia przez stację. Stwierdzono, że HOG i linear SVM są skuteczne w lokalizacji tablic, głównie wtedy, gdy wejściowe tablice rejestracyjne mają kąt widzenia, który nie zmienia się o więcej niż kilka stopni. Aby system działał w nieograniczonych środowiskach z drastycznymi zmianami kątów widzenia, modele oparte na głębokim uczeniu, takie jak Faster R-CNN, SSD i YOLO, prawdopodobnie zapewnią lepszą dokładność. Specjalnie zaprojektowany model OCR może również znacznie poprawić dokładność rozpoznawania numeru pojazdu.

Przetwarzanie języka naturalnego

https://aie24.pl/

Głębokie uczenie ma również ogromny wpływ na aplikacje przetwarzania języka naturalnego (NLP), takie jak tłumaczenie maszynowe i rozpoznawanie mowy. Niektóre zalety uczenia głębokiego w tych zastosowaniach obejmują możliwość uczenia od końca do końca, automatyczne generowanie wewnętrznych reprezentacji znaczeń słów oraz wymienność wyuczonych koderów i dekoderów. Uczenie od końca do końca odnosi się do budowy całych systemów jako pojedynczej wyuczonej funkcji f . Na przykład f dla tłumaczenia maszynowego może przyjąć jako dane wejściowe zdanie angielskie SE i dać równoważne zdanie japońskie SJ = f (SE). Takiego f można nauczyć się z danych szkoleniowych w postaci przetłumaczonych przez człowieka par zdań (lub nawet par tekstów, gdzie wyrównanie odpowiednich zdań lub fraz jest częścią problemu do rozwiązania). Bardziej klasyczne podejście potokowe może najpierw przeanalizować SE, następnie wyodrębnić jego znaczenie, a następnie ponownie wyrazić znaczenie w języku japońskim jako SJ, a następnie przeprowadzić edycję SJ przy użyciu modelu językowego dla języka japońskiego. To podejście potokowe ma dwie główne wady: po pierwsze, błędy są kumulowane na każdym etapie; po drugie, ludzie muszą określić, co stanowi „drzewo analizy” i „reprezentację znaczenia”, ale nie ma łatwo dostępnej prawdy podstawowej dla tych pojęć, a nasze teoretyczne wyobrażenia na ich temat są prawie na pewno niekompletne. Na obecnym etapie rozumienia klasyczne podejście potokowe – które przynajmniej naiwnie wydaje się odpowiadać temu, jak działa ludzki tłumacz – jest lepsze od metody „od końca do końca”, możliwej dzięki głębokiemu uczeniu. Na przykład Wu i inni wykazali, że tłumaczenie od końca do końca przy użyciu głębokiego uczenia zmniejszyło błędy tłumaczenia o 60% w porównaniu z poprzednim systemem opartym na potoku. Od 2020 r. zbliżają się systemy tłumaczenia maszynowego wydajność człowieka dla par językowych, takich jak francuski i angielski, dla których dostępne są bardzo duże sparowane zestawy danych i są one przydatne dla innych par językowych obejmujących większość populacji Ziemi. Istnieją nawet dowody na to, że sieci przeszkolone w wielu językach w rzeczywistości uczą się wewnętrznej reprezentacji znaczenia: na przykład po nauczeniu się tłumaczenia portugalskiego na angielski i angielskiego na hiszpański można przetłumaczyć portugalski bezpośrednio na hiszpański bez żadnego zdania portugalskiego/hiszpańskiego pary w zestawie treningowym. Jednym z najważniejszych odkryć, jakie wyłoniły się z zastosowania głębokiego uczenia do zadań językowych, jest to, że reprezentowanie pojedynczych słów jako wektorów w przestrzeni wielowymiarowej jest bardzo ważne – tak zwane osadzanie słów . Wektory są zwykle wyodrębniane z wag pierwszej ukrytej warstwy sieci wyszkolonej na dużych ilościach tekstu i przechwytują statystyki kontekstów leksykalnych, w których używane są słowa. Ponieważ słowa o podobnym znaczeniu są używane w podobnych kontekstach, kończą się blisko siebie w przestrzeni wektorowej. Dzięki temu sieć może skutecznie uogólniać kategorie słów, bez konieczności predefiniowania tych kategorii przez ludzi. Na przykład zdanie rozpoczynające się „Jan kupił arbuza i dwa funty . . . ” prawdopodobnie będzie kontynuowane z „jabłkami” lub „bananami”, ale nie z „torem” lub „geografią”. Taka prognoza jest znacznie łatwiejsza, jeśli „jabłka” i „banany” mają podobne reprezentacje w warstwie wewnętrznej.

AI : Technologie, Aplikacje i Wyzwania : Wyniki

https://aie24.pl/

System został wdrożony przy użyciu prostych technik przetwarzania obrazu ze względu na brak dużego i odpowiedniego zbioru danych do uczenia modeli uczenia głębokiego. Miało to niską dokładność, ponieważ rozwiązanie jest bardzo wrażliwe na warunki zewnętrzne. Na przykład silnik Tesseract OCR działa najlepiej tylko wtedy, gdy obrazy wejściowe są czyste, wstępnie przetworzone z dobrą rozdzielczością. W rzeczywistych wdrożeniach obrazy mogą być ziarniste lub niskiej jakości, a kierowca danego pojazdu może mieć specjalną osłonę na swojej tablicy rejestracyjnej, aby zaciemnić jego widok, co czyni ANPR jeszcze większym wyzwaniem. Aby skonstruować model głębokiego uczenia się, wygenerowano dostosowany do potrzeb zestaw danych, przechwytując obrazy i filmy pojazdów na kampusie uniwersyteckim, aby dostosować model do systemu monitorowania bramy uczelni. Nie był jednak ani wystarczająco duży, ani nie obejmował wszystkich możliwych scenariuszy przypadku użycia, przez co brakowało mu dokładności podczas implementacji. System osiągnął dokładność w zakresie 80%, biorąc pod uwagę ograniczony zestaw testowy, względem którego był oceniany. Sieć neuronową zoptymalizowano poprzez aktualizację wartości wag poprzez wsteczną propagację. Nie zapewnia to wysokiej dokładności, ponieważ metody uczenia głębokiego w dużej mierze opierają się na zbiorze danych wysokiej jakości. Proponowany system wymaga zatem wydajnego zestawu danych, aby osiągnąć wysoki poziom dokładności.

Aplikacje

https://aie24.pl/

Głębokie uczenie zostało z powodzeniem zastosowane w wielu ważnych obszarach problemowych w sztucznej inteligencji.

Wizja

Zaczynamy od wizji komputerowej, która jest obszarem zastosowań, który prawdopodobnie wywarł największy wpływ na głębokie uczenie się i na odwrót. Chociaż głębokie sieci konwolucyjne były używane od lat 90. do zadań takich jak rozpoznawanie pisma ręcznego, a sieci neuronowe zaczęły przewyższać modele prawdopodobieństwa generatywnego do rozpoznawania mowy około 2010 r., był to sukces systemu głębokiego uczenia AlexNet w konkursie ImageNet 2012 które sprawiły, że głębokie uczenie się znalazło się w centrum uwagi. Konkurs ImageNet był nadzorowanym zadaniem edukacyjnym z 1 200 000 obrazów w 1000 różnych kategoriach, a systemy zostały ocenione na podstawie „top-5” – jak często właściwa kategoria pojawia się w pięciu najlepszych prognozach. AlexNet osiągnął poziom błędu 15,3%, podczas gdy kolejny najlepszy system miał ponad 25%. AlexNet miał pięć warstw splotowych przeplatanych warstwami z maksymalną pulą, a następnie trzy w pełni połączone warstwy. Wykorzystał funkcje aktywacji ReLU i wykorzystał procesory graficzne, aby przyspieszyć proces treningu 60 milionów ciężarków. Od 2012 roku, dzięki ulepszeniom w projektowaniu sieci, metodach szkoleniowych i zasobach obliczeniowych, wskaźnik błędów z pierwszej piątki został zredukowany do mniej niż 2% — znacznie poniżej wskaźnika błędów przeszkolonego człowieka (około 5%). CNN są stosowane w szerokim zakresie zadań związanych z widzeniem, od autonomicznych samochodów po sortowanie ogórków. Prowadzenie pojazdów,  należy do najbardziej wymagających zadań związanych z widzeniem: nie algorytm musi jedynie wykrywać, lokalizować, śledzić i rozpoznawać gołębie, torby papierowe i pieszych, ale musi to robić w czasie rzeczywistym z niemal idealną dokładnością.