Autokodery

https://aie24.pl/

Wiele nienadzorowanych algorytmów głębokiego uczenia opiera się na idei autokodera. Autoenkoder Autoencoder to model zawierający dwie części: koder, który odwzorowuje od x do reprezentacji ˆz oraz dekoder, który odwzorowuje reprezentację ˆz na obserwowane dane x. Ogólnie koder jest tylko sparametryzowaną funkcją f, a dekoder jest tylko sparametryzowaną funkcją g. Model jest szkolony tak, że x g( f (x)), tak że proces kodowania jest z grubsza odwracany przez proces dekodowania. Funkcje f i g mogą być prostymi modelami liniowymi sparametryzowanymi pojedynczą macierzą lub mogą być reprezentowane przez głęboką sieć neuronową. Bardzo prostym autoenkoderem jest autoenkoder liniowy, w którym zarówno f, jak i g są liniowe ze wspólną macierzą wag W:

Jednym ze sposobów uczenia tego modelu jest zminimalizowanie kwadratu błędu Σj ||xj-g( f(xj))||2 tak, aby x ≈ g(f(x)). Pomysł polega na wytrenowaniu W tak, aby niskowymiarowy .

Jednym ze sposobów uczenia tego modelu jest zminimalizowanie kwadratu błędu Σj ||xj-g( f(xj))||2 tak, aby x ≈ g(f(x)). Pomysł polega na wytrenowaniu W tak, aby niskowymiarowy ˆz zachował jak najwięcej informacji, aby zrekonstruować wysokowymiarowe dane x. Ten liniowy autoenkoder okazuje się być ściśle powiązany z klasyczną analizą głównych składowych (PCA). Gdy z jest m-wymiarowe, macierz W powinna nauczyć się obejmować m głównych składowych danych — innymi słowy zbiór m ortogonalnych kierunków, w których dane mają największą wariancję, lub równoważnie meiwektory macierzy kowariancji danych które mają największe wartości własne — dokładnie tak, jak w PCA. Model PCA jest prostym modelem generatywnym, który odpowiada prostemu autoenkoderowi liniowemu. Korespondencja sugeruje, że może istnieć sposób na uchwycenie bardziej złożonych rodzajów modeli generatywnych przy użyciu bardziej złożonych rodzajów autokoderów. Autoenkoder wariacyjny (VAE) zapewnia jeden ze sposobów, aby to zrobić.

Metody wariacyjne zostały pokrótce przedstawione na stronie 476 jako sposób przybliżenia rozkładu a posteriori w złożonych modelach prawdopodobieństwa, w których sumowanie lub całkowanie dużej liczby ukrytych zmiennych jest niewykonalne. Pomysł polega na użyciu wariacyjnego a posteriori Variational a posteriori Q(z), zaczerpniętego z rodziny rozkładów, które można obliczyć, jako przybliżenia do prawdziwego a posteriori. Na przykład możemy wybrać Q z rodziny rozkładów Gaussa z ukośną macierzą kowariancji. W ramach wybranej rodziny rozkładów podlegających procedurze, Q jest zoptymalizowane tak, aby było jak najbardziej zbliżone do rzeczywistego rozkładu a posteriori P(z |x). Dla naszych celów pojęcie „jak najbliżej” definiuje dywergencja KL, o którym wspomnieliśmy na stronie . Jest to podane przez

co jest średnią (w odniesieniu do Q) stosunku logarytmicznego między Q i P. Łatwo zauważyć, że DKL(Q(z)||P(z | x)) ≥ 0, z równością, gdy Q i P pokrywają się. Następnie możemy zdefiniować wariacyjną dolną granicę L (czasami nazywaną dolną granicą dowodów lub ELBO) na logarytmicznym prawdopodobieństwie danych:

Widzimy, że L jest dolną granicą dla logP, ponieważ rozbieżność KL jest nieujemna. Uczenie wariacyjne maksymalizuje L w odniesieniu do parametrów w, a nie maksymalizuje logP(x), w nadziei, że znalezione rozwiązanie, w , jest również bliskie maksymalizacji logP(x). Jak napisano, L nie wydaje się jeszcze łatwiejsze do maksymalizacji niż logP. Na szczęście możemy przepisać równanie , aby ujawnić lepszą obsługę obliczeniową:

gdzie H(Q) jest entropią rozkładu Q. W przypadku niektórych rodzin wariacyjnych Q (takich jak rozkłady Gaussa), H(Q) można ocenić analitycznie. Co więcej, oczekiwanie, Ez  ̴Q logP(z,x), dopuszcza wydajne bezstronne oszacowanie za pomocą próbek z z Q. Dla każdej próbki P(z,;x) można zwykle ocenić wydajnie -na przykład, jeśli P jest Sieć Bayesa, P(z,x) jest po prostu iloczynem prawdopodobieństw warunkowych, ponieważ z i x zawierają wszystkie zmienne. Autokodery wariacyjne zapewniają środki do wykonywania uczenia wariacyjnego w środowisku uczenia głębokiego. Uczenie wariacyjne obejmuje maksymalizację L w odniesieniu do parametrów zarówno P, jak i Q. W przypadku autokodera wariacyjnego, dekoder g(z) jest interpretowany jako definiujący logP(x|z). Na przykład dane wyjściowe dekodera mogą określać średnią warunkowego gaussowskiego. Podobnie, wyjście kodera f (x) jest interpretowane jako definiujące parametry Q – na przykład Q może być gaussowskim ze średnią f (x). Uczenie autokodera wariacyjnego polega następnie na maksymalizacji L w odniesieniu do parametrów zarówno kodera f, jak i dekodera g, które same mogą być dowolnie skomplikowanymi głębokimi sieciami.

AI : Technologie, Aplikacje i Wyzwania : Przetwarzanie obrazu za pomocą OpenCV

https://aie24.pl/

Moduł gromadzenia danych

System ten ma na celu wykrywanie numerów tablic rejestracyjnych bez korzystania z żadnego modelu uczenia głębokiego ze względu na brak istniejącego wcześniej dużego i odpowiedniego zestawu danych obejmującego wszystkie możliwości przeprowadzenia niezbędnego szkolenia. Wykorzystuje wbudowane biblioteki i pakiety obsługiwane przez Python, takie jak OpenCV, Tesseract, PyTesseract dla OCR itp., Aby wykonać niezbędne kroki. Metodę tę można podzielić na poszczególne moduły:

Pierwszy moduł lokalizuje potencjalnych kandydatów na tablice rejestracyjne. Odbywa się to poprzez ustawienie wartości niezbędnych parametrów, takich jak zakres proporcji (poprzez ustawienie minimalnego i maksymalnego proporcji) i typowych prostokątnych wartości wymiarów płyty, aby oczyścić granice obrazu. Wykorzystuje operację morfologiczną Blackhat, która wykonuje operacje na obrazie binarnym na podstawie kształtu obrazu. Potrzeba dwóch danych wejściowych, oryginalnego obrazu i elementu strukturyzującego, aby zdecydować o charakterze operacji. Istnieją różne rodzaje operatorów, takie jak erozja i dylatacja, z różnymi wariantami, takimi jak operacje otwierania, zamykania i gradientu. Ten krok ujawnia ciemne znaki (litery, cyfry i symbole) na jasnym tle. Następnym krokiem jest znalezienie jasnych obszarów obrazu, które mogą zawierać znaki z tablic rejestracyjnych. Małe jądra kwadratowe są używane do zastosowania operacji zamykania w celu wypełnienia małych otworów i pomocy w identyfikacji dużych struktur na obrazie. Próg binarny jest wykonywany na obrazie wejściowym za pomocą Metodya Otsu ujawniania jasnych obszarów obrazu, które mogą zawierać znaki z tablic rejestracyjnych. Funkcje OpenCV są używane do implementacji operacji zamknięcia i progu jako części etapu przetwarzania wstępnego . Gradient Scharra jest dodatkowo stosowany do wynikowego obrazu w celu wykrycia krawędzi i podkreślenia granic znaków na tablicy rejestracyjnej. Obejmuje to obliczenie reprezentacji wielkości gradientu Scharra w kierunku x wygenerowanego obrazu Blackhat. Otrzymane wartości intensywności są następnie przeskalowywane z powrotem do zakresu [0, 255]. Rozmycie gaussowskie jest stosowane do obrazu wielkości gradientu. Następnie następuje zastosowanie operacji zamknięcia i progu binarnego przy użyciu metody Otsu. Na końcu tego modułu znajduje się ciągły biały obszar, w którym znajdują się znaki tablicy rejestracyjnej. Jest to jednak mniej dokładne, ponieważ zapewnia zaśmiecone wyniki podczas lokalizowania dużych białych obszarów. Aby odrzucić fałszywie pozytywne wyniki, wykonuje się serię operacji erozji i dylatacji w celu odszumienia obrazu progowego. Zmniejszy to dużo szumu z poprzedniego wyniku i zapewni dokładniejsze wyniki. Skutkuje to jasnymi obszarami obrazu . Kolejny krok zaczyna się od identyfikacji wszystkich konturów i odwrotnego sortowania na podstawie obszaru pikseli i zachowania dużych konturów. Operacja zwraca przyciętą i posortowaną listę warstwic. Podsumowując powyższy proces, obraz wejściowy jest konwertowany do skali szarości i wykonywane są tradycyjne techniki przetwarzania obrazu z naciskiem na operacje morfologiczne. Ten moduł wygeneruje wybór kandydujących konturów, które mogą zawierać tablicę rejestracyjną.

Probabilistyczny PCA: Prosty model generatywny

https://aie24.pl/

Było wiele propozycji formy, jaką może przyjąć PW(x,z). Jednym z najprostszych jest model probabilistycznej analizy głównych składowych (PPCA). W modelu PPCA z jest wybierane spośród sferycznej gaussowskiej średniej zerowej, a następnie x jest generowane z z przez zastosowanie macierzy wag i dodanie sferycznego szumu gaussowskiego:

Wagi W (i opcjonalnie parametr szumu σ2) można nauczyć się, maksymalizując prawdopodobieństwo danych, podane przez

Maksymalizacji względem W można dokonać metodami gradientowymi lub wydajnym algorytmem iteracyjnym EM . Po poznaniu W nowe próbki danych mogą być generowane bezpośrednio z PW(x) przy użyciu równania . Co więcej, nowe obserwacje x, które mają bardzo małe prawdopodobieństwo zgodnie z równaniem  mogą być oflagowane jako potencjalne anomalie. W przypadku PPCA zwykle zakładamy, że wymiarowość z jest znacznie mniejsza niż wymiarowość x, dzięki czemu model uczy się jak najlepiej wyjaśniać dane za pomocą niewielkiej liczby cech. Cechy te można wyodrębnić do użycia w klasyfikatorach standardowych, obliczając , oczekiwanie PW(z|x). Generowanie danych z probabilistycznego modelu PCA jest proste: najpierw próbka z ze swojego ustalonego wcześniej gaussowskiego, a następnie próbka x z gaussowskiego ze średnią Wz. Jak wkrótce zobaczymy, wiele innych modeli generatywnych przypomina ten proces, ale używa skomplikowanych mapowań zdefiniowanych przez modele głębokie, a nie mapowań liniowych od przestrzeni z do przestrzeni x.

AI : Technologie, Aplikacje i Wyzwania :Metody badawcze

https://aie24.pl/

ANPR wykonywana w kontrolowanych warunkach oświetleniowych z przewidywalnymi typami tablic rejestracyjnych może wykorzystywać podstawowe techniki przetwarzania obrazu. Bardziej zaawansowane systemy ANPR wykorzystują dedykowane detektory obiektów, takie jak HOG + Linear SVM, Faster R-CNN, SSD i YOLO, do lokalizacji tablic rejestracyjnych na obrazach. Najnowocześniejsze oprogramowanie ANPR wykorzystuje rekurencyjne sieci neuronowe (RNN) i sieci z pamięcią długo-krótkoterminową (LSTM) w celu poprawy rozpoznawania tekstu z tablic rejestracyjnych. Bardziej zaawansowane systemy ANPR wykorzystują wyspecjalizowane architektury sieci neuronowych do wstępnego przetwarzania i czyszczenia obrazów przed OCR, poprawiając w ten sposób dokładność ANPR. W kolejnych rozdziałach omówiono system ANPR wdrożony przy użyciu tradycyjnych technik przetwarzania obrazu z wykorzystaniem OpenCV i poprawę jego dokładności poprzez budowę modelu głębokiego uczenia się.

Nauka nienadzorowana

https://aie24.pl/

Wszystkie algorytmy uczenia nadzorowanego mają zasadniczo ten sam cel: mając zestaw uczących wejść x i odpowiadających im wyjść y= f (x), nauczyć się funkcji h, która dobrze przybliża f. Z drugiej strony, algorytmy uczenia nienadzorowanego przyjmują zestaw uczący nieoznakowanych przykładów x. Tutaj opisujemy dwie rzeczy, które taki algorytm może próbować zrobić. Pierwszym z nich jest poznanie nowych reprezentacji — na przykład nowych cech obrazów, które ułatwiają identyfikację obiektów na obrazie. Drugim jest poznanie modelu generatywnego – zwykle w postaci rozkładu prawdopodobieństwa, z którego można wygenerować nowe próbki. (Algorytmy uczenia sieci Bayesa  należą do tej kategorii). Wiele algorytmów jest zdolnych zarówno do uczenia reprezentacji, jak i modelowania generatywnego. Załóżmy, że uczymy się wspólnego modelu PW(x,z), gdzie z jest zbiorem ukrytych, nieobserwowanych zmiennych, które w jakiś sposób reprezentują zawartość danych x. Zgodnie z duchem rozdziału, nie predefiniujemy znaczeń zmiennych z; model może nauczyć się kojarzyć z z x w dowolny sposób. Na przykład model wyszkolony na obrazach odręcznych cyfr może użyć jednego kierunku w przestrzeni z do reprezentowania grubości pociągnięć pióra, innego do reprezentowania koloru atramentu, innego do reprezentowania koloru tła i tak dalej. W przypadku obrazów twarzy algorytm uczenia się może wybrać jeden kierunek, aby przedstawić płeć, a inny, aby uchwycić obecność lub brak okularów. Wyuczony model prawdopodobieństwa PW(x,z) osiąga zarówno uczenie reprezentacji (skonstruował znaczące wektory z z surowych wektorów x), jak i modelowanie generatywne: jeśli integrujemy z z PW(x,z), otrzymujemy PW(x).

AI : Technologie, Aplikacje i Wyzwania : System ANPR i jego zastosowanie

https://aie24.pl/

Automatyczne rozpoznawanie tablic rejestracyjnych (ANPR) ma szeroki zakres zastosowań, ponieważ numer rejestracyjny jest najszerzej akceptowanym, czytelnym dla człowieka identyfikatorem pojazdów silnikowych. ANPR zapewnia automatyczny dostęp do zawartości tablic rejestracyjnych dla systemów komputerowych zarządzających bazami danych i przetwarzających informacje o ruchach pojazdów. Posiada szereg zastosowań:

Parking: Zarządzanie parkingami poprzez zarządzanie opłatami parkingowymi bez biletu, automatyzację parkowania, wskazówki dotyczące lokalizacji pojazdów i zapobieganie kradzieżom samochodów z parkingów można wykonać za pomocą systemuy ANPR.

Egzekwowanie prawa: Powszechne wykorzystanie systemów ANPR służy do egzekwowania prawa. Oznacza to, że monitorowanie ruchu pojazdu może pomóc w identyfikacji skradzionych samochodów i śledzeniu pojazdów naruszających przepisy ruchu drogowego i ograniczenia prędkości.

Kontrola dostępu: Odnosi się do mechanizmu ograniczania dostępu do obszarów i użytkowników na podstawie ich tożsamości i szczegółów członkostwa w różnych grupach. Można to osiągnąć poprzez wykrywanie numerów tablic rejestracyjnych, ponieważ tożsamość osobową można zweryfikować, mapując ją na odpowiedni numer pojazdu użytkownika, który najczęściej jest unikalny dla każdego użytkownika.

Opłaty drogowe: Opłaty drogowe to proces pobierania opłat od kierowców za dostęp do określonych regionów infrastruktury drogowej. Opłaty są potrzebne do finansowania budowy i utrzymania autostrad, autostrad, mostów i dróg. Systemy ANPR mogą być wykorzystywane do automatyzacji zarządzania opłatami drogowymi poprzez zmniejszenie salda konta opłaty drogowej poprzez wykrywanie numeru pojazdu i potrącanie pieniędzy z konta powiązanego z pojazdem. FASTag, elektroniczny system poboru opłat w Indiach, jest przykładem zautomatyzowanego systemu uiszczania opłat, który wykorzystuje identyfikację radiową (RFID) , która również opiera się na wykrywaniu wzorców, ale przy użyciu innego podejścia. Podobny system można wdrożyć z wykorzystaniem technologii ANPR.

Pomiar czasu podróży: Jest to szeroko stosowana funkcja systemów ANPR. Korzystanie ze znaczników czasu pojazdu zebranych w punktach wjazdu i wyjazdu z regionu można wykorzystać do szacowania średniej prędkości podróży, analizowania ruchu i odpowiedniego planowania wydajnych tras w celu zmniejszenia kosztów i czasu podróży.

Kontrola graniczna: Jest to skoordynowany przez państwo wysiłek ustanowiony w celu uregulowania kontroli operacyjnej granic państwowych z główną ideą zwiększenia bezpieczeństwa narodu przed terroryzmem, nielegalnym ruchem granicznym, przemytem i innymi działaniami przestępczymi.

Nauka nienadzorowana i nauka transferowa

https://aie24.pl/

Systemy uczenia głębokiego, które omówiliśmy do tej pory, opierają się na uczeniu nadzorowanym, które wymaga, aby każdy przykład szkolenia był oznaczony wartością funkcji docelowej. Chociaż takie systemy mogą osiągnąć wysoki poziom dokładności zestawu testowego – jak pokazują na przykład wyniki konkursu ImageNet – często wymagają znacznie więcej oznaczonych danych niż człowiek wykonujący to samo zadanie. Na przykład dziecko musi zobaczyć tylko jedno zdjęcie żyrafy, a nie tysiące, aby móc niezawodnie rozpoznawać żyrafy w szerokim zakresie ustawień i widoków. Najwyraźniej czegoś brakuje w naszej historii głębokiego uczenia się; w rzeczywistości może być tak, że w przypadku sekcji 22.7 nasze obecne podejście do nadzorowanego głębokiego uczenia sprawia, że ​​niektóre zadania są całkowicie niewykonalne, ponieważ wymagania dotyczące danych oznaczonych przekraczają to, co może zapewnić rasa ludzka (lub wszechświat). Co więcej, nawet w przypadkach, gdy zadanie jest wykonalne, etykietowanie dużych zbiorów danych zwykle wymaga niewielkiej i kosztownej pracy ludzkiej. Z tych powodów istnieje duże zainteresowanie kilkoma paradygmatami uczenia się, które zmniejszają zależność od danych oznaczonych etykietami. Jak widzieliśmy w rozdziale 19, paradygmaty te obejmują uczenie się bez nadzoru, uczenie z transferem i uczenie się częściowo nadzorowane. Algorytmy uczenia nienadzorowanego uczą się wyłącznie z nieoznakowanych danych wejściowych x, które są często bardziej dostępne niż przykłady oznakowane. Algorytmy uczenia nienadzorowanego zazwyczaj wytwarzają modele generatywne, które mogą generować realistyczny tekst, obrazy, dźwięk i wideo, zamiast po prostu przewidywać etykiety dla takich danych. Algorytmy uczenia transferu wymagają pewnych oznaczonych przykładów, ale są w stanie jeszcze bardziej poprawić swoją wydajność, analizując oznaczone przykłady dla różnych zadań, umożliwiając w ten sposób czerpanie z większej liczby istniejących źródeł danych. Częściowo nadzorowane algorytmy uczenia wymagają pewnych oznakowanych przykładów, ale są w stanie jeszcze bardziej poprawić ich wydajność, studiując również nieoznakowane przykłady. Ta sekcja obejmuje podejścia do głębokiego uczenia się w nauczaniu nienadzorowanym i transferowym; chociaż częściowo nadzorowane uczenie się jest również aktywnym obszarem badań w społeczności głębokiego uczenia się, dotychczas opracowane techniki nie okazały się szeroko skuteczne w praktyce, więc nie zajmujemy się nimi.

AI : Technologie, Aplikacje i Wyzwania : Rozpoznawanie wzorców i jego zastosowanie

https://aie24.pl/

Aplikacje opierają się na podejściu stosowanym do rozpoznawania wzorców. Stosowane są trzy popularne podejścia:

  1. Podejście statystyczne: W tym podejściu dane historyczne są gromadzone i analizowane na podstawie obserwacji. Wykorzystuje nadzorowane uczenie maszynowe. Określa, czy dany element należy do klasy lub etykiety.
  2. Podejście syntaktyczne lub strukturalne: służy do definiowania bardziej złożonych relacji między elementami, takimi jak części mowy. Wykorzystuje częściowo nadzorowane uczenie maszynowe. Opiera się na podwzorcach zwanych prymitywami, jak słowa.

Powyższe dwa podejścia opierają się na obliczeniach bezpośrednich przy użyciu technik matematycznych i statystycznych.

  1. Podejście neuronowe: Wdrożony system ANPR wykorzystuje podejście neuronowe do rozpoznawania wzorców. Neurony są podstawowymi jednostkami komórek mózgowych i razem te neurony tworzą sieci kontrolujące określone zadania. Sztuczna sieć neuronowa symuluje działanie biologicznej sieci neuronowej ludzkiego mózgu. W tym systemie wszystkie neurony są dobrze połączone, gdzie jednostka wejściowa otrzymuje różne formy informacji w oparciu o wewnętrzny system ważenia, a sieć neuronowa próbuje przewidzieć wymagany wynik.

Przechodzi przez fazę szkoleniową, w której uczy się rozpoznawać wzorce w danych. Propagacja wsteczna, sieci neuronowe z opóźnieniem czasowym i rekurencyjne sieci neuronowe to niektóre z powszechnie spotykanych modeli. Generalnie do rozpoznawania wzorców wykorzystywane są sieci neuronowe typu feed-forward. Wydajność sieci można poprawić, dostarczając informacje zwrotne w celu zrekonstruowania wzorców wejściowych i zmniejszenia błędów poprzez porównanie wyników z rzeczywistą wartością i odpowiednie dostosowanie wag warstw, co można osiągnąć za pomocą algorytmu propagacji wstecznej. Niektóre aplikacje to:

Widzenie komputerowe: Wyodrębnianie ważnych cech z obrazów i filmów oraz ich interpretacja w celu uzyskania zrozumienia na wysokim poziomie jest określane jako „wizja komputerowa”. Ma to wiele zastosowań w prawdziwym życiu, takich jak obrazowanie biomedyczne, nadzór wideo, inteligentne systemy transportowe itp.

Rozpoznawanie mowy: Wszyscy powszechnie obecnie używani wirtualni asystenci, tacy jak Alexa, Siri, Google Assistant itp., to aplikacje do rozpoznawania mowy. Rozpoznawanie wzorców ma kluczowe znaczenie w tych zastosowaniach.

Identyfikacja odcisków palców: Istnieje wiele metod rozpoznawania umożliwiających identyfikację odcisków palców. Technologie biometryczne w dużej mierze opierają się na rozpoznawaniu wzorców.

Diagnoza medyczna: Rozpoznawanie wzorców stanowi podstawę specjalistycznej diagnozy medycznej. Diagnoza medyczna odnosi się do procesu określania choroby lub stanu osoby poprzez analizę objawów na podstawie wcześniejszych przypadków medycznych. Ma szeroki zakres, od wykrywania raka piersi po algorytmy przewidywania COVID-19, z dużym zakresem dokładności.

Długotrwałe RNN pamięci krótkotrwałej

https://aie24.pl/

Zaprojektowano kilka wyspecjalizowanych architektur RNN w celu umożliwienia zachowania informacji w wielu krokach czasowych. Jednym z najpopularniejszych jest długotrwała pamięć krótkotrwała lub LSTM. Składnik pamięci długoterminowej LSTM, zwany komórką pamięci i oznaczony przez c, jest zasadniczo kopiowany z kroku na krok czasu. (W przeciwieństwie do tego, podstawowa RNN mnoży swoją pamięć przez macierz wag w każdym kroku czasowym, jak pokazano w równaniu (22.13).) Nowe informacje wprowadzane są do pamięci poprzez dodawanie aktualizacji; w ten sposób wyrażenia gradientu nie kumulują się multiplikatywnie w czasie. LSTM obejmują również jednostki bramkujące, które są wektorami kontrolującymi przepływ informacji w LSTM poprzez elementarne mnożenie odpowiedniego wektora informacji:

  • Bramka zapominania f określa, czy każdy element komórki pamięci został zapamiętany (skopiowany do następnego kroku czasowego), czy zapomniany (zresetowany do zera).
  • Bramka wejściowa i określa, czy każdy element komórki pamięci jest aktualizowany addytywnie przez nowe informacje z wektora wejściowego w bieżącym kroku czasowym.
  • Bramka wyjściowa o określa, czy każdy element komórki pamięci jest przenoszony do pamięci krótkotrwałej z, która odgrywa podobną rolę do stanu ukrytego w podstawowych sieciach RNN.

Podczas gdy słowo „bramka” w projektowaniu obwodów zwykle kojarzy się z funkcją Boole’a, bramki w LSTM są miękkie — na przykład elementy wektora komórki pamięci zostaną częściowo zapomniane, jeśli odpowiednie elementy wektora bramki zapominania są małe, ale nie zerowe. Wartości dla jednostek bramkujących są zawsze w zakresie [0,1] i są uzyskiwane jako wyjścia funkcji sigmoidalnej zastosowanej do wejścia prądowego i poprzedniego stanu ukrytego. W szczegółach równania aktualizacji dla LSTM są następujące:

gdzie indeksy na różnych macierzach wag W wskazują pochodzenie i przeznaczenie odpowiednich linków. Symbol oznacza mnożenie elementarne. LSTM były jednymi z pierwszych praktycznie użytecznych form RNN. Wykazały się doskonałą wydajnością w szerokim zakresie zadań, w tym rozpoznawaniu mowy i rozpoznawania pisma ręcznego. Ich wykorzystanie w przetwarzaniu języka naturalnego.

AI : Technologie, Aplikacje i Wyzwania : Różne aplikacje

https://aie24.pl

Rozpoznawanie wzorców wspiera ludzi w wykonywaniu zadań związanych z zapewnieniem bezpieczeństwa, w tym dostępu do pomieszczeń i urządzeń, wykrywaniem nietypowych zmieniaczy zwłaszcza z zakresu medycyny i geologii oraz diagnozowaniem stanu technicznego urządzeń Gowshalya Shri i Arulprakash (2014), Ghadage i Khedkar (2019). Jest to najszybciej rozwijający się obszar ze względu na duże zapotrzebowanie na tego typu rozwiązania w różnych dziedzinach. Mimo swojej krótkiej historii znalazł zastosowanie w wielu obszarach ludzkiej działalności. Poniżej omówiono różne zastosowania rozpoznawania wzorców i zastosowania specyficzne dla systemów ANPR.