WSTĘP
Numeryczne metody powszechnie stosowane do konwersji danych eksperymentalnych na interpretowalne obrazy i widma zazwyczaj opierają się na prostych transformacjach, takich jak transformacja Fouriera (FT) lub dość rozbudowanych, pojawiających się klasach transformacji, takich jak falki , kliny , grzbiety i tak dalej. Jednak dane eksperymentalne są niekompletne i zaszumione z powodu ograniczeń cyfrowego zapisu danych i skończonego czasu akwizycji. Pułapką większości transformacji jest to, że niedoskonałe dane są bezpośrednio przenoszone do domeny transformacji wraz z sygnałami zainteresowania. Tradycyjne podejście do przetwarzania danych w domenie transformacji polega na ignorowaniu wszelkich niedoskonałości danych, ustawianiu na zero wszelkich niezmierzonych punktów danych, a następnie postępowaniu tak, jakby dane były idealne. Przeciwnie, zasada maksymalnej entropii (ME) musi przechodzić z domeny częstotliwości do domeny przestrzeni (czasu). Techniki ME są stosowane w analizie danych głównie do rekonstrukcji rozkładów dodatnich, takich jak obrazy i widma, z rozmytych, zaszumionych i/lub uszkodzonych danych. Metody ME mogą być rozwijane na aksjomatycznych podstawach opartych na rachunku prawdopodobieństwa, który ma szczególny status jedynego wewnętrznie spójnego języka wnioskowania. W jego ramach rozkładom dodatnim należy przypisać prawdopodobieństwa pochodzące z ich entropii. Statystyka bayesowska zapewnia ujednolicone i spójne ramy dla modelowania danych. Modelowanie bayesowskie naturalnie radzi sobie z niepewnością danych wyjaśnioną przez marginalizację w przewidywaniach innych zmiennych. Nadmierne dopasowanie danych i słaba generalizacja są łagodzone przez włączenie zasady brzytwy Ockhama, która kontroluje złożoność modelu i ustala preferencje dla prostych modeli. Wnioskowanie bayesowskie spełnia zasadę prawdopodobieństwa w tym sensie, że wnioski zależą tylko od prawdopodobieństw przypisanych do danych, które zostały zmierzone, a nie od właściwości niektórych dopuszczalnych danych, które nigdy nie zostały pozyskane. Sztuczne sieci neuronowe (ANN) można pojmować jako wysoce elastyczne nieliniowe modele regresji wielowymiarowej i klasyfikacji wieloklasowej. Jednak nadmiernie elastyczne ANN mogą odkrywać nieistniejące korelacje w danych. Bayesowska teoria decyzji zapewnia środki do wnioskowania, jak elastyczny model jest uzasadniony danymi i tłumi tendencję do oceniania fałszywej struktury w danych. Każde probabilistyczne traktowanie obrazów zależy od znajomości funkcji rozproszenia punktu (PSF) sprzętu do obrazowania oraz założeń dotyczących szumu, statystyk obrazu i wcześniejszej wiedzy. Z kolei podejście neuronowe wymaga tylko odpowiednich przykładów szkoleniowych, w których znane są prawdziwe sceny, niezależnie od naszej niezdolności lub stronniczości do wyrażania wcześniejszych rozkładów. Wytrenowane sieci neuronowe są znacznie szybszym sposobem odtwarzania obrazu, szczególnie w przypadku silnych niejawnych a priori w danych, nieliniowości i niestacjonarności. Najbardziej niezwykłą pracę w zakresie bayesowskiego modelowania neuronowego wykonali MacKay (1992, 2003) i Neal (1994, 1996), którzy teoretycznie stworzyli ramy bayesowskiego uczenia się dla modeli adaptacyjnych.
TŁO
Bayesowskie podejście do odtwarzania obrazu opiera się na założeniu, że wszystkie istotne informacje o obrazie można podać w terminach probabilistycznych, a znane są a priori prawdopodobieństwa. Zasada ME optymalnie ustala a priori prawdopodobieństwa dla dodatnich rozkładów addytywnych. Jednak twierdzenie Bayesa i zasada ME mają jedną wspólną przyszłość: aktualizację stanu wiedzy. W niektórych przypadkach uruchomienie twierdzenia Bayesa w jednej przestrzeni hipotez i zastosowanie zasady ME w innej prowadzi do podobnych obliczeń. Modelowanie neuromorficzne i bayesowskie może wydawać się skrajnościami spektrum modelowania danych. Sieci neuronowe to nieliniowe, równoległe urządzenia obliczeniowe wyposażone w algorytmy gradientu zstępującego trenowane na przykładach w celu rozwiązywania problemów przewidywania i klasyfikacji. Natomiast statystyka bayesowska opiera się na spójnym wnioskowaniu i jasnych aksjomatach. Jednak oba podejścia mają na celu tworzenie modeli zgodnych z danymi. Bayesowska teoria decyzji zapewnia wewnętrzne środki do modelowania rankingu. Wnioskowanie bayesowskie dla sieci neuronowych można wdrożyć numerycznie za pomocą metod deterministycznych obejmujących przybliżenia Gaussa lub metodami Monte Carlo. Dwie cechy wyróżniają bayesowskie podejście do uczenia się modeli z danych. Po pierwsze, przekonania pochodzące z wiedzy tła są wykorzystywane do wybierania a priori rozkładu prawdopodobieństwa dla parametrów modelu. Po drugie, przewidywania przyszłych obserwacji są wykonywane przez integrację przewidywań modelu względem a posteriori rozkładu parametrów uzyskanego przez aktualizację tego a priori nowymi danymi. Oba aspekty są trudne w modelowaniu neuronowym: wcześniejsze parametry sieci nie mają oczywistego związku z wcześniejszą wiedzą, a integracja późniejszych parametrów wymaga dużych nakładów obliczeniowych. Właściwości rozkładów a priori można wyjaśnić, definiując klasy rozkładów a priori dla parametrów netto, które osiągają sensowne granice, gdy rozmiar netto dąży do nieskończoności . Problem całkowania po a posteriori można rozwiązać, stosując metodę Monte Carlo łańcucha Markowa.
Bayesowskie modelowanie obrazu
Podstawową koncepcją analizy bayesowskiej jest to, że prawdopodobieństwo alternatywnych hipotez {Hi}iN jest reprezentowane przez prawdopodobieństwa {Pi}iN, a wnioskowanie jest wykonywane poprzez ocenę tych prawdopodobieństw. Wnioskowanie może działać na różnych propozycjach związanych w modelowaniu neuronowym z różnymi paradygmatami. Twierdzenie Bayesa nie odnosi się do żadnej próbki ani przestrzeni hipotez, ani nie określa wartości liczbowej żadnego prawdopodobieństwa bezpośrednio z dostępnych informacji. Jako warunek wstępny do zastosowania twierdzenia Bayesa potrzebna jest zasada przekształcania dostępnych informacji w wartości liczbowe. W statystycznym przywracaniu cyfrowych obrazów w skali szarości podstawowym założeniem jest to, że istnieje scena odpowiednio reprezentowana przez uporządkowaną tablicę N pikseli. Zadaniem jest wnioskowanie wiarygodnych opisów statystycznych obrazów, które są zdigitalizowanymi obrazami w skali szarości i przechowywane jako tablica liczb całkowitych reprezentujących intensywność poziomu szarości w każdym pikselu. Następnie kształt dowolnego dodatniego, addytywnego obrazu można bezpośrednio zidentyfikować za pomocą rozkładu prawdopodobieństwa. Obraz jest postrzegany jako wynik losowego wektora f ={f1,f2,…, fN}, podanego w formie dodatniej, addytywnej funkcji gęstości prawdopodobieństwa. Podobnie, zmierzone dane g = { g1 , g2 ,… gM} są wyrażone w formie rozkładu prawdopodobieństwa . Dalsze założenie odnosi się do danych obrazu jako liniowej funkcji intensywności fizycznej, a błędy (szum) b są niezależne od danych, addytywne i gaussowskie ze średnią zerową i znanym odchyleniem standardowym σm , m = 1,2,...,M w każdym pikselu. Koncepcję entropii obrazu i alternatywne wyrażenia entropii używane w przywracaniu obrazu omawiają Gull i Skilling (1985). Krótki przegląd różnych podejść opartych na zasadzie ME, a także pełne podejście bayesowskie do rozwiązywania problemów odwrotnych są zasługą Djafariego (1995). Modele obrazów są wyprowadzane na podstawie intuicyjnych pomysłów i obserwacji rzeczywistych obrazów i muszą spełniać pewne kryteria niezmienności, tzn. operacje na obrazach nie powinny wpływać na ich prawdopodobieństwo. Każdy model składa się z hipotezy H z pewnymi wolnymi parametrami w = (α, β , ,...), które przypisują gęstość prawdopodobieństwa P( f | w,H ) w całej przestrzeni obrazu i są znormalizowane w celu zintegrowania do jedności. Wcześniejsze przekonania o ważności H przed pozyskaniem danych są osadzone w P(H). Skrajne wybory tylko dla P(H) mogą przekraczać dowody P( f | H ), zatem prawdopodobieństwo P(H|f) jest podane zasadniczo przez dowody P( f | H ) obrazu f. W konsekwencji istnieją obiektywne środki do porównywania różnych hipotez. Początkowo wolne parametry w są albo nieznane, albo przypisuje się im bardzo szerokie rozkłady wcześniejsze. Zadanie polega na znalezieniu najlepiej dopasowanego zestawu parametrów wMP, który ma największe prawdopodobieństwo dla danego obrazu. Zgodnie z twierdzeniem Bayesa:

gdzie P( f | w,H ) jest prawdopodobieństwem obrazu f przy danym w, P(w | H ) jest rozkładem a priori w, a P( f | H ) jest dowodem na H. A priori P(w | H ) musi zostać przypisane całkiem subiektywnie na podstawie naszych przekonań na temat obrazów. Ponieważ P(w | f,H ) jest znormalizowane do 1, mianownik w (1) powinien spełniać

Całka jest często zdominowana przez prawdopodobieństwo w wMP, tak że dowód H jest aproksymowany przez najlepiej dopasowane prawdopodobieństwo P(f|wMP,H ) razy czynnik Ockhama :

Przyjmując jednorodne rozkłady parametrów a priori P(w | H ) dla wszystkich dopuszczalnych zestawów parametrów, wówczas P(wMP) = 1/Δ0w , a dowód staje się następujący:

Stosunek
Δw/Δ0w
między dostępną objętością a posteriori przestrzeni parametrów modelu a dostępną objętością a priori zapobiega nadmiernemu dopasowaniu danych poprzez faworyzowanie prostszych modeli. Ponadto twierdzenie Bayesa podaje prawdopodobieństwo H do stałej:

Metody maksymalnej entropii
Zastosowanie zasady ME sprowadza się do przypisania rozkładu { P1 ,P2 ,…,Pn1 } w pewnej przestrzeni hipotez według kryterium, że zmaksymalizuje on pewną formę entropii podlegającą ograniczeniom, które wyrażają właściwości, jakie chcemy, aby rozkład miał, ale nie są wystarczające, aby ją określić. Metody ME wymagają wcześniejszego określenia określonej przestrzeni hipotez, która ustala możliwości, które należy wziąć pod uwagę. Otrzymują rozkład prawdopodobieństwa, a nie prawdopodobieństwo. Prawdopodobieństwo ME pojedynczej hipotezy H, która nie jest osadzona w przestrzeni alternatywnych hipotez, nie ma sensu. Metody ME nie wymagają wprowadzania wartości liczbowych żadnych prawdopodobieństw w tej przestrzeni, raczej przypisują wartości liczbowe dostępnym informacjom wyrażonym przez wybór przestrzeni hipotez i ograniczeń.
EKSPERYMENTY Z OBRAZOWANIEM LINIOWYM
W szeroko rozpowszechnionym przypadku liniowym, w którym N-wymiarowy wektor obrazu f składa się z wartości pikseli nieobserwowanego obrazu, a M-wymiarowy wektor danych g składa się z wartości pikseli obserwowanego obrazu, który ma być zdegradowaną wersją f, przy założeniu zerowych średnich błędów addytywnych Gaussa:
g= Rf + b
gdzie macierz M × N R oznacza PSF (funkcję przejścia lub odpowiedź instrumentu) układu obrazowania; wówczas prawdopodobieństwo danych wynosi:

gdzie C jest macierzą kowariancji wektora błędu b. Jeżeli nie ma korelacji pomiędzy pikselami i każdy piksel ma odchylenie standardowe σm, m = 1,2,..., M, wówczas symetryczna macierz kowariancji pełnego rzędu staje się diagonalna z elementami Cmm = σ2m , m = 1,2,…M. Stąd prawdopodobieństwo danych g dla danego obrazu f można zapisać jako:

Należy ocenić pełne wspólne a posteriori P(f,θ | g,H ) obrazu f i nieznane parametry PSF oznaczone generycznie przez θ. Następnie wymagany wniosek o prawdopodobieństwie a posteriori P(f|g,H) uzyskuje się jako całkę brzegową tego wspólnego a posteriori ponad niepewnościami w PSF:

Zastosujmy teraz twierdzenie Bayesa dla parametrów θ:

i zastępując w (8)

Jeśli dowód P(g | θ,H ) jest ostro zakończony wokół pewnej wartości
, a wcześniejsze P( θ| H ) jest dość płaskie w tym regionie, to
. W przeciwnym razie, jeśli integrant brzegowy nie jest dobrze przybliżony przy wartości modalnej dowodu, to mogą wystąpić mylące, wąskie gęstości prawdopodobieństwa a posteriori. Jeśli błędy mają jednolite odchylenie standardowe σb, to symetryczna macierz kowariancji ma pełny rząd M z C = σ2bI, a prawdopodobieństwo danych (7) staje się:

gdzie β =1/σ2b jest miarą szumu w każdym pikselu,

jest funkcją błędu, a jest funkcją partycjonowania szumu. Bardziej złożone modele wykorzystują wewnętrzną funkcję korelacji C = [GGT]-1 ?, gdzie G jest splotem z ukrytego obrazu urojonego, który jest nieskorelowany, do rzeczywistego obrazu skorelowanego. Jeśli prawdopodobieństwo a priori obrazu f jest również gaussowskie:

gdzie jest macierzą kowariancji a priori funkcji f, a zakładając jednorodne odchylenie standardowe obrazu, jego a priori rozkład prawdopodobieństwa przyjmuje postać:

gdzie parametr α=1/σ2f mierzy oczekiwaną gładkość f, Zf(α) = (2&p;/α)N/2 jest funkcją partycjonowania f, a

Prawdopodobieństwo a posteriori obrazu f przy danych g wyprowadza się z twierdzenia Bayesa:

gdzie dowód P(g|α, β , ,H ) jest czynnikiem normalizującym. Ponieważ mianownik w (14) jest iloczynem funkcji Gaussa funkcji f, możemy zapisać:

gdzie
i
z całką pokrywającą przestrzeń wszystkich dopuszczalnych obrazów w funkcji partycji. Dlatego minimalizowanie funkcji celu M(f) odpowiada znalezieniu najbardziej prawdopodobnego obrazu fMP, który jest wartością średnią rozkładu a posteriori Gaussa. Jego macierz kowariancji A-1, która definiuje wspólne paski błędów na f, można uzyskać z macierzy hesjańskiej A = ?∇∇log P( f | g, α, β , H ) ocenianej przy fMP. Obraz fMPP uzyskuje się przez różniczkowanie log P( f | g, α, β , H ) i rozwiązanie dla pochodnej równej zero:
Wyraz

reguluje źle uwarunkowaną odwracalność. Kiedy termin

jest pomijalny, optymalny filtr liniowy

równa się pseudoodwrotności

Entropijne priorytety obrazów
Przywołanie zasady ME wymaga, aby wiedza a priori została wyrażona jako zbiór ograniczeń na f, chociaż wpływa na wielkość, o jaką rekonstrukcja obrazu jest odsunięta od rzeczywistości. Informacje a priori na temat f można wyrazić jako rozkład prawdopodobieństwa :

gdzie α jest ogólnie dodatnim parametrem, a Z(α) jest czynnikiem normalizującym. Entropiczny prior w przypadku dyskretnym może odpowiadać potencjalnym funkcjom takim jak:

gdzie U jest całkowitą liczbą kwantów w obrazie f. Prawdopodobieństwo a posteriori obrazu f wylosowanego z pewnych zmierzonych danych g jest podane przez twierdzenie Bayesa:

Reguła estymacji, taka jak średnia a posteriori lub maksimum a posteriori (MAP), jest potrzebna w celu wybrania optymalnego, unikalnego i stabilnego rozwiązania ?f dla szacowanego obrazu. Zakłada się, że prawdopodobieństwo a posteriori podsumowuje cały stan wiedzy na temat danej sceny. Wytworzenie pojedynczego obrazu jako najlepszej rekonstrukcji naturalnie prowadzi do najbardziej prawdopodobnego, który maksymalizuje prawdopodobieństwo a posteriori P( f | g, α ,C,H ), wraz z pewnym stwierdzeniem niezawodności wyprowadzonym z rozproszenia wszystkich dopuszczalnych obrazów. W problemach wariacyjnych z ograniczeniami liniowymi Agmon i inni (1979) wykazali, że funkcja potencjału związana z dodatnim, addytywnym obrazem jest zawsze wklęsła dla dowolnego zestawu mnożników Lagrange′a i posiada unikalne minimum, które pokrywa się z rozwiązaniem nieliniowego układu ograniczeń. Jako warunek wstępny sprawdzana jest liniowa niezależność ograniczeń, a następnie formułowane są warunki konieczne i wystarczające dla wykonalnego rozwiązania. Wilczek i Drapatz (1985) zasugerowali metodę iteracji Newtona-Raphsona jako dającą wyniki o wysokiej dokładności. Ortega i Rheinboldt (1970) przyjęli technikę kontynuacji dla bardzo niewielu przypadków, w których metoda Newtona nie osiąga zbieżności. Techniki te są jednak skuteczne w praktyce tylko dla stosunkowo małych zbiorów danych i zakładają symetryczną dodatnio określoną macierz hesjańską funkcji potencjału.
Ocena jakości przywracania obrazu
We wszystkich systemach obrazowania cyfrowego degradacja jakości jest nieuchronnie spowodowana różnymi źródłami, takimi jak szum śrutu fotonowego, skończony czas akwizycji, szum odczytu, szum ciemnego prądu i szum kwantyzacji. Niektóre źródła szumu można skutecznie stłumić, ale niektóre nie. Połączony efekt tych źródeł degradacji jest często modelowany przez gaussowski szum addytywny. Aby ilościowo oszacować jakość przywracania w przypadku podobnego rozmiaru (M = N) zarówno dla zmierzonego g, jak i odtworzonego obrazu
, średnia energia błędu przywracania:

może być użyty jako współczynnik zasługi. Jednak zbyt wysoka wartość D może spowodować, że odtworzony obraz będzie bardzo oddalony od oryginalnej sceny i podważy wprowadzenie fałszywych cech, dla których nie ma wyraźnych dowodów w pomiarach, co może skomplikować późniejsze wnioski i prawdopodobieństwo. Bardziej realistyczna miara degradacji rozmycia obrazu przez szum addytywny jest określana w kategoriach metryki zwanej rozmytym stosunkiem sygnału do szumu, zdefiniowanej tutaj na nowo przy użyciu wariancji szumu w każdym pikselu, takiej jak:

gdzie y = g-b jest różnicą między zmierzonymi danymi g i szumem b. W symulacjach, w których dostępny jest oryginalny obraz f zmierzonych danych g, obiektywność testowania wydajności algorytmów przywracania obrazu można ocenić poprzez poprawę metryki stosunku sygnału do szumu zdefiniowanej jako:

gdzie
jest najlepszą statystyczną oceną poprawnego rozwiązania f. Podczas gdy średnie kwadratowe metryki błędów, takie jak ISNR, nie zawsze odzwierciedlają właściwości percepcyjne ludzkiego układu wzrokowego, mogą stanowić obiektywny standard, według którego można porównywać różne techniki przetwarzania obrazu. Niemniej jednak niezwykle istotne jest, aby różne zachowania algorytmów były analizowane z punktu widzenia dzwonienia i wzmacniania szumów, co może być kluczowym wskaźnikiem poprawy jakości w przypadku subiektywnych porównań algorytmów przywracania
PRZYSZŁE TRENDY
Praktyczne ramy bayesowskie dla modelowania inspirowanego neuronami mają na celu opracowanie modeli probabilistycznych, które dopasowują dane i wykonują optymalne przewidywania. Powiązanie między wnioskowaniem bayesowskim a modelami neuronowymi daje nowe perspektywy założeniom i przybliżeniom dokonywanym w sieciach neuronowych, gdy są one używane jako pamięci asocjacyjne. Potrzebne są ewolucyjne algorytmy optymalizacji zdolne do odkrywania minimum (maksimum) funkcji bezwzględnej. Statystycznie stronnicza redefinicja koncepcji istnienia wzorca używana w sposób ilościowy do oceny ogólnej jakości obrazów cyfrowych o trafności specyficznej dla domeny zwiększyłaby dokładność rankingu metod przywracania obrazu. Należy zaimplementować wydajną procedurę MAP w rekurencyjnej nadzorowanej sieci neuronowej, aby przywrócić (zrekonstruować) najlepszy obraz zgodnie z istniejącymi ograniczeniami, błędami pomiaru i modelowania.
WNIOSEK
Główna wewnętrzna trudność w przywracaniu obrazu bayesowskiego polega na określeniu wcześniejszego prawa dla obrazów. Zasada ME rozwiązuje ten problem w sposób spójny. Model ME do dekonwolucji obrazu wymusza, aby odtworzony obraz był dodatni. Fałszywe obszary ujemne i uzupełniające fałszywe obszary dodatnie są usuwane, a zakres dynamiki odtworzonego obrazu jest znacznie zwiększony. Odtwarzanie obrazu na podstawie entropii obrazu jest skuteczne nawet w przypadku obecności znacznego szumu, brakujących lub uszkodzonych danych. Wynika to z odpowiedniej regularyzacji odwrotnego problemu odtwarzania obrazu wprowadzonego w spójny sposób przez zasadę ME. Spełnia ona wszystkie wymagania spójności podczas łączenia wcześniejszej wiedzy i informacji zawartych w danych eksperymentalnych. Głównym rezultatem jest to, że nie dodaje się żadnych artefaktów, ponieważ żadna struktura nie jest wymuszana przez entropiczne wcześniejsze. Bayesowskie podejście ME jest metodą statystyczną, która działa bezpośrednio w domenie przestrzennej, eliminując w ten sposób wrodzone błędy wynikające z numerycznych bezpośrednich i odwrotnych przekształceń Fouriera oraz z obcinania sygnałów.
WSTĘP
Pamięć asocjacyjna AM to specjalny rodzaj sieci neuronowej, która umożliwia przywołanie jednego wzorca wyjściowego, biorąc pod uwagę wzorzec wejściowy jako klucz, który może zostać zmieniony przez pewien rodzaj szumu (addytywny, subtraktywny lub mieszany). Większość tych modeli ma kilka ograniczeń, które ograniczają ich przydatność w złożonych problemach, takich jak rozpoznawanie twarzy (FR) i rozpoznawanie obiektów 3D (3DOR). Pomimo mocy tych podejść, nie mogą one osiągnąć pełnej mocy bez zastosowania nowych mechanizmów opartych na obecnych i przyszłych badaniach biologicznych sieci neuronowych. W tym kierunku chcielibyśmy przedstawić krótkie podsumowanie dotyczące nowego modelu asocjacyjnego opartego na niektórych neurobiologicznych aspektach ludzkiego mózgu. Ponadto chcielibyśmy opisać, w jaki sposób ta dynamiczna pamięć asocjacyjna (DAM), połączona z niektórymi aspektami układu wzrokowego niemowlęcia, mogłaby zostać zastosowana do rozwiązania niektórych z najważniejszych problemów rozpoznawania wzorców: FR i 3DOR.
KONTEKST
Ludzie posiadają kilka zdolności, takich jak uczenie się, rozpoznawanie i zapamiętywanie. W ciągu ostatnich 60 lat naukowcy z różnych społeczności próbowali wdrożyć te zdolności do komputera. W ciągu tych lat pojawiło się kilka podejść, jednym z powszechnych przykładów są sieci neuronowe (McCulloch & Pitts, 1943) (Hebb, 1949) (Rosenblatt, 1958). Od czasu odrodzenia się sieci neuronowych pojawiło się kilka modeli inspirowanych procesem neurobiologicznym. Spośród tych modeli, być może najpopularniejszy jest wielowarstwowy perceptron typu feed-forward trenowany za pomocą algorytmu propagacji wstecznej (Rumelhart & McClelland, 1986). Inne modele neuronowe to pamięci asocjacyjne, na przykład (Anderson, 1972) (Hopfield, 1982) (Sussner, 2003) (Sossa, Barron & Vazquez, 2004). Z drugiej strony mózg nie jest ogromną stałą siecią neuronową, jak wcześniej sądzono, ale dynamiczną, zmieniającą się siecią neuronową. W tym kierunku pojawiło się kilka modeli, na przykład (Grossberg, 1967) (Hopfield, 1982). W większości tych klasycznych podejść do sieci neuronowych synapsy są dostosowywane tylko w fazie treningu. Po tej fazie synapsy nie są już dostosowywane. Nowoczesna teoria mózgu wykorzystuje model czasu ciągłego oparty na bieżących badaniach biologicznych sieci neuronowych (Hecht-Nielse, 2003). W tym kierunku w następnej sekcji opisano nowy dynamiczny model oparty na niektórych aspektach biologicznych sieci neuronowych
Dynamiczne pamięci asocjacyjne (DAM)
Dynamiczny model asocjacyjny nie jest modelem iteracyjnym, jak model Hopfielda. Niech x ∈ Rn i y ∈ Rm będą odpowiednio wzorcem wejściowym i wyjściowym. Powiązanie między wzorcem wejściowym x i wzorcem wyjściowym y jest oznaczane jako (xk, yk), gdzie k jest odpowiadającym powiązaniem. Pamięć asocjacyjna: W jest reprezentowane przez macierz, której składniki wij można postrzegać jako synapsy sieci neuronowej. Jeśli xk = yk∀k =1, …?, p, to W jest autoasocjacyjne, w przeciwnym razie jest heteroasocjacyjne. Zniekształcona wersja wzorca x, który ma zostać przywołany, będzie oznaczana jako
?. Jeśli pamięć asocjacyjna W jest karmiona zniekształconą wersją xk, a otrzymany wynik jest dokładnie yk, mówimy, że przywoływanie jest solidne. Ze względu na to, że kilka obszarów mózgu oddziałuje ze sobą w procesie uczenia się i rozpoznawania , w modelu dynamicznym zdefiniowano kilka obszarów oddziałujących; również zintegrowano zdolność do dostosowywania synaps w odpowiedzi na bodziec wejściowy. Zakłada się, że zanim mózg przetworzy wzorzec wejściowy, wzorzec jest przekształcany i kodyfikowany przez mózg. Proces ten jest symulowany przy użyciu procedury wprowadzonej u(Sossa, Barrona i Vazqueza. Procedura ta umożliwia obliczanie zakodowanych wzorców i dekodowanie wzorców z wzorców wejściowych i wyjściowych przydzielonych w różnych obszarach oddziałujących modelu. Dodatkowo uproszczoną wersję xkxk oznaczoną jako sk otrzymujemy jako:
sk = s(xk) = mid xk (1)
gdzie operator mid jest zdefiniowany jako mid x =x(n+1)/2 . Gdy mózg jest stymulowany przez wzorzec wejściowy, niektóre obszary mózgu (obszary oddziałujące) są stymulowane, a synapsy należące do tych obszarów są modyfikowane. W tym modelu najbardziej pobudzony obszar oddziałujący nazywa się obszarem aktywnym (AR) i można go oszacować następująco:
Po obliczeniu zakodowanych wzorców, wzorców dekodujących i sk możemy zbudować pamięć asocjacyjną. Niech
podstawowy zbiór skojarzeń (zakodowane wzorce).Synapsy pamięci asocjacyjnej W są zdefiniowane jako:
Krótko mówiąc, budowanie pamięci asocjacyjnej może być przeprowadzone w trzech etapach jako:
1. Przekształć podstawowy zbiór skojarzeń w zakodowane i dekodujące wzorce.
2. Oblicz uproszczone wersje wzorców wejściowych, używając równania 1.
3. Zbuduj W w kategoriach zakodowanych wzorców, używając równania 3.
Istnieją synapsy, które można drastycznie zmodyfikować i nie zmieniają one zachowania pamięci asocjacyjnej. Przeciwnie, istnieją synapsy, które można tylko nieznacznie zmodyfikować, aby nie zmieniać zachowania pamięci asocjacyjnej; ten zbiór synaps nazywamy jądrem pamięci asocjacyjnej i jest on oznaczany jako KW. Niech KW ∈ Rn będzie jądrem pamięci asocjacyjnej W. Składnik wektora KW jest zdefiniowany jako:
kwi =mid(wij) , j = 1, … m (4)
Synapsy należące do KW są modyfikowane w odpowiedzi na bodziec wejściowy. Wzory wejściowe stymulują pewne AR, oddziałują z tymi regionami, a następnie, zgodnie z tymi oddziaływaniami, odpowiednie synapsy są modyfikowane. Współczynnik dostosowujący oznaczony jako Δw można obliczyć jako:
gdzie ar jest indeksem AR.
Na koniec synapsy należące do KW są modyfikowane w następujący sposób:
KW = KW ⊕ ( Δw - Δwold) (6)
gdzie operator ⊕ jest zdefiniowany jako
x ⊕ e = xi + e ∀ i = 1, … ,m
Gdy synapsy pamięci asocjacyjnej zostaną zmodyfikowane w odpowiedzi na wzorzec wejściowy, każdy składnik wektora
może zostać przywołany przy użyciu odpowiadającego mu wektora wejściowego
w następujący sposób:

Krótko mówiąc, wzór
można przywołać, używając odpowiadającego mu wektora klucza
lub
? w sześciu etapach:
1. Uzyskaj indeks aktywnego regionu ar, używając równania 2.
2. Przekształć xk, używając wzoru dekodowania
, stosując następującą transformację:
3. Oblicz współczynnik dopasowania
, używając równania 5.
4. Zmodyfikuj synapsy pamięci asocjacyjnej W należące do KW, używając równania 6.
5. Przywołaj wzór
?, używając równania 7.
6. Uzyskaj yk, przekształcając
, używając wzoru dekodowania
, stosując transformację:
.
Formalny zestaw propozycji, które wspierają prawidłowe funkcjonowanie tego dynamicznego modelu, główne zalety w porównaniu z innymi klasycznymi modelami i niektóre interesujące zastosowania tego modelu są opisane w Vazquez, Sossa & Garro, 2006 i Vazquez & Sossa, 2007. Ogólnie rzecz biorąc, wyróżniamy dwie główne części w tym modelu: część dotyczącą określania AR (PAR) i część dotyczącą przywoływania wzorca (PPR). PAR (pierwszy krok podczas procedury przywoływania) wysyła sygnał do PPR (pozostałe kroki procedury przywoływania) i wskazuje region aktywowany przez wzorzec wejściowy.
ROZPOZNAWANIE TWARZY I OBIEKTÓW 3D Z WYKORZYSTANIEM NIEKTÓRYCH ASPEKTÓW SYSTEMU WZROKOWEGO NIEMOWLĄT I DAMS
Zaproponowano kilka statystycznych, kosztownych obliczeniowo technik (techniki redukcji wymiarów), takich jak analiza głównych składowych i analiza czynnikowa, w celu rozwiązania problemu FR i 3DOR. Zamiast używać pełnej wersji opisu wzorca X dowolnej twarzy lub obiektu, można użyć uproszczonej wersji opisu wzorca X do rozpoznania twarzy lub obiektu. W wielu artykułach autorzy używali PCA do wykonywania FR i innych zadań. Na wczesnych etapach rozwoju istnieją ścieżki komunikacyjne między korą wzrokową a innymi obszarami sensorycznymi, co pokazuje, w jaki sposób sieć biologiczna samoorganizuje się. W ciągu kilku miesięcy od urodzenia dziecko jest w stanie odróżnić jedną twarz lub obiekty (zabawki) od innych. Barlow postawił hipotezę, że dla układu neuronowego jednym z możliwych sposobów uchwycenia struktury statystycznej było usunięcie redundancji w wyjściach sensorycznych . Biorąc pod uwagę teorię Barlowa, proponujemy nową metodę FR i 3DOR opartą na niektórych biologicznych aspektach widzenia niemowląt. Hipotezy biologiczne tej propozycji opierają się na roli odpowiedzi na niskie częstotliwości na wczesnych etapach i pewnych przypuszczeniach dotyczących tego, w jaki sposób niemowlę wykrywa subtelne cechy (punkty stymulujące (SP)) na twarzy lub obiekcie . Propozycja składa się z kilku DAM-ów używanych do rozpoznawania różnych obrazów twarzy i obiektów. Ponieważ wzrok niemowlęcia reaguje na niskie częstotliwości sygnału, najpierw stosuje się filtr dolnoprzepustowy w celu usunięcia z obrazu składników o wysokiej częstotliwości. Następnie dzielimy obraz na różne części (podwzorce). Następnie, w każdym podwzorze, wykrywamy subtelne cechy za pomocą losowego wyboru SP. Wstępne przetwarzanie obrazów używanych do usuwania wysokich częstotliwości i losowy wybór SP przyczyniają się do eliminacji zbędnych informacji i pomagają DAM-om w efektywnym uczeniu się twarzy lub obiektów. Na koniec, każdy DAM jest zasilany tymi podwzorcami w celu szkolenia i rozpoznawania.
Reakcja na niskie częstotliwości
Zamiast używać filtra, który dokładnie symuluje zachowanie układu wzrokowego niemowlęcia na dowolnym etapie, używamy filtra dolnoprzepustowego, aby usunąć wysokie częstotliwości. Ten rodzaj filtra można postrzegać jako niewielkie przybliżenie układu wzrokowego niemowlęcia, ponieważ eliminuje on komponenty o wysokiej częstotliwości ze wzoru.
Losowy wybór
W modelu DAM uproszczoną wersją wzoru wejściowego jest wartość środkowa wzoru wejściowego. Aby symulować losowy wybór układu wzrokowego niemowlęcia, zastąpiliśmy operatora mid operatorem rand zdefiniowanym w następujący sposób:
rand x = xsp (8)
gdzie sp = random(n) jest liczbą losową między zerem a długością wzoru wejściowego. sp jest stałą wartością obliczaną na początku fazy budowania i reprezentuje SP. Podczas fazy przywoływania sp przyjmuje tę samą wartość. operator rand używa jednolitego generatora losowego do wybierania składnika z każdej części wzorca. Przyjmujemy tego operatora na podstawie hipotetycznego założenia, że niemowlęta są zainteresowane zestawami cech, gdzie każdy zestaw jest inny i ma pewne przecięcie między nimi. Wybierając cechy losowo, przypuszczamy, że przynajmniej wybieramy cechę należącą do tych zestawów.
Implementacja propozycji
Podczas przywoływania każdy DAM odzyskuje część obrazu na podstawie AR każdego DAM. Jednak część obrazu może zostać błędnie przywołana, ponieważ odpowiadający jej AR może zostać błędnie określony z powodu niektórych wzorców, które nie spełniają przyimków gwarantujących doskonałe przywołanie. Aby tego uniknąć, używamy integratora. Każdy DAM ustala AR, indeks AR jest wysyłany do integratora, integrator ustala, który region był najbardziej głosowanym i wysyła do DAM indeks najbardziej głosowanego regionu (nowy AR).
Niech Ikx]a×b ?i?[Iky]c×d będzie skojarzeniem obrazów, a r będzie liczbą DAM. Budowa nDAM-ów odbywa się w następujący sposób:
1. Wybierz rozmiar filtra i zastosuj go do obrazów.
2. Przekształć obrazy w wektor ( xk , yk ) za pomocą standardowej metody skanowania obrazu, gdzie wektory mają odpowiednio rozmiar a×b i c× d.
3. Rozłóż xk i yk na r podwzorców o tym samym rozmiarze.
4. Weź każdy podwzorzec (od pierwszego do ostatniego (r)), a następnie losowo weź SP spi, i = 1, …,r i wyodrębnij wartość w tej pozycji.
5. Wytrenuj r DAMS tak jak w procedurze budowania biorąc każdy podwzorzec (od pierwszego do ostatniego (r)) za pomocą operatora rand.
Wzorzec Iky można przywołać, używając odpowiadającego mu obrazu kluczowego Ikx lub
w następujący sposób:
1. Wybierz rozmiar filtra i zastosuj go do obrazów.
2. Przekształć obrazy w wektor za pomocą standardowej metody skanowania obrazu i rozłóż xk na r podwzorców o tym samym rozmiarze.
3. Użyj SP spi, i = 1,…, r obliczonych podczas fazy budowania i wyodrębnij wartość każdego podwzorca.
4. Określ najbardziej głosowany aktywny region za pomocą integratora.
5. Zamień mid na operator rand w procedurze przywoływania i zastosuj kroki od drugiego do szóstego, jak opisano w procedurze przywoływania na każdym DAM.
6. Na koniec połącz przywołane podwzorce, aby utworzyć wzór wyjściowy.
Niektóre wyniki eksperymentalne
Aby przetestować dokładność propozycji, przeprowadziliśmy dwa eksperymenty. W eksperymencie 1 użyliśmy punktu odniesienia twarzy 15 różnych osób. W eksperymencie 2 użyliśmy punktu odniesienia 100 obiektów. Podczas procesu szkoleniowego w obu eksperymentach, DAM działał z 100% dokładnością, używając tylko jednego obrazu każdej osoby i obiektu. Podczas testowania, DAM działał średnio z 99% dokładnością dla pozostałych 285 obrazów twarzy (eksperyment 1) i 95% dokładnością dla pozostałych 1900 obrazów obiektów (eksperyment 2) przy użyciu różnych filtrów o różnych rozmiarach i SP. W kilku eksperymentach przetestowaliśmy dokładność i stabilność propozycji, używając różnej liczby punktów stymulacji. Ponieważ SP (piksele) zostały wybrane losowo, postanowiliśmy przetestować stabilność propozycji przy tej samej konfiguracji 20 razy. Przeprowadzono dodatkowy eksperyment z częściowo zasłoniętymi obrazami. Średnio dokładność propozycji spadła do 80%. Podczas gdy techniki redukcji wymiarów PCA wymagają macierzy kowariancji do zbudowania przestrzeni własnej, a następnie do projektowania wzorców przy użyciu tej przestrzeni w celu wyeliminowania zbędnych informacji, nasza propozycja wymaga jedynie usunięcia wysokich częstotliwości za pomocą filtra i losowego wyboru punktów stymulujących. To podejście przyczynia się do wyeliminowania zbędnych informacji; jest mniej kosztowne obliczeniowo niż PCA i pomaga DAM-om lub innym narzędziom klasyfikacyjnym w efektywnym uczeniu się twarzy lub obiektów.
TRENDY PRZYSZŁOŚCI
Wstępne przetwarzanie obrazów w celu usunięcia wysokich częstotliwości i losowego wyboru punktów SP przyczynia się do wyeliminowania niepotrzebnych informacji i pomaga DAM-om w efektywnym uczeniu się twarzy i obiektów. Teraz musimy zbadać nowe mechanizmy oparte na technikach ewolucyjnych, aby wybrać najważniejsze punkty SP. Ponadto musimy przetestować różne typy filtrów, które naprawdę symulują zachowanie układu wzrokowego niemowlęcia. W niedalekiej przyszłości zamierzamy wykorzystać tę propozycję jako model biologiczny do wyjaśnienia procesu uczenia się w mózgu niemowlęcia dla FR i 3DOR.
WNIOSEK
W tym artykule zaproponowaliśmy nową metodę FR i 3DOR opartą na niektórych biologicznych aspektach widzenia niemowląt. Wykazaliśmy, że poprzez zastosowanie niektórych aspektów układu widzenia niemowląt możliwe jest zwiększenie wydajności pamięci asocjacyjnej (lub innych klasyfikatorów odległości) i umożliwienie jej zastosowania do złożonych problemów, takich jak FR i 3DOR. Aby rozpoznać różne obrazy twarzy lub obiektów, użyliśmy kilku DAM-ów. Ponieważ wzrok niemowląt reaguje na niskie częstotliwości sygnału, najpierw użyto filtra niskiego częstotliwości, aby usunąć z obrazu składniki o wysokiej częstotliwości. Następnie wykryliśmy subtelne cechy na obrazie za pomocą losowego wyboru SP. Na koniec każdy DAM został nakarmiony tymi informacjami w celu szkolenia i rozpoznawania. Poprzez kilka eksperymentów wykazaliśmy dokładność i stabilność propozycji nawet w przypadku przesłonięć. Średnio dokładność propozycji oscyluje między 95% a 99%. Wyniki uzyskane za pomocą tej propozycji były porównywalne z wynikami
uzyskanymi za pomocą metody opartej na PCA (99%). Chociaż PCA jest potężną techniką, pochłania dużo czasu na redukcję wymiarowości danych. Nasza propozycja, ze względu na prostotę obsługi, nie jest techniką kosztowną obliczeniowo, a uzyskane wyniki są porównywalne z wynikami dostarczonymi przez PCA.