Diagnostyka defektów przemysłowych urządzeń optycznych oparta na sieciach neuronowych



WSTĘP

Głównym krokiem w diagnostyce usterek urządzeń optycznych wysokiej jakości jest wykrywanie i charakteryzowanie defektów w postaci zarysowań i wgłębień w produktach. Tego rodzaju wady estetyczne, ukształtowane podczas różnych etapów produkcji, mogą powodować szkodliwe skutki dla specyfiki funkcjonalnej urządzeń optycznych, a także dla ich wydajności optycznej, generując niepożądane światło rozproszone, które może poważnie uszkodzić oczekiwane cechy optyczne. Wiarygodna diagnoza tych wad staje się zatem kluczowym zadaniem w celu zapewnienia nominalnej specyfikacji produktów. Co więcej, taka diagnoza jest silnie motywowana wymogami korekcji procesu produkcyjnego w celu zagwarantowania jakości produkcji masowej w celu utrzymania akceptowalnej wydajności produkcji. Niestety wykrywanie i mierzenie takich wad nadal stanowi trudny problem w warunkach produkcji, a nieliczne dostępne rozwiązania automatycznej kontroli pozostają nieskuteczne. Dlatego w większości przypadków diagnoza jest przeprowadzana na podstawie wizualnej inspekcji całej produkcji przez eksperta. Jednak to konwencjonalnie stosowane rozwiązanie cierpi na kilka ostrych ograniczeń związanych z wewnętrznymi ograniczeniami operatora (zmniejszona czułość na bardzo małe defekty, zmiana wyczerpującego wykrywania z powodu kurczenia się uwagi, zmęczenie operatora i znużenie z powodu powtarzalnego charakteru zadań wykrywania i diagnostyki błędów). Aby zbudować skuteczny system automatycznej diagnostyki, proponujemy podejście oparte na czterech głównych operacjach: wykrywaniu defektów, ekstrakcji danych, redukcji wymiarowości i klasyfikacji neuronowej. Pierwsza operacja opiera się na obrazowaniu mikroskopowym Nomarskiego. Te obrazy zawierają kilka elementów, które muszą zostać wykryte, a następnie sklasyfikowane w celu rozróżnienia defektów "fałszywych" (defektów możliwych do skorygowania) od defektów "trwałych" (stałych). Rzeczywiście, ze względu na środowisko przemysłowe, szereg defektów możliwych do skorygowania (takich jak kurz lub ślady czyszczenia) jest zwykle obecnych obok potencjalnych defektów "trwałych". Ekstrakcja istotnych cech jest kluczową kwestią w celu zapewnienia dokładności systemu klasyfikacji neuronowej; po pierwsze, ponieważ surowe dane (obrazy) nie mogą być wykorzystane, a ponadto, ponieważ praca z danymi o dużej liczbie wymiarów może mieć wpływ na wydajność uczenia się sieci neuronowej. W tym artykule przedstawiono system automatycznej diagnostyki, opisując działanie różnych faz. Przeprowadzono implementację na rzeczywistych przemysłowych urządzeniach optycznych, a eksperyment bada klasyfikację elementów opartą na sztucznej sieci neuronowej MLP.

TŁO

Obecnie jedynym rozwiązaniem, które istnieje w celu wykrywania i klasyfikowania defektów powierzchni optycznych, jest rozwiązanie wizualne, przeprowadzane przez eksperta. Pierwsza oryginalność tej pracy dotyczy zastosowanego czujnika: mikroskopii Normarskiego. Trzy główne zalety odróżniające mikroskopię Nomarskiego (znaną również jako "mikroskopia kontrastu różnicowo-interferencyjnego" od innych technik mikroskopowych, uzasadniają nasze preferencje dla tej techniki obrazowania. Pierwsza z nich jest związana z wyższą czułością tej techniki w porównaniu do innych klasycznych technik mikroskopowych. Ponadto mikroskopia DIC jest odporna na niejednorodność oświetlenia. Wreszcie, ta technologia dostarcza informacji względnych do głębokości (3-wymiar), które mogą być wykorzystane do określenia chropowatości lub głębokości defektu. Ta ostatnia zaleta oferuje cenny dodatkowy potencjał do scharakteryzowania rys i wad wgłębień w zaawansowanych technologicznie urządzeniach optycznych. Dlatego mikroskopia Nomarskiego wydaje się być odpowiednią techniką wykrywania niedoskonałości powierzchni. Z drugiej strony, ponieważ wykazały wiele atrakcyjnych cech w złożonych zadaniach rozpoznawania i klasyfikacji wzorców , techniki oparte na sztucznych sieciach neuronowych są wykorzystywane do rozwiązywania trudnych problemów. W naszym konkretnym przypadku problem jest związany z klasyfikacją małych defektów na dużej powierzchni obserwacyjnej. Te obiecujące techniki mogą jednak napotkać trudności w przypadku danych o dużej liczbie wymiarów. Dlatego interesują nas również metody redukcji wymiarowości danych.

DETEKCJA I KLASYFIKACJA DEFEKTÓW

Sugerowany proces diagnozy jest opisany w ogólnym zarysie na schemacie na Rysunku 1. Przedstawiono każdy krok, najpierw fazy wykrywania i ekstrakcji danych, a następnie fazę klasyfikacji połączoną z redukcją wymiarowości. W drugiej części przeprowadzono pewne badania na rzeczywistych danych przemysłowych i przedstawiono uzyskane wyniki.

Wykrywanie i ekstrakcja danych

Celem etapu wykrywania defektów jest ekstrakcja obrazów defektów z cyfrowego obrazu wydanego przez detektor DIC. Proponowana metoda (Voiry, Houbre, Amarger i Madani, 2005) obejmuje cztery fazy:

•  Wstępne przetwarzanie: transformacja cyfrowego obrazu wydanego przez DIC w celu zmniejszenia wpływu niejednorodności oświetlenia i zwiększenia widoczności docelowych defektów,
•  Dopasowanie adaptacyjne: proces adaptacyjny w celu dopasowania defektów,
•  Filtrowanie i segmentacja: usuwanie szumów i charakteryzacja zarysów defektów.
•  Ekstrakcja obrazu defektu: poprawna konstrukcja reprezentacji defektu.

Na koniec obraz powiązany z danym wykryciem daje izolowaną (od innych elementów) reprezentację defektu (np. przedstawia defekt w jego bezpośrednim otoczeniu), jak pokazano na rysunku 2. Jednak informacje zawarte w tak wygenerowanych obrazach są wysoce redundantne, a obrazy te niekoniecznie mają ten sam wymiar (zwykle ten wymiar może okazać się sto razy większy). Dlatego te surowe dane (obrazy) nie mogą być bezpośrednio przetwarzane i muszą być najpierw odpowiednio zakodowane, przy użyciu pewnych transformacji. Takie transformacje muszą być naturalnie niezmienne w odniesieniu do transformacji geometrycznych (translacja, obrót i skalowanie) i odporne na różne zaburzenia (szum, zmienność luminancji i zmienność tła). Transformacja Fouriera-Mellina jest używana, ponieważ zapewnia niezmienne deskryptory, które są uważane za mające dobrą zdolność kodowania w zadaniach klasyfikacyjnych. Na koniec przetworzone cechy muszą zostać znormalizowane, przy użyciu transformacji centrującej-redukującej. Dostarczenie zestawu 13 cech przy użyciu takiej transformacji jest pierwszym akceptowalnym kompromisem między ograniczeniami przetwarzania w czasie rzeczywistym w środowisku przemysłowym a jakością reprezentacji obrazu defektowego.

Redukcja wymiarowości

Aby uzyskać poprawny opis defektów, musimy wziąć pod uwagę mniej lub bardziej istotną liczbę niezmienników Fouriera-Mellina. Jednak praca z danymi o dużej liczbie wymiarów stwarza problemy, znane jako "przekleństwo wymiarowości". Po pierwsze, liczba próbek wymagana do osiągnięcia wstępnie zdefiniowanego poziomu precyzji w zadaniach aproksymacyjnych rośnie wykładniczo wraz z wymiarem. Tak więc, intuicyjnie, liczba próbek potrzebna do prawidłowego nauczenia się problemu staje się szybko zbyt duża, aby mogła być zebrana przez rzeczywiste systemy, gdy wymiar danych wzrasta. Ponadto, podczas pracy w dużym wymiarze pojawiają się zaskakujące zjawiska: na przykład, wariancja odległości między wektorami pozostaje stała, podczas gdy jej średnia wzrasta wraz z wymiarem przestrzennym, a lokalne właściwości jądra Gaussa są również tracone. Te ostatnie punkty wyjaśniają, że zachowanie wielu algorytmów sztucznej sieci neuronowej może być zmienione podczas pracy z danymi o dużej liczbie wymiarów. Na szczęście większość danych dotyczących rzeczywistych problemów znajduje się w rozmaitości o wymiarze p (wymiar wewnętrzny danych), znacznie mniejszym niż jej wymiar surowy. Zmniejszenie wymiarowości danych do tej mniejszej wartości może zatem zmniejszyć problemy związane z wysokim wymiarem. Aby zmniejszyć wymiarowość problemu, stosujemy analizę odległości krzywoliniowej (CDA). Ta technika jest związana z analizą składowych krzywoliniowych (CCA), której celem jest odtworzenie topologii oryginalnej przestrzeni n-wymiarowej w nowej przestrzeni p-wymiarowej (gdzie p


Gdzie dm (odpowiednio dpij) jest odległością euklidesową między wektorami xi i xj rozważanego rozkładu w przestrzeni oryginalnej (odpowiednio w przestrzeni rzutowanej), a F jest funkcją malejącą, która faworyzuje topologię lokalną względem topologii globalnej. Ta funkcja energii jest minimalizowana przez stochastyczne zstąpienie gradientu



Gdzie są dwiema funkcjami malejącymi, reprezentującymi odpowiednio parametr uczenia i czynnik sąsiedztwa. CCA zapewnia również podobną metodę, aby rzutować, w sposób ciągły, nowe punkty w oryginalnej przestrzeni na przestrzeń rzutowaną, wykorzystując wiedzę o już rzutowanych wektorach. Jednak ponieważ CCA napotyka trudności z rozwijaniem bardzo nieliniowych rozmaitości, zaproponowano ewolucję zwaną CDA . Obejmuje ona odległości krzywoliniowe (w celu lepszego przybliżenia odległości geodezyjnych na rozważanej rozmaitości) zamiast odległości euklidesowych. Odległości krzywoliniowe są przetwarzane w dwuetapowy sposób. Najpierw budowany jest graf między wektorami, biorąc pod uwagę k-NN, e lub inne sąsiedztwo, ważone odległością euklidesową między sąsiednimi węzłami. Następnie odległość krzywoliniowa między dwoma wektorami jest obliczana jako minimalna odległość między tymi wektorami na wykresie przy użyciu algorytmu Dijkstry. Na koniec oryginalny algorytm CCA jest stosowany przy użyciu przetworzonych odległości krzywoliniowych. Ten algorytm pozwala na radzenie sobie z bardzo nieliniowymi rozmaitościami i jest znacznie bardziej odporny na wybory funkcji a i l. Został on pomyślnie użyty jako wstępny krok przed klasyfikacją maksymalnego prawdopodobieństwa , a my pokazaliśmy również jego pozytywny wpływ na wydajność klasyfikacji opartej na technice sieci neuronowych . W tym ostatnim artykule po raz pierwszy wykazaliśmy, że problem syntetyczny (mimo to zdefiniowany na podstawie naszych rzeczywistych danych przemysłowych), którego wewnętrzna wymiarowość wynosi dwa, jest lepiej traktowany przez MLP po redukcji wymiarów 2D niż w jego surowym wyrażeniu. Pokazaliśmy również, że CDA działa lepiej w przypadku tego problemu niż CCA i wstępne przetwarzanie Self Organizing Map.

Implementacja na przemysłowych urządzeniach optycznych

Aby zweryfikować przedstawione powyżej koncepcje i dostarczyć przemysłowy prototyp, zrealizowano automatyczny system sterowania. Obejmuje on mikroskop Olympus B52 połączony ze stolikiem Corvus, który umożliwia skanowanie całego komponentu optycznego . Zastosowano 50-krotne powiększenie, co prowadzi do mikroskopijnych pól 1,77 mm x 1,33 mm i pikseli o rozmiarze 1,28 μm x 1,28 μm. Proponowana metoda przetwarzania obrazu jest stosowana on-line. Oprogramowanie do postprodukcji umożliwia zebranie fragmentów defektu, które są wykrywane w różnych polach mikroskopowych (na przykład fragmentów długiej rysy), aby utworzyć tylko jeden defekt, i obliczyć ogólną kartografię sprawdzanego urządzenia . Te urządzenia zostały wykorzystane do uzyskania dużej liczby obrazów Nomarskiego, z których wyodrębniono obrazy defektów przy użyciu wspomnianej techniki. Przeprowadzono dwa eksperymenty zwane A i B, przy użyciu dwóch różnych urządzeń optycznych. Tabela 1 przedstawia różne parametry odpowiadające tym eksperymentom. Ważne jest, aby zauważyć, że w celu uniknięcia uczenia się fałszywych klas, obrazy elementów przedstawiające mikroskopijne granice pól lub dwa (lub więcej) różne defekty zostały odrzucone z używanej bazy danych. Ponadto badane urządzenia optyczne nie były specjalnie czyszczone, co tłumaczy obecność niektórych pyłów i śladów czyszczenia. Elementy tych dwóch baz danych zostały oznaczone przez eksperta dwoma różnymi etykietami: "kurz" (klasa 1) i "inne defekty" (klasa -1). Tabela 1 przedstawia również podział elementów między dwie zdefiniowane klasy. Korzystając z tego eksperymentalnego układu, przeprowadzono eksperyment klasyfikacyjny. Najpierw tę sztuczną sieć neuronową wytrenowano do zadania dyskryminacji między klasami 1 i -1, używając bazy danych B. Ta faza szkolenia używała BFGS z algorytmem regularyzacji bayesowskiej i została osiągnięta 5 razy. Następnie zdolność generalizacji uzyskanej sieci neuronowej została przetworzona przy użyciu bazy danych A. Ponieważ bazy danych A i B zostały wydane z różnych urządzeń optycznych, takie wyniki generalizacji są znaczące. Zgodnie z tą procedurą przeprowadzono 14 różnych eksperymentów w celu zbadania globalnej wydajności klasyfikacji i wpływu redukcji wymiarowości CDA na tę wydajność. W pierwszym eksperymencie wykorzystano oryginalne cechy wydane przez Fourriera-Mellina (13-wymiarowe), pozostałe wykorzystały te same cechy po redukcji przestrzeni n-wymiarowej CDA (z n zmieniającym się między 2 a 13). W konsekwencji złożoność architektury neuronowej, a zatem czas przetwarzania, można zaoszczędzić, używając redukcji wymiarowości CDA, przy jednoczesnym zachowaniu poziomu wyników. Ponadto uzyskane wyniki są zadowalające: około 70% defektów "pyłowych" jest dobrze rozpoznawanych (może to wystarczyć do zamierzonego zastosowania), podobnie jak około 97% innych defektów (nieliczne błędy 3% mogą jednak stanowić problem, ponieważ każdy "stały" defekt musi zostać zgłoszony). Ponadto uważamy, że ta znacząca różnica w wynikach między rozpoznawaniem klasy 1 a klasy -1 wynika z faktu, że klasa 1 jest niedoreprezentowana w bazie danych uczenia się.

PRZYSZŁE TRENDY

Kolejna faza tej pracy będzie dotyczyć zadań klasyfikacyjnych obejmujących więcej klas. Chcemy również użyć znacznie więcej niezmienników Fouriera-Mellina, ponieważ uważamy, że poprawiłoby to wydajność klasyfikacji poprzez dostarczanie dodatkowych informacji. W tym przypadku technika redukcji wymiarowości oparta na CDA byłaby najważniejszym krokiem w celu utrzymania rozsądnej złożoności systemu klasyfikacji i czasu przetwarzania.

WNIOSEK

Niezawodna diagnoza wad estetycznych w wysokiej jakości urządzeniach optycznych jest kluczowym zadaniem w celu zapewnienia nominalnej specyfikacji produktów i poprawy jakości produkcji poprzez badanie wpływu procesu na takie wady. Aby zapewnić niezawodną diagnozę, potrzebny jest automatyczny system do wykrywania wad, a po drugie, do odróżniania wad "fałszywych" (wad korygowanych) od wad "trwałych" (stałych). W tym artykule opisano kompletne ramy, które umożliwiają wykrywanie wszystkich wad obecnych w surowym obrazie Nomarskiego i wyodrębnianie odpowiednich cech w celu klasyfikacji tych wad. Uzyskane prawidłowe wyniki dla klasyfikacji defektów "kurzu" w porównaniu z "innymi" za pomocą sieci neuronowej MLP wykazały trafność proponowanego podejścia. Ponadto redukcja wymiarowości danych pozwala na użycie klasyfikatora o niskiej złożoności (przy zachowaniu poziomu wydajności), a tym samym na zaoszczędzenie czasu przetwarzania.


Dynamiczne narzędzia bioinspirowane do analizy poznania



WSTĘP

Wiedza na temat wyższych ośrodków mózgowych u owadów i tego, jak wpływają one na zachowanie owadów, znacznie wzrosła w ostatnich latach dzięki badaniom teoretycznym i eksperymentalnym. Obecnie wiele dowodów sugeruje, że wyższe ośrodki mózgowe owadów są ważne dla uczenia się, pamięci krótkotrwałej i długoterminowej oraz odgrywają ważną rolę w uogólnianiu kontekstu. W związku z tymi tematami jednym z najciekawszych celów do osiągnięcia byłoby zrozumienie związku między sekwencyjnymi procesami kodowania pamięci a wyższymi ośrodkami mózgowymi u owadów w celu opracowania ogólnej architektury sterowania "mózgiem owadów", która zostanie wdrożona w prostych robotach. W tym artykule przedstawiono przegląd najważniejszych i najnowszych wyników dotyczących kodowania czasoprzestrzennego i zasugerowano możliwość wykorzystania ciągłych rekurencyjnych sieci neuronowych (CRNN) (które mogą być używane do modelowania systemów nieliniowych, w szczególności systemów Lotki-Volterry) w celu znalezienia sposobu na modelowanie prostych systemów poznawczych z abstrakcyjnego punktu widzenia. Po pokazaniu typowych i interesujących zachowań, które pojawiają się w odpowiednich systemach Lotki-Volterry (w szczególności w procesach konkurencji bez zwycięzcy), kolejne sekcje dotyczą krótkiej dyskusji na temat inteligentnych systemów zainspirowanych badaniami pochodzącymi z biologii.

TŁO

Jak nazywamy "obliczenia"? Powiedzmy, że system wykazuje zdolność do obliczeń, jeśli ma pamięć (lub jakąś formę wewnętrznej plastyczności) i jest w stanie określić odpowiednią decyzję (lub zachowanie lub działanie) na podstawie kryteriów i dokonywać obliczeń, korzystając z tego, co wyczuwa ze świata zewnętrznego. Niektóre systemy biologiczne, takie jak kilka owadów, mają mózgi, które wykazują typ obliczeń, który można opisać funkcjonalnie za pomocą określonego typu nieliniowych systemów dynamicznych zwanych systemami Lotki-Volterra . Zgodnie z naszymi celami, jednym z pierwszych zainteresowań jest to, w jaki sposób sztuczna rekurencyjna sieć neuronowa mogłaby modelować system nieliniowy, w szczególności system Lotki-Volterra i jakie są typowe procesy, które pojawiają się w systemach Lotki-Volterra. Gdyby można było to zrozumieć, byłoby jaśniejsze, jakie są relacje między procesami kodowania pamięci sekwencyjnej a wyższymi ośrodkami mózgu u owadów. W przypadku wyższych ośrodków mózgu (i tego, jak wpływają one na zachowanie owada) możliwe jest zatrzymanie funkcjonowania określonych badanych neuronów w fazach eksperymentów i stopniowe przywrócenie funkcjonowania obwodu neuronowego . Obecnie wiadomo, że wyższe ośrodki mózgu u owadów są powiązane z autonomiczną nawigacją, multimodalną integracją sensoryczną i ogólną złożonością behawioralną owadów; dowody wskazują również na ważną rolę generalizacji kontekstu, pamięci krótkotrwałej i długotrwałej. Przez długi czas owady inspirowały badania nad robotyką w sposób jakościowy, ale układ nerwowy owadów był niedostatecznie eksploatowany jako źródło potencjalnych architektur sterowania robotem. W szczególności często wydaje się, że zakłada się, że owady wykonują tylko "reaktywne" zachowanie, a bardziej złożona kontrola będzie musiała być modelowana na "wyższych" zwierzętach.

GENERATOR PRZESTRZENNEGO I CZASOWEGO KODOWANIA NEURONOWEGO

Możliwość przetwarzania sekwencyjnych informacji od dawna jest uważana za jedną z najważniejszych funkcji "inteligentnych" systemów. Jak zostanie wykazane później, zasada konkurencji bez zwycięzcy pojawia się jako główny typ mechanizmu sekwencyjnego przetwarzania pamięci. Podstawową koncepcją jest to, że sekwencyjną pamięć można zakodować w (wielowymiarowym) systemie dynamicznym za pomocą heteroklinicznych trajektorii łączących kilka punktów siodłowych. Zakłada się, że każdy z punktów siodłowych jest zapamiętany do dalszego działania . Obliczenia w sieciach neuronowych Komputery cyfrowe są uważane za uniwersalne w sensie zdolności do implementacji dowolnego symbolicznego algorytmu. Jeśli sztuczne sieci neuronowe, które mają duży wpływ na dziedzinę obliczeń, są uważane za paradygmat obliczeń, można zapytać, jaki jest związek między sieciami neuronowymi a klasycznym paradygmatem obliczeniowym. W przypadku tego pytania należy rozważyć z jednej strony obliczenia dyskretne (cyfrowe), a z drugiej strony obliczenia niedyskretne (analogowe). W odniesieniu do pierwszego, tradycyjnym paradygmatem jest maszyna Turinga z architekturą von Neumanna. Dziesięć lat temu wykazano, że sztuczne sieci neuronowe neuronów analogowych i wag racjonalnych są obliczeniowo równoważne maszynom Turinga. W odniesieniu do obliczeń analogowych wykazano również, że trójwarstwowe sieci sprzężenia zwrotnego mogą aproksymować dowolną gładką funkcję z dowolną precyzją . Wynik ten rozszerzono, aby pokazać, w jaki sposób ciągłe rekurencyjne sieci neuronowe (CRNN) mogą aproksymować dowolny układ dynamiczny dany przez układ n sprzężonych równań różniczkowych pierwszego rzędu.

Obliczenia sieci neuronowych z punktu widzenia systemu dynamicznego

Nowoczesna teoria systemów dynamicznych zajmuje się jakościowym zrozumieniem asymptotycznych zachowań systemów, które ewoluują w czasie. W przypadku złożonych systemów nieliniowych, zdefiniowanych przez sprzężone równania różniczkowe, różnicowe lub funkcyjne, często niemożliwe jest uzyskanie rozwiązań w formie zamkniętej (lub asymptotycznie zamkniętej). Nawet jeśli takie rozwiązania zostaną uzyskane, ich formy funkcyjne są zwykle zbyt skomplikowane, aby umożliwić zrozumienie ogólnego zachowania systemu. W takich sytuacjach jakościowa analiza zbiorów granicznych (punktów stałych, cykli lub chaosu) systemu może często zapewnić lepszy wgląd. Jakościowy oznacza, że tego typu analiza nie dotyczy ilościowych zmian, ale raczej tego, jakie będzie zachowanie graniczne.

GENERATOR KODOWANIA NEURONOWEGO PRZESTRZENNEGO

Możliwość przetwarzania informacji sekwencyjnych od dawna jest uważana za jedną z najważniejszych funkcji "inteligentnych" systemów. Jak zostanie wykazane później, zasada konkurencji bez zwycięzcy pojawia się jako główny typ mechanizmu sekwencyjnego przetwarzania pamięci. Podstawową koncepcją jest to, że pamięć sekwencyjna może być kodowana w (wielowymiarowym) systemie dynamicznym za pomocą heteroklinicznych trajektorii łączących kilka punktów siodłowych. Zakłada się, że każdy z punktów siodłowych jest zapamiętany do dalszego działania. Obliczenia w sieciach neuronowych Komputery cyfrowe są uważane za uniwersalne w sensie zdolności do implementacji dowolnego symbolicznego algorytmu. Jeśli sztuczne sieci neuronowe, które mają duży wpływ na dziedzinę obliczeń, są uważane za paradygmat obliczeń, można zapytać, jaki jest związek między sieciami neuronowymi a klasycznym paradygmatem obliczeniowym. W przypadku tego pytania należy rozważyć z jednej strony obliczenia dyskretne (cyfrowe), a z drugiej strony obliczenia niedyskretne (analogowe). W odniesieniu do pierwszego, tradycyjnym paradygmatem jest maszyna Turinga z architekturą von Neumanna. Dziesięć lat temu wykazano, że sztuczne sieci neuronowe neuronów analogowych i wag racjonalnych są obliczeniowo równoważne maszynom Turinga. W odniesieniu do obliczeń analogowych wykazano również, że trójwarstwowe sieci sprzężenia zwrotnego mogą aproksymować dowolną gładką funkcję z dowolną precyzją . Wynik ten rozszerzono, aby pokazać, w jaki sposób ciągłe rekurencyjne sieci neuronowe (CRNN) mogą aproksymować dowolny układ dynamiczny podany przez układ n sprzężonych równań różniczkowych pierwszego rzędu.

Obliczenia sieci neuronowych z punktu widzenia systemu dynamicznego

Nowoczesna teoria systemów dynamicznych zajmuje się jakościowym zrozumieniem asymptotycznych zachowań systemów, które ewoluują w czasie. W przypadku złożonych systemów nieliniowych, zdefiniowanych przez sprzężone równania różniczkowe, różnicowe lub funkcyjne, często niemożliwe jest uzyskanie rozwiązań w formie zamkniętej (lub asymptotycznie zamkniętej). Nawet jeśli takie rozwiązania zostaną uzyskane, ich formy funkcyjne są zwykle zbyt skomplikowane, aby umożliwić zrozumienie ogólnego zachowania systemu. W takich sytuacjach jakościowa analiza zbiorów granicznych (punktów stałych, cykli lub chaosu) systemu może często zapewnić lepsze spostrzeżenia. Jakościowa oznacza, że tego typu analiza nie dotyczy ilościowych zmian, ale raczej tego, jakie będzie zachowanie graniczne.

Przestrzenno-czasowe kodowanie neuronowe i sieci bezzwycięskiej konkurencji

Ważne jest zrozumienie, w jaki sposób informacje są przetwarzane przez obliczenia z dynamicznego punktu widzenia (w kategoriach stanów stacjonarnych, cykli granicznych i dziwnych atraktorów), ponieważ daje nam to możliwość zarządzania procesami sekwencyjnymi . W tej sekcji pokazano nowy kierunek w dynamice informacji, mianowicie zachowanie bezzwycięskiej konkurencji (WLC). Głównym punktem tej zasady jest przekształcenie przychodzących danych wejściowych przestrzennych w dane wyjściowe tożsamościowo-czasowe w oparciu o wewnętrzną dynamikę przełączania układu dynamicznego. W obecności bodźców sekwencja przełączania, której obraz geometryczny w przestrzeni fazowej jest konturem heteroklinicznym, jednoznacznie zależy od przychodzących informacji. Rozważ uogólniony układ Lotki-Volterry (N=3):



Jeżeli spełnione są następujące warunki macierzy i parametrów,



Gdy współczynniki spełniają równania α1 = α2 = α3 < 1 β1 = β2 = β3 > 1, mamy trzy przypadki:

1. Stabilna równowaga ze wszystkimi trzema składnikami jednocześnie obecnymi/działającymi.
2. Trzy równowagi (1,0,0), (0,1,0) i (0,0,1), wszystkie stabilne, każda osiągalna w zależności od warunków początkowych.
3. Ani punkty równowagi, ani rozwiązania okresowe nie są asymptotycznie stabilne i mamy błądzące trajektorie definiujące zachowanie konkurencji bez zwycięzców (WLC)

Zalety pracy z układami Lotki-Volterry są ważne. Powyżej pokazano, jak proces konkurencji bez zwycięzcy może pojawić się w uogólnionym układzie Lotki-Volterry. Wiadomo również, że ten typ procesu jest uogólnialny na dowolny układ dynamiczny i że dowolny układ dynamiczny można przedstawić za pomocą rekurencyjnych sieci neuronowych. Z tego punktu widzenia procesy konkurencji bez zwycięzcy można uzyskać zawsze, gdy wykracza to poza warunek brzegowy: układ Lotki-Volterry musi mieć dowolny wymiar n większy niż trzy, aby znaleźć zachowanie konkurencji bez zwycięzcy. W dalszej części zakłada się, że układy Lotki-Volterry aproksymują dowolnie blisko dynamikę dowolnego skończenie-wymiarowego układu dynamicznego dla dowolnego skończonego czasu i będziemy zakładać i koncentrować się na pokazywaniu ich jako typu sieci neuronowych o dużym zainteresowaniu dla zastosowań. Podjęto różne próby modelowania złożonej dynamiki w mózgach owadów i sugeruje się, że proste systemy CRNN (ciągła i rekurencyjna sieć neuronowa) mogą być alternatywnym frameworkiem do implementacji konkurencyjnych procesów między neuronami, które generują wzorce czasoprzestrzenne w celu kodyfikacji pamięci w podobny sposób, w jaki robią to najprostsze żywe systemy. Rekurencyjne sieci neuronowe konkurujących neuronów (inspirowane sposobem działania wyższych ośrodków mózgowych u owadów) pozwoliłyby zbadać, w jaki sposób buduje się pamięć sekwencyjną i mogłyby sugerować architektury sterowania inspirowanymi owadami systemami robotycznymi.

Systemy konkurencji bez zwycięzców generują adaptacyjne zachowanie

Niektóre cechy systemów konkurencji bez zwycięzców wydają się bardzo obiecujące w kontekście wykorzystania tych systemów do modelowania aktywności i projektowania inteligentnych artefaktów. Skupia się na niektórych wynikach wcześniejszych badań teoretycznych niektórych autorów nad systemami n elementów skoordynowanych z relacjami pobudzenie-hamowanie. Systemy te wykazują:

o Duża pojemność: heterokliniczna (czasoprzestrzenna) reprezentacja zapewnia znacznie zwiększoną pojemność systemu. Ponieważ sekwencje aktywności są kombinatoryczne w różnych elementach i czasie, nakładanie się między reprezentacjami może zostać zmniejszone, a odległość w przestrzeni fazowej między orbitami może zostać zwiększona.
o Wrażliwość (na podobny bodziec) i jednocześnie pojemność kategoryzacji: Dzieje się tak, ponieważ heterokliniczne łączenie określonego zestawu punktów siodłowych jest zawsze unikalne. Dwa podobne bodźce, aktywujące w znacznym stopniu nakładające się podzbiory sieci, mogą zostać łatwo rozdzielone, ponieważ niewielkie początkowe różnice zostaną wzmocnione w czasie.
o Odporność: W następującym sensie atraktor zaburzonego układu pozostaje w małym sąsiedztwie "niezaburzonego" atraktora (odporność jako topologiczne podobieństwo zaburzonego wzoru).

Wszystkie te ważne cechy wyłaniają się z dynamiki układu Lotki-Volterry. Istnieje więcej przykładów: u Nepomnyashchikha opisano prosty chaotyczny system sprzężonych oscylatorów, który wykazuje złożone i owocne zachowanie adaptacyjne; interakcja między aktywnością elementów w modelu a zewnętrznymi danymi wejściowymi powoduje pojawianie się reguł wyszukiwania z podstawowych właściwości systemów nieliniowych (reguł, które nie zostały wstępnie zaprogramowane, jawnie) i z oczywistą wartością adaptacyjną. Bardziej szczegółowo: reguły adaptacyjne są autonomiczne (system wybiera odpowiednią regułę bez instrukcji z zewnątrz) i są wynikiem interakcji między wewnętrzną dynamiką systemu a dynamiką otoczenia. Reguły te pojawiają się w sposób spontaniczny z powodu nieliniowości w prostym systemie.

Konkurencja bez zwycięzców dla informatyki i zainteresowań w robotyce

Propozycja wykorzystania trajektorii heteroklinicznych do celów obliczeniowych pokazuje zalety dla zainteresowań robotyki. Wiadomo, że bardzo proste układy dynamiczne są równoważne maszynom Turinga, a także, że obliczenia z orbitami heteroklinicznymi dodają do klasycznego obliczania cechę wysokiej wrażliwości na warunki początkowe, zwiększając. Jeśli weźmiemy pod uwagę artefakty z procesami obliczeniowymi uporządkowanymi według zachowań konkurencji bez zwycięzców, artefakty te będą miały dużą zdolność do przetwarzania, zarządzania i przechowywania sekwencyjnych informacji. Pomimo historii badań nad sekwencyjnym uczeniem się i pamięcią, niewiele wiadomo o dynamicznych zasadach przechowywania i zapamiętywania wielu zdarzeń i ich kolejności czasowej przez sieci neuronowe. Ta zasada zwana konkurencją bez zwycięzców może być bardzo przydatnym mechanizmem do eksploracji i modelowania sekwencyjnych i zaplanowanych procesów w problemach przemysłowych i robotyki.

TRENDY PRZYSZŁOŚCI

Obliczenia z orbitami heteroklinicznymi zapewniają nowe perspektywy tradycyjnym obliczeniom. Ze względu na swoje cechy, mogłoby być interesujące zbudowanie takiego rodzaju systemów inspirowanych biologią opartych na procesach konkurencji bez zwycięzców. Ewolucja wybrała nieliniowe zjawiska dynamiczne jako podstawę adaptacyjnych wzorców zachowań organizmów żywych, a te systemy wykazują z jednej strony współistnienie wrażliwości (zdolność do rozróżniania odrębnych, choć podobnych, danych wejściowych) i odporności (zdolność do klasyfikowania podobnych sygnałów odbiorczych jako takich samych). Jeśli będziemy w stanie odtworzyć te same cechy w sztucznych inteligentnych architekturach, łatwiej będzie wyjść poza rzeczywiste ograniczenia i wprowadzić inteligentne systemy do rzeczywistych problemów.

WNIOSEK

Podsumowano, w jaki sposób architektura systemu, której zależna od bodźców dynamika odtwarza cechy czasoprzestrzenne, mogłaby kodować i budować pamięć inspirowaną w wyższych ośrodkach mózgu owadów. Oprócz obserwacji biologicznych, które sugerowały te badania, rekurencyjne sieci neuronowe, w których mogą pojawiać się procesy konkurencji bez zwycięzców, stanowią atrakcyjny model do obliczeń ze względu na ich dużą pojemność, a także odporność na zanieczyszczenie szumem. Pokazano interesujące narzędzie (wykorzystujące kontrolę i synchronizację wzorców czasoprzestrzennych) do przesyłania i przetwarzania informacji między różnymi zespołami neuronowymi w przypadku problemów klasyfikacji w, ostatecznie, kilku środowiskach przemysłowych. Na przykład, procesy konkurencji bez zwycięzcy mogą być w stanie rozwiązać fundamentalną sprzeczność między wrażliwością i uogólnieniem rozpoznawania, wielostabilnością i odpornością na szum w rzeczywistych procesach. W przypadku zadań klasyfikacyjnych przydatne jest uzyskanie modeli, które mogłyby być odtwarzalne. W języku nieliniowości jest to możliwe tylko wtedy, gdy system jest silnie rozpraszający (innymi słowy, jeśli może szybko zapomnieć o swoim stanie początkowym). Z drugiej strony, użyteczny system klasyfikatora powinien być wrażliwy na niewielkie zmiany w danych wejściowych, tak aby możliwe było dokładne rozróżnianie między podobnymi, ale nie identycznymi bodźcami. Zasada konkurencji bez zwycięzcy wykazuje obie cechy.



Powrót


[ 261 ]