Łączenie klasyfikatorów i uczenie się w oparciu o model mieszany ekspertów



WSTĘP

Łączenie ekspertów to klasyczna strategia, szeroko stosowana w różnych zadaniach rozwiązywania problemów. Zespół osób o zróżnicowanych i uzupełniających się umiejętnościach wspólnie podejmuje się zadania, tak aby osiągnąć lepsze wyniki niż pojedyncza osoba poprzez integrację mocnych stron. Począwszy od końca lat 80-tych XX wieku w literaturze poświęconej rozpoznawaniu znaków pisanych ręcznie, prowadzone są badania nad łączeniem wielu klasyfikatorów. Również od początku lat 90. XX wieku w dziedzinie sieci neuronowych i uczenia maszynowego podejmowane są badania pod nazwą uczenia zespołowego lub modelu mieszanego ekspertów nad tym, jak wspólnie uczyć się modelu mieszanego ekspertów (modeli parametrycznych) oraz nad strategią łączenia, która pozwala na ich optymalną integrację. Celem artykułu jest ogólny zarys dwóch nurtów badań, nie tylko z ponownym opracowaniem podstawowych zadań, składników i typowych reguł łączenia, ale także z ogólnymi ramami kombinacji (w szczególności z jednym zwięzłym i bardziej użytecznym przypadkiem szczególnym modulowanym jednoparametrowo, zwanym α-integracją) zaproponowanymi w celu ujednolicenia szeregu typowych reguł kombinacji klasyfikatorów i kilku modeli uczenia opartych na mieszaninie, a także reguły maksymalnej i minimalnej stosowanej w literaturze dotyczącej systemów rozmytych.

KONTEKST

Oba nurty badawcze charakteryzują się dwoma okresami rozwoju. Pierwszy okres przypada mniej więcej na koniec lat 80. i początek lat 90. XX wieku. W literaturze poświęconej rozpoznawaniu pisma odręcznego opracowano różne klasyfikatory, wykorzystujące różne metodologie i cechy, co motywuje do badań nad łączeniem wielu klasyfikatorów w celu uzyskania lepszej wydajności. Systematyczne wysiłki na wczesnym etapie badań podjęto , próbując stworzyć ogólne ramy dla kombinacji klasyfikatorów. Zidentyfikowano nie tylko dwa podstawowe zadania i przedstawiono ramy dla trójpoziomowej kombinacji dla drugiego zadania, aby poradzić sobie z różnymi typami informacji wyjściowych klasyfikatora, ale także zbadano kilka reguł w odniesieniu do dwóch z trzech poziomów, zwłaszcza zaproponowaną regułę głosowania Bayesa, regułę iloczynu i regułę Dempstera-Shafera. Następnie, pozostała część (tj. poziom rangi) została wkrótce zbadana za pomocą liczenia Bordy. Co ciekawe i komplementarne, niemal w tym samym okresie pierwsze zadanie stało się przedmiotem badań w literaturze poświęconej uczeniu się sieci neuronowych. W obliczu problemów związanych z różnymi wyborami dla tego samego typu sieci neuronowej, wynikającymi ze zmiany jej skali (np. liczby ukrytych jednostek w sieci trójwarstwowej), różnymi lokalnymi optymalnymi wynikami dla tej samej sieci neuronowej wynikającymi z różnych inicjalizacji, przeprowadzono badania nad tym, jak trenować zespół zróżnicowanych i uzupełniających się sieci poprzez partycjonowanie walidacji krzyżowej, przycinanie redukcji korelacji, ponowne próbkowanie z kontrolą wydajności itd., tak aby powstała kombinacja dawała lepszą wydajność generalizacji . Oprócz klasyfikacji, ten strumień obsługuje również regresję funkcji poprzez całkowanie poszczególnych estymatorów za pomocą kombinacji liniowej . Co więcej, ten nurt badawczy przechodzi do wspólnego rozważenia wydajności dwóch zadań , korzystając z modeli mieszanych ekspertów (ME) , które mogą uczyć się jednego lub obu mechanizmów łączenia i poszczególnych ekspertów w ujęciu maksymalnego prawdopodobieństwa. Dwa badania nurtowe w pierwszym okresie wspólnie stworzyły krajobraz tego rozwijającego się obszaru badawczego, wraz z szeregiem typowych tematów lub kierunków. Następnie przeprowadzono dalsze badania w każdym z tych typowych kierunków. Najpierw przeprowadzono analizy teoretyczne w celu uzyskania dogłębnych spostrzeżeń i poprawy wydajności. Na przykład, przeprowadzono analizę konwergencji algorytmu EM dla uczenia się opartego na mieszance . W Tumer & Ghosh (1996) rozważane są błędy addytywne prawdopodobieństw a posteriori według klasyfikatorów lub ekspertów, a wariancje i korelacje tych błędów badane są w celu poprawy wydajności kombinacji opartej na sumie. U Kittlera (1998) dalej badany jest wpływ tych błędów na wrażliwość reguły sumy w porównaniu z regułą iloczynu, z wnioskiem, że sumowanie jest znacznie preferowane. Sugerowane są również ramy teoretyczne do traktowania kilku reguł łączących jako przypadków szczególnych (Kittler, 1998), nie zdając sobie sprawy, że te ramy są w rzeczywistości modelem mieszanki ekspertów, który został zaproponowany najpierw do łączenia regresji wielofunkcyjnych , a następnie do łączenia wielu klasyfikatorów . Ponadto przeprowadzono kolejne badanie teoretyczne dotyczące sześciu strategii łączenia klasyfikatorów . Po drugie, istnieją dalsze badania nad regułą Dempstera-Shafera i innymi metodami czesania, takimi jak metoda oparta na rangach, metoda oparta na wzmocnieniach, a także lokalne oszacowania dokładności . Po trzecie, istnieje wiele zastosowań. Ze względu na ograniczoną objętość, szczegółowe informacje znajdują się w publikacjach Ranawany i Palade (2006) oraz Sharkey i Sharkey (1999).

OGÓLNA ARCHITEKTURA, DWA ZADANIA I TRZY SKŁADNIKI

Rozważamy ogólną architekturę przedstawioną na rysunku.



Istnieje {ej(x)}kj=1 ekspertów, z których każdy ej(x) jest klasyfikatorem lub estymatorem. Klasyfikator generuje jeden z trzech typów informacji, dla których mamy trzy poziomy kombinacji. Pierwsze dwa można traktować jako przypadki szczególne trzeciego, który generuje wektor pomiarów. Typowym przykładem jest , gdzie każdy wyraża prawdopodobieństwo a posteriori, że x jest sklasyfikowany do ?l-tej klasy. Ponadto pj(l| x) = pj (y=l|x) ? można rozszerzyć do p j(y|x) , co opisuje rozkład dla regresji x ? y ∈ Rm . Na rysunku przedstawiono również sieć bramkową generującą sygnały {α j(x)}kj=1 modulujące ekspertów za pomocą mechanizmu łączącego M(x). Na podstawie tej architektury można nadal cytować dwa istotne zadania kombinacji eksperckiej z niewielką modyfikacją w Zadaniu 1, że frazę "dla konkretnego zastosowania?" należy usunąć ze względu na wcześniej wprowadzone badania . Wnioski można uzyskać, biorąc pod uwagę trzy podstawowe składniki dwóch strumieni badań, jak pokazano na rysunku

. Kombinatoryczne wybory różnych składników prowadzą do różnych konkretnych modeli kombinacji eksperckiej, a różnice w rolach każdego składnika podkreślają różne skupienia dwóch strumieni. W nurcie sieci neuronowych i uczenia maszynowego, wyposażonym w strukturę dla każdego ej(x), strukturę bramkowania i strukturę łączącą M(x), wszystkie pozostałe niewiadome są określane zgodnie z teorią uczenia się w celu minimalizacji kosztu błędu. Taka minimalizacja jest realizowana za pomocą procedury optymalizującej przez algorytm uczenia się, oparty na zbiorze treningowym {xt, ytt }Nt=1 , który uczy celu yt dla każdego odwzorowania xt ? Rm . Natomiast w nurcie klasyfikatorów łączących, wszystkie {pj(y|x)kj=1 są znane bez niewiadomych do określenia. Ponadto M jest projektowane zgodnie z pewnymi heurystykami lub zasadami, z pomocą lub bez pomocy zbioru treningowego, a badania koncentrują się głównie na opracowaniu i analizie różnych mechanizmów łączących, które omówimy szerzej później. Ostateczna wydajność łączenia jest oceniana empirycznie na podstawie wskaźnika błędnej klasyfikacji, ale nie podjęto jeszcze wysiłków w celu opracowania teorii dla jednego M, która minimalizowałaby wskaźnik błędnej klasyfikacji lub funkcję kosztu, chociaż istnieją pewne badania nad tym, jak można poprawić szacowane prawdopodobieństwa a posteriori za pomocą reguły sumy oraz nad wrażliwością szacowanych prawdopodobieństw a posteriori na błędy. Ten niedostatecznie zbadany kierunek motywuje również do dalszych badań.

f-KOMBINACJA

Średnia arytmetyczna, geometryczna i harmoniczna nieujemnej liczby bj t 0, j = 1 …k,?, została dodatkowo rozszerzona o następującą postać:



gdzie f(r) jest monotoniczną funkcją skalarną, a



Możemy dalej uogólnić tę średnią f do ogólnej architektury pokazanej na rysunku 1, co daje następującą kombinację f:



gdzie



W dalszej części omówimy wykorzystanie go jako ogólnej struktury do ujednolicenia nie tylko typowych reguł łączenia klasyfikatorów, ale także uczenia się w trybie mieszanym z udziałem ekspertów i uczenia sieciowego RBF.



Obserwujemy trzy kolumny dla trzech szczególnych przypadków f(r). Pierwsza kolumna to przypadek f(r) = r, wracamy więc do modelu ME:



który został zaproponowany najpierw do łączenia regresji wielokrotnych , a następnie do łączenia klasyfikatorów . Dla różnych szczególnych przypadków aj(x) prowadzi nas do szeregu istniejących typowych przykładów. Jak już wskazano, pierwsze trzy wiersze to cztery typowe reguły łączenia klasyfikatorów (drugi wiersz odnosi się bezpośrednio również do reguły min). Kolejne trzy wiersze to trzy typy modeli uczenia się ME. Ostatni wiersz jest nowszym rozwinięciem trzeciego wiersza. Drugi wiersz drugiej kolumny to średnia geometryczna:



która jest równa regule iloczynu , jeśli każda a priori jest równa, tj. aj(x) = 1/m. Ogólnie rzecz biorąc, jeśli aj(x) ≠ 1/m, istnieje różnica o współczynnik skalowania ≠aj(x)1/k-1. Reguła iloczynu działa w sensie teorii prawdopodobieństwa pod warunkiem, że klasyfikatory są wzajemnie niezależne. U Kittlera, próbując omówić szereg reguł w ramach zunifikowanego systemu, reguła sumy jest w przybliżeniu wyprowadzona z reguły iloczynu, pod dodatkowym warunkiem, który jest zwykle trudny do spełnienia. W rzeczywistości takie narzucone powiązanie między regułą iloczynu a regułą sumy jest niepotrzebne, suma:



jest tylko marginalnym prawdopodobieństwem



co jest już w ramach teorii prawdopodobieństwa. Oznacza to, że zarówno reguła sumy, jak i reguła iloczynu współistnieją w ramach teorii prawdopodobieństwa. Z drugiej strony, można zauważyć, że suma:



jest zdominowany przez pj(y | x)j, jeśli jest bliski 0. Oznacza to, że ta kombinacja zakłada, że każdy ekspert odda wystarczającą liczbę głosów, w przeciwnym razie łączna liczba głosów będzie nadal bardzo niska, tylko dlatego, że tylko jeden ekspert oddał bardzo niski głos. Innymi słowy, tę kombinację można uznać za zrelaksowany logiczny AND, który wykracza poza ramy teorii prawdopodobieństwa, gdy aj(x) ≠ 1/m. Jednak pozostawanie w ramach teorii prawdopodobieństwa nie oznacza, że jest lepsze, nie tylko dlatego, że wymaga wzajemnej niezależności klasyfikatorów, ale także dlatego, że brakuje analizy teoretycznej obu reguł w sensie błędów klasyfikacji, co wymaga dalszych badań. Można zauważyć, że problem łączenia stopni poparcia zmienia się w problem łączenia stopni niezgody. Jest to interesujące. Niestety, tego rodzaju wysiłki są jak dotąd rzadko spotykane. Wyjątkowo istnieją również przykłady, których nie można uwzględnić w kombinacji f, takie jak reguła Dempstera-Shafera i reguła oparta na rangach. a-CAŁKOWANIE Po ukończeniu powyższej kombinacji f, pierwszy autor zapoznał się z pracą (Hardy, Littlewood i Polya, 1952) dzięki kolejnej publikacji (Amari, 2007), która bada znacznie bardziej zwięzły i użyteczny, jednoparametrowy przypadek modulowany, zwany a-całkowaniem. Z pomocą konkretnych podstaw matematycznych z perspektywy geometrii informacji. Narzucając dodatkowy, ale rozsądny warunek, że średnia f powinna być liniowa i bezskalowa, tj.:



dla dowolnej skali c, alternatywne wybory f(r) sprowadzają się do jednego:



Nie jest trudno to sprawdzić



PRZYSZŁE TRENDY

Oczekuje się dalszych badań w kilku następujących kierunkach:

•  Potrzebne są empiryczne i analityczne porównania wydajności dla tych nieeksplorowanych lub mniej zbadanych elementów
•  Czy istnieje najlepsza struktura dla aj(x)? Należy przeprowadzić porównania różnych typów aj(x), zwłaszcza tych według typu MUV w ostatnim wierszu i typów ME od 4. do 7. wiersza.
•  Czy konieczne jest złagodzenie ograniczenia:



np. usunięcie wymogu nieujemności i złagodzenie rozkładu p j(y | x) j dla innych typów funkcji?
o Jak można nauczyć się wag aj(x) w ramach ograniczenia błędu generalizacji.
o Jak omówiono , uczenie oparte na kombinacji klasyfikatorów i uczenie oparte na mieszaninie to dwa aspekty o różnych cechach. Jak pozwolić każdej części odgrywać najlepszą rolę w zintegrowanym systemie?

WNIOSKI

Aktualizując cel , artykuł przedstawia nie tylko ogólny zarys badań nad łączeniem klasyfikatorów i modeli uczenia się opartych na mieszaninach, ale także ogólne ramy łączenia w celu ujednolicenia szeregu reguł łączenia klasyfikatorów i modeli uczenia się opartych na mieszaninach, a także szereg wskazówek dotyczących dalszych badań.



Powrót


[ 227 ]