AI : Technologie, Aplikacje i Wyzwania : Wybór optymalnych funkcji

Próbki pokrycia terenu oparte na faktach gruntowych charakteryzują się zestawem atrybutów lub cech, za pomocą których można zidentyfikować i oddzielić wzór klas pokrycia terenu. Dobór cech do jednoznacznej identyfikacji klas pokrycia terenu w przestrzeni cech jest kluczowy nie tylko dla poprawy dokładności klasyfikacji; wybór odpowiedniej cechy może zminimalizować złożoność obliczeniową. Cechy w danych RS są głównie związane z właściwościami przestrzenno-spektralnymi. Opakowania i filtry są szeroko stosowane jako techniki wyboru funkcji w większości aplikacji ML. Częściej stosowane są techniki wyboru cech oparte na filtrach, ponieważ są wydajne obliczeniowo i mogą obsługiwać duże zbiory danych cech. Do badania przyjęliśmy technikę selekcji cech opartą na korelacji (CFS), która została skutecznie wykorzystana w aplikacjach RS w celu zwiększenia wydajności technik ML. CFS generuje podzbiory cech, niezależnie od modelu klasyfikacji i charakteryzuje się wydajną złożonością obliczeniową. Zasadą CFS jest filtr, w którym istotność optymalnego zestawu cech jest identyfikowana poprzez obserwację odpowiedniej miary korelacji. Niech F będzie zbiorem cech oryginalnych danych treningowych przed zastosowaniem CFS. Cecha fr ∈ F jest traktowana jako istotna, jeśli istnieje jakaś cecha fi ∈ F do orzekania klasy będącej przedmiotem zainteresowania c, dla której p(fr = fi) > 0 takie, że

gdzie c jest współczynnikiem korelacji Pearsona dla każdego obliczenia wzajemnej korelacji cecha-cecha i cecha-klasa (C). Podzbiór cech, który zawiera cechy z cechami nieskorelowanymi z cechami cech, ale jest silnie skorelowany z cechą do zdolności predykcyjnych klasy, nazywany jest optymalnym podzbiorem cech. Jeżeli zdefiniowana jest średnia korelacja między cechami a klasą  i podana jest średnia interkorelacja między każdą parą cech  to Merits” podzbioru S ∈ F z cechami i można obliczyć jako :

Istotność cechy lub podzbioru cech będzie oparta na stopniu, w jakim identyfikuje klasy w przestrzeni instancji cech, które nie zostały jeszcze zidentyfikowane przez inne cechy; to jest reprezentowane przez Merits Algorytm CFS oblicza i dla każdego S ∈ F i wyszukuje następny podzbiór funkcji w kierunku do przodu przy użyciu najlepszego pierwszego algorytmu wyszukiwania, wprowadzając lokalne zmiany w bieżącej funkcji. Wyszukiwanie do przodu zatrzymuje się po pięciu kolejnych w pełni rozwiniętych węzłach, które nie wykazują wzrostu Merits. Podzbiór cech o najwyższej Meritum traktowany jest jako optymalny podzbiór cech i służy do definiowania każdej z klas pokrycia terenu. Następnie uczący zestaw danych zdefiniowany przez optymalny zestaw cech jest oceniany przy użyciu algorytmu klasyfikacji C4.5 przed uczeniem proponowanego klasyfikatora opartego na ML. Uczący zbiór danych z oryginalnym zestawem cech i uczący zbiór danych z optymalnym podzbiorem cech są reprezentowane odpowiednio jako TF i TS. Dla zbioru danych ROSIS-3, wszystkie cechy F=147 zostały ocenione w celu uzyskania optymalnego podzbioru zbioru cech zdefiniowanego przez S=9. Szczegółowa obserwacja eksperymentalna dotycząca wyboru cech jest zilustrowana w sekcji „Wyniki i dyskusja”. Klasyfikator RF zostanie przeszkolony z użyciem zestawów danych TF i TS, aby ocenić, czy klasyfikator RF wytrenowany z optymalnym podzbiorem funkcji poprawił ogólną wydajność klasyfikatora RF.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *