AI : Technologie, Aplikacje i Wyzwania : Kalibracja i optymalizacja parametrów modelu klasyfikatora RF

W tym eksperymencie klasyfikator RF jest optymalizowany za pomocą dwóch parametrów: (i) liczby losowych drzew do zbudowania RF oraz (ii) liczby optymalnych zestawów danych funkcji do RF. RF charakteryzuje się zasadami pakowania i losowego wyboru najlepszej cechy. Jest to jeden z najbardziej dominujących klasyfikatorów zespołowych do klasyfikacji obrazów RS. RF jest zbudowany ze zbioru klasyfikatorów o strukturze drzewa {h(x, Θr), r = 1…R}, gdzie Θr  są identycznie rozłożonymi niezależnymi klasyfikatorami drzewa losowego, a każdy klasyfikator drzewa oddaje głos jednostkowy za ostateczną klasyfikację danych wejściowych x. Tutaj rozmiar jądra RF, który reprezentuje liczbę Θr, jest reprezentowany przez R. Algorytm klasyfikacji RF można zilustrować w następujący sposób:

ALGORYTM DLA RF

  1. Dla r = 1 do R;
  2. a) Narysuj próbkę treningową przez bootstrap Z* o rozmiarze N z TS
  3. b) Rozwijaj h(x, Θr) do próbek bootstrapowych, powtarzając kolejne kroki dla każdego węzła Θr aż do osiągnięcia minimalnego rozmiaru węzła
  4. Wybierz losowo m funkcji z funkcji S (m ≪ S)
  5. Wybierz najlepszą cechę spośród m

iii. Podziel węzeł

2. Wyprowadź zespół drzew

3. Dokonać prognozy klasyfikacyjnej w nowym punkcie x; jeśli jest predykcją klasy r-tego drzewa  = głosowanie większością 

Po skonstruowaniu zespołu h(x, Θr) o rozmiarze R, głosowanie większościowe dla przewidywania klasy

rthRF może być wykonane poprzez agregację końcowej klasy każdego drzewa i odpowiadających jej głosów ważonych. Każde drzewo jest uprawiane w jak największym stopniu bez żadnego przycinania. W każdym zestawie treningowym bootstrap około jednej trzeciej instancji szkoleniowych pozostaje do oszacowania błędu RF. Nazywa się to danymi out-of-bag i nie jest używane do budowy r-tego drzewa losowego. Nazywa się to również błędem worka w zestawie danych uczących, który przewiduje błąd testu podczas budowy RF bez użycia mechanizmu walidacji krzyżowej. Służy również do sprawdzania trafności funkcji w losowo wybranej funkcji. Następnie RF jest kalibrowany z odpowiednim rozmiarem zespołu (R) i liczbą cech (m) w celu optymalizacji modelu w celu uzyskania wyższej wydajności pod względem dokładności klasyfikacji i złożoności obliczeniowej. Kalibrację parametrów modelu RF przeprowadza się w sposób przedstawiony poniżej:

  1. RF został zainicjowany z R = 5 z przyrostem co 5, maksymalnie do 200 lub do osiągnięcia najwyższej wydajności.
  2. Wartość R została określona jako otrzymana z największą dokładnością wcześniejszej oceny.

iii. Podobnie jak we wcześniejszym teście, RF jest inicjowany z m = 1 i wykonywany z przyrostem od 1 do m = 147 dla TF i m = 9 dla TS.

  1. W każdym wykonaniu model RF może wybrać najlepsze cechy predykcyjne poprzez losowy wybór cech podczas każdego podziału węzła
  2. Wartość m jest ustawiana na te wartości, od których otrzymana dokładność była najwyższa.
  3. Ostatecznie R i 𝑚 są kalibrowane zoptymalizowanymi wartościami otrzymanymi z poprzednich eksperymentów, dla których uzyskano najwyższą dokładność klasyfikacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *