AI : Technologie, Aplikacje i Wyzwania : Kalibracja i optymalizacja parametrów modelu klasyfikatora RF

W tym eksperymencie klasyfikator RF jest optymalizowany za pomocą dwóch parametrów: (i) liczby losowych drzew do zbudowania RF oraz (ii) liczby optymalnych zestawów danych funkcji do RF. RF charakteryzuje się zasadami pakowania i losowego wyboru najlepszej cechy. Jest to jeden z najbardziej dominujących klasyfikatorów zespołowych do klasyfikacji obrazów RS. RF jest zbudowany ze zbioru klasyfikatorów o strukturze drzewa {h(x, Θr), r = 1…R}, gdzie Θ_r są identycznie rozłożonymi niezależnymi klasyfikatorami drzewa losowego, a każdy klasyfikator drzewa oddaje głos jednostkowy za ostateczną klasyfikację danych wejściowych x. Tutaj rozmiar jądra RF, który reprezentuje liczbę Θr, jest reprezentowany przez R. Algorytm klasyfikacji RF można zilustrować w następujący sposób:

ALGORYTM DLA RF

Dla r = 1 do R;
a) Narysuj próbkę treningową przez bootstrap Z* o rozmiarze N z T_S
b) Rozwijaj h(x, Θ_r) do próbek bootstrapowych, powtarzając kolejne kroki dla każdego węzła Θ_r aż do osiągnięcia minimalnego rozmiaru węzła
Wybierz losowo m funkcji z funkcji S (m ≪ S)
Wybierz najlepszą cechę spośród m

iii. Podziel węzeł

2. Wyprowadź zespół drzew

3. Dokonać prognozy klasyfikacyjnej w nowym punkcie x; jeśli jest predykcją klasy r-tego drzewa = głosowanie większością

Po skonstruowaniu zespołu h(x, Θ_r) o rozmiarze R, głosowanie większościowe dla przewidywania klasy

r_thRF może być wykonane poprzez agregację końcowej klasy każdego drzewa i odpowiadających jej głosów ważonych. Każde drzewo jest uprawiane w jak największym stopniu bez żadnego przycinania. W każdym zestawie treningowym bootstrap około jednej trzeciej instancji szkoleniowych pozostaje do oszacowania błędu RF. Nazywa się to danymi out-of-bag i nie jest używane do budowy r-tego drzewa losowego. Nazywa się to również błędem worka w zestawie danych uczących, który przewiduje błąd testu podczas budowy RF bez użycia mechanizmu walidacji krzyżowej. Służy również do sprawdzania trafności funkcji w losowo wybranej funkcji. Następnie RF jest kalibrowany z odpowiednim rozmiarem zespołu (R) i liczbą cech (m) w celu optymalizacji modelu w celu uzyskania wyższej wydajności pod względem dokładności klasyfikacji i złożoności obliczeniowej. Kalibrację parametrów modelu RF przeprowadza się w sposób przedstawiony poniżej:

RF został zainicjowany z R = 5 z przyrostem co 5, maksymalnie do 200 lub do osiągnięcia najwyższej wydajności.
Wartość R została określona jako otrzymana z największą dokładnością wcześniejszej oceny.

iii. Podobnie jak we wcześniejszym teście, RF jest inicjowany z m = 1 i wykonywany z przyrostem od 1 do m = 147 dla T_F i m = 9 dla T_S.

W każdym wykonaniu model RF może wybrać najlepsze cechy predykcyjne poprzez losowy wybór cech podczas każdego podziału węzła
Wartość m jest ustawiana na te wartości, od których otrzymana dokładność była najwyższa.
Ostatecznie R i 𝑚 są kalibrowane zoptymalizowanymi wartościami otrzymanymi z poprzednich eksperymentów, dla których uzyskano najwyższą dokładność klasyfikacji.

Post Views: 92

Dodaj komentarz Anuluj pisanie odpowiedzi