W tym eksperymencie klasyfikator RF jest optymalizowany za pomocą dwóch parametrów: (i) liczby losowych drzew do zbudowania RF oraz (ii) liczby optymalnych zestawów danych funkcji do RF. RF charakteryzuje się zasadami pakowania i losowego wyboru najlepszej cechy. Jest to jeden z najbardziej dominujących klasyfikatorów zespołowych do klasyfikacji obrazów RS. RF jest zbudowany ze zbioru klasyfikatorów o strukturze drzewa {h(x, Θr), r = 1…R}, gdzie Θr są identycznie rozłożonymi niezależnymi klasyfikatorami drzewa losowego, a każdy klasyfikator drzewa oddaje głos jednostkowy za ostateczną klasyfikację danych wejściowych x. Tutaj rozmiar jądra RF, który reprezentuje liczbę Θr, jest reprezentowany przez R. Algorytm klasyfikacji RF można zilustrować w następujący sposób:
ALGORYTM DLA RF
- Dla r = 1 do R;
- a) Narysuj próbkę treningową przez bootstrap Z* o rozmiarze N z TS
- b) Rozwijaj h(x, Θr) do próbek bootstrapowych, powtarzając kolejne kroki dla każdego węzła Θr aż do osiągnięcia minimalnego rozmiaru węzła
- Wybierz losowo m funkcji z funkcji S (m ≪ S)
- Wybierz najlepszą cechę spośród m
iii. Podziel węzeł
2. Wyprowadź zespół drzew
3. Dokonać prognozy klasyfikacyjnej w nowym punkcie x; jeśli jest predykcją klasy r-tego drzewa
= głosowanie większością
Po skonstruowaniu zespołu h(x, Θr) o rozmiarze R, głosowanie większościowe dla przewidywania klasy
rthRF może być wykonane poprzez agregację końcowej klasy każdego drzewa i odpowiadających jej głosów ważonych. Każde drzewo jest uprawiane w jak największym stopniu bez żadnego przycinania. W każdym zestawie treningowym bootstrap około jednej trzeciej instancji szkoleniowych pozostaje do oszacowania błędu RF. Nazywa się to danymi out-of-bag i nie jest używane do budowy r-tego drzewa losowego. Nazywa się to również błędem worka w zestawie danych uczących, który przewiduje błąd testu podczas budowy RF bez użycia mechanizmu walidacji krzyżowej. Służy również do sprawdzania trafności funkcji w losowo wybranej funkcji. Następnie RF jest kalibrowany z odpowiednim rozmiarem zespołu (R) i liczbą cech (m) w celu optymalizacji modelu w celu uzyskania wyższej wydajności pod względem dokładności klasyfikacji i złożoności obliczeniowej. Kalibrację parametrów modelu RF przeprowadza się w sposób przedstawiony poniżej:
- RF został zainicjowany z R = 5 z przyrostem co 5, maksymalnie do 200 lub do osiągnięcia najwyższej wydajności.
- Wartość R została określona jako otrzymana z największą dokładnością wcześniejszej oceny.
iii. Podobnie jak we wcześniejszym teście, RF jest inicjowany z m = 1 i wykonywany z przyrostem od 1 do m = 147 dla TF i m = 9 dla TS.
- W każdym wykonaniu model RF może wybrać najlepsze cechy predykcyjne poprzez losowy wybór cech podczas każdego podziału węzła
- Wartość m jest ustawiana na te wartości, od których otrzymana dokładność była najwyższa.
- Ostatecznie R i 𝑚 są kalibrowane zoptymalizowanymi wartościami otrzymanymi z poprzednich eksperymentów, dla których uzyskano najwyższą dokładność klasyfikacji.