Najpopularniejszą metodą zespołową jest boosting. Aby zrozumieć, jak to działa, musimy najpierw wprowadzić ideę ważonego zestawu treningowego, w którym każdy przykład ma powiązaną wagę wj ≥ 0, która opisuje, ile przykład powinien liczyć podczas treningu. Na przykład, jeśli jeden przykład miał wagę 3, a wszystkie inne przykłady miały wagę 1, byłoby to równoważne posiadaniu 3 kopii jednego przykładu w zestawie uczącym. Wzmacnianie zaczyna się od równych wag wj=1 dla wszystkich przykładów. Z tego zbioru treningowego generuje pierwszą hipotezę, h1. Ogólnie h1 zaklasyfikuje niektóre przykłady treningowe poprawnie, a niektóre niepoprawnie. Chcielibyśmy, aby następna hipoteza działała lepiej na błędnie sklasyfikowanych przykładach, więc zwiększamy ich wagi, jednocześnie zmniejszając wagi poprawnie sklasyfikowanych przykładów. Z tego nowego ważonego zestawu treningowego generujemy hipotezę h2. Proces trwa w ten sposób do momentu wygenerowania K hipotez, gdzie K jest danymi wejściowymi do algorytmu wzmacniającego. Przykłady, które są trudne do sklasyfikowania, będą miały coraz większe wagi, dopóki algorytm nie zostanie zmuszony do stworzenia hipotezy, która klasyfikuje je poprawnie. Zauważ, że jest to algorytm zachłanny w tym sensie, że się nie cofa; raz wybrał hipotezę, nigdy nie cofnie tego wyboru; raczej doda nowe hipotezy. Jest to również algorytm sekwencyjny, więc nie możemy obliczyć wszystkich hipotez równolegle, jak w przypadku workowania. Ostateczny zespół pozwala na głosowanie każdej hipotezy, tak jak w przypadku zbierania głosów, z tą różnicą, że każda hipoteza otrzymuje ważoną liczbę głosów – hipotezy, które wypadły lepiej w swoich ważonych zestawach treningowych, otrzymują większą wagę głosów. Dla regresji lub klasyfikacji binarnej mamy

gdzie zi jest wagą i-tej hipotezy. (To ważenie hipotez różni się od ważenia przykładów). Rysunek pokazuje, jak algorytm działa koncepcyjnie.

Istnieje wiele wariantów podstawowego pomysłu na wzmocnienie, z różnymi sposobami dostosowania przykładowych wag i łączenia hipotez. Wszystkie warianty podzielają ogólną ideę, że trudne przykłady nabierają większej wagi, gdy przechodzimy od jednej hipotezy do następnej. Podobnie jak bayesowskie metody uczenia, przypisują one również większą wagę dokładniejszym hipotezom. Jeden konkretny algorytm, zwany ADABOOST, pokazano.

Jest zwykle stosowany z drzewami decyzyjnymi jako hipotezy składowe; często drzewa mają ograniczony rozmiar. ADABOOST ma bardzo ważną właściwość: jeśli wejściowy algorytm uczący L jest słabym algorytmem uczącym — co oznacza, że L zawsze zwraca hipotezę z dokładnością w zbiorze uczącym, która jest nieco lepsza niż zgadywanie losowe (czyli 50%+ε dla wartości logicznych klasyfikacja)- wtedy ADABOOST zwróci hipotezę, która doskonale klasyfikuje dane treningowe dla dużych wystarczy K. W ten sposób algorytm zwiększa dokładność oryginalnego algorytmu uczenia na danych uczących. Innymi słowy, wzmacnianie może przezwyciężyć wszelkie odchylenia w modelu podstawowym, o ile model podstawowy ε jest lepszy niż zgadywanie losowe. (W naszym pseudokodzie przestajemy generować hipotezy, jeśli otrzymamy taką, która jest gorsza niż losowa.) Ten wynik obowiązuje bez względu na to, jak niewyrażalna jest oryginalna przestrzeń hipotez i jak złożona jest funkcja nauczycieli. Dokładne wzory wag (z error/(1-error, itp.) są wybrane, aby ułatwić udowodnienie tej własności . Oczywiście ta własność nie gwarantuje dokładności wcześniejszych niewidzialne przykłady. Zobaczmy, jak dobrze zwiększanie wpływa na dane restauracji. Jako przestrzeń pierwotną hipotezy wybierzemy klasę pniaków decyzyjnych, które są drzewami decyzyjnymi z tylko jednym testem, u podstawy. Dolna krzywa na rysunku (a) pokazuje, że niewzmocnione kikuty decyzyjne nie są zbyt skuteczne dla tego zestawu danych, osiągając wydajność przewidywania tylko 81% na 100 przykładach treningowych. Po zastosowaniu wzmocnienia (przy K=5) wydajność jest lepsza, osiągając 93% po 100 przykładach .

Ciekawa rzecz dzieje się wraz ze wzrostem rozmiaru zespołu K. Rysunek (b) przedstawia wydajność zbioru uczącego (na 100 przykładach) jako funkcję K. Zauważ, że błąd osiąga zero, gdy K wynosi 20; to znaczy kombinacja ważona większością 20 pniaków decyzyjnych wystarcza, aby dokładnie dopasować 100 przykładów – to jest punkt interpolacji. W miarę dodawania kolejnych kikutów do zespołu, błąd pozostaje na poziomie zerowym. Wykres pokazuje również, że wydajność zestawu testowego nadal rośnie długo po tym, jak błąd zestawu uczącego osiągnął zero. Przy K = 20 wydajność testu wynosi 0,95 (lub błąd 0,05), a wydajność wzrasta do 0,98 dopiero przy K = 137, po czym stopniowo spada do 0,95. To odkrycie, które jest dość solidne w różnych zestawach danych i przestrzeniach hipotez, było zaskoczeniem, gdy po raz pierwszy zostało zauważone. Brzytwa Ockhama mówi nam, aby nie czynić hipotez bardziej złożonymi niż to konieczne, ale wykres mówi nam, że przewidywania poprawiają się, gdy hipoteza zespołowa staje się bardziej złożona! Proponowano w tym celu różne wyjaśnienia. Jednym z poglądów jest to, że wzmacnianie przybliża uczenie bayesowskie, które można wykazać, że jest optymalnym algorytmem uczenia się, a przybliżenie poprawia się wraz z dodawaniem większej liczby hipotez. Innym możliwym wyjaśnieniem jest to, że dodanie kolejnych hipotez pozwala zespołowi na większą pewność rozróżnienia między pozytywnymi i negatywnymi przykładami, co pomaga mu w klasyfikowaniu nowych przykładów