Do tej pory opisaliśmy, jak dopasować sieć neuronową do jej zestawu treningowego, ale w uczeniu maszynowym celem jest uogólnienie na nowe dane, których wcześniej nie widziano, mierzonych wydajnością na zestawie testowym. W tej sekcji skupimy się na trzech podejściach do poprawy wydajności uogólniania: wyborze odpowiedniej architektury sieci, karaniu dużych wag i losowym zakłócaniu wartości przechodzących przez sieć podczas uczenia.