Normalizacja wsadowa jest powszechnie stosowaną techniką, która poprawia szybkość zbieżności .Normalizacja wsadowa jest powszechnie stosowaną techniką, która poprawia szybkość zbieżności SGD normalizacji wsadowej poprzez przeskalowanie wartości wygenerowanych w wewnętrznych warstwach sieci z przykładów w ramach każdej minipartii . Chociaż powody jego skuteczności nie są dobrze poznane w chwili pisania tego tekstu, uwzględniamy go, ponieważ przynosi znaczne korzyści w praktyce. Wydaje się, że do pewnego stopnia normalizacja wsadowa ma skutki podobne do skutków sieci resztkowej. Rozważ węzeł z gdzieś w sieci: wartości z dla m przykładów w minipartii to z1,…,zm. Normalizacja wsadowa zastępuje każde zi nową ilością
gdzie to średnia wartość z w minipartii, to odchylenie standardowe z1,…, zm to mała stała dodana, aby zapobiec dzieleniu przez zero i są parametrami wyuczonymi. Normalizacja wsadowa standaryzuje średnią i wariancję wartości określonych przez wartości i . To znacznie ułatwia trenowanie głębokiej sieci. Bez normalizacji wsadowej informacje mogą zostać utracone, jeśli wagi warstwy są zbyt małe, a odchylenie standardowe w tej warstwie spada do zera. Normalizacja partii zapobiega temu. Zmniejsza również potrzebę ostrożnej inicjalizacji wszystkich wag w sieci, aby upewnić się, że węzły w każdej warstwie znajdują się we właściwym regionie operacyjnym, aby umożliwić propagację informacji. W przypadku normalizacji wsadowej zwykle uwzględniamy i , które mogą być specyficzne dla węzła lub warstwy, wśród parametrów sieci, tak aby zostały uwzględnione w procesie uczenia . Po szkoleniu i są ustalane na wyuczonych wartościach.