W równaniach powyżej widzieliśmy, że użycie notacji wektorowej i macierzowej może być pomocne w utrzymaniu prostych i eleganckich wyprowadzeń matematycznych oraz zapewnianiu zwięzłych opisów wykresów obliczeniowych. Wektory i macierze to jednowymiarowe i dwuwymiarowe szczególne przypadki tensorów, które (w terminologii uczenia głębokiego) są po prostu wielowymiarowymi tablicami o dowolnym wymiarze. W przypadku CNN tensory są sposobem na śledzenie „kształtu” danych w miarę ich przechodzenia przez warstwy sieci. Jest to ważne, ponieważ całe pojęcie splotu zależy od idei sąsiedztwa: zakłada się, że sąsiednie elementy danych są powiązane semantycznie, więc sensowne jest stosowanie operatorów do lokalnych obszarów danych. Co więcej, dzięki odpowiednim prymitywom językowym do konstruowania tensorów i stosowania operatorów, same warstwy można zwięźle opisać jako mapy od wejść tensorów do wyjść tensorów. Ostatnim powodem opisywania CNN w kategoriach operacji tensorowych jest wydajność obliczeniowa: biorąc pod uwagę opis sieci jako sekwencji operacji tensorowych, pakiet oprogramowania do głębokiego uczenia może wygenerować skompilowany kod, który jest wysoce zoptymalizowany pod kątem bazowego podłoża obliczeniowego. Obciążenia uczenia głębokiego są często uruchamiane na procesorach graficznych (jednostkach przetwarzania grafiki) lub TPU (jednostkach przetwarzania tensorów), które zapewniają wysoki stopień równoległości. Na przykład jeden z kapsuł TPU trzeciej generacji firmy Google ma przepustowość odpowiadającą około dziesięciu milionom laptopów. Korzystanie z tych możliwości jest niezbędne, jeśli trenuje się dużą sieć CNN na dużej bazie danych obrazów. Tak więc powszechne jest przetwarzanie nie jednego obrazu na raz, ale wielu obrazów równolegle; jest to również zgodne ze sposobem, w jaki algorytm stochastycznego spadku gradientu oblicza gradienty w odniesieniu do minipartii przykładów uczących. Zbierzmy to wszystko razem w formie przykładu. Załóżmy, że ćwiczymy na 256 256 obrazach RGB z rozmiarem minipartii 64. W tym przypadku dane wejściowe to cztery. tensor wymiarowy o wielkości 256 256 3 64. Następnie nakładamy 96 jąder o rozmiarze 5 5 3 z krokiem 2 w obu kierunkach x i y na obrazie. Daje to tensor wyjściowy o rozmiarze 128 128 96 64. Taki tensor jest często nazywany mapą cech, ponieważ pokazuje, jak każda cecha wyodrębniona przez jądro pojawia się na całym obrazie; w tym przypadku składa się z 96 kanałów, gdzie każdy kanał przenosi informacje z jednej funkcji. Zauważ, że w przeciwieństwie do tensora wejściowego, ta mapa cech nie ma już dedykowanych kanałów kolorów; niemniej jednak informacja o kolorze może nadal być obecna w różnych kanałach funkcji, jeśli algorytm uczenia uzna kolor za przydatny do ostatecznych przewidywań sieci.