W uczeniu transferowym doświadczenie z jednym zadaniem edukacyjnym pomaga agentowi lepiej uczyć się w innym zadaniu. Na przykład osobie, która już nauczyła się grać w tenisa, zazwyczaj łatwiej będzie nauczyć się pokrewnych sportów, takich jak racquetball i squash; pilot, który nauczył się latać jednym typem komercyjnego samolotu pasażerskiego, bardzo szybko nauczy się latać innym typem; uczniowi, który już nauczył się algebry, łatwiej jest nauczyć się rachunku różniczkowego. Nie znamy jeszcze mechanizmów uczenia się transferu człowieka. W przypadku sieci neuronowych uczenie polega na dostosowaniu wag, więc najbardziej prawdopodobną metodą uczenia transferu jest skopiowanie wag wyuczonych dla zadania A do sieci, która będzie wytrenowana dla zadania B. Wagi są następnie aktualizowane przez opadanie gradientu w zwykły sposób wykorzystania danych w zadaniu B. Dobrym pomysłem może być użycie mniejszej szybkości uczenia się w zadaniu B, w zależności od tego, jak podobne są zadania i ile danych wykorzystano w zadaniu A. Zauważ, że takie podejście wymaga ludzkiej wiedzy w zakresie wyboru zadania: na przykład wagi wyuczone podczas treningu algebry mogą nie być zbyt przydatne w sieci przeznaczonej do racquetballa. Ponadto pojęcie wag kopiowania wymaga prostego odwzorowania przestrzeni wejściowych dla dwóch zadań i zasadniczo identycznej architektury sieci. Jednym z powodów popularności uczenia transferowego jest dostępność wysokiej jakości przeszkolonych modeli. Na przykład, możesz pobrać wstępnie wyszkolony model rozpoznawania obiektów wizualnych, taki jak model ResNet-50 wyszkolony na zestawie danych COCO, oszczędzając w ten sposób tygodnie pracy. Stamtąd możesz modyfikować parametry modelu, dostarczając dodatkowe obrazy i etykiety obiektów dla konkretnego zadania. Załóżmy, że chcesz sklasyfikować typy monocykli. Masz tylko kilkaset zdjęć różnych monocykli, ale zbiór danych COCO zawiera ponad 3000 zdjęć w każdej z kategorii rowerów, motocykli i deskorolek. Oznacza to, że model przeszkolony w COCO ma już doświadczenie z kołami i drogami oraz innymi istotnymi funkcjami, które będą pomocne w interpretacji obrazów monocykla. Często będziesz chciał zamrozić kilka pierwszych warstw wstępnie wytrenowanego modelu — warstwy te służą jako detektory cech, które przydadzą się w nowym modelu. Twój nowy zestaw danych będzie mógł modyfikować tylko parametry wyższych poziomów; są to warstwy, które identyfikują cechy specyficzne dla problemu i dokonują klasyfikacji. Czasami jednak różnica między czujnikami powoduje, że nawet warstwy najniższego poziomu wymagają przeszkolenia. Jako kolejny przykład, dla tych, którzy budują system języka naturalnego, często zaczyna się od wytrenowanego modelu, takiego jak model ROBERTA (patrz Rozdział 25.6), który już „wie” bardzo dużo o słownictwie i składni języka potocznego. Następnym krokiem jest dostrojenie modelu na dwa sposoby. Po pierwsze, podając mu przykłady słownictwa specjalistycznego używanego w pożądanej dziedzinie; być może domena medyczna (gdzie dowie się o „zawale mięśnia sercowego”) lub może domena finansowa (gdzie dowie się o „odpowiedzialności powierniczej”). Po drugie, trenując model pod kątem zadania, które ma wykonać. Jeśli ma odpowiadać na pytania, wytrenuj go na parach pytanie/odpowiedź. Jednym z bardzo ważnych rodzajów uczenia się transferu jest transfer między symulacjami a światem rzeczywistym. Na przykład kontroler autonomicznego samochodu może zostać przerzucony na miliardy mil symulowanej jazdy, co byłoby niemożliwe w prawdziwym świecie. Następnie, po przejściu kontrolera do prawdziwego pojazdu, szybko dostosowuje się do nowego środowiska. Uczenie się wielozadaniowe to forma uczenia się transferowego, w której jednocześnie szkolimy model na wielu celach. Na przykład, zamiast trenować system języka naturalnego w zakresie znakowania części mowy, a następnie przenosić wyuczone wagi do nowego zadania, takiego jak klasyfikacja dokumentów, trenujemy jednocześnie jeden system w zakresie znakowania części mowy, klasyfikacji dokumentów, wykrywania języka , przewidywanie słów, modelowanie trudności zdań, wykrywanie plagiatu, wywoływanie zdań i odpowiadanie na pytania. Pomysł polega na tym, że aby rozwiązać dowolne z tych zadań, model może być w stanie wykorzystać powierzchowne cechy danych. Ale aby rozwiązać wszystkie osiem naraz za pomocą wspólnej warstwy reprezentacji, model z większym prawdopodobieństwem utworzy wspólną reprezentację, która odzwierciedla rzeczywiste użycie i treść języka naturalnego.