Ukryte warstwy

https://aie24.pl/

Podczas procesu uczenia sieć neuronowa pokazuje wiele wartości wejściowych x i wiele odpowiadających im wartości wyjściowych y. Podczas przetwarzania wektora wejściowego x sieć neuronowa wykonuje kilka obliczeń pośrednich przed wygenerowaniem wyniku y. Możemy myśleć o wartościach obliczonych na każdej warstwie sieci jako o innej reprezentacji wejściowego x. Każda warstwa przekształca reprezentację utworzoną przez poprzednią warstwę w celu utworzenia nowej reprezentacji. Zestawienie wszystkich tych przekształceń udaje się — jeśli wszystko pójdzie dobrze — przekształcenia danych wejściowych w pożądane dane wyjściowe. Rzeczywiście, jedną z hipotez wyjaśniających, dlaczego uczenie głębokie działa dobrze, jest to, że złożona, kompleksowa transformacja, która odwzorowuje od wejścia do wyjścia – powiedzmy od obrazu wejściowego do kategorii wyników „żyrafa” – jest rozkładana na wiele warstw w kompozycji. wielu stosunkowo prostych przekształceń, z których każda jest dość łatwa do nauczenia przez lokalny proces aktualizacji. W procesie tworzenia wszystkich tych wewnętrznych przekształceń głębokie sieci często odkrywają znaczące pośrednie reprezentacje danych. Na przykład sieć ucząca się rozpoznawania złożonych obiektów na obrazach może tworzyć wewnętrzne warstwy, które wykrywają przydatne podjednostki: krawędzie, narożniki, elipsy, oczy, twarze – koty. A może nie – głębokie sieci mogą tworzyć wewnętrzne

warstwy, których znaczenie jest dla ludzi niejasne, mimo że wynik jest nadal poprawny. Ukryte warstwy sieci neuronowych są zazwyczaj mniej zróżnicowane niż warstwy wyjściowe. Przez pierwsze 25 lat badań nad sieciami wielowarstwowymi (mniej więcej 1985–2010) węzły wewnętrzne wykorzystywały prawie wyłącznie funkcje aktywacji sigmoid i tanh. Od około 2010 r. ReLU i softplus stają się bardziej popularne, częściowo dlatego, że uważa się, że unikają problemu znikania gradientów. Eksperymenty z coraz głębszymi sieciami sugerowały, że w wielu przypadkach lepsze uczenie uzyskano z głębokimi i stosunkowo wąskimi sieciami, a nie płytkimi, szerokimi sieciami, przy ustalonej łącznej liczbie wag.  Jest oczywiście wiele innych struktur, które należy wziąć pod uwagę przy grafach obliczeniowych, oprócz zabawy z szerokością i głębokością. Niewiele wiadomo, dlaczego niektóre struktury wydają się działać lepiej niż inne w przypadku konkretnego problemu. Dzięki doświadczeniu praktycy nabierają intuicji, jak projektować sieci i jak je naprawiać, gdy nie działają, podobnie jak szefowie kuchni zyskują intuicję, jak projektować przepisy i jak je naprawiać, gdy smakują nieprzyjemnie. Z tego powodu narzędzia ułatwiające szybką eksplorację i ocenę różnych struktur są niezbędne do odniesienia sukcesu w rzeczywistych problemach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *