Ogólna postać algorytmu EM – "Bądź człowiekiem … A.I. !"

https://aie24.pl/

Widzieliśmy kilka przykładów algorytmu EM. Każda z nich obejmuje obliczenie oczekiwanych wartości ukrytych zmiennych dla każdego przykładu, a następnie ponowne obliczenie parametrów, używając oczekiwanych wartości tak, jakby były wartościami zaobserwowanymi. Niech x będzie wszystkimi obserwowanymi wartościami we wszystkich przykładach, niech Z oznacza wszystkie ukryte zmienne we wszystkich przykładach i niech θ będzie wszystkimi parametrami modelu prawdopodobieństwa. Wtedy algorytm EM to

To równanie to w skrócie algorytm EM. Krok E to obliczenie sumy, która jest oczekiwaniem logarytmicznego prawdopodobieństwa „ukończonych” danych w odniesieniu do rozkładu P(Z=z |x, θ⁽ⁱ⁾), który jest a posteriori ukrytych zmienne, biorąc pod uwagę dane. Krok M to maksymalizacja tego oczekiwanego prawdopodobieństwa logarytmicznego w odniesieniu do parametrów. W przypadku mieszanek Gaussa ukrytymi zmiennymi są Z_ijs, gdzie Z_ij wynosi 1, jeśli przykład j został wygenerowany przez komponent i. Dla sieci Bayesa Z_ij jest wartością nieobserwowanej zmiennej X_i w przykładzie j. W przypadku HMM Z_jt jest stanem sekwencji w przykładzie j w czasie t. Począwszy od postaci ogólnej, możliwe jest wyprowadzenie algorytmu EM dla konkretnej aplikacji po zidentyfikowaniu odpowiednich ukrytych zmiennych. Gdy tylko zrozumiemy ogólną ideę EM, łatwo będzie wyprowadzić wszelkiego rodzaju warianty i ulepszenia. Na przykład w wielu przypadkach krok E -krok obliczanie a posteriori ukrytych zmiennych – jest niewykonalny, jak w dużych sieciach Bayesa. Okazuje się, że można użyć przybliżonego E-kroku i nadal uzyskać skuteczny algorytm uczenia się. Dzięki algorytmowi próbkowania, takim jak MCMC, proces uczenia się jest bardzo intuicyjny: każdy stan (konfiguracja ukrytych i obserwowanych zmiennych) odwiedzony przez MCMC jest traktowany dokładnie tak, jakby był kompletną obserwacją. Dzięki temu parametry można aktualizować bezpośrednio po każdym przejściu MCMC. Inne formy wnioskowania przybliżonego, takie jak metody wariacyjne i zapętlona propagacja przekonań, również okazały się skuteczne w uczeniu się bardzo dużych sieci.

Post Views: 53

Dodaj komentarz Anuluj pisanie odpowiedzi