Bezpośrednie oszacowanie użyteczności

https://aie24.pl/

Ideą bezpośredniego szacowania użyteczności jest to, że użyteczność stanu jest definiowana jako oczekiwana całkowita nagroda od tego stanu (nazywana oczekiwaną nagrodą-to-go) i że każda próba dostarcza próbki tej wielkości dla każdego odwiedzonego stanu. Na przykład pierwsza z trzech prób pokazane wcześniej zapewniają całkowitą nagrodę próbki 0,76 dla stanu (1,1), dwie próbki 0,80 i 0,88 dla (1,2), dwie próbki 0,84 i 0,92 dla (1,3) i tak dalej. Tak więc na końcu każdej sekwencji algorytm oblicza obserwowaną nagrodę do przejścia dla każdego stanu i odpowiednio aktualizuje szacowaną użyteczność dla tego stanu, po prostu utrzymując średnią bieżącą dla każdego stanu w tabeli. W limicie nieskończenie wielu prób średnia z próbki zbiegnie się z prawdziwym oczekiwaniem w równaniu (23.1). Oznacza to, że ograniczyliśmy uczenie się przez wzmacnianie do standardowego nadzorowanego problemu uczenia się, w którym każdy przykład jest parą (stan, nagroda-to-go). Mamy wiele potężnych algorytmów do nadzorowanego uczenia się, więc to podejście wydaje się obiecujące, ale ignoruje ważne ograniczenie: użyteczność stanu jest określana przez nagrodę i oczekiwaną użyteczność J stanów następczych. Dokładniej, wartości użyteczności są zgodne z równaniami Bellmana dla ustalonej polisy:

Ignorując powiązania między stanami, bezpośrednie szacowanie użyteczności pomija możliwości uczenia się. Na przykład druga z trzech podanych wcześniej prób osiąga stan (3,2), który nie był wcześniej odwiedzany. Kolejne przejście osiąga wartość (3,3), o której wiadomo z pierwszej próby, że ma wysoką użyteczność. Równanie Bellmana od razu sugeruje, że (3,2) prawdopodobnie ma również wysoką użyteczność, ponieważ prowadzi do (3,3), ale bezpośrednie oszacowanie użyteczności niczego się nie uczy do końca próby. Mówiąc szerzej, bezpośrednią estymację użyteczności możemy postrzegać jako poszukiwanie U w przestrzeni hipotez, która jest znacznie większa niż to konieczne, ponieważ zawiera wiele funkcji, które naruszają równania Bellmana. Z tego powodu algorytm często zbiega się bardzo powoli.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *