Статистический анализ временных рядов
Поиск оптимальных стратегий в МППР
Оптимальные стратегииСравнение стратегий в МППР. Оптимальная стратегия. Теорема Ховарда. Оптимальная функция ценности состояний и оптимальная функция ценности действий. Уравнение оптимальности Беллмана. Жадная стратегия. Оптимальная и жадная стратегии в Gridworld example. |
|||||||
Итеративные методы поиска оптимальных стратегийИтеративный расчет стратегий (iterative policy evaluation). Теорема об улучшении стратегий. Метод улучшения стратегий (policy improvement). Неподвижная точка итерационной процедуры улучшения стратегий. Итерирование стратегий (policy iteration). Итерирование ценностей состояний (value iteration). Итерационное решение уравнения оптимальности Беллмана. Асинхронное итерирование ценностей. |
Контроль знаний
Контрольная работа(Для зарегистрированных пользователей) |