Статистическая обработка временных рядов

Поиск оптимальных стратегий в МППР



Оптимальные стратегии

Сравнение стратегий в МППР. Оптимальная стратегия. Теорема Ховарда. Оптимальная функция ценности состояний и оптимальная функция ценности действий. Уравнение оптимальности Беллмана. Жадная стратегия. Оптимальная и жадная стратегии в Gridworld example.

Решение задач Список вопросов Экспериментальные исследования Проверь себя!

Контрольный тест


Итеративные методы поиска оптимальных стратегий

Итеративный расчет стратегий (iterative policy evaluation). Теорема об улучшении стратегий. Метод улучшения стратегий (policy improvement). Неподвижная точка итерационной процедуры улучшения стратегий. Итерирование стратегий (policy iteration). Итерирование ценностей состояний (value iteration). Итерационное решение уравнения оптимальности Беллмана. Асинхронное итерирование ценностей.

Решение задач Список вопросов Экспериментальные исследования Проверь себя!

Контрольный тест

Контроль знаний

Контрольная работа

Контрольная работа

(Для зарегистрированных пользователей)