Статистический анализ временных рядов
Марковский процесс принятия решений
Марковский процесс вознагражденийОпределение марковского процесса вознаграждений (МПВ). Мгновенные, n-шаговые и накопленные вознаграждения. Функция вознаграждений. Временной горизонт. Дисконтирование будущих вознаграждений. Функция ценности состояний МПВ. Уравнение Беллмана для МПВ. |
|||||||
Марковский процесс принятия решенийОпределение марковского процесса принятия решений(МППР). Лицо, принимающее решения. Матрица вероятностей переходов и мгновенные вознаграждения. Сравнение МППР и МПВ. Граф переходов МППР. Функция вознаграждений. Стратегия в МППР. Функция ценности состояний и функция ценности действий. Уравнение Беллмана для МППР. Gridworld example. |
Контроль знаний
Контрольная работа(Для зарегистрированных пользователей) |