Определение марковского процесса вознаграждений (МПВ). Мгновенные, n-шаговые и накопленные вознаграждения. Функция вознаграждений. Временной горизонт. Дисконтирование будущих вознаграждений. Функция ценности состояний МПВ. Уравнение Беллмана для МПВ.
Определение марковского процесса принятия решений(МППР). Лицо, принимающее решения. Матрица вероятностей переходов и мгновенные вознаграждения. Сравнение МППР и МПВ. Граф переходов МППР. Функция вознаграждений. Стратегия в МППР. Функция ценности состояний и функция ценности действий. Уравнение Беллмана для МППР. Gridworld example.