The objective is to find an optimal policy which maximizes the expected average reward per time step over infinite horizon.
英
美
释义
目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略。
把海词放在桌面上,查词最方便
触屏版
|
电脑版
©2003 - 2025 海词词典(Dict.cn)
立即下载