强化学习是智能体与环境的交互,通过交互信息来感知环境,从而调整自己的行为,选择出最好的结果。
【相当于人做了多次的探索,把最后的劳动成果以状态值函数、动作状态对值函数等方式表达出来。对人学习过程的简单模拟】

需要思考的问题:
研究什么问题,与环境中的什么东西相关?
哪些行为可以影响到环境,是不是可选的动作?
与环境的交互是为了什么?要达成什么目标?对每个状态的奖励如何设置?

分别对应 环境状态、状态下对应的动作、动作与状态转移的关系、对目标的设定及衡量

在目前你考虑的问题中是否对一些情况作了理想化处理?如果不做理想化处理应该选择什么方式来解决这个问题?

【个人理解:强化学习很像自己指定规则来探索环境,根据规则尝试很多次,把最后收敛的结果输出来指导决策】

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/yuyuanliu/p/14780189.html

你还没有登录,请先登录注册
  • 还没有人评论,欢迎说说您的想法!