02

01

强化学习读书笔记 - 01 - 强化学习的问题

929 0 0

作者:想想你应该干什么

测试2

强化学习读书笔记 - 01 - 强化学习的问题

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

什么是强化学习(Reinforcement Learning)

强化学习是一种通过交互的目标导向学习方法，或者说是计算方向。
不同于监督学习和非监督学习。
监督学习是通过已标签的数据，学习分类的逻辑。
非监督学习是通过未标签的数据，找到其中的隐藏模式。

强化学习的特点：

符合行为心理学。
一种探索(exploration)和采用(exploitation)的权衡
强化学习一面要采用(exploitation)已经发现的有效行动，
另一方面也要探索(exploration)那些没有被认可的行动，已找到更好的解决方案。
考虑整个问题而不是子问题
通用AI

强化学习的四元素

政策 (policy)
环境的感知状态到行动的映射方式。
奖赏信号 (reward signal)
定义强化学习问题的目标。
评估方法 (value function)
一个状态的价值就是从这个状态开始，期望在未来获得的奖赏。是指一种长期目标。
环境模型 (optional a model of environment)
模拟环境的行为。

强化学习的历史

两条主线：

起源于动物学习心理学的试错法(trial-and-error)。
优化控制(optimal control) - 评估方法(value function)，动态编程(dynamic programming)，差分计算(temporal difference)。

参照

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

内容来源于网络如有侵权请私信删除

标签：算法数据结构

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

相关课程

英特尔 OpenCV 初级认证课程

7742

基于 OpenVINO™ 的 AI 视觉应用基础课

56052

英特尔® OpenVINO™工具套件初级课程

293104

热门标签

人工智能深度学习算法数据结构 LeetCode

官方群

服务时间：

https://imgs.itxueyuan.com/advPicture/adv-1662379508-4007-pic.jpeg