【中英字幕】伯克利大学 2018 年秋季 CS 294-112 深度强化学习

开课时间:2018年12月20日
开课时长:26讲

Introduction

先导部分可以在一下网站学习:https://www.tensorflow.org/guide/low_level_intro

要精通Python

 

课程内容:

1.From supervised learning to decision making problems

2.Model-free algorithms: Q-learning, policy gradients, actor-critic

3.Model-based reinforcement learning and some advanced topics and prediction

4.Exploration

5.Transfer and multi-task learning, meta-learning

6.Open problems, research talks, invited lectures

 

What is reinforcement learning, and why should we care?

deep learning helps us handle unstructured environments

but doesn't tell us anyuthing about decision-making

 

RL gives us the mathematical framework for dealing with decision making

In RL, we have an agent that makes decisions we should call actions

the world responds with consequences we should call observations and rewards

RL actually generalizes many other machine learning

 

Why should we study this now

1.Advances in DL

2.Advances in RL

3.Advances in computational capability

 

Beyond learning from reward

  • Basic RL deals with maximizing rewards

  • This is not the only problem that matters for sequential decision making!

  • We will cover more advanced topics

    • Learing reward functions from example (inverse RL)

    • Transferring knowledge between domains (transfer learning, meta-learning)

 

Where do rewards come from?

Game --> score

well-defined notion of success might be very difficult to measure

 

What can DL & RL do well now?

  • Acquire high degree of proficiency in domains governed by simple, known rules

  • Learn simple skills with raw sensory inputs, given enough experience

  • Learn from imitating enough human-provided expert behavior

 

What has proven challenging so far?

  • Humans can learn incredibly quickly

    • Deep RL method are usually slow

  • Humans can reuse past knowledge

    • Transfer learning in deep RL is an open problem

  • Not clear what the reward function should be

  • Not clear what the role of prediction should be

[展开全文]

强化学习是机器器学习领域之⼀一,受到⾏行行为⼼心理理学的启发,主要关注智能体如何在环境中采取不不同的⾏行行动, 以最⼤大限度地提⾼高累积奖励。 智能体通过强化学习,可以知道⾃自⼰己在什什么状态下,应该采取什什么样的动作使得⾃自身获得最⼤大奖励。由 于智能体与环境的交互⽅方式与⼈人类与环境的交互⽅方式类似,可以认为强化学习是⼀一套通⽤用的学习框架,可⽤用 来解决通⽤用⼈人⼯工智能的问题。因此强化学习也被称为通⽤用⼈人⼯工智能的机器器学习⽅方法。

[展开全文]

强化学习第一课

1:如何建立一个智能机器

强化学习为非结构化环境中的学习提供了一种形式。代理与环境之间通过决策与反馈进行学习。

2:什么是深度强化学习,为何关注它

深度学习提供了端到端的训练学习,好处是不用人的手动调节,本身是自适应的目标最优化的过程。

强化学习在现实中的限制为:找到正确的特征使得增强学习算法表现优异。

3:端到端学习对决策的意义

端到端的学习节省时间,不用人工手动调节。

深度模型使强化学习算法可以端到端的解决复杂问题。 

4:为何是现在

深度学习、强化学习、计算机算力已经取得了突破性的进展。 

5:深度强化学习的基本概念

深度学习部分:处理复杂的感知输入。

强化学习部分:选择复杂的行动。

[展开全文]

这门课得先修课程是 CS189 CS289 CS281A,

这门课主要使用Tensorflow。

[展开全文]

第一讲主要介绍了强化学习以及很多应用的实例。

智能体通过action与环境交互并获得相应的回报,强化学习通过最大化汇报得出一系列合理化的动作。

 

 

强化学习适合在一些简单且已知的环境中,强化学习可以直接处理源信息,并且可以模仿出人类专家的行为。

挑战

强化学习学习起来比较慢

强化学习在利用已有经验方面(transfer learning)存在问题。

回报的合理化定义仍是问题

 关于预测的的角色仍不清晰(大力发展基于模型还是无模型的强化学习)

[展开全文]
  • 深度强化学习:深度学习负责处理非结构化的环境(连续/随机/复杂/不可预测),就像AI的眼睛;而强化学习的部分则是构建一个行动决策体系,不断与环境交互获得奖励,并以最大化奖励函数为目标去寻找最优策略,相当于AI的决策中心。
  • 强化学习问题其实是很多其他机器学习任务的泛化表示。例如NLP中的机器翻译可以用强化学习方式来解决。
  • 对于真实世界中的连续决策问题(Sequential decision making) ,基本的奖励函数驱动的解决思路可能并不够,需要更多其他的解决方案。(课程后面会涉及到的高级主题)

     1. 模仿学习 

         1.1  直接模仿 learning from demonstration
         1.2  逆向强化学习 ( 从数据/样例中学习奖励函数)

      2.  通过观察世界学习

         2.1 预测; 2.2 非监督学习

      3.  从其他任务中学习

       3.1 迁移学习(不同领域之间的知识迁 移)  3.2 Meta-learning 

[展开全文]
强化学习是其他算法的泛化,但是其应用受限于问题,如何选择激励函数,或者如何构建有意识的智能体,需要有大容量和好的决策,强化学习与深度学习结合很有前景。
[展开全文]

1. 通过机器人科幻小说引入话题:如何build intelligent machines? 我们现今的科技与未来的机器人差距在哪里?现今的技术能完成怎样的任务?

2. 深度学习直接根据raw sensor signal来可以处理unstructured environments

 3. 机器人不仅要识别环境,还要根据此作出decision,RL 提供一个mathematical formalism for decision.

4. 过去的RL一些学习特征需要人为设计,而深度学习则能帮助RL端到端的学习更为复杂问题。好处在于:

4.1. 不用人为设计特征

4.2. 可以自动学习到最优策略

 

5. 2018是学习DRL的好时机:

5.1 Advances in DL

5.2 Advances in RL

5.3 Advances in Computational Capability

 

6. RL与DL结合产生出更强效果的idea早25年已经出现,但一直都缺乏一些正确的细节technique来使其变得有实际意义。

 

7. Reward在现实任务中很难定义

7.1 Imitation Learning

7.2 Inverse RL

 

8. Why DRL?

8.1 Deep = can process complex sensory input, and also compute really complex functions.

8.2 RL = can make decision

[展开全文]

https://zhuanlan.zhihu.com/p/32727209

这个专栏写得很赞,建议看完课程之后浏览一下,会有很多收获

[展开全文]
主要讲了强化学习的概念,简单易懂地解释了背景,并引出了深度强化学习的理念,期待下一讲。
[展开全文]
强化学习是机器器学习领域之⼀一,受到⾏行行为⼼心理理学的启发,主要关注智能体如何在环境中采取不不同的⾏行行动, 以最⼤大限度地提⾼高累积奖励。 智能体通过强化学习,可以知道⾃自⼰己在什什么状态下,应该采取什什么样的动作使得⾃自身获得最⼤大奖励。由 于智能体与环境的交互⽅方式与⼈人类与环境的交互⽅方式类似,可以认为强化学习是⼀一套通⽤用的学习框架,可⽤用 来解决通⽤用⼈人⼯工智能的问题。因此强化学习也被称为通⽤用⼈人⼯工智能的机器器学习⽅方法。
[展开全文]
强化学习是机器器学习领域之⼀一,受到⾏行行为⼼心理理学的启发,主要关注智能体如何在环境中采取不不同的⾏行行动, 以最⼤大限度地提⾼高累积奖励。 智能体通过强化学习,可以知道⾃自⼰己在什什么状态下,应该采取什什么样的动作使得⾃自身获得最⼤大奖励。由 于智能体与环境的交互⽅方式与⼈人类与环境的交互⽅方式类似,可以认为强化学习是⼀一套通⽤用的学习框架,可⽤用 来解决通⽤用⼈人⼯工智能的问题。因此强化学习也被称为通⽤用⼈人⼯工智能的机器器学习⽅方法。
[展开全文]

第一课:

1、从计算机视觉上的发展来看,standard的方法是手动标注特征,但是通过深度学习,端到端的方式使得特征自动提取,看起来更加智能,人的参与干涉更少

2、从强化学习来看,standard的是需要找到正确的特征使得增强学习算法表现优异,但这通常是很困难的,但是通过深度强化学习,通过很多特征表示层,这样端到端的学习,可以不必依赖于人工指导,可以自动正确地得到底层特征抽象来帮助我们做出高层的决策

3、而事实上我们对于奖赏机制的定义于现实生活中通常是很困难的,而这里则又衍生出了模仿学习,通过模仿,我们不必自己需要获得奖赏后才能学习到某个行为对于我们的重要性,但是通过模仿学习,我们可以ignore这个就我们人类而言的某些在基底神经节的一些更复杂的机制

4、而通过观察这个世界,我们可以学习来做出一些预测,而通过这些预测,我们就能够基于未来的预测而做出我们现在所想要达到那个预测的行为。

[展开全文]

介绍一个blog,https://zhuanlan.zhihu.com/p/32652178,看完视频课程在看这个专栏其实收获还是很大的。友情推广。

[展开全文]

介绍一个blog,https://zhuanlan.zhihu.com/p/32598322,看完视频课程在看这个专栏其实收获还是很大的。

[展开全文]

本课从简单的任务说起, 针对一个自动驾驶的问题,分析了可行的策略.

最简单的,模仿学习. 分析了模仿学习理论上的问题和现实中是如何解决这些问题以便让模仿学习可行的.

更为复杂的, 有些问题不能简单的用模仿学习进行训练, 有些问题受困于数据量, 这就引出了本课程的核心, 强化学习.

本课中还给出了强化学习的几个常用记号:

Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
s - 状态(state)。一个表示环境的数据。
S,S - 所有状态集合。环境中所有的可能状态。
a - 行动(action)。本体可以做的动作。
A,A - 所有行动集合。本体可以做的所有动作。
A(s),A(s) - 状态s的行动集合。本体在状态s下,可以做的所有动作。
r - 奖赏(reward)。本体在一个行动后,获得的奖赏。
R - 所有奖赏集合。本体可以获得的所有奖赏。

St - 第t步的状态(state)。t from 0
At - 第t步的行动(select action)。t from 0
Rt - 第t步的奖赏(reward)。t from 1
Gt - 第t步的长期回报(return)。t from 0。

 

[展开全文]

1.  It is interesting to see that  under the umberella of policy grident ,  REINFROCE method , as one MC approach, comes first and after that value function fitting approach comes later.  It is very easy for us to have a confusion on understanding PG. IMHO, the key points here are like this: 

1.1.  G(s,a)  unbiased and biased estimation

1.2  Variance reduction idea  

 

2.  Under some policy,  the accurate Q(st,at) is the reward plus the expectation on Value funciton of the next state.  As unbiased estimation, one sample V for the next state is used to combine with the reward. 

 

3.  The tradeoff between the AC based and the MC based lies in the bias and variance. 

For AC:  Lower Variance but higher bias if value is wrong(it always is)

For  A-MC: no bias, higher variance

 

4. Generalized advantage estimation (GAE) is good framework to give a consist way to consider the tradeoff

 

 

 

 

 

 

 

[展开全文]

https://zhuanlan.zhihu.com/p/32575824

这个虽然是文科生写得,但是,看完课程再看会有更新的体会

[展开全文]

Polilcy Grident method:

1. All the stories about PG come from the definition on the expection of total rewards.

That is,  suppose you get a distribution on the generated trajectory and each trajectory will return a total reward ,  the unbaised estimation about the expection is  the average sampled total reward.

2.  The goal of the RL  is to change the trajectory distribution by reinforcing those good ones and lower the bad ones so that the total rewords will increase.  

3  Now the task has been transferred to a optimization problem.  A gradient ascent  method  is then the first choice.  The key point is  how to calculate the grident to the parameter that controls the trajectory's distribtion 

4.  A trick  on policy grident calculation is to  work on the log policy  rather than directly on the policy.  With a series of  transformation, the core problem in PG is how to reduce the varation, which may affect the policy reinforcment badly.

5. The simplest variance reduction method is substract a baseline named causality or something like that. It works in that it really lowers the returns mathmatically 

6.  To improve PG ,  two places are worth to consider : the return and the baseline.

1.  Since a monte carlo process is taken, the return can be accumulated  for single trajectories and  sample again and again. 

2 . Or the return could be fit by a non-linear function.  

3. The baseline can be fit with another nonlinar function.  it is actor-critic method. 

 

Summary:

Policy grident is  a straitfoward algorithm that can be easily understood and well used in many circumstances such as alphago. It combines the exploration and exploitation  smoothly. but as one   online policy algorithm, its downside lies in the sample effciency. Though importance sampling could come as one remedy, it seems not wildly used so far. 

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流