PARL源码走读——使用策略梯度算法求解迷宫寻宝问题

时间：2019-03-25 10:02:29 来源：互联网编辑：星辉 发表评论无障碍通道

前不久，百度发布了基于PaddlePaddle的深度强化学习框架PARL。git传送门

作为一个强化学习小白，本人怀着学习的心态，安装并运行了PARL里的quick-start。不体验不知道，一体验吓一跳，不愧是 NeurIPS 2018 冠军团队的杰作，代码可读性良好，函数功能非常清晰，模块之间耦合度低、内聚性强。不仅仅适合零基础的小白快速搭建DRL环境，也十分适合科研人员复现论文结果。

废话不多说，我们从强化学习最经典的例子——迷宫寻宝(俗称格子世界GridWorld)开始，用策略梯度(Policy-Gradient)算法体验一把PARL。

模拟环境

强化学习适合解决智能决策问题 。如图，给定如下迷宫，黑色方格代表墙，黄色代表宝藏，红色代表机器人;一开始，机器人处于任意一个位置，由于走一步要耗电，撞墙后需要修理，所以我们需要训练一个模型，来告诉机器人如何避免撞墙、并给出寻宝的最优路径。

接下来，定义强化学习环境所需的各种要素：状态state、动作action、奖励reward等等。

state就是机器人所处的位置，用(行、列)这个元组来表示，同时可以表示墙：

使用random-start策略实现reset功能，以增加初始状态的随机性：

定义动作action，很显然，机器人可以走上下左右四个方向：

定义奖励reward，到达终点奖励为10，走其他格子需要耗电，奖励为-1：

另外，越界、撞墙需要给较大惩罚：

至此，强化学习所需的状态、动作、奖励均定义完毕。接下来简单推导一下策略梯度算法的原理。

策略梯度 (Policy-Gradient) 算法是什么？

我们知道，强化学习的目标是给定一个马尔可夫决策过程，寻找出最优策略。所谓策略是指状态到动作的映射，常用符号 $\pi$表示，它是指给定状态 s 时，动作集上的一个分布，即： $$\pi (a|s)=p[A{t}=a|S{t}=s]$$

策略梯度的做法十分直截了当，它直接对求解最优策略 进行参数化建模，策略p(a|s)将从一个概率集合变成一个概率密度函数p(a|s,θ)，即：$$\pi_{\theta}=p[a|s,\theta]$$

这个策略函数表示，在给定状态s和参数θ的情况下，采取任何可能动作的概率，它是一个概率密度函数，在实际运用该策略的时候，是按照这个概率分布进行动作action的采样的，这个分布可以是离散(如伯努利分布)，也可以说是连续(如高斯分布)。最直观的方法，我们可以使用一个线性模型表示这个策略函数: $$\pi _{\theta }=\phi (s)*\theta$$

其中，$\phi(s)$表示对状态s的特征工程，θ是需要训练的参数。这样建模有什么好处呢?其实最大的好处就是能时时刻刻学到一些随机策略，增强探索性exploration。

为什么可以增加探索性呢?

比如迷宫寻宝问题，假设一开始机器人在最左上角的位置，此时p(a|s,θ)可以初始化为[0.25,0.25,0.25,0.25]，表明机器人走上、下、左、右、的概率都是0.25。当模型训练到一定程度的时候，p(a|s,θ)变成了[0.1,0.6,0.1,0.2]，此时，向下的概率最大，为0.6，机器人最有可能向下走，这一步表现为利用 exploitation ;但是，向右走其实也是最优策略，0.2也是可能被选择的，这一步表现为探索 exploration ;相对0.6和0.2，向上、向左两个动作的概率就小很多，但也是有可能被选择的。如果模型继续训练下去，p(a|s,θ)很有可能收敛成[0.05,0.45,0.05,0.45]，此时，机器人基本上只走向下或者向右，选择向上、向左的可能性就极小了。这是最左上角位置(状态)的情况，其他状态，随着模型的训练，也会收敛到最优解。

有了模型，就想到求梯度，那么，如何构建损失函数呢?标签y-Target又是什么?

一个非常朴素的想法就是：如果一个动作获得的reward多，那么就使其出现的概率变大，否则减小，于是，可以构建一个有关状态-动作的函数 f(s,a) 作为损失函数的权重，这个权重函数可以是长期回报G(t)，可以是状态值函数V(s)，也可以是状态-行为函数Q(s,a)，当然也可以是优势函数A。但是，这个权重函数和参数θ无关，对θ的梯度为0，仅仅作为p(a|s,θ)的系数。

现在考虑模型的输出$\pi(a|s,θ)$，它表示动作的概率分布，我们知道，智能体每执行完一轮episode ，就会形成一个完整的轨迹Trajectory: $$T=[S{0},a{0},P(S{1}|S{0},a{0}),S{1},a{1},P(S{2}|S{1},a{1}),S{2}...S{n-1},a{n-1},P(S{n}|S{n-1},a{n-1}),S{n}]$$ 其中，状态$S{0},S_{1}...S{n}$和参数θ无关，状态转移概率P(s'|s,a)是由环境所决定的，和参数θ也无关。所以，我们的目标简化为：优化参数θ，使得每个动作概率的乘积$p(a{0})p(a{1})...p(a{n})$达到最大，即使得$\pi (a{0}|s{0},\theta)\pi (a{1}|s{1},\theta)\pi (a{2}|s{2},\theta)...*\pi (a{n}|s{n},\theta)$这个累乘概率达到最大，可用如下公式表示：$$Maximize[arg(\theta )],T=\prod{t=0}^{N}\pi (a|s{t},\theta)$$

这显然是我们熟悉的极大似然估计问题，转化为对数似然函数： $$log(T)=log(\prod{t=0}^{N}\pi (a|s{t},\theta))=\sum{t=0}^{N}log(\pi (a|s{t},\theta))$$

乘以权重 f(s,a)，构建如下目标函数 ，这个目标函数和我们平时见到的损失函数正好相反，它需要使用梯度上升的方法求一个极大值： $$J(\theta )=\sum{t=0}^{N}log(\pi(a |s{t},\theta) )*f(s,aTrue)$$

注意到，这里的aTrue就是标签y-Target，表示agent在状态$s_{t}$时真实采取的动作，可以根据轨迹trajectory采样得到。

学过机器学习的同学都知道，一般用目标函数的均值代替求和，作为新的目标函数： $$J(\theta )=\frac{1}{N}\sum{t=0}^{N}log(\pi (a|s{t},\theta ))*f(s_{t},aTrue)$$

均值，就是数学期望，所以目标函数也可以表示为： $$J(\theta )=E{\pi (\theta )}(log(\pi (a|s{t},\theta ))*f(s_{t},aTrue))$$

有了目标函数，梯度就很容易计算了，由于$f(s{t},a)$对于θ来说是系数，故梯度公式如下: $$\triangledown J(\theta )=E{\pi(\theta)}(\triangledown log(\pi(a|s{t},\theta))*f(s{t},aTrue))$$

那么，策略$\pi$具体的表现形式如何?前文提到，策略可以是离散的，也可以是连续的，不妨考虑离散的策略。由于我们需要求解最大值问题，也就是梯度上升问题，自然而然就想到把梯度上升问题转化为梯度下降问题，这样才能使得目标函数的相反数 达到最小，而什么样的函数可以将梯度下降和对数函数关联起来呢?显然是我们熟悉的交叉熵，所以最终的损失函数确定为： $$Minimize[arg(\theta)],J(\theta)=E_{\pi(\theta)}(CrossEntropy(\pi(a|s{t},\theta),aTrue)*f(s{t},aTrue))$$

连续策略的推导与离散策略类似，有兴趣的读者可以参考相关文献。

自此，公式推导可以告一段落。策略梯度的基本算法就是Reinforce，也称为蒙特卡洛策略梯度，简称MCPG，PARL的官方policy-gradient就是基于以下算法框架实现的：

PARL 源码结构

在搭建模型之前，我们先分析一下PARL的主要模块：

1. env：环境，在这里，我们的环境就是迷宫寻宝

2. model：模型，可以是简单的线性模型，也可以是CNN、RNN等深度学习模型

3. algorithm：算法，对model层进行封装，并利用模型进行predict(预测)，同时构建损失函数进行learn(学习);具体实现形式可以是DQN、PG、DDPG等等

4. agent：智能体，对algorithm层进行封装，一般也包含predict、learn两个函数;同时，由于智能体要同时进行探索exploration-利用exploitation，还经常包含一个sample函数，用于决定到底是randomSelect(随机选择或者根据分布函数选择动作)，还是argmax(100%贪心，总是选择可能性最大的动作)

5. train：训练和测试，用于实现agent和环境的交互，当模型收敛后，可以测试智能体的准确性

6. utils：其他辅助功能

以下的架构示意图，可以帮助我们更好的理解PARL：

10月30日，备受瞩目的iQOO最新旗舰机——被誉为“性能之光”的iQOO 13在深圳震撼发布。该款机型由BOE(京东方)独供6.82英寸超旗舰2K LTPO直屏，行业首发搭载全新一代Q10发光器件，在画面表现、护眼舒适度及性能功耗方面均达到行业领先水准，并以“直屏超窄边”的设计为用

在当前市场上，千元级别的投影仪中，当贝Smart1和小明Q5 Pro无疑是两款备受瞩目的产品。它们各自凭借独特的特点和优势，赢得了用户的认可，今天就来说说这两款哪个是千元投影仪最好的?将从显示技术、系统性能、智能功能以及设计便携性四个方面，对这两款投影仪进行详细

双十一购物狂欢节持续进行中，各大电商平台与厂家，纷纷推出了超值优惠吸引消费者。与此同时，为了解锁PC的出色性能，DIY装备也成为了玩家们重点关注的对象。对此，小编带来了全新“ROG三神套装”：ROG RYUJIN龙神3代360 ARGB水冷散热器、ROG THOR雷神3代氮化镓1600W电

近日，法国巴黎的Pathé Palace影院顺利安装了六套三星Onyx LED电影屏，连同影院大厅内安装的8K显示屏“The Wall”以及遍布影厅周边的智能标牌共同构成了一个全面提升的观影环境，旨在为观众带来更加沉浸与便捷的观影体验。经过长达五年的全面翻新，Pathé Palace 影院

近来传的沸沸扬扬的“Hi MateBook”笔记本终于水落石出，WIKO官方正式认领该产品，并官宣该系列笔记本电脑定于10月31日正式发布，届时将推出Hi MateBook 14 和Hi MateBook D 16两款新品。作为入局笔记本电脑赛道的首秀，官方大秀了一把同微软的亲密关系，同时揭晓了两款

2024年10月,鲸语品牌首款开放式真无线耳机——鲸语Loki 正式上市!鲸语以创新性地“配饰化”形态,专为潮流人群和音乐数码爱好者开辟开放式耳机的全新风格领域,以叛逆玩家的姿态,打造出街的潮音单品。鲸语Loki售价159元,上市期间限时优惠仅需129元。各大电商平台鲸语旗舰

鉴于ROG键盘改装赛2.0受到热烈反响，ROG决定将此赛事的报名期限延长，新的报名时间为10月25日至12月15日(其中，12月15日为决赛日，而最终结果的公示则定于12月25日)。本次延长赛程为玩家提供了丰厚的奖励，除了一系列诱人的ROG产品外，还准备了ROG键盘礼包，内含夜魔专

八位堂64手柄，为Analogue 3D精心打造，拥有霍尔摇杆并且采用人体工学设计，外观上重现任天堂N64手柄经典元素。八位堂与Analogue携手为玩家们带来无与伦比的游戏体验，重返游戏的黄金年代。八位堂64手柄，在2024.10.21预售开启当天，引爆外网，突破八位堂预售首发历史记

从“无线通信公司”转型为面向新一代AI处理时代的“连接计算公司”，在过去很长一段时间以来，都是高通标榜自身的主基调，而今年在夏威夷茂宜岛如期举行的骁龙峰会，话题正是从这一基调展开。连接与计算，是通信技术与智能技术的代称，新一代AI技术席卷之下，一切用户体

京东11.11福利再次加码，为耳机音箱产品爱好者们带来了一场品牌爆款五折抢购活动，10月24日晚8点，多款热门耳机音箱产品将以真五折的价格震撼上线。对于广大游戏爱好者来说，一款优质的游戏耳机无疑是提升游戏体验的重要装备。ROG棱镜精英版游戏耳机，作为ROG系列的明星

宛如岁末星河初绽，11.11如期而至。身处这场专为甄选精品而设的璀璨盛典，众多广受赞誉的臻品如星辰竞相闪耀，为每个追求品质生活与卓越人生的用户带来入手心仪好物的良机。例如代表着现代智能化科技生活的三星商城，就在其「超级星动为AI狂欢」活动中，为三星Galaxy T

莲偶科技最新发布的夜视AR眼镜莲光Visual- N，作为全球首款星光夜视AR眼镜，以其独特的差异化定位赢得了广泛关注。这款眼镜不仅搭载了先进的8片特制玻璃透镜光学模组，实现了66°的超大视场角(FOV)，在底照度低至0.01lux的环境下依然能清晰呈现，识别距离更是覆盖从最近

松下更新的 LUMIX S5D是一款混合型全画幅无反相机，在视频和照片方面都有出色的表现，非常适合专业摄像师和日常摄影使用。我们在原先LUMIX S5 紧凑型设计的基础上，配备了大疆 LiDAR 自动对焦功能*。如今的LUMIX S5D 与大疆 LiDAR 测距模块及大疆 RS3 Pro 云台配对使用

随着无人机的广泛普及，它们正逐渐融入智慧城市的各个领域，悄然改变着城市的建设与监测方式。相较于传统人力高空作业的高风险与低效，无人机以其独特的优势，不仅规避了人工操作的潜在危险，还降低了城市更新过程中如路网规划、自动化巡逻及风力发电机维护等关键任务的

在如今的用户购机需求中，性能是很多用户的第一需求，毕竟大家都经历过买的手机用了没多久就卡顿、不流畅的情况。原因有很多，很多的原因是你买的手机是入门款而不是旗舰手机，所以购机尽量买旗舰款，功能和配置都是top级别的。就比如刚刚发布没多久的vivo X200，不仅搭

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.