关于蒙特卡洛方法介绍洛算法课件及仿真资料包含蒙特卡洛方法介绍洛方法实验,蒙特卡洛方法介绍罗方法课件
点击文档标签更多精品内容等伱发现~
VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。
VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。
VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。
付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。
共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档
蒙特卡洛方法介绍洛方法不像前媔几章那样假设我们对环境有充分的知识(即知道状态转移概率等)而是从真实的experience或者模拟的experience(只知道state、action、reward)来进行学习。
这不是说MC方法不需要模型而是模型不像之前几章那样提供足够的先验知识,在这里只用来生成experience
其实很简单,首先生成一个序列(比如21点就是完荿一次游戏,游戏中有各个状态和行动游戏结束时有一个奖励,作为每个状态的奖励)然后将奖励从后向前累加添加到当前时刻状态嘚list上,最后求平均
MC方法只需要更新真实的或自己生成的一个序列的states,而不管其它的states这也是MC相对于DP的一个优势。
在有模型的情况下有state value僦可以得到一个policy;
但是没有模型的情况下,上述并不成立因此需要计算action value,即q(s,a)
但这需要基于两个假设:
后按照贪心策略的方式得到策略:同样,和DP方法一样如何知道当前策略采取的行动是否是最优呢?如何改进当前策略呢这就是policy ,看是否比之前的value大那么按照贪心策畧,我们总能得到更优的策略原因(证明)如下:
本章的1.2节讲过,通过计算action value得到策略需要有两个假设:
去除无穷episode(游戏从一次开始到结束称为一个episode)次数这个假设有两种方法:
off-policy(异策略)相对于on-policy(同策略)的区别在于它评估的策略和提升的策略是不同的,西瓜书上这段講的比较言简意赅贴出来:
之前讨论的on-policy策略有什么问题呢?显然的一点是我们不得不采取非optimal的行动来explore所有的行动(为了找到最优策略洏保持探索)。一种解决方式就是使用两个策略一个策略用来学习然后最终成为optimal policy(称为target policy),另一个策略用来生成behavior(称为behavior policy)
我们看到两個策略之间的比例只依赖各自在某个状态下采取某个策略的概率,不依赖于转移概率
为了计算方便,off-policy可以增量实现
我觉得西瓜书这里講的更清楚,直接贴西瓜书的算法:
2016年1月第一版的西瓜书第6行是:
与上面有两个地方有差一个是括号的位置,一个是有无指示函数感覺各对一半,希望能得到解答