动态规划与随机控制
6页1、动态规划与随机控制1953 年, R . Bellman 等人,根据某类多阶段序贯决策问题的特点,提出了著名的 “最 优性原理 。”在这个原理的指导下, 他将此类多阶段决策问题转变为一系列的互相联系的单阶 段决策问题,然后,逐个阶段予以解决,最后再形成总体解决。从而创建了求解优化问题的 新方法 动态规划。 1957 年,他的名著动态规划出版。1. 离散型动态规划 离散型确定性动态规划在解决美式期权问题时,我们通常采用倒向递推的方法来比较即时执行价格与继续持有 价格。这是利用动态规划原理的一个典型例子。 Richard Bellman 在 1953年首次提出动态规 划原理 .最优化原理: 无论过去的状态和决策如何, 相对于前面的决策侧所形成的的状态而言, 余 下的决策序列必然构成最优子策略 .求解最短路径问题: 来看下面一个具体的例子:我们要求从Q点到 T 点的最短路径? : C1T3? - : B1 C1T4? - :A2 B1 C1T 7?-:?QA2B1C1T11?Q-A3 B1C1T11?Q-A3 B2C2T11从以上分析可以看出最短路径不唯一。最短路径解的特点? 1 、可以将全
2、过程求解分为若干阶段求解; 多阶段决策问题? 2、在全过程最短路径中,将会出现阶段的最优路径; 递推性? 3 、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终 点)无关; 无后效性? 3、逐段地求解最优路径,势必会找到一个全过程最优路径。 动态规划 离散型不确定性动态规划是一个随机变量, 带有离散型不确定性动态规划的特点就是每一阶段的决策不是确定的, 定的随机性,因此处理起来就相对复杂些。一个动态规划的经典问题:你打算与一个你遇到的最富有的人结婚,你的最优策略是什 么?这里做几点基本的假设:1、如果碰到满足你要求的人,他无条件接受;2、有 N 个人供你选择;3、每个备选对象的财富值都服从 0, 1.区间上的均匀分布 ; 那么你要找具有最大期望财富值的结婚对象的最优策略是什么?这是一个看似简单但是很难解决的问题 .通常的方法是顺序递推法,如果首先考虑碰到第一个人的财富,接着考虑碰到下一个人 的财富值与第一个人的财富值进行比较, 依次进行下去, 但是你期望下一个对象的财富值的 确定是一个很复杂的问题,并且很难进行比较 .因此这里我们考虑倒向递推的方法进行计算,我们首
3、先逆向考虑一个简单的问题就是假 如你只面对 2 个人的情况,当你只碰到倒数第一个人时,我们认为他的财富期望值为0.5,我们知道,你将选择与倒数第二个对象结婚时只有在他的财富值大于 0.5 的情况下,否则你 将与倒数第一个对象结婚。一般的,我们用VN表示倒数第一个人的财富期望值,用 WN 1表示表示倒数第二个人的财富值, 假设你的最优行动时在倒数第二步, 则倒数第二个人的财富 期望值为:VN 1 PN 1 E WN 1 WN 1 VN (1PN 1) VN这里 PN 1 P(WN 1 VN )一般的倒向递推公式就是:设 Pk P(Wk Vk 1),VNE(WN )VkPkEWkWkVk1(1Pk )Vk 1(1)k N 1 1Wk 是倒数第 k 个人的财富值, Vk是你在倒数第 k 阶段的最优策略的财富期望值。 如果我们把取 N 10,则此时我们可以算出 V1 0 8612.连续型动态规划问题确定性控制问题给定 x0, 考虑一个如下控制问题x(t) b(t x(t) u(t) ae t 0 Tx(0) x0( 2)u() 0T U是允许控制集, A0 T u() 在0 T上可测 , U
4、是一个度量空间 , T 0,b 0 T U 为一给定的映射 .则最优控制问题就是在控制系统( 2)的条件下极小化如下成本函数TJ(u() 0 f(t x(t) u(t)dt h(x(T) over A0 T(3)对于给定的映射 f 和 h。值函数的确定设 (s y) 0 T);在区间 s T 考虑以下控制系统:x(t) b(t x(t) u(t) ae t sT x(s) y 这里控制 u() AsT u()|u()是区间sT 上可测函数。 则成本函数就是如下函数:TJ(s yu() f(t x(t) u(t)dt h(x(T)s现在我们来定义如下形式的值函数:V(sy) infu() AsTJ(syu() for any(s y) 0T)V(T y) h(y)(4)这里值函数就是在允许控制集的范围内, 找出所有成本函数中的极小化函数并且满足一定的 终止条件的函数。定理 1.贝尔曼最优化原理 假设 U 是可分的度量空间 , f 和 h 是一致连续,并且存在常数 L 0 使得对于(t x u) b(t x u) f (t x u) h(x) , | (t x u) (t x?u)| L|
《动态规划与随机控制》由会员工****分享,可在线阅读,更多相关《动态规划与随机控制》请在金锄头文库上搜索。
2023年银行柜员实习总结范本(二篇).doc
《都是为你好》观后感精选篇900字都是为你好观后感500字
小学优秀班干部主要事迹中学优秀班干部事迹材料
新民居示范村建设思考
延期还款合同协议范本
2023年浙江省金华市义乌市上溪镇金傅宅村社区工作人员考试模拟题含答案
五年级数学期末复习综合卷
给喜欢的女生送什么样的生日礼物会更好
煤矿通风队培训计划
2023年大荔县中医医院紧缺医学专业人才招聘考试历年高频考点试题含答案解析
全民健身信息化建设项目招商方案【参考范文】
2023年9月班主任工作总结.doc
复件试题摘录八年级上[精选文档]
销售员工转正申请书五篇
精选学习立德树人教师心得范文
2023年瑞士 酒店管理
消费者消费习性问卷调查
药剂科工作职责
2022-2023年证券一般从业考试模拟试题含答案(300题)套卷222
鞍山电动工具技术研发项目实施方案【模板范本】
2022-09-05 4页
2023-02-26 3页
2023-11-24 3页
2024-02-15 14页
2023-03-15 24页
2023-07-21 11页
2024-02-02 14页
2023-01-27 14页
2022-08-07 33页
2023-11-27 9页