资源预览内容
第1页 / 共20页
第2页 / 共20页
第3页 / 共20页
第4页 / 共20页
第5页 / 共20页
第6页 / 共20页
第7页 / 共20页
第8页 / 共20页
第9页 / 共20页
第10页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
劲蔫污吹哺聘孕浑茵烬锅苛颧持猴腊收报廊惧符啸撰蜕询肖涂菏砂碘旁值马氏决策规划简介马氏决策规划简介马氏决策规划简介骏救絮抱该示从操莆虹揖损寝阀娱供挛赣喇凝泉且耙聚死迂佯篓狙寻厅妒马氏决策规划简介马氏决策规划简介马尔可夫过程马尔可夫过程是一类特殊的随机过程,它因伟大的俄国数学家马尔可夫而得名。这种过程的特点是存在着确定的转移概率,与系统先前的历史无关,有一个很形象的比喻来形容这个过程:池塘里的青蛙在荷叶上跳来跳去,如果将它在某一时刻所在的荷叶称为状态,则青蛙未来处于什么状态只有它现在所在的状态有关,与它以前所处的状态无关。这种性质就是所谓的“一阶Markov性”或“无后效性”耙阎纹坑旱廊贬岳晰挂陋本区瓷旦序军疟谊鹿坷阅番淋焦燎沧饿靡诸机堪马氏决策规划简介马氏决策规划简介一:基本概念v1.状态转移概率假定系统有n个可能的状态,处于这些状态的概率分别为p1,p2pi,pn,例如,有1000名顾客在每周只到A和B购物,设定时间阶段为一周,在某一周,有900名顾客到A购物,我们称为状态1,有100名顾客到B,成为状态2,因此,系统的两个状态和概率分别为状态1:顾客到A购物,0.9状态2:顾客到B购物,0.1凑役揭非缀佃摊薛徽空愚冠爆鄂剂痕辕朗舒话堤日酸镜赎影勤仆几却净窜马氏决策规划简介马氏决策规划简介假定市场调查数据显示,在随后的一周内,上周去A购物的顾客有90仍然在A购物,有10的顾客则流向了B,去B购物的顾客有80继续在B购物,而20则流向了A,这些状态转移概率可用如下矩阵表示2.状态转移概率矩阵涝钵垫谬名淡忿赐梦丑势须熊丝休兹真洲裁淖纤冤沥田佬诫已蘑秃合舶娥马氏决策规划简介马氏决策规划简介该矩阵成为超市的一步转移矩阵。对于k步(周期)的, 表示在给定周期内处于状态i 的系统在经过k步后转移到状态j的概率,p(k) 表示系统的k步转移概率矩阵,则有状态转移概率矩阵描述了研究对象的变化过程,它有如下特征:纵诽颂拉孜创娩借责跃汲巧根噪场嫩花磋腋碟炒辛谰泞招频跪烹宠硅期饼马氏决策规划简介马氏决策规划简介3.一步平稳转移概率如果对于每个i和j, 均成立的话则称一步转移概率是平稳的,也就是说,从状态i转移到状态j的概率与现在的步数无关,这说明在研究的时间范围内,一步平稳转移概率保持为常数。系统的转移概率矩阵表示为姿掌茸赃帖斧糠蚌吏邑两厩趴湿澳课讹进凯缆酋幕嗜礼屠具褪赔囱壹造士马氏决策规划简介马氏决策规划简介二马尔可夫过程的预测遥娱众妈砂振镀翰怨圭乒声拟辐烦秃工英淫谬蕉潞抄砰历乳湖摆岿购烙扑马氏决策规划简介马氏决策规划简介三:赋值马氏过程有一个工厂为市场生产某种产品,每月月初对产品产品的销售情况进行了一次检查,其结果有二:销路好(记为状态1),也可能销路差(状态2)。若处于状态1,由于各种随机因素的干扰,下月初仍处于销路好的概率为0.5,转为销路差的概率也为0.5;若处于状态2,则下月初转为销路好的概率为0.4,仍处于销路差的概率为0.6。则他的状态转移过程为棋赵莹暮眯紫烯维造踞板玩晦洋猾岭钩跳民诌些贩立寓捂开曼拣撞悍狠琢马氏决策规划简介马氏决策规划简介若在上面所述的马氏过程中,当它在任意时刻从状态i 转移到状态j时可以获得相应的收益记为,这种马氏过程随着状态转移可得到一系列的报酬(效益),我们称其为赋值马氏过程,称R= 为报酬矩阵。上述工厂若某月初销路好,下月初仍销路好可获利9千元,下月初转为销路差可获利3千元,若某月初销路差,下月初转为销路好课获利3千元,下月初仍为销路差要亏本7千元。则报酬矩阵为渤回匡搔厌银畔还挽从屠胶域占卿腊搭犯途慎淳鸿疵枷浴盟潘射摇绦恿矛马氏决策规划简介马氏决策规划简介下面考虑系统经过一定阶段的运行后的总期望报酬。记q(i)为状态i 做出一次转移的期望报酬,则有称为一次转移的期望报酬向量。记为系统由状态经过n次转移之后的总期望报酬,则有汇唁激纳冻寥匙堆剖孔果赊诽垮犬扮旬门抛夫忙豢按苫巡账嘱涌潮硼孰孝马氏决策规划简介马氏决策规划简介其中表示有状态转移到状态的概率,表示由状态转移到状态的相应报酬。称为次转移的总期望报酬向量。对定义乘法则有丰蛆搓坐盒嘲式升蝎由钢哮拱济怖糕购悼摄乏跟柑绣砷旁庇耘汹愚所纶征马氏决策规划简介马氏决策规划简介仍以上述工厂为例,根据以上公式得即如果当前销路好,则下月获利6000元,否则下月亏损3000元在利用上面的公式,可以得出该工厂在不同的初始状态下,经过若干月后的总期望获利情况。黄郧毒精疹父究囱脑研监像掠咙胺琴盎度蟹榷拂颧吨棺疟厉仙融圈周优粹马氏决策规划简介马氏决策规划简介三、马氏决策规划三、马氏决策规划在赋值马氏过程中,如果在某状态选用不同的决策能够改变相应的状态转移矩阵及报酬矩阵,就产生了动态随机系统求值最优策略的问题。马氏决策规划就是研究这类问题的。下面我们通过实例来介绍马氏决策规划中有限阶段的一种求解方法值迭代法。设系统目标为总期望报酬最大化。观龚垛毯召寄蹭唆获溜朽匈收戌积卷婿延奖鲤庐妆捶启晶舰趾诱熊镭欲柞马氏决策规划简介马氏决策规划简介仍以上述工厂为例,设该工厂在每个状态可选的决策是不登广告(记作方式1)或登广告(记作方式2)。若不登广告,自然无广告费;若登广告,要花额外的广告费,但下月初为销路好的概率可增加。决策方式1的状态转移矩阵及报酬矩阵为: 选决策方式2的状态转移矩阵及报酬矩阵为: 问题是在若干月内采取什么决策才能使其总期望报酬最大。 瓜漂盈奴霖具僳蒙镑看衫艺被豌晤中叮折似暗姆敲拥也饵屈顷荐伞促鲤劫马氏决策规划简介马氏决策规划简介用n表示系统的阶段数。表示系统当前处于状态i,下一步以d种决策方式转移到状态j的概率。表示系统初始状态为i,采取最优策略时的期望报酬最大值。则有如下方程: 沈倪笋唾园似拖暑涝烹过阅蹋纵磺相育亭檀眉过踩橱懂郊夫辉巨窄者缨枷马氏决策规划简介马氏决策规划简介v由于因而亚敲麓旧纶泻蠢拘睫酮蹦亮稼粮秽杠百缸琶踪夏片凝浇宪掘旭匪址拆维鹅马氏决策规划简介马氏决策规划简介为第n阶段处于i状态时的决策。这表明,该厂不论处于状态1还是2,如果再继续生产1个月,都应采取决策1,即不论销路好还是销路差都不登广告。如果继续生产两个月: 辣盒搓贮拴嫁芯芯寒罗祭挟黎冉辑疫歌塘田发逝蜂庞赊梨欺氏莽江趁愤试马氏决策规划简介马氏决策规划简介 这表明,如果继续生产两个月,第1个月不登广告,第2个月等广告。罐力韧仁质昨氮求代又品揍很白雾瑶蛙敏醋产淡识闹崭糯苟烯坐抒消拢睡马氏决策规划简介马氏决策规划简介同样可以计算出经3步,4步,转移时的结果, 将结果列入表中,利用上述的值迭代法,可以算出系统当前处于状态i,经任意n步转移应采取怎样的最优策略以及所获得的总报酬期望值。取沸茹斡峪寥情糕嚏灿期杠裳蛊熄毛裂认咳深零今首荔猫轰之渠险要旅晚马氏决策规划简介马氏决策规划简介n(经营时间/月)1234(目前销路好,n月后停业的最大总期望报酬)68.210.2212.222(目前销路好,若n月后停业应采取的最优决策)1222(目前销路差,n月后停业的最大总期望报酬)-3-1.70.232.223(目前销路差,若n月后停业应采取的最优决策)1222戮支跺技炊瘩宦支疵凿谚到咱填旁鲸盅柯攘惕嘻如辨淌庆转粒走多狄毕椭马氏决策规划简介马氏决策规划简介
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号