好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第5章对抗搜索.ppt

58页
  • 卖家[上传人]:s9****2
  • 文档编号:584279746
  • 上传时间:2024-08-30
  • 文档格式:PPT
  • 文档大小:1.03MB
  • / 58 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第第5章章 对抗搜索对抗搜索中国科大中国科大 计算机学院计算机学院第第ⅡⅡ部分部分 问题求解问题求解胸胸梯梯问问稳稳摘摘腔腔怪怪曼曼佯佯计计蹈蹈铃铃笛笛反反啥啥雀雀泡泡帆帆涪涪秩秩澄澄艾艾仕仕沈沈墅墅弥弥号号猎猎迭迭酶酶拐拐武武第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 本章内容本章内容•5.1 博弈博弈•5.2 博弈中的优化决策博弈中的优化决策•5.3  - 剪枝剪枝•5.4 不完美的实时决策不完美的实时决策•5.5 随机博弈随机博弈•5.6 部分可观察的博弈部分可观察的博弈•5.7 博弈程序发展现状博弈程序发展现状•5.8 其他途径其他途径美美呜呜苛苛晤晤吁吁驾驾箍箍斥斥涌涌培培亭亭爱爱杠杠指指匿匿兑兑碳碳删删衰衰戮戮皋皋寺寺畴畴豁豁与与诀诀癌癌炙炙节节块块垦垦及及第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 5.1 博弈博弈•概述概述•Grundy博弈博弈剃剃怔怔惕惕钻钻曳曳漏漏据据睬睬蒋蒋惧惧焦焦内内急急专专殊殊蔗蔗窖窖山山伊伊船船嫌嫌查查润润瘁瘁泣泣恋恋蹲蹲刑刑嚎嚎梢梢析析侗侗第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 概述概述•在博弈问题中在博弈问题中——比如说象棋比如说象棋——搜索是在博弈者搜索是在博弈者双方之间进行的。

      双方之间进行的–任何一方在搜索时,都必须要考虑任何一方在搜索时,都必须要考虑对方对方可能要采可能要采用的走步用的走步–对于一个优秀的博弈者来说,应考虑的不只是对对于一个优秀的博弈者来说,应考虑的不只是对方方一步一步的走法,而是的走法,而是若干步若干步的走法–这一过程一般来说是这一过程一般来说是动态动态进行的在考虑若干步进行的在考虑若干步走法以后,下了一步棋;而在对方走棋之后,还走法以后,下了一步棋;而在对方走棋之后,还要再次考虑若干步走法,决定下一步的走法,而要再次考虑若干步走法,决定下一步的走法,而不是一劳永逸,搜索一次就决定了所有的走法不是一劳永逸,搜索一次就决定了所有的走法缄缄宛宛扮扮琵琵倍倍侦侦哥哥浊浊步步裴裴轰轰砰砰吮吮庇庇套套爵爵矿矿嘛嘛倒倒熟熟了了而而盛盛盒盒即即峦峦客客载载狐狐碉碉挞挞惶惶第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 概述概述•本章所讲的本章所讲的博弈博弈:主要指的是类似于象棋这样的游:主要指的是类似于象棋这样的游戏问题•这类问题有以下一些特点:这类问题有以下一些特点:①①双人对弈双人对弈,对垒的双方轮流走步对垒的双方轮流走步②②信息完备信息完备,对垒双方所得到的信息是一样的,不,对垒双方所得到的信息是一样的,不存在一方能看到,而另一方看不到的情况。

      存在一方能看到,而另一方看不到的情况③③零和零和即对一方有利的棋,对另一方肯定是不利即对一方有利的棋,对另一方肯定是不利的,不存在对双方均有利、或均无利的棋对弈的,不存在对双方均有利、或均无利的棋对弈的结果是一方赢,而另一方输,或者双方和棋的结果是一方赢,而另一方输,或者双方和棋谣谣量量话话混混慑慑弘弘刨刨脆脆栽栽赶赶呆呆啮啮拄拄前前达达橙橙躲躲糙糙区区汞汞赞赞艳艳脯脯鞭鞭姨姨寨寨详详烬烬乓乓九九黔黔穗穗第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 概述概述•双人完备信息博弈双人完备信息博弈::–指两位选手对垒,轮流走步,这时每一方不仅都指两位选手对垒,轮流走步,这时每一方不仅都知道对方过去已经走过的棋步,而且还能估计出知道对方过去已经走过的棋步,而且还能估计出对方未来可能的走步对方未来可能的走步–对弈的结果是一方赢(另一方则输),或者双方对弈的结果是一方赢(另一方则输),或者双方和局–这类博弈的实例有:这类博弈的实例有:一字棋、余一棋、西洋跳棋、一字棋、余一棋、西洋跳棋、国际象棋、中国象棋、围棋等国际象棋、中国象棋、围棋等•机遇性博弈机遇性博弈:存在不可预测性的博弈,例如掷币等。

      存在不可预测性的博弈,例如掷币等–例如:例如:西洋双陆棋西洋双陆棋绅绅蕊蕊判判除除鸡鸡翘翘瘪瘪孙孙痒痒驾驾赠赠扰扰晶晶钵钵骑骑崎崎芝芝懊懊牡牡戳戳均均焰焰敷敷锗锗岩岩七七靴靴俞俞付付绿绿粒粒牢牢第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 Grundy博弈博弈 •Grundy博弈博弈是一个分钱币的游戏是一个分钱币的游戏–有一堆数目为有一堆数目为N的钱币,由两位选手轮流进行分的钱币,由两位选手轮流进行分堆,要求每个选手每次只把其中某一堆分成数目堆,要求每个选手每次只把其中某一堆分成数目不等的两小堆不等的两小堆–例如,选手甲把例如,选手甲把N分成两堆后,轮到选手乙就可分成两堆后,轮到选手乙就可以挑其中一堆来分以挑其中一堆来分–如此进行下去,直到有一位选手先无法把钱币再如此进行下去,直到有一位选手先无法把钱币再分成不相等的两堆时就得认输分成不相等的两堆时就得认输•对于这样的简单博弈问题,可以生成出它的对于这样的简单博弈问题,可以生成出它的状态空状态空间图间图这样就有可能从状态空间图中找出取胜的策这样就有可能从状态空间图中找出取胜的策略 妙妙摹摹丫丫桔桔消消蝴蝴臭臭赶赶蹬蹬工工祸祸征征独独痘痘无无粤粤怕怕好好均均蜒蜒给给因因西西抢抢秉秉渐渐夏夏缸缸迂迂严严顶顶噎噎第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 Grundy博弈博弈•当初始钱币数为当初始钱币数为7时的状态空间图时的状态空间图 MIN代表对方走代表对方走MAX代表我方走代表我方走MAX存在完存在完全取胜的策略全取胜的策略兵兵伶伶娠娠床床配配蚜蚜抱抱捣捣晚晚龟龟津津瓢瓢多多藐藐戳戳蒋蒋插插叙叙灭灭坛坛耶耶抹抹硼硼澎澎临临瘟瘟些些胁胁竞竞躯躯搅搅吵吵第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 Grundy博弈博弈•搜索策略要考虑的问题:搜索策略要考虑的问题:–对对MIN走步后的每一个走步后的每一个MAX节点,必须证明节点,必须证明MAX对对MIN可能走的每一个棋局对弈后能获胜,即可能走的每一个棋局对弈后能获胜,即MAX必须考虑应付必须考虑应付MIN的所有招法,这是一个的所有招法,这是一个与与的含意。

      的含意•因此含有因此含有MAX符号的节点可看成符号的节点可看成与节点与节点–对对MAX走步后的每一个走步后的每一个MIN节点,只须证明节点,只须证明MAX有一步能走赢就可以,即有一步能走赢就可以,即MAX只要考虑能走出一只要考虑能走出一步棋使步棋使MIN无法招架就成无法招架就成•因此含有因此含有MIN符号的节点可看成符号的节点可看成或节点或节点•因此,对弈过程的搜索图就呈现出与或图表示的形式因此,对弈过程的搜索图就呈现出与或图表示的形式距距唤唤菇菇熙熙处处毡毡就就染染滇滇叫叫渠渠钧钧暂暂碌碌烘烘研研步步恬恬品品飘飘疡疡圭圭盾盾絮絮珊珊堰堰白白饶饶娇娇口口岩岩饶饶第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 Grundy博弈博弈•寻找寻找MAX的取胜策略的取胜策略和求和求与或图的解图与或图的解图相对应–MAX要取胜,必须对所有与节点取胜,但只需对要取胜,必须对所有与节点取胜,但只需对一个或节点取胜,这就是一个解图一个或节点取胜,这就是一个解图•因此,寻找一种取胜的策略就是搜索一个解图的问因此,寻找一种取胜的策略就是搜索一个解图的问题,题,解图解图就代表就代表一种完整的博弈策略一种完整的博弈策略。

      •对于对于Grundy这种较简单的博弈,或者复杂博弈的残这种较简单的博弈,或者复杂博弈的残局,可以用类似于与或图的搜索技术求出解图,解局,可以用类似于与或图的搜索技术求出解图,解图代表了从开局到终局任何阶段上的弈法图代表了从开局到终局任何阶段上的弈法–显然这对许多博弈问题是显然这对许多博弈问题是不可能不可能实现的例如,实现的例如,中国象棋,国际象棋和围棋等中国象棋,国际象棋和围棋等溉溉处处舞舞汪汪床床叔叔乌乌匣匣凶凶恰恰圆圆梦梦死死欧欧样样季季柜柜喷喷蔫蔫大大涅涅蓬蓬则则蠕蠕莫莫细细舟舟茫茫蛰蛰臼臼剐剐北北第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 Grundy博弈博弈•对于复杂的博弈问题,因此即使用了强有力的启发对于复杂的博弈问题,因此即使用了强有力的启发式搜索技术,也不可能使式搜索技术,也不可能使分枝分枝压到很少压到很少–因此,这种完全取胜策略(或和局)必须丢弃因此,这种完全取胜策略(或和局)必须丢弃•应当把目标确定为应当把目标确定为寻找一步好棋寻找一步好棋,等,等对手回敬对手回敬后再后再考虑寻找考虑寻找另一步好棋另一步好棋这种实际可行的实用策略这种实际可行的实用策略–这种情况下每一步的结束条件可根据这种情况下每一步的结束条件可根据时间限制、时间限制、存储空间限制或深度限制存储空间限制或深度限制等因素加以确定。

      等因素加以确定–搜索策略可采用宽度、深度或启发式方法一个搜索策略可采用宽度、深度或启发式方法一个阶段搜索结束后,要从搜索树中提取一个优先考阶段搜索结束后,要从搜索树中提取一个优先考虑的虑的"最好的最好的"走步,这就是实用策略的基本点走步,这就是实用策略的基本点 恿恿闽闽播播桅桅骡骡名名舌舌祁祁添添替替鼎鼎聚聚垦垦序序酷酷散散用用罩罩俱俱释释芥芥泄泄笛笛扛扛秤秤倘倘暇暇邦邦罪罪脑脑辊辊书书第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 本章内容本章内容•5.1 博弈博弈•5.2 博弈中的优化决策博弈中的优化决策•5.3  - 剪枝剪枝•5.4 不完美的实时决策不完美的实时决策•5.5 随机博弈随机博弈•5.6 部分可观察的博弈部分可观察的博弈•5.7 博弈程序发展现状博弈程序发展现状•5.8 其他途径其他途径蓖蓖不不威威垄垄斗斗廊廊邯邯抿抿抵抵像像侄侄缸缸浆浆葡葡藩藩股股玻玻高高联联抹抹炽炽赫赫再再启启哭哭擂擂挫挫许许何何遮遮历历薛薛第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 5.2 博弈中的优化决策博弈中的优化决策•极小极大值法极小极大值法•多人游戏中的最优决策多人游戏中的最优决策作作蕉蕉宇宇溃溃层层胃胃诌诌随随漆漆骋骋俗俗己己概概利利鄂鄂虱虱哟哟气气豪豪白白蛊蛊绕绕敝敝邑邑谐谐叉叉医医咳咳狮狮跋跋浪浪爷爷第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 极小极大搜索过程极小极大搜索过程•人类下棋的方法人类下棋的方法:实际上采用的是一种试探性的方:实际上采用的是一种试探性的方法。

      法–首先假定走了一步棋,看对方会有那些应法,然首先假定走了一步棋,看对方会有那些应法,然后再根据对方的每一种应法,看我方是否有好的后再根据对方的每一种应法,看我方是否有好的回应回应......–这一过程一直进行下去,直到若干步以后,找到这一过程一直进行下去,直到若干步以后,找到了一个满意的走法为止了一个满意的走法为止–初学者可能只能看一、两个回合,而高手则可以初学者可能只能看一、两个回合,而高手则可以看几个,甚至十几个回合看几个,甚至十几个回合•极小极大搜索方法:极小极大搜索方法:模拟的就是人的这样一种思维模拟的就是人的这样一种思维过程 陛陛剧剧寸寸玫玫搜搜换换昨昨罐罐彭彭饵饵痒痒鹤鹤旬旬徊徊叫叫峨峨潘潘九九釜釜忙忙田田怖怖蔼蔼伶伶崖崖仲仲霍霍棘棘娟娟渣渣陆陆颖颖第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 极小极大搜索过程极小极大搜索过程•极小极大搜索策略极小极大搜索策略是考虑双方对弈若干步之后,从可能的走是考虑双方对弈若干步之后,从可能的走步中选一步相对好棋的着法来走,即在步中选一步相对好棋的着法来走,即在有限的搜索深度有限的搜索深度范围范围内进行求解内进行求解•定义一个定义一个静态估计函数静态估计函数f,以便对棋局的势态(节点)作出优,以便对棋局的势态(节点)作出优劣估值。

      劣估值–这个函数可根据这个函数可根据势态优劣特征势态优劣特征来定义(主要用于对端节点来定义(主要用于对端节点的的“价值价值”进行度量)进行度量)–一般规定:有利于一般规定:有利于MAX的势态,的势态,f((p)取正值;有利于)取正值;有利于MIN的势态,的势态,f((p)取负值;势均力敌的势态,)取负值;势均力敌的势态,f((p)取)取0值–若若f((p)=+)=+∞,则表示,则表示MAX赢,若赢,若f((p)=-)=-∞,则表,则表示示MIN赢疚疚鸵鸵起起辽辽极极孩孩银银奇奇逃逃近近胖胖霓霓捣捣叭叭费费侨侨煮煮仔仔觉觉俘俘砸砸槐槐杉杉菏菏共共壶壶嘱嘱呻呻专专靠靠眩眩红红第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 极小极大搜索过程极小极大搜索过程•注意:注意:不管设定的搜索深度是多少层,经过一次搜不管设定的搜索深度是多少层,经过一次搜索以后,只决定了我方一步棋的走法索以后,只决定了我方一步棋的走法–等到对方回应一步棋之后,需要在新的棋局下重等到对方回应一步棋之后,需要在新的棋局下重新进行搜索,来决定下一步棋如何走新进行搜索,来决定下一步棋如何走•极小极大过程是一种极小极大过程是一种假定对手每次回应都正确假定对手每次回应都正确的情的情况下,如何从中找出对我方最有利的走步的搜索方况下,如何从中找出对我方最有利的走步的搜索方法。

      法 蓬蓬昌昌眨眨快快韭韭玻玻焕焕榜榜自自服服狠狠楼楼撼撼坪坪鸟鸟扼扼和和伸伸构构么么刑刑瀑瀑奄奄妮妮惨惨焦焦压压朋朋劲劲顽顽陋陋恍恍第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 极小极大搜索过程极小极大搜索过程•规定:规定:顶节点深度顶节点深度d==0,,MAX代表程序方,代表程序方,MIN代代表对手方表对手方MAX先走•例:例:一个考虑一个考虑2步棋的例子步棋的例子赋赋雾雾说说射射除除冯冯瞅瞅皋皋琐琐羹羹聂聂薄薄澡澡链链沛沛豌豌鼎鼎寇寇厌厌逐逐盂盂否否崇崇邢邢楔楔舱舱蛹蛹准准惰惰喻喻稳稳防防第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 极小极大搜索过程极小极大搜索过程•规定:规定:顶节点深度顶节点深度d==0,,MAX代表程序方,代表程序方,MIN代代表对手方表对手方MAX先走•例:例:一个考虑一个考虑2步棋的例子步棋的例子端节点给出的数字是用静态估计函数端节点给出的数字是用静态估计函数f((p)计算得到计算得到雇雇娶娶伦伦小小致致初初瘫瘫园园助助渴渴瞬瞬畜畜波波篓篓希希惩惩榴榴荣荣店店胺胺沪沪怯怯釜釜三三彦彦诸诸版版骚骚淑淑峙峙翠翠给给第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 过程过程MINIMAX ①① T:=(=(s,,MAX),),OPEN:=(=(s),),CLOSED:=(=( ););开始时树由初开始时树由初始节点构成,始节点构成,OPEN表只含有表只含有s。

      ②② LOOP1: IF OPEN=(=( ))THEN GO LOOP2;;③③ n:==FIRST(OPEN),,REMOVE(n,,OPEN),,ADD(n,,CLOSED);;④④ IF n可直接判定为赢、输或平局可直接判定为赢、输或平局THEN f((n)):==∞∨∨--∞∨∨0,,GO LOOP1ELSE EXPAND((n))→{ni},,ADD(({ni},,T)) IF d((ni)<)<k THEN ADD(({ni},,OPEN),),GO LOOP1 ELSE 计算计算f((ni ),),GO LOOP1;;ni达到深度达到深度k,计算各端节点,计算各端节点f值⑤⑤ LOOP2::IF CLOSED==NIL THEN GO LOOP3ELSE np:==FIRST((CLOSED););⑥⑥ IF((np∈∈MAX))∧∧((f((nci∈∈MIN)有值))有值)THEN f(( np )):==max{f((nci))},,REMOVE(np,,CLOSED);;若若MAX所有子节点均有值,则该所有子节点均有值,则该MAX取其极大值取其极大值IF (( np ∈∈MIN))∧∧((f(( nci ∈∈MAX)有值))有值)THEN f(( np )):==min{f((nci))},,REMOVE(np ,,CLOSED);;若若MIN所所有子节点均有值,则该有子节点均有值,则该MIN取其极小值。

      取其极小值⑦⑦ GO LOOP2;;⑧⑧ LOOP3::IF f((s))≠NIL THEN EXIT( END∨∨M(Move,,T) );;s有值,则有值,则结束或标记走步结束或标记走步悔悔埋埋凭凭北北园园钝钝呛呛墅墅猛猛功功补补箩箩赣赣漳漳衍衍嫡嫡堰堰贺贺社社酪酪穗穗玉玉牵牵缕缕除除攒攒冒冒遥遥蛾蛾嗓嗓窟窟炯炯第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 过程过程MINIMAX•该算法分两个阶段进行该算法分两个阶段进行:–第一阶段第一阶段②②~~④④::用宽度优先法生成规定深度的用宽度优先法生成规定深度的全部博弈树,然后对其所有全部博弈树,然后对其所有端节点端节点计算其静态估计算其静态估计函数值计函数值–第二阶段第二阶段⑥⑥~~⑧⑧::从底向上逐级求从底向上逐级求非端节点非端节点的倒的倒推估计值,直到求出初始节点推估计值,直到求出初始节点s的倒推值的倒推值f((s)为)为止,此时止,此时•等对手响应走步后,再以当前的状态作为起始状态等对手响应走步后,再以当前的状态作为起始状态s,重复调用,重复调用该过程壁壁哮哮皑皑藉藉蹭蹭竞竞举举幢幢灿灿硷硷滔滔赤赤隙隙琉琉磁磁担担临临宣宣乖乖傀傀什什畦畦县县收收释释诛诛狙狙圃圃弄弄惦惦上上舌舌第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 例:例:3×3棋盘的一字棋棋盘的一字棋•3×3棋盘的一字棋棋盘的一字棋:九宫格棋盘上,两位选手轮流在:九宫格棋盘上,两位选手轮流在棋盘上摆各自的棋子(每次一枚),谁先取得三子棋盘上摆各自的棋子(每次一枚),谁先取得三子一线的结果就取胜。

      一线的结果就取胜•假设:假设:–程序方程序方MAX的棋子用(的棋子用(×)表示;)表示;–对手对手MIN的棋子用(的棋子用(○)表示;)表示;–MAX先走抢抢宴宴袭袭昭昭督督酚酚钥钥映映乞乞粉粉澜澜树树焙焙廉廉镭镭桨桨启启诽诽西西涎涎潘潘圣圣剑剑却却根根归归肌肌汉汉述述绦绦屉屉醋醋第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 例:例:3×3棋盘的一字棋棋盘的一字棋•静态估计函数静态估计函数f((p))规定如下:规定如下:–若若p是是MAX获胜的格局,则获胜的格局,则f((p)=)=∞;;–若若p是是MIN获胜的格局,则获胜的格局,则f((p)=-)=-∞;;–若若p对任何一方来说都不是获胜的格局,则对任何一方来说都不是获胜的格局,则f((p)=)=(所有空格都放上(所有空格都放上MAX的棋子之后,的棋子之后,MAX的三子成的三子成线(行、列、对角)的总数-(所有空格都放上线(行、列、对角)的总数-(所有空格都放上MIN的棋子之后,的棋子之后,MIN的三子成线(行、列、对角)的三子成线(行、列、对角)的总数)的总数)•例例、当、当p的格局如下时,则可得的格局如下时,则可得f((p)=)=6--4==2。

      郑郑祝祝等等凛凛侈侈滁滁邵邵恰恰实实酝酝局局言言肾肾橡橡富富戌戌僵僵辰辰必必察察米米宿宿约约嗓嗓间间严严逸逸概概肥肥糠糠蓉蓉领领第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 •在搜索过程中,具有在搜索过程中,具有对称性对称性的棋局认为是同一棋局,的棋局认为是同一棋局,可以大大减少搜索空间可以大大减少搜索空间 对称棋局的例子对称棋局的例子例:例:3×3棋盘的一字棋棋盘的一字棋铱铱捎捎偶偶支支东东株株映映闪闪鸿鸿盼盼两两逾逾意意蒂蒂凤凤扶扶掉掉县县施施蘑蘑侮侮界界适适狞狞笑笑烛烛产产菊菊六六曙曙堵堵泳泳第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 例:例:3×3棋盘的一字棋棋盘的一字棋•假定假定考虑走两步的搜索过程考虑走两步的搜索过程,,利用棋盘对称性的条利用棋盘对称性的条件件,则第一次调用算法产生的搜索树为:,则第一次调用算法产生的搜索树为:咋咋绳绳昆昆吮吮阂阂瓦瓦汁汁鄙鄙樊樊檄檄铱铱也也欧欧典典吝吝哑哑裕裕匈匈醒醒氰氰娟娟扔扔光光蔷蔷苑苑桑桑奇奇邻邻柑柑炉炉狱狱巫巫第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 例:例:3×3棋盘的一字棋棋盘的一字棋•假设假设MAX走完走完第一步后,第一步后,MAX的对手是的对手是在在×之上的格子之上的格子下棋子,这时下棋子,这时MAX在新格局在新格局下调用算法,第下调用算法,第二次产生的搜索二次产生的搜索树为:树为:死死硒硒忌忌舌舌皮皮惟惟炭炭诛诛娠娠胁胁表表寻寻谴谴苛苛踩踩移移保保阴阴锗锗拔拔赛赛乱乱致致郁郁嫩嫩摩摩吨吨乞乞秘秘姜姜奔奔犬犬第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 例:例:3×3棋盘的一字棋棋盘的一字棋•类似地,第三次的搜索树为:类似地,第三次的搜索树为:至此至此MAX走完走完最好的走步后,最好的走步后,不论不论MIN怎么走,怎么走,都无法挽回败局,都无法挽回败局,因此只好认输了。

      因此只好认输了赌赌册册娄娄狱狱牙牙铅铅究究范范夹夹焉焉造造固固慢慢懒懒锦锦辆辆揪揪举举坏坏朗朗陀陀诡诡淄淄陌陌垃垃弦弦卤卤姑姑蒂蒂竿竿捎捎渗渗第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 博弈中的优化决策博弈中的优化决策•极小极大值法极小极大值法•多人游戏中的最优决策多人游戏中的最优决策踊踊胎胎重重摘摘称称嗣嗣乔乔名名酶酶沾沾戴戴冶冶猖猖箩箩柞柞铣铣蛹蛹这这咸咸讽讽丰丰力力抿抿襄襄锤锤啄啄鞘鞘宣宣酪酪坐坐蹈蹈喘喘第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 多人游戏中的最优决策多人游戏中的最优决策•许多流行的游戏允许许多流行的游戏允许多于两个多于两个的参加者的参加者•如何把极小极大思想推广到多人游戏中?如何把极小极大思想推广到多人游戏中?–在两人的在两人的零和零和游戏中,由于效用值正好相反,所游戏中,由于效用值正好相反,所以二维向量可以简化为一个单一值以二维向量可以简化为一个单一值–每个节点上的每个节点上的单一评估值单一评估值要替换成一个要替换成一个向量向量•例、例、一个有三个人一个有三个人A, B和和C的游戏中,每个节点都与的游戏中,每个节点都与一个向量一个向量相关联。

      相关联–对于终止状态,该向量给出了从每个人的角度出对于终止状态,该向量给出了从每个人的角度出发得到的状态效用值发得到的状态效用值切切没没码码叮叮箔箔鄙鄙蚂蚂顺顺告告奇奇制制鞘鞘命命缓缓玫玫束束蔷蔷慢慢啃啃箍箍滁滁教教琅琅泌泌殃殃纹纹寺寺烦烦预预闲闲孽孽硼硼第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 多人游戏中的最优决策多人游戏中的最优决策•一般来讲,节点一般来讲,节点n的的回传值回传值是该游戏者在节点是该游戏者在节点n选择选择的的效用值最高效用值最高的后继者的效用值向量的后继者的效用值向量漏漏寻寻句句秀秀梅梅数数箔箔豹豹绵绵零零梁梁苟苟蹈蹈擦擦嚏嚏胁胁料料捉捉爬爬含含支支允允顺顺甸甸扳扳帮帮嘛嘛啦啦眼眼豹豹赏赏租租第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 多人游戏中的最优决策多人游戏中的最优决策•多人游戏通常会涉及在游戏者之间出现多人游戏通常会涉及在游戏者之间出现正式或者非正式或者非正式联盟正式联盟的情况•随着游戏的进行,随着游戏的进行,联盟联盟会建立或解散会建立或解散–在多人游戏中,对每个游戏者来说,联盟是否是在多人游戏中,对每个游戏者来说,联盟是否是最优策略的一个自然结果?最优策略的一个自然结果?•违反盟约会损害社会声誉。

      违反盟约会损害社会声誉–游戏者要在游戏者要在毁约得到的直接利益毁约得到的直接利益和和被认为不可信被认为不可信任带来的长期弊端任带来的长期弊端之间寻求平衡之间寻求平衡劳劳浦浦点点漂漂谰谰湍湍卷卷镍镍唇唇健健威威拓拓稠稠明明化化梦梦脖脖岸岸手手删删凋凋喇喇常常绚绚唱唱卓卓谍谍叭叭望望每每管管夜夜第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 本章内容本章内容•5.1 博弈博弈•5.2 博弈中的优化决策博弈中的优化决策•5.3  - 剪枝剪枝•5.4 不完美的实时决策不完美的实时决策•5.5 随机博弈随机博弈•5.6 部分可观察的博弈部分可观察的博弈•5.7 博弈程序发展现状博弈程序发展现状•5.8 其他途径其他途径压压疾疾辖辖辉辉剩剩荫荫秦秦莽莽兹兹殉殉懂懂建建顿顿冕冕尘尘逞逞隘隘伙伙梯梯弘弘咽咽尸尸疮疮寻寻虑虑疥疥修修斥斥缘缘安安胸胸侣侣第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 剪枝的基本思想剪枝的基本思想•在极小极大搜索方法中,由于要生成指定深度以内在极小极大搜索方法中,由于要生成指定深度以内的所有节点,其的所有节点,其节点数将随着搜索深度的增加成指节点数将随着搜索深度的增加成指数增长数增长。

      –这极大地限制了极小极大搜索方法的使用这极大地限制了极小极大搜索方法的使用•能否在搜索深度不变的情况下,利用已有的搜索信能否在搜索深度不变的情况下,利用已有的搜索信息减少生成的节点数呢?息减少生成的节点数呢?樟樟讶讶晦晦搅搅罚罚惧惧露露帧帧尉尉灌灌纸纸堂堂操操障障圈圈锥锥准准烽烽既既异异昌昌情情宦宦灌灌孩孩列列娟娟枯枯赏赏踞踞婉婉铜铜第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 剪枝的基本思想剪枝的基本思想•设某博弈问题如下图所示:设某博弈问题如下图所示:箔箔桶桶膊膊死死寥寥三三跳跳充充靖靖冠冠赏赏哟哟杂杂叼叼脖脖车车禾禾摊摊颧颧扫扫吉吉铲铲镀镀浙浙枯枯纪纪痊痊淖淖褂褂寡寡憋憋汉汉第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 剪枝的基本思想剪枝的基本思想•α-β搜索过程的基本思想搜索过程的基本思想:把:把博弈树生成博弈树生成和和倒推估值倒推估值结合起来进行,再根据一定的条件判定,有结合起来进行,再根据一定的条件判定,有可能尽早可能尽早修剪掉一些无用的分枝修剪掉一些无用的分枝•为了使生成和估值过程紧密结合,采用为了使生成和估值过程紧密结合,采用有界深度优先有界深度优先策略策略进行搜索。

      进行搜索•当生成达到规定深度的节点时,就立即计算其静态估当生成达到规定深度的节点时,就立即计算其静态估值函数,而一旦某个非端节点有条件确定其倒推值时值函数,而一旦某个非端节点有条件确定其倒推值时就立即计算赋值就立即计算赋值狡狡头头给给唇唇券券灰灰砾砾币币壬壬氯氯屹屹黔黔之之鸳鸳勋勋蔽蔽央央情情殊殊锰锰牛牛姨姨妖妖督督勉勉在在筐筐梨梨胸胸户户挨挨滦滦第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 剪枝的基本思想剪枝的基本思想•极大值层的下界值称为极大值层的下界值称为α•极小值层的上界值称为极小值层的上界值称为β措措僳僳胶胶姻姻政政语语维维积积字字片片溉溉待待狂狂吱吱廊廊料料屏屏渐渐挥挥侄侄摇摇逝逝种种纵纵患患橙橙侣侣尖尖蒜蒜刮刮魂魂靡靡第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 α-β搜索搜索过程的剪枝规则过程的剪枝规则•α剪枝:剪枝:若任一极小值层节点的若任一极小值层节点的β值小于或等于它任一先辈极值小于或等于它任一先辈极大值层节点的大值层节点的α值,即值,即α(先辈层)(先辈层)≥β(后继层)(后继层),则可,则可中止中止该极小值层中这个该极小值层中这个MIN节点以下的搜索过程。

      这个节点以下的搜索过程这个MIN节点节点最终的倒推值就确定为这个最终的倒推值就确定为这个β值•β剪枝:剪枝:若任一极大值层节点的若任一极大值层节点的α值大于或等于它任一先辈极值大于或等于它任一先辈极小值层节点的小值层节点的β值,即值,即α(后继层)(后继层)≥β(先辈层)(先辈层),则可以,则可以中中止止该极大值层中这个该极大值层中这个MAX节点以下的搜索过程这个节点以下的搜索过程这个MAX节节点的最终倒推值就确定为这个点的最终倒推值就确定为这个α值 •根据这些剪枝规则,很容易给出根据这些剪枝规则,很容易给出α-β算法描述,显然剪枝后选算法描述,显然剪枝后选得的最好优先走步,其结果得的最好优先走步,其结果与不剪枝的与不剪枝的MINIMAX方法所得完方法所得完全相同全相同,因而,因而α-β过程具有较高的效率过程具有较高的效率排排磺磺细细耸耸柿柿撼撼武武绊绊蛹蛹犀犀迹迹背背陛陛矩矩惶惶炸炸沫沫炎炎恢恢鹰鹰绒绒维维倡倡拯拯松松取取懊懊秆秆京京凯凯营营恫恫第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 α-β搜索过程的博弈树搜索过程的博弈树 α-β剪枝举例剪枝举例•约定:约定:–在搜索过程中,节点的生成次序是从上到下,从在搜索过程中,节点的生成次序是从上到下,从左到右进行的。

      左到右进行的–图中带圈的数字,表示节点的计算次序在叙述图中带圈的数字,表示节点的计算次序在叙述时,为了表达上的方便,该序号也同时表示节点时,为了表达上的方便,该序号也同时表示节点–当一个节点有两个以上的序号时,不同的序号,当一个节点有两个以上的序号时,不同的序号,表示的是同一个节点在不同次序下计算的结果表示的是同一个节点在不同次序下计算的结果啦啦僳僳邮邮啪啪垮垮泥泥乎乎戴戴棠棠择择吟吟伯伯湛湛赋赋烽烽敌敌米米迢迢量量撤撤越越群群矣矣固固咨咨姥姥芳芳轿轿从从嗽嗽咐咐篡篡第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 α-β搜索过程的博弈树搜索过程的博弈树α-β剪枝举例剪枝举例恰恰丰丰烦烦媚媚秽秽终终检检黄黄宠宠告告杰杰汲汲苟苟萧萧稍稍爸爸俘俘损损菊菊宏宏证证剐剐介介肪肪杭杭锰锰疵疵机机它它聋聋蕾蕾捂捂第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 搜索过程搜索过程•在进行在进行α-β剪枝时,应注意以下几个问题:剪枝时,应注意以下几个问题:1.比较都是在比较都是在极小节点极小节点和和极大节点极大节点间进行的;极大间进行的;极大节点和极大节点的比较,或者极小节点和极小节节点和极大节点的比较,或者极小节点和极小节点间的比较是无意义的。

      点间的比较是无意义的2.在比较时注意是与在比较时注意是与“先辈层先辈层”节点比较,不只是节点比较,不只是与父辈节点比较当然,这里的与父辈节点比较当然,这里的“先辈层先辈层”节点,节点,指的是那些已经有了值的节点指的是那些已经有了值的节点3.只有一个节点的值只有一个节点的值“固定固定”以后,其值才能够向以后,其值才能够向其父节点传递其父节点传递逝逝究究词词毖毖檬檬辖辖宽宽彝彝蓖蓖衫衫苍苍马马替替赌赌淳淳韭韭幌幌漾漾礼礼疙疙蝴蝴纵纵屈屈企企贷贷曾曾秩秩尸尸赵赵让让贿贿勘勘第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索  - 搜索过程搜索过程•在进行在进行α-β剪枝时,应注意以下几个问题:剪枝时,应注意以下几个问题:4.α-β剪枝方法搜索得到的最佳走步与极小极大方剪枝方法搜索得到的最佳走步与极小极大方法得到的结果是法得到的结果是一致一致的,的,α-β剪枝并没有因为提剪枝并没有因为提高效率,而降低得到最佳走步的可能性高效率,而降低得到最佳走步的可能性5.在实际搜索时,并在实际搜索时,并不是不是先生成指定深度的搜索图先生成指定深度的搜索图,再在搜索图上进行剪枝再在搜索图上进行剪枝•如果这样,就失去了如果这样,就失去了α-β剪枝方法的意义。

      剪枝方法的意义•在实际程序实现时,首先规定一个搜索深度,然后按在实际程序实现时,首先规定一个搜索深度,然后按照类似于照类似于深度优先搜索深度优先搜索的方式,生成节点在节点的的方式,生成节点在节点的生成过程中,如果在某一个节点处发生了剪枝,则该生成过程中,如果在某一个节点处发生了剪枝,则该节点其余未生成的节点就不再生成了节点其余未生成的节点就不再生成了踩踩磅磅昨昨渤渤猴猴搏搏崎崎瑰瑰坊坊函函可可莉莉唁唁榜榜癸癸刨刨祈祈劝劝诌诌映映愉愉尸尸秸秸漂漂紧紧服服慷慷屋屋爱爱补补哟哟稚稚第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 剪枝的效率问题剪枝的效率问题 •若以若以最理想的情况最理想的情况进行搜索,即对进行搜索,即对MIN节点先扩展最低估值节点先扩展最低估值的节点(若从左向右顺序进行,则设节点估计值从左向右递的节点(若从左向右顺序进行,则设节点估计值从左向右递增排序),增排序),MAX先扩展最高估值的节点(设估计值从左向右先扩展最高估值的节点(设估计值从左向右递减排序),则当搜索树深度为递减排序),则当搜索树深度为D,分枝因数为,分枝因数为B时,时,Ø若不使用若不使用α-β剪枝技术,搜索树的端节点数为:剪枝技术,搜索树的端节点数为:Ø若使用若使用α-β剪枝技术,剪枝技术,可以证明理想条件下生成的可以证明理想条件下生成的端节点数最少,有端节点数最少,有纪纪盆盆鼎鼎窝窝咖咖亨亨位位墓墓厄厄帕帕梢梢咐咐秉秉淀淀擒擒坚坚味味序序膘膘赘赘脆脆染染蜘蜘溢溢褥褥搐搐粟粟详详撼撼坛坛扎扎澡澡第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 剪枝的效率问题剪枝的效率问题 •比较后得出比较后得出最佳最佳α-β搜索技术搜索技术所生成深度为所生成深度为D处的端处的端节点数约等于不用节点数约等于不用α-β搜索技术所生成搜索技术所生成深度为深度为D//2处处的端节点数的端节点数。

      –这就是说,在一般条件下使用这就是说,在一般条件下使用α-β搜索技术,在同搜索技术,在同样的资源限制下,可以向前考虑更多的走步数,这样的资源限制下,可以向前考虑更多的走步数,这样选取当前的最好优先走步,将带来更大的取胜优样选取当前的最好优先走步,将带来更大的取胜优势 沃沃杂杂罗罗孤孤庸庸耕耕贼贼均均撑撑冯冯藕藕爱爱沥沥穷穷畴畴桨桨勿勿牌牌独独畸畸奇奇度度款款夷夷验验从从维维剐剐脐脐橙橙睬睬哗哗第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 其他改进方法其他改进方法 •使用使用α-β剪枝技术,当不满足剪枝条件(即剪枝技术,当不满足剪枝条件(即α不大于不大于等于等于β )时,)时,若若β值比值比α值大不了多少或极相近值大不了多少或极相近,这,这时也可以进行剪枝时也可以进行剪枝–以便有条件把搜索集中到会带来更大效果的其他以便有条件把搜索集中到会带来更大效果的其他路径上,这就是中止对效益不大的一些子树的搜路径上,这就是中止对效益不大的一些子树的搜索,以提高搜索效率索,以提高搜索效率 •不严格限制搜索的深度,当到达深度限制时,如出不严格限制搜索的深度,当到达深度限制时,如出现现博弈格局有可能发生较大变化时博弈格局有可能发生较大变化时(如出现兑子格(如出现兑子格局),则应多搜索几层,使格局进入较稳定状态后局),则应多搜索几层,使格局进入较稳定状态后再中止,这样可使倒推值计算的结果比较合理,避再中止,这样可使倒推值计算的结果比较合理,避免考虑不充分产生的影响,这是等候状态平稳后中免考虑不充分产生的影响,这是等候状态平稳后中止搜索的方法。

      止搜索的方法咋咋抚抚禁禁舞舞炊炊龟龟簇簇挖挖兜兜准准遂遂垒垒趣趣雅雅跪跪辕辕搂搂昧昧入入彬彬袄袄劣劣邮邮奎奎蔽蔽吼吼傈傈垃垃烧烧两两的的姆姆第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 其他改进方法其他改进方法 •当算法给出所选的走步后,不马上停止搜索,而是当算法给出所选的走步后,不马上停止搜索,而是在原先估计可能的路径上再往前搜索几步在原先估计可能的路径上再往前搜索几步,再次检,再次检验会不会出现意外,这是一种增添验会不会出现意外,这是一种增添辅助搜索辅助搜索的方法 •对某些博弈的对某些博弈的开局阶段开局阶段和和残局阶段残局阶段,往往总结有一,往往总结有一些固定的对弈模式些固定的对弈模式–因此,可以利用这些知识编好走步表,以便在开因此,可以利用这些知识编好走步表,以便在开局和结局时使用局和结局时使用查表法查表法只是在进入中盘阶段后,只是在进入中盘阶段后,再调用其他有效的搜索算法,来选择最优的走步再调用其他有效的搜索算法,来选择最优的走步 姬姬讥讥辞辞茁茁番番剂剂矿矿捅捅沈沈剧剧颧颧臀臀拭拭甩甩芥芥哇哇胁胁割割戳戳役役皿皿始始师师烷烷泻泻使使伴伴筛筛斤斤垮垮跳跳笔笔第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 其他改进方法其他改进方法•以上这些方法还以上这些方法还不能不能全面反映人们弈棋过程实际所全面反映人们弈棋过程实际所使用的一切推理技术,也未涉及棋局的表示和启发使用的一切推理技术,也未涉及棋局的表示和启发函数问题。

      函数问题–高明的棋手对棋局的表示有高明的棋手对棋局的表示有独特的模式独特的模式•博弈过程中,若在一个短时期内博弈过程中,若在一个短时期内短兵相接短兵相接,进攻和,进攻和防御的战术变化剧烈,这些情况如何在搜索策略中防御的战术变化剧烈,这些情况如何在搜索策略中加以考虑?加以考虑?•基于极小极大过程的一些方法都基于极小极大过程的一些方法都设想对手走的总是设想对手走的总是最优走步最优走步,即我方总应考虑最坏的情况实际上,,即我方总应考虑最坏的情况实际上,再好的选手也会有失误,如何利用失误加强攻势,再好的选手也会有失误,如何利用失误加强攻势,也值得考虑也值得考虑•总之要真正解决具体的博弈搜索技术,有许多更深总之要真正解决具体的博弈搜索技术,有许多更深入的问题需要作进一步的研究和探讨入的问题需要作进一步的研究和探讨 酷酷懦懦述述步步租租烘烘浪浪汹汹渗渗恭恭惩惩钎钎泣泣没没之之灾灾训训育育旁旁傣傣嘎嘎杭杭孽孽洋洋伴伴酬酬他他诀诀澄澄舍舍篱篱金金第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 本章内容本章内容•5.1 博弈博弈•5.2 博弈中的优化决策博弈中的优化决策•5.3  - 剪枝剪枝•5.4 不完美的实时决策不完美的实时决策•5.5 随机博弈随机博弈•5.6 部分可观察的博弈部分可观察的博弈•5.7 博弈程序发展现状博弈程序发展现状•5.8 其他途径其他途径嗅嗅硬硬骑骑敞敞欣欣义义肪肪呸呸第第撼撼杯杯芋芋引引婴婴匀匀檬檬叭叭骂骂稗稗讲讲刷刷致致篡篡剃剃铸铸旗旗沫沫嗅嗅孝孝贾贾栅栅菲菲第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 不完整的实时决策不完整的实时决策•MINIMAX或或 – 剪枝算法剪枝算法–理想情况:理想情况:算法一直搜索,直到至少一部分空间算法一直搜索,直到至少一部分空间到达终止状态,从而对端节点做出准确评价。

      到达终止状态,从而对端节点做出准确评价–这样的搜索不现实这样的搜索不现实•实用方法:实用方法:–用可以估计棋局效用的用可以估计棋局效用的启发式评价函数启发式评价函数评价评价非终非终止节点止节点–用可以决策什么时候运用评价函数的用可以决策什么时候运用评价函数的截断测试截断测试取取代终止测试代终止测试亚亚剃剃雁雁侍侍花花模模兑兑畏畏含含出出裔裔蒸蒸汝汝褒褒借借罐罐颜颜拟拟赠赠崭崭姜姜纳纳申申暮暮龚龚碱碱趾趾女女庙庙鼎鼎诉诉匆匆第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•评价函数的设计:评价函数的设计:①①应该以和应该以和真正的效用函数真正的效用函数同样的方式对同样的方式对终止状态终止状态进行排序进行排序•效用函数效用函数(又称目标函数或者收益函数):对终止状(又称目标函数或者收益函数):对终止状态给出一个数值例如,在国际象棋中,结果是赢、态给出一个数值例如,在国际象棋中,结果是赢、输或平局,分别赋予+输或平局,分别赋予+1,-,-1或或0②②评价函数的评价函数的计算计算不能花费太多的时间!不能花费太多的时间!③③对于非对于非终止状态终止状态,评价函数应该和取胜的实际机,评价函数应该和取胜的实际机会密切相关。

      会密切相关佯佯汾汾皑皑季季奉奉氰氰沸沸猴猴虹虹凸凸寥寥酥酥懊懊釜釜象象沁沁筑筑顷顷泅泅喊喊牺牺森森岁岁贮贮评评哮哮振振城城盾盾寝寝掖掖沤沤第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•在计算能力有限情况下,评价函数能做到最好的就在计算能力有限情况下,评价函数能做到最好的就是是猜测最后的结果猜测最后的结果–例如,国际象棋并例如,国际象棋并不是几率游戏不是几率游戏,而且也确切知,而且也确切知道当前状态;但计算能力有限,从而导致结果必道当前状态;但计算能力有限,从而导致结果必然是不确定的然是不确定的•大多数评价函数的工作方式是大多数评价函数的工作方式是计算状态的不同特征计算状态的不同特征–例如,国际象棋中兵的数目、象的数目、马的数例如,国际象棋中兵的数目、象的数目、马的数目等等–这些特征一起定义了状态的各种这些特征一起定义了状态的各种类别类别或者或者等价类等价类–但因但因类别太多类别太多而几乎不可能去估计取胜概率而几乎不可能去估计取胜概率忽忽喜喜酝酝孤孤弥弥乃乃险险佣佣糠糠攀攀齿齿瞳瞳圆圆塞塞假假荚荚吕吕娱娱瓣瓣博博成成谅谅聚聚荣荣温温黑黑施施官官粪粪哄哄一一濒濒第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•大多数评价函数计算大多数评价函数计算每个特征单独的数值贡献每个特征单独的数值贡献,然,然后把它们结合起来找到一个总值。

      后把它们结合起来找到一个总值–加权线性评价函数加权线性评价函数每个每个wi是一个权值,是一个权值,fi是棋局的某个特征是棋局的某个特征蝴蝴咨咨湿湿冠冠诽诽据据改改渭渭脾脾跟跟解解用用椿椿抢抢睦睦鬼鬼吭吭称称砂砂辙辙缔缔链链妥妥快快札札讹讹畅畅胖胖驰驰九九孽孽仇仇第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•例如,例如,国际象棋的入门书中给出各个棋子的国际象棋的入门书中给出各个棋子的估计子力价值估计子力价值–兵值兵值1分;分;–马、象值马、象值3分;分;–车值车值5分;分;–后值后值9分–其它特征例如,其它特征例如,“好的兵阵好的兵阵”和和“王的安全性王的安全性”可能值可能值半个兵•把这项特征值简单相加就得到了一个对棋局的估计把这项特征值简单相加就得到了一个对棋局的估计•经验表明,如果其它都一样,则经验表明,如果其它都一样,则–在领先在领先超过超过1分分的可靠子力优势下很可能取得胜利;的可靠子力优势下很可能取得胜利;–3分分的优势几乎足以肯定取胜的优势几乎足以肯定取胜乖乖哼哼幻幻逝逝吃吃锈锈亨亨梢梢与与酪酪镀镀图图坝坝饥饥杏杏捣捣曝曝殖殖煎煎脑脑疥疥鸵鸵吼吼计计钻钻你你弥弥祟祟宣宣淑淑陛陛圃圃第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数((a)黑棋有)黑棋有1个马、个马、2个兵的优势,能够取胜。

      个兵的优势,能够取胜b)黑棋会被白棋吃掉皇后,从而失败黑棋会被白棋吃掉皇后,从而失败镭镭颠颠淌淌矾矾候候纺纺蚀蚀鞍鞍棍棍饼饼笔笔锡锡辕辕柯柯抽抽尼尼复复瘁瘁塑塑擞擞陕陕邻邻窘窘顿顿瘴瘴沫沫茸茸柠柠询询握握诧诧承承第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•加权线性评价函数的假设:加权线性评价函数的假设:每个特征的贡献独立于其每个特征的贡献独立于其它特征的值它特征的值–假设太强!假设太强!–例如,象赋予例如,象赋予3分忽略了象在分忽略了象在残局残局中能够发挥更大中能够发挥更大作用的事实作用的事实•当前国际象棋和其它游戏的程序也采用当前国际象棋和其它游戏的程序也采用非线性的特征非线性的特征组合组合拘拘端端忱忱仑仑肝肝距距爱爱荣荣祖祖镭镭耗耗槽槽税税以以耶耶秒秒圾圾跪跪靛靛内内傍傍原原癸癸轴轴虐虐腔腔牢牢哈哈劣劣西西螟螟台台第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 评价函数评价函数•注意:注意:特征和权值并不是国际象棋规则的一部分特征和权值并不是国际象棋规则的一部分–它们只是人类下棋的经验总结它们只是人类下棋的经验总结•在很难归纳这样的经验规律的游戏中,怎么办?在很难归纳这样的经验规律的游戏中,怎么办?–评价函数的权值可以通过评价函数的权值可以通过机器学习机器学习来估计。

      来估计罢罢困困早早赂赂喉喉瓶瓶蛮蛮框框副副走走瞥瞥侩侩烁烁镭镭重重旦旦割割脆脆留留想想炭炭百百曾曾南南掉掉探探闸闸捻捻汾汾哭哭津津秽秽第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 截断搜索截断搜索•最直接的控制搜索次数的方法:最直接的控制搜索次数的方法:设置一个固定的深设置一个固定的深度限制度限制•更鲁棒的方法:使用更鲁棒的方法:使用迭代深入搜索迭代深入搜索–具体实现:具体实现:不断加大深度优先限制首先为不断加大深度优先限制首先为0,接,接着为着为1,然后为,然后为2,依此类推依此类推–当时间用完时,程序就返回目前已完成的最深的当时间用完时,程序就返回目前已完成的最深的搜索所选择的招数搜索所选择的招数宋宋崔崔绣绣辆辆看看岸岸逢逢予予枉枉漏漏语语冻冻唤唤庙庙默默嘛嘛擦擦陨陨序序嗜嗜疗疗藻藻凹凹善善哇哇掌掌啦啦橡橡槛槛狙狙观观泻泻第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 截断搜索截断搜索•由于评价函数的近似性,这些方法可能导致错误由于评价函数的近似性,这些方法可能导致错误–需要更为复杂的需要更为复杂的截断测试截断测试•评价函数应该只用于那些评价函数应该只用于那些静止的棋局静止的棋局。

      –静止的棋局:静止的棋局:评价值在很近的未来不会出现大的评价值在很近的未来不会出现大的摇摆变化棋局摇摆变化棋局–例如,在国际象棋中,有很好的吃招的棋局对于例如,在国际象棋中,有很好的吃招的棋局对于只统计子力的评价函数来说就不能算时静止的只统计子力的评价函数来说就不能算时静止的•非静止的棋局非静止的棋局可以进一步扩展直到静止的棋局,这可以进一步扩展直到静止的棋局,这种额外的搜索称为种额外的搜索称为静止搜索静止搜索–有时候只考虑某些类型的招数,诸如吃子,能够有时候只考虑某些类型的招数,诸如吃子,能够快速地解决棋局的不确定性快速地解决棋局的不确定性捅捅凤凤宜宜振振氦氦赏赏帐帐贰贰霜霜臭臭抚抚莉莉僻僻歹歹寞寞奉奉擒擒纂纂措措呕呕失失赌赌趴趴泽泽土土循循坯坯侧侧尉尉魂魂溅溅姜姜第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 单一扩展和前向剪枝单一扩展和前向剪枝•单一扩展:单一扩展:搜索在给定的棋局中搜索在给定的棋局中一步一步明显好于其它明显好于其它招数的行棋招数的行棋–对对“一步明显好于其它招数的行棋一步明显好于其它招数的行棋”进行超过一进行超过一般深度限制的搜索般深度限制的搜索–目的:目的:避免地平线效应且不增加太多搜索代价。

      避免地平线效应且不增加太多搜索代价•前向剪枝:前向剪枝:在某个结点上不需要进一步搜索而直接在某个结点上不需要进一步搜索而直接剪枝–有危险!只在某些特殊的情况下使用才是安全的有危险!只在某些特殊的情况下使用才是安全的翼翼蛹蛹侣侣芋芋旗旗腑腑预预级级抖抖栋栋鸡鸡秽秽凭凭搽搽蔫蔫遮遮挺挺佩佩淋淋聊聊蔓蔓棋棋所所武武抓抓色色颖颖想想某某汰汰华华倦倦第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 不完整的实时决策不完整的实时决策•假设已经实现:假设已经实现:–国际象棋的评价函数国际象棋的评价函数–使用静止搜索的合理截断测试使用静止搜索的合理截断测试–一个很大的调换表(存储以前见过的棋局的哈希表一般被一个很大的调换表(存储以前见过的棋局的哈希表一般被称做称做调换表调换表))•若在若在“最新的最新的PC”上可每秒生成和评价约一百万个节点,则上可每秒生成和评价约一百万个节点,则允许我们在标准的时间控制下(每步棋允许我们在标准的时间控制下(每步棋3分钟)对每步棋可搜分钟)对每步棋可搜索约索约2亿个节点亿个节点–国际象棋的分支因子平均为国际象棋的分支因子平均为35,,355约为约为5亿–如果使用极大极小搜索,只能向前预测如果使用极大极小搜索,只能向前预测5层层,很容易被平,很容易被平均水平的人类棋手欺骗。

      均水平的人类棋手欺骗–如果使用如果使用alpha-beta搜索,可以预测大约搜索,可以预测大约10层层,接近专业,接近专业棋手水平棋手水平屹屹狂狂呢呢涎涎须须塘塘弥弥棕棕坡坡纤纤淀淀驼驼哄哄阜阜约约陈陈顷顷药药捧捧盖盖韩韩缉缉律律见见釜釜区区槛槛师师语语顷顷吭吭刃刃第第5章章对对抗抗搜搜索索第第5章章对对抗抗搜搜索索 。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.