
基于多变量决策树的旅游线路设计应用研究.doc
8页基于多变量决策树的旅游线路设计应用研究摘要作为成功的旅行的基础,旅游线路的设计日益受到重视本文在对旅 游线路设计方法进行分析研究的基础之上,依据应用实际,通过改进原有 多变量决策树的生成算法,提出了旅游线路设计多变量决策树构造方法 该方法在有效继承多变量决策树可减少属性重复测试和减小决策树规模 的优点的同时,可以直观的显示出影响空间内景点选择的核心要素以及线 路规划的决策结果关键词】旅游线路设计粗糙集多变量决策树属性的相对核1引言伴随着经济社会的发展和对更高生活品质的追求,旅游愈发成为了人 们休闲娱乐生活的重要组成部分旅游线路的设计,作为一次成功旅行的 基础,自然也愈发受到旅行者和旅游组织者或旅游产品提供者的重视不 同消费者对旅游目的地有偏好选择,消费同一旅游产品的形式也可能不 一,旅游需求的多样化要求旅游组织者或旅游产品提供者设计更加丰富、 多样、合理的旅游产品以满足市场的需求在研究旅游线路设计方面,有一定代表性的方法包括通过对旅游者有 显著影响的教育程度、年龄、职业等方面的分析,构造TRDI指标分析并 设计旅游线路;有利用近似算法求解旅游路线的最佳图论模型和数学模 型;有用精确约束算法、启发式算法求解收益最大化的线路;以及改进的 自适应蚁群算法构建个性化旅游线路设计模型。
本文将利用基于粗糙集理论构建多变量决策树理论,构造多更为简 便、直观的旅游线路决策树该树将目的地属性与其他属性相结合,使得 决策树的路径可以直观的表示出推荐的旅游路线此外,一方面,有效避 免了传统决策树在构造过程中某些属性或路径被多次检验和子树的重复; 另一方面,使得基于不同需求而得出的旅游线路设计结果以更加简明的方 式被表达、便于理解和应用2问题描述与算法设计2.1问题描述虽然旅游者具有一些共同的心理特征和需求,各个旅游产品所面临的 客源总体上是大致重合的但是由于兴趣、性格、能力的差异,旅游者对 旅游产品的需求往往存在着差别,即便同一种旅游线路,对于不同人的效 用也是不一样的为了使不同的旅游者获得更好的旅游体验,旅游产品提 供者有必要细分不同旅游者的需求,提供更具针对性的旅游选择以供选 择通常,将旅游空间划分为大、中、小三个尺度,本文重点讨论中尺度 的旅游空间,以成都市为例讨论城市内部的旅游空间决策树是一种类似于流程图的树结构,其在每个非叶节点上表示在一 个属性上的测试跟踪一条由根到叶的路径,该叶节点就存放着该院组的 类预测它获取的知识用树表示,直观易懂,且具有很好的准确率但普 通决策树也可能因为某些属性被多次测试而导致重复和冗余。
为了,避免 这一问题的发生,引入了多变量决策树的概念多变量决策树将核心属性 组筛选出来优先测试,有效减少了属性的重复检测,从而提高了决策树的 效率本文利用前期随机抽样问卷调查所得的成都旅游者的旅游行为空间 偏好调查结果作为训练集,基于粗糙集理论及本文提出的应用的具体需求 构造多变量决策树,该树利用目的地属性与其他属性共同构成多变量测试 属性,可以直观的表示出对具有不同需求的旅游者的旅游线路进行设计并 做出分类决策2. 2旅游线路设计多变量决策树生成算法(1)定义1:设U是感兴趣的对象组成的有限集合,称为论域R是定 义在U上的一个等价关系U/R表示R在U上到处的划分[x]R表示包含x 的R的等价类xeUo在粗糙集理论中,将序对(U, R)称为一个近似空间 任何子集XU,称为一个概念对每个概念X可定义下、上近似如下:则称{Zl, Z2, Zn+1}在U上确定的等价关系为P相对于Q的泛化,记作 GENQ (P)o本文根据上述相对核的定义,结合文中提出的具体应用,选取对于决 策属性至关重要的核心属性组和0的地属性作为决策树的根结点,以下述 步骤构造旅游线路设计多变量决策树:输入:训练数据集,候选属性集C,目的地属性输出:决策树方法:(1) 将训练数据集中的连续型数据离散化。
2) 计算条件属性C对于决策属性D的核,记作CORED (C)o(3) if CORED (C)为空 then 转(6)4) else 不妨设 CORED (C)={al, a2,…,ak} 0(5) 令P=alAa2A-Aak,计算P相对于D的泛化GEND (P),将 它和目的地属性作为决策树的根节点,转(7)6) 用C4. 5的方法计算每个节点的信息增益率GainRatio (A),选 择信息增益率最大的节点作为最佳属性,令最佳属性和目的地属性成为该 节点的检验7) 用C4. 5的方法计算其他每个节点的信息增益率GainRatio (A), 选择信息增益率最大的结点作为最佳属性,令最佳属性为该节点的检验8) 若未到达叶节点,则继续调用本算法9) 否则,返回决策树3仿真实验与结果分析3. 1仿真实验本文利用前期随机抽样问卷调查所得的成都旅游者的旅游行为空间 偏好调查结果作为训练样本从其中随机抽取17行作为实验样本该数 据位连续型样本,将其离散化,并进行属性约减后,结果如表1所示设给定如表1所示的实验样本数据,TID为标识符,兴趣、受教育程 度、年龄、工作、目的地所属区域、目的地为分类属性,决策为分类结果。
利用1.2节中算法构造旅游线路设计多变量决策树:(1)通过计算可得:U/I ND (C) =({1}, {2}, {3}, {4}, {5}, {6}, {7}, {8}, {9}, {10}, {11}, {12}, {13}, {14}, {15}, {16}, {17}} U/IND (D)二{{1, 2, 4, 6, 8, 10, 11, 13, 15, 16}, {3, 5, 7, 9, 12, 14, 17}}由定义 1 中的公式可得 POSTND (C) (D)={1, 2, 3, 4, 5, 6, 7, 8,9, 10, 11, 12, 13, 14, 15, 16, 17}=U考察“兴趣”属性在C中相对于D是否必要为此,去掉“兴趣”, 得:POSIND (C-{兴趣}) (D)二{1, 2, 3, 6, 7, 8, 9, 10, 13, 14, 15,16, 17}尹POSIND (C) (D),由定义2可知“兴趣”在C中是D-必要的同理可得,兴趣、受教育程度和职业是必要的,而其他各分类属性为 非必要的因此,CORED (C)二{兴趣,受教育程度,职业}2) 将CORED (C)与{目的地}一起,构造多变量检验。
令P二兴趣/\ 受教育程度八职业八日的地,则有:U/P={{1}, {2}, {3, 15}, {4}, {5},⑹,{7}, {8}, {9}, (10},(11}, {12), {13}, {14}, {16}, (17}}由定义3,可以计算出P相对于D的泛化在U上导出的划分为:由上述演算可知,年龄属性的信息增益率更大,将其选为下一检验属 性,并完成实验样本数据中旅游路线设计多变量决策树的构造,结果如图 1所示3.2结果分析本文依据旅游线路设计具体应用在原有多变量决策树构造算法基础 上构造的算法可以对所有训练样本集进行正确的分类,有效避免了随训练 集的增大而导致导出的单变量决策树迅速增大的缺陷并且,该多变量决 策树的使用,可以清晰地反馈出旅游者当前对于指定空间范围内景点选择 的核心要素同时,可以直观的反馈出推荐出行的旅游路线以及希望避免的旅游线 路例如:对于喜好人文景观的硕士及以上的高学历白领人士,可推荐其 游览金沙遗址博物馆和四川省博物院;而对于喜好自然景观的大学学历白 领人士则应在为其规划出行线路时避免四川省博物院等景点因此,旅游线路设计多变量决策树可以较好的完成旅游线路设计工作 任务。
4结论及进一步研究方向本文在原有的多变量决策树构造算法的基础之上,依据旅游线路设计 的具体需要,提出了旅游线路设计多变量决策树构造方法该方法较好的 继承了多变量决策树有效避免普通决策树某些属性被多次测试,及导出决 策树规模过大的优点的同时,可以直观体现出游客对景点选择的核心属性 及旅游线路设计的决策结果但该树在构造过程中,对于景点的地理位置间隔、景点间移动的交通 时间成本以及景点内的停留时间等旅游要素仍考虑不足,未来可进一步考 虑将上述要素加入到决策树的构造过程中,以期取得更好的旅游路线设计 效果参考文献[1] 吴必虎.上海市游憩者流动行为研究[J].地理学报,1994, 49 (2): 117-127.[2] 周尚意,李淑方,张江雪.行为地理与城市旅游线路设计一一以苏 州一口游线路设计为例[J].旅游学刊,2002, 17 (5): 66-70.[3] 陶卓明,高春亮.江苏环太湖地区旅游产品构成的系统分析和结构 优化[J].旅游学刊,2000, 15 (4): 33-37.[4] 冯爱芬.最佳旅游线路设计与算法[c].第二届中国智能计算大会 论文集,2008.[5] Berube J F, Gendreau M, Potvin J YAn exact 一 constraint method for bi — objective combinatorial optimization problems: application to the traveling salesman problem with prof its [J]. European Journal of Operational Research, 2009, 194 (1 ): 39-50.[6] Butt S E, Cavalier T M. A heuristic for the multiple tour maximum collection problems[J]. Computer& Operation Research. 1994, 21 (1): 101-111.[7] 张燕君,徐克林.基于模糊APACA的多目标团队个性旅游线路设计 [J].计算机工程与应用,2012, 48 (35): 207-212.[8] 苗夺谦,王珏.基于粗糙集的多变量决策树构造方法[J].软件学 报,1997, 8 (6): 425-431.[9] 苏州市旅游管理局,中山大学旅游发展与规划研究中心.苏州市旅 游总体规划(总文本评审稿)M.2001.[10] 魏小安.旅游发展与管理[M].北京:旅游教育出版社,1996.[11] 保继刚,楚义芳.旅游地理学[M].北京:高等教育出版社,1999.[12] Jiawei Han, Micheline Kamber.范明,孟小峰译.数据挖掘概念 与技术(2版)[M].北京:机械工业出版社,2007.[13] Pawlak Z. Rough sets: theoretical aspects of reasoning about data. Netherlands: Kluwer Academic Publishers, 1991.[14] 梁道雷,黄国兴,金健.一种多变量决策树方法研究[J].计算机 科学,2008, 35 (1): 211-212.作者简介张华(1977-),男,四川省自贡市人。
硕士学位现为四川旅游学院 信息技术系副教授研究方向为旅游电子商务、旅游信息化廖旺宇(1984-),男,四川省成都市人硕士学位现为四川旅游学 院信息技术系讲师研究方向为数据挖掘作者单位四川旅游学院信息技术系四川省成都市610100。
