电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

决策树和随机森林实验

6页
  • 卖家[上传人]:re****.1
  • 文档编号:508288004
  • 上传时间:2023-07-02
  • 文档格式:DOCX
  • 文档大小:37.82KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、实验 算法 决策树和随机森林实验【实验名称】决策树和随机森林实验【实验目的】 掌握决策树和随机森林实验模型应用过程,根据模型要求进行数据预处理,建模,评价与应用; 【背景描述】决策树与随机森林,属于监督学习,通过纯化指标的计算,确定分支方式,逐步构建成树形结 构。决策树由节点(node)和有向边(directed edge )组成。节点的类型有两种:内部节点和叶 子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节 点表示一个分类。随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林 的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森 林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看 哪一类被选择最多,就预测这个样本为那一类。【知识准备】了解决策树与随机森林模型的使用场景,数据标准。了解Python/Spark数据处理一般方法。 了解spark模型调用,训练以及应用方法【实验要求】完成决策树和随机森林实验【实验设备】Wi ndows或Lin ux

      2、操作系统的计算机。部署Spark, Pytho n,本实验提供ce ntos6.8环境。【实验说明】采用UCI机器学习库中的wine数据集作为算法数据,训练决策树与随机森林模型,对样本进 行聚类。【实验环境】Spark 2.3.1,Pyrhon3.X,实验在命令行pyspark中进行,或者把代码写在py脚本,由于本 次为实验,以学习模型为主,所以在命令行中逐步执行代码,以便更加清晰地了解整个建模流程。【实验步骤】第一步:启动pyspark:命令行中键入pyspark -master local4本地模式启动spark与python :GCC 44J7 2DI2Q313 jiFLed Hatnn linuxTyp& help 匚口pyright 匚厂edits or litense for in口infonnationSLF4J! class pth contains: multiple 5LF4J bindings.SLF4Js Found binding in | j a n: file ; /o pt pa rk -2.3.1/ j rs /si f 4)- lo g4 j 12

      3、-1 ;7116. j r I /o rg /si f 4 j / ii pl /StaticLo gg erBinder. cl as s 1SLF+J: Found binding in jars file : /o pt ad oa p -3.1. G/s hia na/hada op fflimo n/lib/slf 4j -1 oq 4j 12 -1.7m25. j a r I /o rg zslf 4j /impl/sta t icLogge rflind er c lassSLF4J: See httpM/w-srfaj.cifgfcoclM.htnilLJltjLplEtiiLnciings for an explanation.SLF4J; Actuiial binding isi of type lorg.slMj.l叩Q ,L叩4jLoggisrF日cto”】2019-01-25 1D;41:16 WARM NativeCodeLoader;62 - Unable to load native-hadoop library for your platform,.,

      4、 using builtin-j Btra 匚lasses *dieri? applicable-Setting default log level toTo adjust logging level us:$ sc tsetLogLevel (newLevel . For SparkR. lis& sstLogLeve-KnewLevel .Welcome toUsing Python version 3.5.2 (default Jul 2 2016 I.?!:53-:06) SparkSession available as spark.4 |第二步:导入用到的包,并读取数据:将所需导入的包键入Spark Shell中,具体命令:from pyspark import SparkC onf, SparkC on textfrom pyspark.mllib.evaluation import MulticlassMetrics from pyspark.mllib.tree import Decisi on Tree, Ran domForestfrom pyspark.mlli

      5、b.regression import LabeledPoint读取数据紙具体命令(第一行由于word文档篇幅受限在Spark Shell中必须将他复制成一行, 否则会报语法错误,其他命令建议一行一行复制),数据源存放目录为 /opt/algorithm/decisionTreeAndRandomForest/wine.txt:wi ne_rdd二sc.textFile(ufile:/opt/algorithm/decisi on TreeA ndRa ndomForest/wi ne.txt).map(l ambda x: str(x).split(,).map(lambda x: float(z) for z in x) data = win e_rdd.map(lambda x: LabeledPo in t(x0 - 1, (x1:)(trainData, testData) = data.randomSplit(8.0, 2.0)train pyspark import 5parktonf, 5prkC-onteKtfram pyspark .mllib. evaluatio

      6、n iirport MulticlassMetrics from pyspark.mlldtjt已史 import DeisionTree, RandortiForest= f rain.mllibeg ressicn impart LabledPoint.j winerdd = sc.text Fike/data/La to rate ry/wire, txt). map(lambda 調;st r(x) - split C,1 H .nap (lambda f loat z ) for i in x)吉钙换为 LabeleiiPointi 八 data = wtne_rd-d,map lambda x: LabeledPctint x0 - 1T C x 1: 1 H 1(trainData, testData = data, r-andamSplitC B.Q , 2卫第三步:构建模型并应用在测试集,输出测试集准确率具体命令如下:(1)建立决策树模型model = Decisi on Tree.trai nClassifier(trai nData,n umClasses=3,c

      7、ategoricalFeatures In fo=, impurity二g ini,maxDepth = 5,maxB in s=32,mi nln sta ncesPerNode=1,mi nln foGa in二 0.0)利用建立好的模型做预测predictions = model.predict(testData.map(lambda x: x.features)predicti onsAn dLabels = predicti on s.zip(testData.map(lambda x: x.l abel)metrics = MulticlassMetrics(predicti onsAn dLabels)(3)打印预测信息pri nt(Decisi on Tree + str(metrics.precisi on()PR $ 决整柄迄丈號策第嶺型. rodel Dec i s ionT ree, e ra int la ss if ie r(t ra in Da ta.RunClai&.=3?工关别的觀冃cateDrlta 1 FeaturelnrD=Up宜岁前常定类别先摊

      8、”如4: 3黃示集n牛畫鬣为駅稱愛It共侗inpurilv-gifii11. #倍昱净苗计島方送可1S貫墩鰻与耳尼不现屣j頰认耳底不坏展-ma:Depth=5r # 樹 AL夫漏嚴maxBlnE=12p 袴征切间鸽GTSS.minins!ancesPcrNode-1.#目亍高中旦會宿本:小于迟介唱则读币虑不斥再騷貳分mininfoGain=0, #当节点的信恳宜捞巾于遑亍僮血1S节扁不金再裡划为I。札用確比好初哥型锲愠测 predictions mode 1predicttcstDatamaptIwnbtia k; a,fecilure)xa predicti口门匚曲MLEitiEl% = predLccions. zip(te*&cData.厂自pL日円口日日 w: x. label) retries - hlj Lt ic LassHEtrlcs (pre diet LonAnd La be Is) print Gee 15Lt!nJree r netrics, pnecis ionj De LiioinTr ee fl - g.66666&6B667第四步:构建随机森林模型并应用

      9、在测试集,输出测试集准确率(1).建立随机森林模型model_forest = Ran domForest.trai nClassifier(trai nData,n umClasses=3,categoricalFeatures In fo=,numTrees=1000,featureSubsetStrategy二auto,impurity二g ini,maxDepth = 5, maxB in s=32, seed = N one根据森林模型进行预测predicti ons2 = model_forest.predict(testData.map(lambda x: x.features)predicti onsAn dLabels2 = predicti on s2.zip(testData.map(lambda x: x.l abel)(3)打印预测信息metrics2 = MulticlassMetrics(predicti onsAn dLabels)print(RandomForest + str(metrics2.precision()z *生立陆机宾悴!仆.rodel_fore5E - RandoHFofesttLer ttfaInDaTipHurCi.as5e5-3P 序曼別Kiil 目cat冈q前推定晏剤空 MHik订杏汰鼻片b 1 为杯总

      《决策树和随机森林实验》由会员re****.1分享,可在线阅读,更多相关《决策树和随机森林实验》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.