您所在位置：网站首页 > 学术论文 > 其它学术论文决策树和随机森林实验

决策树和随机森林实验

6页

卖家[上传人]：re****.1

文档编号：508288004

上传时间：2023-07-02

文档格式：DOCX

文档大小：37.82KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 6 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、实验算法决策树和随机森林实验【实验名称】决策树和随机森林实验【实验目的】掌握决策树和随机森林实验模型应用过程，根据模型要求进行数据预处理，建模，评价与应用；【背景描述】决策树与随机森林，属于监督学习，通过纯化指标的计算，确定分支方式，逐步构建成树形结构。决策树由节点（node）和有向边（directed edge ）组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具有不同特性的记录），叶子节点表示一个分类。随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。【知识准备】了解决策树与随机森林模型的使用场景，数据标准。了解Python/Spark数据处理一般方法。了解spark模型调用，训练以及应用方法【实验要求】完成决策树和随机森林实验【实验设备】Wi ndows或Lin ux

2、操作系统的计算机。部署Spark, Pytho n，本实验提供ce ntos6.8环境。【实验说明】采用UCI机器学习库中的wine数据集作为算法数据，训练决策树与随机森林模型，对样本进行聚类。【实验环境】Spark 2.3.1，Pyrhon3.X，实验在命令行pyspark中进行，或者把代码写在py脚本，由于本次为实验，以学习模型为主，所以在命令行中逐步执行代码，以便更加清晰地了解整个建模流程。【实验步骤】第一步：启动pyspark:命令行中键入pyspark -master local4本地模式启动spark与python :GCC 44J7 2DI2Q313 jiFLed Hatnn linuxTyp& help 匚口pyright 匚厂edits or litense for in口infonnationSLF4J! class pth contains： multiple 5LF4J bindings.SLF4Js Found binding in | j a n： file ； /o pt pa rk -2.3.1/ j rs /si f 4)- lo g4 j 12

3、-1 ；7116. j r I /o rg /si f 4 j / ii pl /StaticLo gg erBinder. cl as s 1SLF+J： Found binding in jars file ： /o pt ad oa p -3.1. G/s hia na/hada op fflimo n/lib/slf 4j -1 oq 4j 12 -1.7m25. j a r I /o rg zslf 4j /impl/sta t icLogge rflind er c lassSLF4J: See httpM/w-srfaj.cifgfcoclM.htnilLJltjLplEtiiLnciings for an explanation.SLF4J； Actuiial binding isi of type lorg.slMj.l叩Q ,L叩4jLoggisrF日cto”】2019-01-25 1D；41：16 WARM NativeCodeLoader；62 - Unable to load native-hadoop library for your platform,.,

4、 using builtin-j Btra 匚lasses *dieri? applicable-Setting default log level toTo adjust logging level us：$ sc tsetLogLevel (newLevel . For SparkR. lis& sstLogLeve-KnewLevel .Welcome toUsing Python version 3.5.2 (default Jul 2 2016 I.?!：53-:06) SparkSession available as spark.4 |第二步：导入用到的包，并读取数据：将所需导入的包键入Spark Shell中，具体命令:from pyspark import SparkC onf, SparkC on textfrom pyspark.mllib.evaluation import MulticlassMetrics from pyspark.mllib.tree import Decisi on Tree, Ran domForestfrom pyspark.mlli

5、b.regression import LabeledPoint读取数据紙具体命令(第一行由于word文档篇幅受限在Spark Shell中必须将他复制成一行, 否则会报语法错误，其他命令建议一行一行复制)，数据源存放目录为 /opt/algorithm/decisionTreeAndRandomForest/wine.txt:wi ne_rdd二sc.textFile(ufile:/opt/algorithm/decisi on TreeA ndRa ndomForest/wi ne.txt).map(l ambda x: str(x).split(,).map(lambda x: float(z) for z in x) data = win e_rdd.map(lambda x: LabeledPo in t(x0 - 1, (x1:)(trainData, testData) = data.randomSplit(8.0, 2.0)train pyspark import 5parktonf, 5prkC-onteKtfram pyspark .mllib. evaluatio

6、n iirport MulticlassMetrics from pyspark.mlldtjt已史 import DeisionTree, RandortiForest= f rain.mllibeg ressicn impart LabledPoint.j winerdd = sc.text Fike/data/La to rate ry/wire, txt). map(lambda 調；st r(x) - split C,1 H .nap (lambda f loat z ) for i in x)吉钙换为 LabeleiiPointi 八 data = wtne_rd-d,map lambda x: LabeledPctint x0 - 1T C x 1： 1 H 1(trainData, testData = data, r-andamSplitC B.Q , 2卫第三步：构建模型并应用在测试集，输出测试集准确率具体命令如下：(1)建立决策树模型model = Decisi on Tree.trai nClassifier(trai nData,n umClasses=3,c

7、ategoricalFeatures In fo=, impurity二g ini,maxDepth = 5,maxB in s=32,mi nln sta ncesPerNode=1,mi nln foGa in二 0.0)利用建立好的模型做预测predictions = model.predict(testData.map(lambda x: x.features)predicti onsAn dLabels = predicti on s.zip(testData.map(lambda x: x.l abel)metrics = MulticlassMetrics(predicti onsAn dLabels)(3)打印预测信息pri nt(Decisi on Tree + str(metrics.precisi on()PR $ 决整柄迄丈號策第嶺型. rodel Dec i s ionT ree, e ra int la ss if ie r(t ra in Da ta.RunClai&.=3?工关别的觀冃cateDrlta 1 FeaturelnrD=Up宜岁前常定类别先摊

8、”如4： 3黃示集n牛畫鬣为駅稱愛It共侗inpurilv-gifii11. #倍昱净苗计島方送可1S貫墩鰻与耳尼不现屣j頰认耳底不坏展-ma:Depth=5r # 樹 AL夫漏嚴maxBlnE=12p 袴征切间鸽GTSS.minins!ancesPcrNode-1.#目亍高中旦會宿本:小于迟介唱则读币虑不斥再騷貳分mininfoGain=0, #当节点的信恳宜捞巾于遑亍僮血1S节扁不金再裡划为I。札用確比好初哥型锲愠测 predictions mode 1predicttcstDatamaptIwnbtia k; a,fecilure)xa predicti口门匚曲MLEitiEl% = predLccions. zip(te*&cData.厂自pL日円口日日 w: x. label) retries - hlj Lt ic LassHEtrlcs (pre diet LonAnd La be Is) print Gee 15Lt!nJree r netrics, pnecis ionj De LiioinTr ee fl - g.66666&6B667第四步：构建随机森林模型并应用

9、在测试集，输出测试集准确率(1).建立随机森林模型model_forest = Ran domForest.trai nClassifier(trai nData,n umClasses=3,categoricalFeatures In fo=,numTrees=1000,featureSubsetStrategy二auto,impurity二g ini,maxDepth = 5, maxB in s=32, seed = N one根据森林模型进行预测predicti ons2 = model_forest.predict(testData.map(lambda x: x.features)predicti onsAn dLabels2 = predicti on s2.zip(testData.map(lambda x: x.l abel)(3)打印预测信息metrics2 = MulticlassMetrics(predicti onsAn dLabels)print(RandomForest + str(metrics2.precision()z *生立陆机宾悴!仆.rodel_fore5E - RandoHFofesttLer ttfaInDaTipHurCi.as5e5-3P 序曼別Kiil 目cat冈q前推定晏剤空 MHik订杏汰鼻片b 1 为杯总

《决策树和随机森林实验》由会员re****.1分享，可在线阅读，更多相关《决策树和随机森林实验》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源