电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

weka算法参数整理

31页
  • 卖家[上传人]:n****
  • 文档编号:89216326
  • 上传时间:2019-05-21
  • 文档格式:PDF
  • 文档大小:2.12MB
  • / 31 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、1. 关联算法关联算法 1.1. Aprior 算法 1.1.1. Apriori 算法 weka 参数界面 概要 实现 Apriori 关联规则挖掘算法,挖掘出给定参数条件下的关联规则。此迭代的减少最小支持度直到发现设定最小 置信度下的规则数目。 1.1.2. Apriori 算法参数配置说明 英文名称中文翻译默认值取值范围参数说明 car分类关联分析FalseFalse返回常规的关联分析规则 True返回指定分类属性的关联规则 classIndex分类属性索引-1-1,1,N int-1 代表最后一列,设置的数字代表相应的列作为分类属性;Car 为 True 时生效。 deltadelta0.05(0,1)每次迭代 upperBoundMinSupport 减少的数值, 直到最小支持度或设定规则数目。 lowerBoundMinSupport最小支持度下限0.1(0,upperBoundMinSupport )迭代过程中最小支持度的下限。 metricType度量类型confidenceConfidence (置信度)规则项集数目占规则前件数目比例;car 为 True,metri

      2、cType 只能用 confidence。 Lift (提升度)1 P(A,B)/P(A)P(B); 规则前件和规则后件同时发生的概率除以分布单独发生的概率 之积; Lift=1 时表示 A 和 B 独立,数值越大前后件关联性越强。 Leverage(杠杆率)P(A,B)-P(A)P(B);Leverage=0 时 A 和 B 独立,数值越大 A 和 B 的关联性越强。 Conviction(确信度) P(A)P(!B)/P(A,!B) (!B 表示 B 没有发生) Conviction 也是用来衡量 A 和 B 的 独立性。从它和 lift 的关系(对 B 取反,代入 Lift 公式后求倒数)可以看出,这 个值越大,A、B 越关联。 minMetric最小度量值0.9根据 metricType 取值不同Confidence(0,1); lift 1; leverage 0; conviction (0,1) numRules规则数目101,+ int关联算法产生规则的数目 outputItemSets输出项集FalseFalse不输出频繁项集 True输出频繁项集 removeAll

      3、MissingCols移除空列FalseFalse不移除所有值都缺失的列 True移除所有值都缺失的列 significanceLevel显著性水平-1?(0,1)2检验的显著性水平,-1 则不进行检验。(仅适用于置信度度量) treatZeroAsMissing按照缺失值处理零FalseFalse不按照缺失值的相同方式处理零(标称型的第一个值) True按照缺失值的相同方式处理零(标称型的第一个值) upperBoundMinSupport最小支持度上限1(lowerBoundMinSupport,1迭代过程中最小支持度的上限;迭代过程中从该值开始降低。 verbose详细模式FalseFalse算法不以冗余模式运行 True算法以冗余模式运行 2. 聚类聚类 2.1. weka 聚类主界面及参数说明 2.1.1. 聚类算法主界面 2.1.2. 聚类算法主界面参数说明 英文名称中文翻译配置说明 Use training set使用训练集使用训练集训练并直接使用训练集测试。 Supplied test set提供测试集使用训练集训练模型,从文件中加载一组测试实例,单击 “Set.” 按

      4、钮选择测试文件,进行模型测试。 Percentage split分割百分比取出特定百分比的数据作为训练数据,其他作为测试数据。 Class to clusters evaluations类作为评估准则比较所选择的簇与预先指定的类的匹配程度。 Store cluster for visualization为可视化保存簇选择后训练完成后,保存簇以供可视化使用 2.2. SimpleKMeans 算法 2.2.1. SimpleKMeans 算法参数配置用户界面和开发模式界面 2.2.2. SimpleKMeans 聚类算法参数配置说明 英文名称中文翻译默认值取值范围参数说明 canopyMaxNumCanopiesToHoldI nMemory 内存中最大canopy 数目1001,+)如果用 canopy 聚类方法进行初始化,这个参数就是在内存中保存 的最大的候选 canopies 数目。 canopyMinimumCanopyDensity最低 canopy 密度2.0?在使用 canopy 初始化时,在修剪时的 canopy 最低密度。 canopyPeriodicPruningRa

      5、te修剪周期10000?如果用 canopy 初始化,参数为修剪低密度 canopies 周期。 canopyT1Canopy 聚类 T1 半径-1.25(T2,+)canopy 聚类时 T1 半径,当小于 0 时,T1=(-values)*T2。 canopyT2Canopy 聚类 T2 半径-1(-,T1)canopy 聚类时 T2 半径,当值为负数时,根据属性标准差求出。 debug设置调试模式FalseFalse调试信息不输出 True输出调试信息 displayStdDevs显示标准差FalseFalse不显示数值属性的标准差,不统计标称属性每类的数目。 True显示数值属性的标准差,或统计标称属性没类的数目。 distanceFunction距离函数EuclideanDistanceEuclideanDistance欧氏距离 Manhattan distance马氏距离 doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,检查聚类器的使用范围。 True在聚类之前,不检查聚类器的使用范围。 dontReplaceMissingValue

      6、s不替换缺失值FalseFalse在全局范围内用平均值或中数替换缺失值 True不替换 fastDistanceCalc加速距离计算FalseFalse根据 cut-off 值加速距离计算 True不加速距离计算 initializationMethod初始化质心方法RandomRandom随机选取质心 k-means+先使用 k-means+聚类算法初始化质心 Canopy先使用 Canopy 聚类算法初始化质心 farthest first先使用 farthest firsty 聚类算法初始化质心 maxIterations最大迭代次数5001,+)迭代过程中达到最大迭代次数结束本次聚类。 numClusters簇数目22,N)设定聚类个数,即最后被聚成几类。 numExecutionSlots最大执行线程数目11,?设置成可用的 cpu 数目 preserveInstancesOrder保持实例顺序FalseFalse保持实例顺序 True不保持实例顺序 reduceNumberOfDistanceCalcsVi aCanopies 减少计算距离数目FalseFalse在用 ca

      7、nopy 聚类初始化时,减少计算距离的数目。 True seed随机数种子10使用的随机数种子,不随机化则该值设为-1 2.3. EM 聚类算法 2.3.1. EM 聚类算法适用范围 Class类Attributes属性 No classNumeric Empty nominal Nominal Missing values Unary Binary 2.3.2. EM 聚类算法参数界面 2.3.3. EM 聚类算法参数说明 英文名称中文翻译默认值取值范围参数说明 debug设置调试模式FalseFalse调试信息不输出 True输出调试信息 displayModelInOldFormat以旧格式显示结果FalseFalse以新的形式输出结果,当聚类数目比较少时比较合适。 Ture以旧的形式输出结果,当聚类的数目比较多的时候比较合适。 doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,检查聚类器的使用范围。 True在聚类之前,不检查聚类器的使用范围。 maxIterations最大迭代次数1001,+)最大的迭代次数 maximumNumber

      8、OfClusters最大的聚类数目-1-1,1,N聚类数目不超过这个值;当为-1 时,交叉验证自动选择。 minLogLikelihoodImprovementIter ating minLogLikelihoodImprovementCV minStdDev numClusters簇数目-1-1,1,N设定结果中簇的数目。当为-1 时,交叉验证自动确定。 numExecutionSlots最大执行线程数目11,?设置可用的 cpu 数目 numfolds折数10交叉验证的折数, 判定最好的聚类数目, 其中一折用于验证, 其他用于训练。 seed随机数种子10使用的随机数种子,不随机化则该值设为-1 3. 分类算法分类算法 3.1. 分类算法主界面 英文名称中文翻译配置说明 Use training set使用训练集使用训练集训练并直接使用训练集测试。 Supplied test set提供测试集使用训练集训练模型,从文件中加载一组测试实例,单击 “Set.” 按钮选择测试文件,进行模型测试。 Cross-validation交叉验证把数据分成 k 份,从第 1 份开始,作为测试数据,

      9、其他作为训练 数据集,一直到第 k 份结束,验证模型的能力。 Percentage split分割百分比取出特定百分比的数据作为训练数据集训练模型,其他数据作为 测试数据。 以上所述训练数据集和测试数据集均为模型验证时候的数据集,与模型的建立无关,模型建立均用实验提供的全部 训练数据集。 3.2. 分类算法输出选项界面 英文名称中文翻译配置说明 Output model输出模型输出通过完整训练集得到的分类模型,以便能够浏览、 可视化等。 Output per-class stats输出每类的统计信息输出每个分类的 TP rate,FPrate,查准率/查全率以及 True/False 统计信息。 Output entropy evaluation measures?输出熵评估量度输出中包括熵评估度量 Output confusion matrix输出混淆矩阵输出中包括分类器对测试数据集预测得到的混淆矩阵 Store prediction for visualization为可视化保留预测保存分类器的预测结果,以便可视化。 Error plot point size proportional to margin ? Output prediction输出预测分别以 csv、html、null(不输出)plaintext、xml 格式输 出对测试数据集的预测,可输出到指定文件。 Cost- sensitive evaluation成本敏感评估成本矩阵用于评估错误率,点击 set 按钮允许用户指定 所使用的成本矩阵。 Random seed for xval /% split取样的随机种子随机抽取测试数据时产生随机数的种子 Preserve order for split取样时保持顺序抽取测试数据集时是否保持数据的顺序抽取,如果不选 择此选项,则随机抽取。 Output source code输出源代码输出构建模型的 java 源代码,并能指定 java 类的名称。 3.3. 分类算法评价尺度参数界面及解释 CorrectCorrectly classified instances正确分类的实例输出正确分类的个数及其比例 IncorrectIncorrectly classified instances错误分

      《weka算法参数整理》由会员n****分享,可在线阅读,更多相关《weka算法参数整理》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.