您所在位置：网站首页 > 高等教育 > 其它相关文档weka算法参数整理

weka算法参数整理

31页

卖家[上传人]：n****

文档编号：89216326

上传时间：2019-05-21

文档格式：PDF

文档大小：2.12MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金贝

/ 31 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、1. 关联算法关联算法 1.1. Aprior 算法 1.1.1. Apriori 算法 weka 参数界面概要实现 Apriori 关联规则挖掘算法，挖掘出给定参数条件下的关联规则。此迭代的减少最小支持度直到发现设定最小置信度下的规则数目。 1.1.2. Apriori 算法参数配置说明英文名称中文翻译默认值取值范围参数说明 car分类关联分析FalseFalse返回常规的关联分析规则 True返回指定分类属性的关联规则 classIndex分类属性索引-1-1,1,N int-1 代表最后一列，设置的数字代表相应的列作为分类属性；Car 为 True 时生效。 deltadelta0.05(0,1)每次迭代 upperBoundMinSupport 减少的数值，直到最小支持度或设定规则数目。 lowerBoundMinSupport最小支持度下限0.1(0,upperBoundMinSupport )迭代过程中最小支持度的下限。 metricType度量类型confidenceConfidence (置信度)规则项集数目占规则前件数目比例；car 为 True，metri

2、cType 只能用 confidence。 Lift (提升度)1 P(A,B)/P(A)P(B)；规则前件和规则后件同时发生的概率除以分布单独发生的概率之积； Lift=1 时表示 A 和 B 独立，数值越大前后件关联性越强。 Leverage(杠杆率)P(A,B)-P(A)P(B)；Leverage=0 时 A 和 B 独立，数值越大 A 和 B 的关联性越强。 Conviction(确信度) P(A)P(!B)/P(A,!B) （!B 表示 B 没有发生） Conviction 也是用来衡量 A 和 B 的独立性。从它和 lift 的关系（对 B 取反，代入 Lift 公式后求倒数）可以看出，这个值越大,A、B 越关联。 minMetric最小度量值0.9根据 metricType 取值不同Confidence(0,1); lift 1; leverage 0; conviction (0,1) numRules规则数目101,+ int关联算法产生规则的数目 outputItemSets输出项集FalseFalse不输出频繁项集 True输出频繁项集 removeAll

3、MissingCols移除空列FalseFalse不移除所有值都缺失的列 True移除所有值都缺失的列 significanceLevel显著性水平-1？(0,1)2检验的显著性水平，-1 则不进行检验。（仅适用于置信度度量） treatZeroAsMissing按照缺失值处理零FalseFalse不按照缺失值的相同方式处理零（标称型的第一个值） True按照缺失值的相同方式处理零（标称型的第一个值） upperBoundMinSupport最小支持度上限1(lowerBoundMinSupport,1迭代过程中最小支持度的上限；迭代过程中从该值开始降低。 verbose详细模式FalseFalse算法不以冗余模式运行 True算法以冗余模式运行 2. 聚类聚类 2.1. weka 聚类主界面及参数说明 2.1.1. 聚类算法主界面 2.1.2. 聚类算法主界面参数说明英文名称中文翻译配置说明 Use training set使用训练集使用训练集训练并直接使用训练集测试。 Supplied test set提供测试集使用训练集训练模型，从文件中加载一组测试实例，单击 “Set.” 按

4、钮选择测试文件，进行模型测试。 Percentage split分割百分比取出特定百分比的数据作为训练数据，其他作为测试数据。 Class to clusters evaluations类作为评估准则比较所选择的簇与预先指定的类的匹配程度。 Store cluster for visualization为可视化保存簇选择后训练完成后，保存簇以供可视化使用 2.2. SimpleKMeans 算法 2.2.1. SimpleKMeans 算法参数配置用户界面和开发模式界面 2.2.2. SimpleKMeans 聚类算法参数配置说明英文名称中文翻译默认值取值范围参数说明 canopyMaxNumCanopiesToHoldI nMemory 内存中最大canopy 数目1001,+)如果用 canopy 聚类方法进行初始化，这个参数就是在内存中保存的最大的候选 canopies 数目。 canopyMinimumCanopyDensity最低 canopy 密度2.0?在使用 canopy 初始化时，在修剪时的 canopy 最低密度。 canopyPeriodicPruningRa

5、te修剪周期10000?如果用 canopy 初始化，参数为修剪低密度 canopies 周期。 canopyT1Canopy 聚类 T1 半径-1.25(T2,+)canopy 聚类时 T1 半径，当小于 0 时，T1=（-values）*T2。 canopyT2Canopy 聚类 T2 半径-1(-,T1)canopy 聚类时 T2 半径，当值为负数时，根据属性标准差求出。 debug设置调试模式FalseFalse调试信息不输出 True输出调试信息 displayStdDevs显示标准差FalseFalse不显示数值属性的标准差，不统计标称属性每类的数目。 True显示数值属性的标准差，或统计标称属性没类的数目。 distanceFunction距离函数EuclideanDistanceEuclideanDistance欧氏距离 Manhattan distance马氏距离 doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前，检查聚类器的使用范围。 True在聚类之前，不检查聚类器的使用范围。 dontReplaceMissingValue

6、s不替换缺失值FalseFalse在全局范围内用平均值或中数替换缺失值 True不替换 fastDistanceCalc加速距离计算FalseFalse根据 cut-off 值加速距离计算 True不加速距离计算 initializationMethod初始化质心方法RandomRandom随机选取质心 k-means+先使用 k-means+聚类算法初始化质心 Canopy先使用 Canopy 聚类算法初始化质心 farthest first先使用 farthest firsty 聚类算法初始化质心 maxIterations最大迭代次数5001,+)迭代过程中达到最大迭代次数结束本次聚类。 numClusters簇数目22,N)设定聚类个数，即最后被聚成几类。 numExecutionSlots最大执行线程数目11,?设置成可用的 cpu 数目 preserveInstancesOrder保持实例顺序FalseFalse保持实例顺序 True不保持实例顺序 reduceNumberOfDistanceCalcsVi aCanopies 减少计算距离数目FalseFalse在用 ca

7、nopy 聚类初始化时，减少计算距离的数目。 True seed随机数种子10使用的随机数种子，不随机化则该值设为-1 2.3. EM 聚类算法 2.3.1. EM 聚类算法适用范围 Class类Attributes属性 No classNumeric Empty nominal Nominal Missing values Unary Binary 2.3.2. EM 聚类算法参数界面 2.3.3. EM 聚类算法参数说明英文名称中文翻译默认值取值范围参数说明 debug设置调试模式FalseFalse调试信息不输出 True输出调试信息 displayModelInOldFormat以旧格式显示结果FalseFalse以新的形式输出结果，当聚类数目比较少时比较合适。 Ture以旧的形式输出结果，当聚类的数目比较多的时候比较合适。 doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前，检查聚类器的使用范围。 True在聚类之前，不检查聚类器的使用范围。 maxIterations最大迭代次数1001,+)最大的迭代次数 maximumNumber

8、OfClusters最大的聚类数目-1-1,1,N聚类数目不超过这个值；当为-1 时，交叉验证自动选择。 minLogLikelihoodImprovementIter ating minLogLikelihoodImprovementCV minStdDev numClusters簇数目-1-1,1,N设定结果中簇的数目。当为-1 时，交叉验证自动确定。 numExecutionSlots最大执行线程数目11,?设置可用的 cpu 数目 numfolds折数10交叉验证的折数，判定最好的聚类数目，其中一折用于验证，其他用于训练。 seed随机数种子10使用的随机数种子，不随机化则该值设为-1 3. 分类算法分类算法 3.1. 分类算法主界面英文名称中文翻译配置说明 Use training set使用训练集使用训练集训练并直接使用训练集测试。 Supplied test set提供测试集使用训练集训练模型，从文件中加载一组测试实例，单击 “Set.” 按钮选择测试文件，进行模型测试。 Cross-validation交叉验证把数据分成 k 份，从第 1 份开始，作为测试数据，

9、其他作为训练数据集，一直到第 k 份结束，验证模型的能力。 Percentage split分割百分比取出特定百分比的数据作为训练数据集训练模型，其他数据作为测试数据。以上所述训练数据集和测试数据集均为模型验证时候的数据集，与模型的建立无关，模型建立均用实验提供的全部训练数据集。 3.2. 分类算法输出选项界面英文名称中文翻译配置说明 Output model输出模型输出通过完整训练集得到的分类模型，以便能够浏览、可视化等。 Output per-class stats输出每类的统计信息输出每个分类的 TP rate，FPrate，查准率/查全率以及 True/False 统计信息。 Output entropy evaluation measures？输出熵评估量度输出中包括熵评估度量 Output confusion matrix输出混淆矩阵输出中包括分类器对测试数据集预测得到的混淆矩阵 Store prediction for visualization为可视化保留预测保存分类器的预测结果，以便可视化。 Error plot point size proportional to margin ？ Output prediction输出预测分别以 csv、html、null（不输出）plaintext、xml 格式输出对测试数据集的预测，可输出到指定文件。 Cost- sensitive evaluation成本敏感评估成本矩阵用于评估错误率，点击 set 按钮允许用户指定所使用的成本矩阵。 Random seed for xval /% split取样的随机种子随机抽取测试数据时产生随机数的种子 Preserve order for split取样时保持顺序抽取测试数据集时是否保持数据的顺序抽取，如果不选择此选项，则随机抽取。 Output source code输出源代码输出构建模型的 java 源代码，并能指定 java 类的名称。 3.3. 分类算法评价尺度参数界面及解释 CorrectCorrectly classified instances正确分类的实例输出正确分类的个数及其比例 IncorrectIncorrectly classified instances错误分

《weka算法参数整理》由会员n****分享，可在线阅读，更多相关《weka算法参数整理》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源